Expert de l'analyse textuelle, l'éditeur français Proxem aide les entreprises à collecter et analyser d'importants volumes de données pour en extraire des informations pertinentes pour leur activité. Créée en 2007 par son actuel CEO François-Régis Chaumartin, Proxem se définit aujourd'hui comme un spécialiste de l'analyse sémantique des big data. Les solutions qu'il propose en SaaS servent à identifier des problématiques à prendre en compte, ou encore à restituer les sentiments exprimés à propos d'une marque et de ses produits, sur le web ou les médias sociaux. Ici, l'analyse sémantique lève les ambiguïtés dans le cas de marques qui sont aussi des noms communs, comme « carrefour » ou « orange ».

Sortis à l'issue de trois années de R&D, les premiers produits de Proxem ont bénéficié du partenariat du monde académique. Le moteur Antelope s'associe à un outil de veille, une gestion de documents ou un logiciel de CRM pour les compléter d'une couche sémantique. Il permet d'annoter et de catégoriser les informations, d'en extraire une terminologie, de faire de l'analyse de sentiments et d'établir des graphes thématiques. En 2014, l'éditeur va renforcer son effectif. De 11 personnes fin 2013, Proxem prévoit de passer à 20 collaborateurs fin 2014. « Nous sommes sur une année d'accélération », nous a confirmé François-Régis Chaumartin lors d'un entretien téléphonique. « Nous recherchons des data scientists, des ingénieurs informatiques avec une double compétence, aimant les maths, l'informatique et la langue. » Lui-même a soutenu sur le tard une thèse de linguistique théorique il y a un an à Paris VII. 

La façon dont on alimente le modèle est primordiale

Sur cette ligne, le CEO explique que pour rejoindre l'équipe spécialisée dans l'analyse sémantique, il faut conjuguer plusieurs passions. « N'être pas seulement intéressés par les modèles mathématiques mais aussi par les données à manipuler car les modèles sont alimentés à partir des caractéristiques du texte. » La composante linguistique est primordiale. « La façon dont on alimente un modèle est aussi importante que le modèle lui-même », insiste le fondateur de Proxem. Le recrutement porte aussi sur des profils plus diversifiés (Sciences Po ou la Sorbonne, par exemple).

Dans l'offre de l'éditeur, la solution Ubiq Voix du Client, permet à une entreprise de traiter les réactions émanant de ses clients, recueillies de façon automatisée à partir de diverses sources : mails, études marketing, sondages, appels téléphoniques... L'analyse sémantique de ces données va faire remonter les problèmes de qualité, de tarification, les risques juridiques ou sanitaires. « A partir de l'analyse de plusieurs milliers d'avis, on peut aussi détecter des signaux faibles pour améliorer les ventes », explique François-Régis Chaumartin, Proxem ayant identifié en particulier des business cases dans la grande distribution. Le dirigeant cite en exemple une chaîne d'hypermarchés s'étant aperçu qu'il fallait laisser plus longtemps en rayon certains articles saisonniers. Parmi ses clients dans ce domaine figure des acteurs comme Auchan et Carrefour. 

En 2014, des enquêtes en temps réel sur la base du web

« Dans l'univers de la grande distribution, entre les sources internes et ce que les clients envoient, il y 5 millions de documents par an. C'est une « petite big data ». Nous ne prétendons pas remplacer l'humain, mais sur ces volumes de données, nous pouvons diviser par 5 ou 10 le temps que des utilisateurs passent sur le système », souligne le CEO. Chez Auchan et Carrefour, par exemple, le marketing dispose d'une équipe dédiée à l'étude de la voix des clients.

Les outils de textmining de Proxem analysent les documents pour trouver les points importants, effectuent de la mise en corrélation et dégagent un tableau d'ensemble. L'objectif, c'est de pouvoir gagner du temps au quotidien et créer de la valeur, pointe le dirigeant de Proxem. Il souligne par ailleurs, de façon générale, l'efficacité des technologies d'analyse sémantique développées par les éditeurs français par rapport aux solutions conçues au départ pour traiter l'anglais, ces dernières se révélant souvent « plus modestes » sur les langues européennes. Proxem a aussi développé une solution de veille, Ubiq E-Réputation, pour analyser les conversations sur le web et les réseaux sociaux. Carrefour l'utilise pour suivre en temps réel sa marque et ses concurrents.

[[page]]

D'autres solutions se préparent. « En 2014, nous allons travailler sur des enquêtes en temps réel sur la base du web afin de pouvoir répondre à des questions très variées », explique François-Régis Chaumartin. Par exemple pour savoir quel produit lancer sur un marché donné, identifier les concurrents, repérer les principaux blogueurs. Il livre un autre exemple d'application, dans le domaine du recrutement militaire. « La technologie peut permettre d'identifier les peurs et les motivations des jeunes gens pour s'engager », explique le CEO de Proxem. « Quel que soit le sujet, on en parle sur le web ». L'éditeur développe aussi la solution Ubiq HR testée par l'Apec. L'association pour l'emploi des cadres veut améliorer son moteur de recherche d'offres. Pour créer de meilleures correspondances avec les CV, elle va s'appuyer sur un service d'annotation sémantique.

Augmenter les capacités en associant plusieurs solutions

Cet automne, la société s'est jointe à une initiative qui a conduit plusieurs éditeurs français à se regrouper au sein d'une association, baptisée Efel Power, avec l'objectif d'être force de proposition auprès des grands comptes. Le regroupement entend valoriser l'écosystème d'innovation français, notamment face aux fournisseurs américains, souvent privilégiés par les grands acheteurs dans l'Hexagone, et porter sa « french touch » à l'international. Dans cette alliance, des éditeurs évoluent sur le même marché que Proxem. « Certains font de la veille, comme AMI Software, d'autres sont des pure players de l'analyse sémantique, comme Temis », cite François-Régis Chaumartin qui explique la vision qu'il a du marché. « Je vois que les solutions actuelles sont très monolithiques, elles font tout : collecte sur le web, analyse, distribution de l'information. Or, j'ai déjà fait pour des clients du benchmarking de solutions. Lorsque l'on mixe sur la collecte deux ou trois solutions, cela augmente la capacité à couvrir ce que l'on voit sur le web ». Si on récupère 100 documents en utilisant une solution, on en rapatrie 170 avec deux solutions et 240 à 250 avec trois solutions. « C'est plus cher, oui, mais on fait plus que doubler la pertinence, c'est donc compensé par le bénéfice obtenu ».

Le dirigeant pense qu'il serait intéressant pour le client d'associer des composants d'éditeurs différents à la fois en collecte, en analyse et en restitution/partage, sur les tableaux de bord ou le reporting, avec un sas intermédiaire où déverser les documents. « Nous sommes bons sur l'analyse d'avis de consommateurs, moins sur l'identification des lieux géographiques. Un exemple pourrait être de détecter de pouvoir détecter de façon précise et non bruitée les lieux pour améliorer le résultat global ». Dans cet esprit, Proxem va notamment participer avec trois autres acteurs français impliqués sur les technologies sémantiques (Syllabs, l'Aproged et l'Université de La Rochelle) au consortium Tourinflux. Ce dernier va travailler sur l'un des 8 dossiers soutenus à la suite de l'appel à projets Cloud computing - Big Data, lancé par l'Etat dans le cadre des Investissements d'avenir. Tourinflux doit déboucher sur la création « d'un tableau de bord du territoire consacré à la e-réputation du tourisme en France ».

Pour favoriser la coopétition entre les différents acteurs du marché et faciliter la combinaison de différents logiciels, « cela passe aussi par des standards d'interopérabilité », pointe François-Régis Chaumartin. Il existe bien UIMA, laissé par IBM à la fondation Apache, « mais cela reste compliqué », estime le CEO, « je suis convaincu que l'on peut faire plus light qu'UIMA ».Â