Il n’est pas toujours évident d’arriver à dégager des tendances en analysant des sources de données non structurées comme les articles de presse et les réseaux sociaux. Par exemple, comment déterminer l’attention qui est accordée à chacun des candidats engagés dans les primaires à l’élection présidentielle américaine. Les méthodes traditionnelles de l’analyse de données ne sont pas toujours adaptées à cet exercice. OpenText s’y est essayé et montre le résultat obtenu à travers son outil interactif Election Tracker 16, accessible en ligne. Ce dernier permet de suivre la couverture médiatique dont bénéficient une douzaine de candidats républicains et démocrates, à partir de l’analyse des articles d’actualité publiés sur les 48 principales sources d’informations en ligne.
L’outil scanne automatiquement des centaines de publications sur Internet à travers le monde pour identifier les tendances et les sentiments exprimés, générant ensuite des résumés des articles consacrés à cette course à la présidentielle américaine. Les résultats obtenus sont restitués de différentes façons, à l'aide d'outils de visualisation interactifs permettant de comparer la couverture médiatique en fonction des candidats, des sujets, de la date, des zones géographiques et de l’analyse de sentiments (positifs, négatifs ou neutres). Où l’on voit que les provocations du Républicain Donald Trump lui ont permis de dominer les médias en ligne, devançant la Démocrate Hillary Clinton. Les candidats du parti démocrate semblent d'ailleurs réduits à la portion congrue dans le classement général des citations. Parmi les sujets abordés, le crime et le financement de la campagne électorale sont les thèmes les plus souvent évoqués. Quant à la répartition par sources, elle montre que le plus grand nombre d’articles analysés vient du site Mashable, devant Channel News Asia, Business Insider, le Huffington Post et la BBC.
Ci-dessus, les sujets les plus traités depuis août 2015 dans les médias. Ci-dessous, la couverture médiatique sur le crime au cours des 30 derniers jours, puis répartis sur six mois et par candidats.
De nouveaux entrants pour traiter les données non structurées
Derrière cet outil, c’est la version 16 de l’application de gestion de contenus d’OpenText qui est à la manœuvre. Plus précisément, InfoFusion, l’un des logiciels de cette suite applicative, parcourt automatiquement le web à la recherche d’articles sur les élections et il récupère les textes bruts pour les évaluer. Ensuite, le logiciel Content Analytics applique à ces textes un traitement permettant d’identifier les sentiments qu’ils recèlent et d’extraire le nom des personnes citées, ainsi que les lieux et les sujets mentionnés en fonction d’une classification standard ou personnalisée, fournissant ainsi les métadonnées nécessaires pour l’analyse. La visualisation des résultats est mise en page avec l’outil Analytics Designer avant d’être déployée sur la plateforme iHub (anciennement BIRT d’Actuate) où elle sera intégrée dans l’interface de l’application à l’aide de l’API JavaScript associée.
Pour OpenText, cette période d’élection est le contexte idéal pour faire la démonstration de ses solutions. Mais c’est aussi une bonne illustration des technologies dont on peut maintenant disposer pour travailler sur des données non structurées. L'éditeur YouEye, Tamr et son logiciel Catalog, ainsi que Taste Analytics comptent ainsi parmi les sociétés récentes, de plus en plus nombreuses, qui sont apparues pour relever ce défi.