Mi-février, le superordinateur Watson conçu par IBM a battu deux champions au jeu télévisé Jeopardy, un quizz de culture générale où il s'agit de trouver une question à partir d'une réponse. Pour y parvenir, Watson a, entre autres, absorbé une quantité phénoménale d'informations disponibles sur le web et d'une qualité toute relative. Des données qui ont nourri ses multiples algorithmes sollicités à chaque réponse pour aboutir rapidement à une question associée à un indice de confiance. Une partie du problème auquel se sont attelés les 25 informaticiens d'IBM qui ont développé Watson est similaire à celui que rencontrent les Google et Facebook lorsqu'il s'agit de scanner d'énormes quantités de données non-structurées pour répondre rapidement à une requête. Un problème, ou plutôt une solution, dont ils ont d'ailleurs fait un modèle d'affaires avec le succès que l'on connaît.

Bien loin des laboratoires de recherche, des plateaux télé et des géants d'Internet, les entreprises, grandes et petites, font face à des défis analogues. D'un côté, elles sont de plus en plus conscientes que l'analyse des données et les découvertes (insights) qui en résultent sont essentielles au pilotage informé de leurs opérations et à leur compétitivité, d'où l'essor des projets de business intelligence. De l'autre, elles croulent sous une masse indigeste d'informations de toutes sortes et de toute provenance le plus souvent négligées et considérées comme un problème. Disposer d'un Watson est sans doute un rêve que caressent beaucoup de leurs décideurs.

Big data: chercher d'autres bottes de foin

Selon une étude IDC commandée par EMC, l'univers digital - la somme de toutes les données numériques - a crû de 1,2 million de pétaoctets en 2010 et pourrait atteindre 35 millions de pétaoctets à l'horizon 2020. L'écrasante majorité de cette masse est constituée de textes et de fichiers audio et vidéo. Donc de données sans structure, contrairement à celles reposant dans une base de données classique. Cette déferlante concerne aussi les entreprises, qui sont sans cesse plus nombreuses à collecter des informations sur les réseaux sociaux, les outils collaboratifs et les centres d'appel. A cela s'ajoute de nouvelles données mises à disposition par des organismes publics ou générées par les senseurs dont sont équipés les smartphones.

Par leur énorme volume de l'ordre de plusieurs téraoctets, par leur qualité incertaine et par leur caractère fugace, ces big data ne ressemblent en rien aux données relationnelles qui alimentent les solutions de business intelligence usuelles (voir le graphique). Leur exploitation diffère tout aussi fondamentalement. Alors que la BI fournit des réponses exactes à des questions précises connues d'avance, l'exploration expérimentale des big data livre des réponses probables à des questions ad-hoc et suggère de nouveaux questionnements. Pour employer la métaphore de Tom DeGarmo, responsable des technologies chez PricewaterhouseCoopers: «Au lieu de trouver une aiguille dans une botte de foin, ces techniques permettent de chercher d'autres bottes de foin».

[[page]]

Il y a quelques années encore, ce type d'analyse à grande échelle était surtout pratiqué par des instituts de recherche scientifique (physique, astronomie, bioinformatique, finance), souvent à l'aide de superordinateurs extrêmement onéreux. Faute visibilité quant à leur potentiel, faute de compétences statistiques et faute de moyens technologiques et financiers, les entreprises ne s'y sont guère intéressées. Sous l'effet de la prolifération de données non-structurées (typiquement 80% des données d'une entreprise), le domaine connaît un intérêt nouveau dans des sociétés qui se demandent comment exploiter ces données brutes qui sommeillent ou qui n'ont pas (encore) fait l'objet de formalisation par les architectes. A l'affût de nouveaux besoins, plusieurs grands fournisseurs IT ont d'ailleurs acquis récemment des sociétés spécialisées dans le domaine du big data: EMC avec Greenplum, IBM avec Netezza, HP avec Vertica ou encore Teradata avec Aster Data Systems début mars. Un mouvement également suivi par plusieurs éditeurs de business intelligence qui élargissent leur offre à l'analyse de larges volumes de données. Le dénominateur commun de la plupart de ces solutions est leur utilisation du projet open source Hadoop dérivé des développements de Google.

Hadoop: un système d'analyse et de stockage extensible

Au début des années 2000, face à la croissance folle des contenus internet, Google a en effet dû développer sa propre solution pour être en mesure de continuer à les indexer en des temps raisonnables. Les ingénieurs de la société ont développé un système de stockage robuste et extensible (GFS) et un système de traitement des données répartissant les tâches sur un grand nombre de serveurs fonctionnant en parallèle et à même de synthétiser leurs résultats (MapReduce). Ainsi, au lieu de s'appuyer sur des algorithmes complexes et des ordinateurs surpuissants, la solution de Google utilise des batteries de serveurs standards, qui peuvent être ajoutés ou supprimés, auxquels sont confiées des tâches relativement simples. Le projet Hadoop est en fait une implémentation open source de MapReduce gérée par la fondation Apache, à laquelle sont venus se greffer d'autres composantes destinées aux big data, comme un système de fichiers distribué (HDFS) ou une base de données (HBase). Yahoo! est l'un des pionniers en la matière et coopère avec Facebook, dont le cluster Hadoop serait actuellement le plus gros du monde (voir le lien à droite).

La robustesse, le coût et la flexibilité de cette technologie séduisent également des sociétés hors du monde internet. Le New York Times a ainsi utilisé Hadoop pour générer les PDF de 11 millions d'articles publiés entre 1851 et 1922, et l'emploie désormais pour l'analyse de texte et le web mining. La chaîne de librairies Barnes & Noble l'utilise pour comprendre les comportements d'achats de ses clients sur ses divers canaux de distribution. Disney teste la technologie avec des objectifs similaires en s'appuyant sur des ressources dans le cloud et sur des serveurs inutilisés en raison de ses efforts de virtualisation. McAfee y fait par exemple appel pour détecter des corrélations parmi les spams. Pour simplifier les déploiements, ces sociétés et les autres utilisateurs précoces du big datausent fréquemment d'outils commerciaux basés sur Hadoop qui offrent une large palette de fonctions additionnelles.

[[page]]

Pour Abdel Labbi, responsable de la recherche en analyse de données au centre de recherche d'IBM à Zurich, ces développements technologiques conduisent à une convergence entre les données transactionnelles en mouvement, typiques des acteurs du web, et les données au repos des sociétés traditionnelles». Exemple de cette convergence, l'analyse en temps réel des données récoltées sur les points de vente pour dresser des profils de clients. «Ce n'est plus la requête qui va chercher des données, mais les données qui découvrent des phénomènes», estime le chercheur. Le lien avec Watson - l'ordinateur de Jeopardy - apparaît d'emblée et ouvre de nouvelles perspectives.

Watson : vers une analyse intelligente des données

Pourtant, de prime abord, le superordinateur d'IBM ne représente pas une innovation majeure mais plutôt une manière innovante de combiner des technologies existantes. Au niveau hardware, Watson est «massivement redondant» pour reprendre les termes du responsable de sa conception David Ferucci, avec une kyrielle de transistors économiques. Idem pour les algorithmes qui sont nombreux mais relativement simples. Quatre points cependant en font une machine assez prodigieuse pour disputer la victoire à des humains. Tout d'abord, sa capacité à exécuter simultanément de multiples algorithmes, donc à suivre plusieurs pistes en parallèle, à une très grande vitesse. Ensuite, sa faculté d'apprentissage qui lui permet avec le temps d'évaluer quelles ressources et quels algorithmes donnent les meilleurs résultats. Troisièmement, son habilité à décider entre plusieurs réponses et à leur attribuer un indice de confiance. Enfin, sa compréhension du langage naturel et donc son habileté à résoudre des ambiguïtés.

La combinaison de ces diverses facultés pourrait avoir dans le futur un impact considérable sur l'analyse de données en entreprise. La compréhension du langage permettrait par exemple d'étendre l'analyse aux requêtes orales des clients pour y répondre de manière automatisée. Associée aux recherches en analyse sémantique et des sentiments, ce type d'intelligence pourrait répondre précisément à une question ad-hoc, au lieu de simplement pointer sur une source dans laquelle se trouve la réponse comme le font des moteurs de recherche. Elles pourraient également résoudre le problème des données non-structurées en faisant émerger une structure sur la base de corrélations. Comme le dit Abdel Labbi, on pourrait déboucher sur des systèmes où «la donnée trouve la donnée».

www.ictjournal.ch