Dans une série d'articles, le dernier numéro de Science News dresse dans le détail les limites des gros volumes de données, dont le plus récent s'intitule « Le Big data et les défis de la réplication ». Le problème, selon Science News, est loin d'être sans intérêt. Avec une telle quantité de données et autant d'outils différents pour les analyser, comment peut-on être sûr que les résultats sont corrects ? « Chaque fois qu'un scientifique préfère une application à une autre ou décide d'analyser une variable, plutôt qu'une autre, ce choix peut conduire à des conclusions très différentes », a écrit Tina Hesman Saey. Ce problème de la validité ne concerne pas seulement les grands consommateurs de données, mais toute la communauté scientifique dans son ensemble.
Impossible de reconduire les mêmes traitements ?
Dans un autre article, Science News aborde la question des résultats non reproductibles, ou celle de l'incapacité croissante des scientifiques à reproduire des résultats d'études publiées antérieurement. Or, un des principes de base de la science implique, dans des conditions initiales identiques, la possibilité pour n'importe qui, de reproduire l'expérience. Mais un nombre croissant de chercheurs a constaté que même les études les plus rigoureuses ne peuvent parfois pas être reproduites et donner les mêmes résultats. « La reproductibilité est une pierre angulaire de la science, et de nombreuses études ne répondent pas à cette exigence », a écrit Tina Hesman Saey. « On peut expliquer une science douteuse par une multitude de raisons (dont, la pression de publier pour les chercheurs), mais une mauvaise utilisation de l'analyse statistique, qui demande de la subtilité et qui est difficile à mener correctement, en est une », fait remarquer Tina Hesman Saey.
D'autres observateurs font également part de leur lassitude vis-à -vis des promesses marketing du big data vendues par IBM, Hewlett-Packard et d'autres. « Ce marketing agressif véhicule une idée endémique selon laquelle la science de l'analyse des grosses quantités de données peut émerger rapidement, en soutenant une entreprise innovante, en rapide évolution », a récemment écrit dans un blog John Foreman, « data scientist » chez MailChimp.com, une société spécialisée dans le routage d'emails. « Mais, d'après mon expérience et celle de la plupart des analystes que je connais, cette promesse marketing ne ressemble guère à la réalité ». Il ajoute que pour aboutir à une bonne modélisation statistique, il faut d'une part des données stables, au moins quelques cycles de données historiques, et au moins une série de résultats prévisibles. Cette démarche laborieuse pour mettre en place tous ces éléments va à l'encontre de l'idée, véhiculée par les nombreuses campagnes marketing, selon laquelle les gros systèmes de données peuvent délivrer rapidement de bons résultats. Évidemment, la question de la validité des big data sera abordée à la conférence O'Reilly Strata + Hadoop World, qui se tiens cette semaine (17-20 février) à San Jose, Californie. Dans une présentation, Simon Garland, le stratège en chef du vendeur de la base de données Kx Systems, dira à quel point les traitements big datas sont brouillées et incohérentes, et ne peuvent pas être gérées correctement avec les systèmes d'analyse de base de données traditionnels.
Le Gartner reste bien sûr encore optimiste
De son côté, Gartner semble garder son optimisme quant à la valeur à long terme des gros systèmes de données. Dans un blog de Forbes, le vice-président de la recherche Doug Laney a prédit que, d'ici 2020, la plupart des fonctions de l'entreprise seront réinventées en raison de l'influence de l'analyse des données big data. « La plupart des données utilisées par les entreprises proviennent de sources extérieures », écrit Dough Laney. Quelle sera l'incidence de tel modèle météo sur les ventes d'une entreprise la semaine prochaine ? Quelle sera l'influence des sentiments exprimés dans les réseaux sociaux sur les ventes de produits d'une entreprise ? Ces données, provenant de sources multiples et disponibles dans de multiples formats, seront en effet « brouillées », écrit le vice-président de la recherche. Mais elles seront également très précieuses. « La plus grande base de données de l'entreprise, ce n'est pas celle des transactions, le CRM, l'ERP ou une autre base de données interne. C'est le web lui-même et le monde des données exogènes, disponibles désormais à partir de sources de données syndiquées et ouvertes », a écrit Dough Laney.