Après les attentes démesurées, les désillusions ? La vague du big data a peut être atteint un pic, en tout cas pour ceux qui suivent le Gartner Hype Cycle. En d'autres termes, certains professionnels commencent à douter des annonces marketing autour de l'analyse big data et à adopter un point de vue plus critique sur les limites des systèmes big data. Selon le credo, plus une entreprise collectait de données, plus elle pourrait en extraire des informations pointues et utiles. Un ingénieur de Google, qui a été gavé au big data plus que n'importe qui, a nommé cette notion « la déraisonnable efficacité des données ».
Dans une série d'articles, le dernier numéro de Science News dresse dans le détail les limites des gros volumes de données, dont le plus récent s'intitule « Le Big data et les défis de la réplication ». Le problème, selon Science News, est loin d'être sans intérêt. Avec une telle quantité de données et autant d'outils différents pour les analyser, comment peut-on être sûr que les résultats sont corrects ? « Chaque fois qu'un scientifique préfère une application à une autre ou décide d'analyser une variable, plutôt qu'une autre, ce choix peut conduire à des conclusions très différentes », a écrit Tina Hesman Saey. Ce problème de la validité ne concerne pas seulement les grands consommateurs de données, mais toute la communauté scientifique dans son ensemble.
Impossible de reconduire les mêmes traitements ?
Dans un autre article, Science News aborde la question des résultats non reproductibles, ou celle de l'incapacité croissante des scientifiques à reproduire des résultats d'études publiées antérieurement. Or, un des principes de base de la science implique, dans des conditions initiales identiques, la possibilité pour n'importe qui, de reproduire l'expérience. Mais un nombre croissant de chercheurs a constaté que même les études les plus rigoureuses ne peuvent parfois pas être reproduites et donner les mêmes résultats. « La reproductibilité est une pierre angulaire de la science, et de nombreuses études ne répondent pas à cette exigence », a écrit Tina Hesman Saey. « On peut expliquer une science douteuse par une multitude de raisons (dont, la pression de publier pour les chercheurs), mais une mauvaise utilisation de l'analyse statistique, qui demande de la subtilité et qui est difficile à mener correctement, en est une », fait remarquer Tina Hesman Saey.
D'autres observateurs font également part de leur lassitude vis-à-vis des promesses marketing du big data vendues par IBM, Hewlett-Packard et d'autres. « Ce marketing agressif véhicule une idée endémique selon laquelle la science de l'analyse des grosses quantités de données peut émerger rapidement, en soutenant une entreprise innovante, en rapide évolution », a récemment écrit dans un blog John Foreman, « data scientist » chez MailChimp.com, une société spécialisée dans le routage d'emails. « Mais, d'après mon expérience et celle de la plupart des analystes que je connais, cette promesse marketing ne ressemble guère à la réalité ». Il ajoute que pour aboutir à une bonne modélisation statistique, il faut d'une part des données stables, au moins quelques cycles de données historiques, et au moins une série de résultats prévisibles. Cette démarche laborieuse pour mettre en place tous ces éléments va à l'encontre de l'idée, véhiculée par les nombreuses campagnes marketing, selon laquelle les gros systèmes de données peuvent délivrer rapidement de bons résultats. Évidemment, la question de la validité des big data sera abordée à la conférence O'Reilly Strata + Hadoop World, qui se tiens cette semaine (17-20 février) à San Jose, Californie. Dans une présentation, Simon Garland, le stratège en chef du vendeur de la base de données Kx Systems, dira à quel point les traitements big datas sont brouillées et incohérentes, et ne peuvent pas être gérées correctement avec les systèmes d'analyse de base de données traditionnels.
Le Gartner reste bien sûr encore optimiste
De son côté, Gartner semble garder son optimisme quant à la valeur à long terme des gros systèmes de données. Dans un blog de Forbes, le vice-président de la recherche Doug Laney a prédit que, d'ici 2020, la plupart des fonctions de l'entreprise seront réinventées en raison de l'influence de l'analyse des données big data. « La plupart des données utilisées par les entreprises proviennent de sources extérieures », écrit Dough Laney. Quelle sera l'incidence de tel modèle météo sur les ventes d'une entreprise la semaine prochaine ? Quelle sera l'influence des sentiments exprimés dans les réseaux sociaux sur les ventes de produits d'une entreprise ? Ces données, provenant de sources multiples et disponibles dans de multiples formats, seront en effet « brouillées », écrit le vice-président de la recherche. Mais elles seront également très précieuses. « La plus grande base de données de l'entreprise, ce n'est pas celle des transactions, le CRM, l'ERP ou une autre base de données interne. C'est le web lui-même et le monde des données exogènes, disponibles désormais à partir de sources de données syndiquées et ouvertes », a écrit Dough Laney.
Big data : les désillusions pointent déjà
9
Réactions
Les critiques commencent à pointer les limites du big data, mais les analystes continuent de voir en lui un avenir radieux.
Newsletter LMI
Recevez notre newsletter comme plus de 50000 abonnés
Les outils de Datamining capables d'analyser de grosses quantités de données ET sortant des modèles statistiques restent à créer.
Signaler un abusJ'en ai vu un prometteur récemment qui n'est pas statistique (exploration stochastique de toutes les combinaisons). Je crois que çà s'appelle HyperCube. Ils construisent des cubes de corrélation sur une variable de sortie basés sur les valeurs ou plages de valeurs des autres variables.
Le probleme n'est pas le Big data, mais la Data Science que peu de societé manipule...
Signaler un abusUn bel exemple : capsuleanalytics(point)com
la théorie du papillon mise en lumière ...
Signaler un abusSuivant l'angle d'attaque de l'information disponible au moment T et son interprétation future, un battement d'aile de papillon peut provoquer un cyclone de l'autre coté de la planète ou lui permettre d'atteindre la branche la plus proche.
Au sujet du premier commentaire : "L'approche qui consiste à chercher des corrélations entre les événements par le biais d'analyses statistiques n'a rien de scientifique. La science formule des hypothèses et tente de les vérifier par l'expérimentation. Étant entendu que la dite expérimentation doit se dérouler dans un milieu contrôlé, en l'absence de phénomènes extérieurs, susceptibles de perturber ses résultats."
Signaler un abusIl s'agit là d'une vision très restreinte de la science qui exclut les sciences sociales et aussi principalement la science économique. Et l'analyse du big data ressemble beaucoup à la science économique. En économie, les échanges et comportements des agents sont des phénomènes extrêmement complexes, mais on tente d'en dégager des tendances et de les comprendre, même si des prédictions précises seront toujours difficiles à faire.
L'approche qui consiste à chercher des corrélations entre les évènements par le biais d'analyses statistiques n'a rien de scientifique. La science formule des hypothèses et tente de les vérifier par l'expérimentation. Étant entendu que ladite expérimentation doit se dérouler dans un milieu contrôlé, en l'absence de phénomènes extérieurs, susceptibles de perturber ses résultats.
Signaler un abusS'agissant du vaste monde dans lequel l'imprévu est de règle, l'analyse statistique ne fait que suggérer un ordre sous-jacent, perpétuellement remis en cause par des évènements plus ou moins improbables.
Dans le meilleur des cas on obtient une hypothèse de travail, le reste du temps une corrélation hasardeuse susceptible de varier ou de s'effondrer d'un moment à l'autre.
Astrologues et boules de cristal ne fonctionnent pas autrement.
Ce qui serait grave à mon sens ce serait que l'on puisse accorder une quelconque valeur "scientifique" à ces hypothèses ou corrélations qui ne sont rien de plus que les résultats d'une sorte de modélisation mathématique de l'intuition.
On est bien dans le réatterissage après la fameuse pointe des illusions du Gartner. Le "Bug Data" comme l'a exprimé de maniere accidentelle Visiteur5550 est le verso naturel du Big Data. La seule chose que l'on arrive à coup sur à identifier dans le big data est la popularité d'une assertion. Mais popularité ne veut pas dire véracité !
Signaler un abusJe suis bien d'accord avec vous, sachant que le big data n'est qu'un autre terme marketing pour désigner le datamining qui existe depuis plus de 20 ans et qui n'a pas encore donné les résultats escomptés ...
Signaler un abusL'analyse de données est une Science, d'ailleurs assez pointue, et qui nécessite de solides bases en Statistiques. Les donnes Non structurées du Bug data ne peuvent pas s'analyser sans être d'abord structurées d'une part. D'autre part avant d'aller chercher des signaux faibles dans les données, il faut en extraire les signaux forts. C'est pourquoi les oersonnent qui prétendent qu'il suffit de brancher un moteur de Lachine Learning sur une base Bug data pour en tirer de la connaissance mentent. Tout mensonge apporte son lot de désillusions. Donc ne jetons pas le bébé avec l'eau du bain mais faisons la chasse aux imposteurs !
Signaler un abus"Big Data : Les désillusions pointent déjà", sans blague ? Non, pas possible. Comment à la base on peut croire à de tels bêtises ! On évolue dans le monde du Bullshit Marketing. Ces soi-disant procédés qui doivent révolutionner le monde de l'entreprise de demain n'ont que pour seuls vocations de lever des fonds. Ils sont utilisés pour un oui ou pour un non. La plupart des marketers ne savent même pas réaliser un email commercial, alors analyser des données, Ouuuuuh ! Les escrocs l'ont bien compris et ils se gavent sur la bêtise et la vanité de chacun !
Signaler un abus