Les data scientists ne plébiscitent pas toujours Hadoop

Qui dit projet big data ne dit pas forcément Hadoop. La plateforme Open Source ne convient pas à tous les types d'analyse, notamment complexes avec des traitements peu parallélisables, souligne l'enquête Paradigm4Data Scientist qui montre que 35% des data scientists interrogés ayant testé Hadoop ou Spark les ont abandonnés.

Si le framework Hadoop est presque toujours cité dès qu'il est question de traiter des big data, l'attention dont il fait l'objet ne signifie pas qu'il convienne à tous les projets. De fait, son utilisation ne fait pas toujours l'unanimité dans les entreprises qui l'ont déjà mis à l'épreuve. Certes, sa disponibilité en Open Source réduit son coût d'adoption, mais sa mise en oeuvre peut malgré tout exiger beaucoup de ressources et de temps, notamment lorsqu'il s'agit d'associer les données gérées dans la plate-forme avec celles des systèmes existants. La technologie n'est parfois pas adaptée aux projets de trop grande ampleur, ainsi que l'évoque un article du WSJ.

Le plus souvent, elle n'est pas assez rapide pour répondre aux requêtes immédiates et travailler sur des données qui arrivent en temps réel. Les fonctionnalités liées à la sécurité et à la gouvernance posent aussi des problèmes. En outre, la plate-forme n'a pas toujours les faveurs des spécialistes de l'analyse de données. C'est notamment ce que montre l'enquête de Paradigm4 menée avec le cabinet indépendant Innovation Enterprise auprès d'une centaine de data scientists. Celle-ci fait apparaître que 76% des data scientists interrogés ont rencontré de sérieuses limitations en l'utilisant. En particulier, si Hadoop est naturellement bien adapté aux analyses de base nécessitant de recourir aux traitements parallèles (la business intelligence et le reporting qui travaillent sur des agrégats), en revanche, elle peine sur les analyses complexes à grande échelle qui recourent à des fonctions mathématiques telles que la covariance, au clustering, à l'apprentissage machine ou à l'analyse de graphe. A côté de l'approche parallélisée de MapReduce/Hadoop, certaines analyses requièrent de partager toutes les données en même temps et de disposer de résultats intermédiaires au sein des processus, souligne l'étude.

Trop d'efforts pour programmer Hadoop

Analyser d'énormes volumes de données en constante croissance est une chose, mais la variété de ces données est, pour 71% des répondants à l'enquête Paradigm4Data Scientist, l'un des défis les plus importants. L'an prochain, 66% d'entre eux prévoient d'analyser des séries temporelles et tout autant vont travailler sur des transactions métiers, tandis que 55% citent les données géospatiales, 46% les graphes, 35% les flux de clics sur le web, 25% les données de santé, 17% les données de capteurs, 13% des images et 7% des informations génomiques.

Près de 60% des répondant à l'enquête ont indiqué qu'ils utilisaient déjà des fonctions d'analyse complexes dans l'exploration des big data. De nombreuses utilisations requièrent maintenant des algorithmes et des capacités de traitements plus puissantes que ce que ne permettent Hadoop ou les bases relationnelles. Dans certains cas, la plate-forme Open Source ne convient pas. L'étude menée par Innovation Enterprise révèle qu'un peu moins de la moitié des data scientists interrogés ont utilisé Hadoop ou Spark. Parmi eux, 76% estiment que le framework a quatre limitations principales : 39% pensent que sa programmation demande trop d'efforts, 37% qu'il est trop lent sur les requêtes ad-hoc interactives, 30% le juge trop lent sur les analyses en temps réel et 22% qu'il n'est pas adapté au type d'analyses qu'ils font et dont les traitements sont peu parallélisables. En fait, 35% des data scientists interrogés ayant déjà testé Hadoop ou Spark ont cessé de l'utiliser.

Des fonctionnalités SQL pour les data scientists

Cela dit, les fournisseurs de distributions Hadoop (Hortonworks, MapR, Cloudera) ont eux aussi constaté les limites de la plate-forme. Et c'est bien pour cela qu'ils cherchent à y remédier en la complétant. Ils lui apportent, notamment, des fonctionnalités SQL pour répondre aux besoins des data scientists qui préfèrent recourir à des langages de requête de plus haut niveau plutôt qu'à des langages de programmation comme Java. Par ailleurs, pour dépasser MapReduce, un fournisseur comme Cloudera propose par exemple Impala pour fournir SQL sur HDFS. Quant à MapR Technologies, il intègre Hadoop avec sa propre base NoSQL.

L'étude d'Innovation Enterprise souligne qu'un nombre croissant d'analyses complexes ne peuvent pas se faire sur Hadoop. La première vague de sociétés à avoir adopté la plate-forme Open Source - les Google, Facebook, LinkedIn- ont recouru à des développeurs pour la programmer. Mais beaucoup d'entreprises ne disposent pas des ressources nécessaires pour le faire et les analyses complexes ne peuvent pas être traitées telles quelles dans Hadoop. Le framework devra remédier à ces défauts ou il pourrait se voir un jour remplacé, conclut l'étude. C'est là où entrent en jeu les fournisseurs de distributions qui, en fonction des cas d'usage, associent la plate-forme à différentes technologies (telles que les bases NoSQL) et la complètent d'outils de déploiement, d'intégration avec l'existant, de maintenance, etc.

Sur le même thème

Partenaires

Les data scientists ne plébiscitent pas toujours Hadoop

Commentaire

Suivre toute l'actualité

Newsletter

Newsletter LMI

Commentaire

Suivre toute l'actualité

Newsletter