Inquiétude #1 : Hadoop va-t-il disparaître de la scène du big data avec l'acquisition d'Hortonworks par Cloudera ?
Pour répondre très simplement à cette question, non ! Pour rappel, aujourd’hui, Hadoop est la plateforme la plus mature qui implémente l’approche de traitement parallèle et de stockage distribuée des données à large échelle à l’aide d’un cluster. L’évolution d’Hadoop n’est pas drivée par les éditeurs commerciaux, mais par l’open source. La valeur ajoutée des éditeurs intervient sur le support, la formation et la convivialité d’utilisation qu’ils offrent (cela s’appelle une distribution). Ainsi, même si Cloudera venait à stopper la commercialisation de sa distribution, la vibrante et active communauté de l’open source continuerait à faire évoluer Hadoop. Maintenant, si malgré tout, un éditeur venait s’engager à développer une plateforme propriétaire équivalente d’Hadoop, cela reviendrait beaucoup trop cher aux clients ! Vous n’avez qu’à voir le coût des solutions de traitement massivement parallèles du marché pour comprendre ce que nous disons. C’est pourquoi même les entreprises qui possèdent des liquidités élevées comme Amazon, Google, Microsoft préfèrent embarquer Hadoop dans leurs solutions de big data (Cf Amazon EMR, Microsoft Azure HDInsight). L’avantage d’Hadoop est que son coût de développement (et d’évolution) est nul puisque les membres de la communauté open source contribuent au développement de logiciels à titre bénévole.
Donc, non ! la probabilité qu’Hadoop disparaissent après l’acquisition d’Hortonworks par Cloudera est faible (voire quasi-inexistante), car ce n’est pas Cloudera qui drive l’évolution d’Hadoop, mais la communauté open source.
Inquiétude #2 : l'acquisition d'Hortonworks par Cloudera annonce-t-elle la fin du big data ?
Encore une fois, non ! L’acquisition d’Hortonworks par Cloudera est fort probablement une décision stratégique. Elle peut peut-être envoyer un signal aux marchés financiers (donc aux investisseurs), mais elle n’a aucun impact sur l’évolution du marché du big data.
Pour répondre à cette question, il faut comprendre ce qu’est véritablement le big data. Aujourd’hui, il est perçu aux yeux de tous comme étant l’explosion de données, la taille phénoménale du volume de données produite par les activités du Numérique. Bref, les fameux « 3V ». Malheureusement, concevoir le big data sous un aspect purement volumique, c’est minimiser le potentiel économique de la donnée et limiter sa perception vis-à-vis de la transition numérique qui est en cours. Nous ne cesserons pas de le dire, le big data n’est pas avant tout un phénomène de volumétrie de données, c’est un phénomène social. C’est la partie visible de la transition du monde de l’ère industrielle à l’ère et à l'économie numérique. Une transition qui provient de la combinaison de 2 facteurs : la mise à disposition d’Internet entre les mains du grand public et l’augmentation du nombre de personnes connectées à Internet.
Donc, non ! l’acquisition d’Hortonworks par Cloudera n’entraînera pas la fin du big data, car le big data n’est pas un phénomène technologique, mais une transition sociale. Bien au contraire, cette acquisition a lieu à cause de l’essor du big data !
Inquiétude #3 : Hadoop va-t-il être remplacé dans le futur ?
Non ! Hadoop ne va pas être remplacé dans un futur à moyen ou même long terme. Déclaration audacieuse n’est-ce pas ? Pour comprendre d’où nous vient cette assurance, il faut se souvenir que l’adoption à large échelle d’une technologie ne dépend pas des développeurs, consultants, managers, lead engineers, etc. mais des utilisateurs métiers. Traditionnellement, il est admis que c’est la rareté qui crée un avantage stratégique, c’est-à-dire le fait de posséder quelque chose que les autres ne possède pas (la différenciation, encore connue sous le nom de loi de la rareté, cf. paradoxe de l’eau et du diamant). Ce point de vue est valable et vrai. Cependant, il ne s’applique pas pour tous les produits. Certains produits, comme les produits culturels (livres, musiques, films, etc.) ou encore les produits technologiques (photocopieurs, téléphones, bases de données, Hadoop) gagnent en valeur/importance en fonction du nombre de personnes qui les utilisent/consomment.
Par exemple, plus le nombre de lecteurs d’un livre augmente, plus ce livre a de la valeur. Plus le nombre de personnes qui ont un compte Facebook/whatsApp augmente, plus le réseau social a de la valeur. Plus une application est téléchargée sur le Play Store ou Google Store, plus cette application gagne en importance. Idem, plus l’audience d’une émission augmente, plus cette émission a de la valeur. On appelle cet effet en économie les effets de réseaux. Bob Metcalfe avait fait ce constat pour les produits technologiques et fait une déclaration qu’on admet aujourd’hui comme loi. Cette loi porte son nom (loi de Metcalfe). Elle stipule : « la valeur d’une technologie est proportionnelle au carré du nombre de personnes qui l’utilise ». Pour paraphraser cette loi, on pourrait dire que « la valeur d’une technologie est proportionnelle au nombre de personnes qui l’utilise ». Ce sont donc ces effets de réseau qui justifient que le succès d’une technologie ne dépende pas des développeurs ou des utilisateurs spécialisés, mais des utilisateurs métiers. Une technologie gagne ainsi en importance en fonction du nombre de personnes qui l’utilise. Lorsque ces effets deviennent suffisamment puissants (ou lorsque le nombre d’utilisateurs atteint un seuil critique), la technologie finit dès lors par devenir un « standard ». Aujourd’hui, le nombre d’utilisateurs d’Hadoop n’a pas encore atteint une taille critique pour que les effets de réseaux entrent en jeu, mais il est facile de voir que cela ne tardera pas, car Hadoop présente les caractéristiques d’une technologie qui pourra devenir un standard.
Les opportunités à long terme d'Hadoop bien réelles
En matière de data, le SQL est aujourd’hui un langage très commode et une compétence possédée par tout analyste métier digne de ce nom. De plus, la majorité des systèmes opérationnels des entreprises (par exemple Business Objects, Oracle, SAS, Tableau, SAP, Genesys Info Mart, etc.) tourne sur SQL. Ainsi, une technologie de gestion de données, aussi performante soit-elle, ne deviendra jamais un standard si elle n’est pas complètement intégrée à SQL. En plus d’être mature et stable, Hadoop est l’une des rares plateformes technologiques du big data complètement intégrée à SQL qui, dans quelques années, ne requerra pas plus de compétences que le SQL pour être exploitée. C’est pour cela que nous pouvons dire avec assurance qu’Hadoop ne sera pas abandonné dans le futur, au contraire, sa standardisation ne fait que commencer. Spark a compris ce concept de transparence à l’utilisateur, mais n’est pas encore suffisamment mature pour remplacer Hadoop. Donc, soyez sans crainte et ne vous laissez pas déstabiliser par du bruit médiatique, les opportunités d’Hadoop et du big data sont bel et bien réelles.
Voilà, nous espérons que ce point de réflexion vous éclaire sur le futur du big data. Alors selon vous, Hadoop va-t-il passer le test de la durée ? Réagissez à ce billet en laissant un commentaire ci-dessous.
Sans vouloir vous attaquer ou vous offenser, le retour de nos clients nous amènent à des conclusions beaucoup plus négatives quand à l'avenir des plateformes Hadoop.
Signaler un abus1. Lorsque deux sociétés communiquent sur le fait qu'elles ne font plus d'acquisition et qu'elles se concentrent sur leur base installée veut dire (sans langue de bois) que le marché ne réponds pas , que la croissance est beaucoup moins forte que prévue et que travailler sur la profitabilité est le seul moyen de rassurer les Investisseurs sur la valeur de l'action. Quand 2 acteurs fusionnent moins de 10 ans après leur IPO avec des valorisations inférieures à leur cours de bourse initial, c'est que leur marché s'écroule.
2. La communauté Open Source n'est aucunement une garantie de pérennité pour une entreprise. Lorsqu'une société fait un investissement de plusieurs millions, ce n'est pas pour entendre que la sécurisation de son investissement repose sur une "communauté" sans garantie de suivi, ni SLA sur du support ou du développement.
3. La plateforme hadoop est une technologie "intermédiaire" (comme le Blackberry pour l'Iphone). C'était la seule solution il y a 10 ans mais les couts de mise en oeuvre, de maintenance, la rareté des compétences et la complexité d'utilisation rendent ces plateformes inadaptés (au sens pas économiquement viables) que ce soit pour des Entreprises ou des services publiques. La montée en puissance des offres Cloud (que ce soit les offres de stockage, de traitement) rendent ces plateformes obsolètes. Il n'y a plus de valeur dans les couches de stockage et de traitement : On fait plus facilement un datalake avec du stockage objet (Blob Storage d'Azure ou S3 d'amazone) .que lorsque l'on doit déployer des machines, du stockages, des softs d'administration et de de déploiement d'Hadoop
4. la valeur ajoutée des plateformes hadoop se situent majoritairement dans la brique Spark et ses déclinaisons commerciales. Microsoft pousse aujourd'hui beaucoup plus activement Databricks (version commercials de Spark) et Amazon sa version EMR (Cluster Spark managé) qu'une plateforme Hadoop complète type HD Insights.
5. Les différentes distribution d'Hadoop partagent le fait qu'elles sont tout sauf des plateformes SQL. On ne compte plus le nombre de client qui dépensent du temps et des sommes assez massives dans du tuning de Hive, de Kudu et peinent à obtenir des performances décentes en restitution.
La majorité de nos clients étudient l'évolution de leur plateforme Big Data, soit en Hybride soit directement dans le Cloud pour des questions simples de cout et de réactivité.