En direct de Bruxelles - A la veille du Hadoop Summit européen qu'il organise à Bruxelles, avec Yahoo, Hortonworks a annoncé le rachat de la société hongroise SequenceIQ qui développe des outils d'automatisation des déploiements Hadoop. L'éditeur californien, fournisseur de la distribution Hadoop HDP, s'intéressait depuis quelques mois à l'API Rest de cette start-up de Budapest créée en février 2014. Celle-ci permet de provisionner des clusters Hadoop de plusieurs centaines de noeuds en quelques minutes dans le cloud, dans des conteneurs Docker, ou sur des serveurs bare metal. En la rachetant, Hortonworks se dote en fait de deux technologies, Cloudbreak et Periscope, bâties au-dessus de Yarn, le gestionnaire de ressources de Hadoop, et d'Ambari, la plateforme de provisionning, de gestion et de monitoring des clusters.
Cloudbreak s'appuie sur les Blueprints d'Ambari
Cloudbreak va simplifier le déploiement élastique de clusters HDP sur n'importe quel cloud public ou privé - AWS, Azure, Google ou environnement OpenStack - en s'appuyant sur les fonctionnalités Blueprints d'Ambari. Réutilisables, celles-ci permettent de définir les stacks Hadoop qui vont être mises en oeuvre et la configuration à installer. Avec Cloudbreak, on choisit un Blueprint, le cloud hôte et on lance HDP. A Bruxelles, Shaun Connolly, responsable de la stratégie d'Hortonworks, et Tim Hall, responsable produit, ont décrit en exemple plusieurs scénarios de Blueprints pour illustrer l'éventail des possibilités (d'un côté, Storm, HBase et Hive pour un déploiement sur Microsoft Azure dans un projet IoT, de l'autre Spark pour un projet de data science, ou encore une configuration de test sur OpenStack).
Avec Cloudbreak, on choisit un Blueprint, le cloud hôte et on lance HDP. (agrandir l'image)
Tim Hall a fait valoir tout l'intérêt de s'affranchir des tâches fastidieuses et répétitives que représentait la mise en oeuvre manuelle sur des clusters de plusieurs centaines de noeuds. Les dirigeants ont aussi souligné l'avantage d'avoir une technologie prête pour Docker. Celle-ci a été présentée sur le précédent Hadoop Summit de San José et l'accueil a été très positif, rapporte dans un billet Janos Matyas, CTO de SequenceIQ, en expliquant que de grandes entreprises ont déjà démarré des PoC et déployé des clusters Hadoop avec Cloudbreak.
Les technologies reviendront dans la communauté
Quant au deuxième produit, Periscope, il s'appuie sur différents métriques pour associer des politiques de SLA à des applications et fournir des outils de qualité de service pour des clusters Hadoop multitenants. Il permet de dimensionner les clusters de façon automatique, d'allouer les ressources aux applications, de redéfinir les priorités entre les tâches. Ces technologies vont être intégrées dans HDP et leur support sera fourni aux clients ayant souscrit un contrat Enterprise Plus. Elles seront par ailleurs apportées à la communauté Apache dans le courant de l'année. Dès le départ, SequenceIQ avait décidé de livrer ses produits sous licence Apache V2, ce qui facilite les choses, souligne Hortonworks. L'éditeur hongrois explique de son côté avoir bénéficié de l'aide de la communauté Ambari dans ses développements.
Enfin, l'éditeur américain indique que, outre l'acquisition de produits, SequenceIQ c'est aussi une équipe qui lui permet de disposer de ressources d'ingénierie renforcées en Europe. Un peu plus tôt, Herb Cunitz, président d'Hortonworks, avait indiqué que la société réalisait 15 à 20% de ses facturations clients sur ce marché.
HDP renforce ses fonctionnalités Ambari
A Bruxelles, Shaun Connolly et Tim Hall ont également évoqué les dernières évolutions de HDP qui concernent notamment le framework Ambari. Celui-ci dispose de fonctionnalités qui automatisent le déploiement des mises à jour. Il bénéficie d'un nouveau système d'alertes et de métriques pour la surveillance des clusters et fournit maintenant des outils plus visuels pour l'analyse et le tunning des applications Tez et Hive. Hortonworks facilite par ailleurs la mise en place d'applications Spark pour les projets de data science, avec des ressources centralisées gérées avec Yarn. Dans le domaine de la sécurité, HDP apporte Apache Ranger et Kerberos pour l'authentification. L'éditeur californien poursuit aussi ses efforts dans la gouvernance de données, avec la Data Governance Initiative rejointe par Schlumberger et JP Morgan Chase, et la proposition de projet Apache Atlas.
Hortonworks est entré en Bourse en décembre dernier et la société est aujourd'hui valorisée à 950 millions de dollars. Elle vient de recruter Scott Gnau, jusque-là président de Teradata Labs, au poste de chief technology officer. Teradata est l'un des principaux partenaires de Hortonworks, sponsor diamant du Hadoop Summit avec EMC, Microsoft et SAP.