En direct de Barcelone - Fort de sa fusion avec Hortonworks, effective depuis le 3 janvier, Cloudera présente cette semaine sur DataWorks Summit - à Barcelone jusqu’au 21 mars - les évolutions apportées à leurs plateformes big data respectives, CDH et HDP. L’éditeur lève aussi le voile sur celle qui se prépare, la Cloudera Data Platform (CDP) qui va, selon ses mots, réunir « le meilleur » de leurs deux solutions. « Une grande partie de nos ingénieurs ont travaillé ensemble au cours des dernières années à travers la communauté open source et une partie du code se recoupe entre les deux entreprises », a fait valoir Mick Hollison, directeur marketing de la nouvelle entité. Celle-ci réunit maintenant plus de 3000 employés dans le monde, et opère dans 85 pays avec une offre réservée aux grandes entreprises, actuellement exploitée par plus de 2000 clients.
Pour Fred Koopmans, vice-président, responsable de la plateforme chez Cloudera, ces clients ont fait le choix d’une plateforme qui leur fournit l’ensemble des fonctions nécessaires au traitement des big data (de l’ingestion des données jusqu’à l’analyse prédictive) au sein d’une architecture unifiée et ouverte (au travers d’API), qui apporte un socle commun pour la gestion des accès, le catalogue de données et les mécanismes de gouvernance. Le tout fonctionnant en environnement hybride et multiclouds. « Dans le monde du data management, l’infrastructure peut changer radicalement d’une année sur l’autre », passer d'AWS à Azure ou GCP suivant les stratégies adoptées par les directions des entreprises, rappelle Fred Koopmans. « Les équipes doivent pouvoir être prêtes à porter les applications d’un datacenter à un autre sans avoir à les rebâtir entièrement ».
Data Flow, Phoenix et Metron pour CDH
Concernant les évolutions des plateformes existantes que Cloudera s’est engagé à supporter pendant trois ans, M. Koopmans a exposé hier les premiers apports concrétisés par le rapprochement entre les deux éditeurs. Du côté de CDH (Cloudera Distribution Hadoop), dès le 1er jour de la fusion, les clients ont pu intégrer Data Flow, la brique d’Hortonworks permettant l’ingestion des flux de données. Le prochain ajout en vue est celui d’Apache Phoenix, le moteur de base de données permettant de faire du transactionnel sur Hadoop en s’appuyant sur HBase. « Environ 3/4 de nos clients Cloudera utilisent HBase », a mentionné le responsable de la plateforme. Les clients CDH vont pouvoir par ailleurs bénéficier du service de gestion de cluster à distance fourni par Hortonworks et accéder à la solution de cybersécurité Apache Metron.
Du côté de HDP (Hortonworks Data Platform), l’apport le plus important a été l’intégration de Data Science Workbench, la plateforme de création de modèles d’apprentissage machine de Cloudera. Quant aux fonctions de recherche de HDP, elles seront remplacées par celles de Cloudera. Enfin, chacun de leur côté, les deux éditeurs disposent d'une suite d'outils opérationnels, notamment pour la gestion des workloads ou encore le backup cloud et la restauration. Certains de ces outils se recoupent, d’autres se complètent. Ils vont être réunis, étendus et serviront aux deux plateformes.
Une migration directe depuis CDH 5 et HDP 2
Avec la future Cloudera Data Platform, distribution open source qui fonctionnera on-premise et dans le cloud, Fred Koopmans annonce une productivité et une connectivité renforcées. Pour les clients, il sera possible de migrer directement vers CDP à partir de CDH 5 ou 6 et de HDP 2 ou 3. En effet, les dernières versions majeures des produits - CDH 6 et HPD 3 - n'ayant été livrées que l'été dernier par leurs éditeurs respectifs, la plupart des clients utilisent encore les précédentes versions, a rappelé le vice-président. Les outils de datawarehouse de la plateforme vont être étendus. Chaque éditeur avait les siens, mais il s’avère que ceux de CDH sont mieux adaptés à des situations spécifiques, alors que dans d’autres cas, ce sont ceux de HDP qui prévalent. « Nous allons donc ajouter de l’intelligence pour aider les clients à choisir ou bien permettre au logiciel de choisir automatiquement quel jeu d’outils utiliser pour chaque script », a expliqué le responsable de la plateforme. La sécurité et les contrôles de gouvernance vont être renforcés. Dans ce domaine aussi, chaque éditeur avait des capacités particulières. « Elles seront maintenant disponibles pour tous les clients ». La gestion et l’automatisation des clusters seront améliorées en assurant la compatibilité avec les clusters « traditionnels ».
Au-delà de ces améliorations sur l'existant, CDP apportera un nouveau modèle d’interaction pour favoriser l’agilité réclamée par les utilisateurs, a indiqué M. Koopmans. Chaque application pourra s’exécuter dans une instance privée du logiciel, avec une configuration privée, et elle fonctionnera de façon isolée par rapport aux autres, avec les ressources dont elle a besoin (en termes de CPU/GPU, VM, mémoire…), et avec des cycles de mise à jour indépendants. « Cela donne beaucoup plus de flexibilité », pointe M. Koopmans en rappelant que l’une des grandes limites des plateformes auparavant était qu’il fallait partager les mêmes clusters, la même version de logiciel, le même cycle de mise à jour, les mêmes périodes d’interruption, etc. « Ce n’est plus le cas avec CDP ». Une autre flexibilité viendra de 5 nouvelles expériences en self-service, simplifiées et donc restreintes, qui fourniront un niveau d’automatisation pour certaines applications courantes, par exemple la création d’un datamart à partager de façon temporaire.
Containers et console unifiée
CDP fournira également un nouveau modèle d’exécution sur des infrastructures virtualisées et élastiques s’appuyant sur des plateformes de containers. Il y aura deux façons de les déployer. Dans le premier cas, le client apporte sa plateforme. « Il peut acheter et gérer Openshift, Mesos ou une autre solution et nous pouvons tourner au-dessus », cite en exemple M. Koopmans. « Ou bien, nous la fournissons et la gérons dans un environnement Kubernetes ».
Sur les fonctions d’administration, CDP apportera une console unifiée pour automatiser des milliers d’applications, avec une gestion centralisée des métadonnées, et des outils de privacy et conformité permettant de consolider les data lakes. La future plateforme s'enrichira aussi d'outils de portabilité et de migration pour les déploiements hybrides qui engloberont CDH, HDP et CDP en cloud public ou privé. Enfin, elle s’accompagnera d’un modèle de développement qui accélérera la mise en production de nouvelles fonctionnalités, sur un rythme mensuel dans le cloud public, et semestriel en cloud privé. Les premiers services de cette distribution, encore désignée sous son nom de code, arriveront d'abord dans le cloud public, cet été, dans un premier temps sur Azure et AWS (GCP viendra plus tard mais aucune date n'est donnée). La version cloud privé est prévue pour la fin de l'année.