Cette semaine, Cloudera et MapR ont tous deux annoncé qu'ils travaillaient sur d'autres fonctionnalités pour leurs distributions Hadoop. Et les vendeurs de solutions d'entreprise VMware et Splunk ont annoncé des produits qui devraient aider la plateforme de traitement de données Apache Hadoop à travailler plus facilement avec d'autres systèmes informatiques. Toutes ces annonces ont été faites pendant l'O'Reilly Strata Conference et Hadoop World 2012, qui se tiennent toutes deux cette semaine (23-25 octobre) à New York. « Nous constatons que, jusque-là , on ne pouvait pas réaliser la plupart des charges de travail d'Hadoop, comme la combinaison des données disparates », a déclaré Kirk Dunn, chief operating officer de Cloudera. Si bien que les éditeurs de Hadoop se bousculent pour répondre aux exigences requises par ces nouvelles charges de travail.
Cloudera travaille sur un moteur de base de données, nom de code Impala, lequel permet d'interroger des données stockées sur la base de données HBase via SQL. Jusqu'à présent, les entreprises ont eu tendance à utiliser Hive plutôt que HBase pour exécuter les requêtes SQL. Cependant, cette approche peut être lente dans la mesure où Hive utilise le framework MapReduce qui exige que les résultats de chaque requête soient écrits sur le disque. Ce processus peut être particulièrement fastidieux, notamment quand on doit réaliser plusieurs sous-requêtes en place d'une seule. « Le moteur de base de données Impala utilise le répertoire de métadonnées Hive, mais il contourne MapReduce, et conserve l'interface SQL », a expliqué Charles Zedlewski, vice-président produits de Cloudera. « Si bien qu'il exécute ses requêtes beaucoup plus vite que Hive ».
Cloudera va probablement baser son offre commerciale Cloudera Enterprise RTQ (Real-Time Query) sur Impala. Mais pour l'instant l'éditeur n'a pas dit quand il prévoyait de sortir son produit. Le vendeur a livré le code source d'Impala sous licence Apache Foundation. Un certain nombre de fournisseurs de logiciels de business intelligence (BI) ont déjà testé leurs produits face à Impala, comme Karmasphere, MicroStrategy, Pentaho, et Tableau.
Des ajouts et des améliorations pour MapR, Splunk et VMware
MapR apporte de nouvelles fonctionnalités qui rendent sa propre distribution de base de données HBase plus fiable. Désormais, celle-ci peut être répliquée et mise en miroir, de sorte que si une copie tombe en panne le système peut basculer sur la copie de sauvegarde. « La version générique d'HBase offre bien des capacités de mise en miroir, mais celles-ci reposent sur HDFS (Hadoop File System), c'est à dire un système de fichiers « write-once » », a déclaré Jack Norris, vice-président marketing de MapR Technologies. En conséquence, il faut parfois jusqu'à 30 minutes pour basculer sur une copie de sauvegarde de HBase.
MapR utilise son propre système de fichierset ses capacités ont été étendues pour gérer aussi les tables. « Les fichiers et les tables sont côte-à -côte dans les volumes et les répertoires. HBase lit directement dans ces tables, donc la récupération est désormais instantanée. On peut aussi lire directement les snapshots», a ajouté Jack Norris. La base de données est également livrée avec un certain nombre d'autres fonctionnalités. HBase ne compacte pas ou ne compresse pas les données, ce qui devrait lui permettre de fonctionner de manière plus cohérente. L'éditeur affirme aussi que les insertions et les mises à jour seront plus régulières. La base de données prend désormais en charge les colonnes en mémoire. La taille des lignes et des cellules a été augmentée pour accueillir de plus grands objets, jusqu'à 1 Go. Enfin, cette version de HBase permet aux utilisateurs de créer plus d'un milliard de tableaux. La version M7 de HBase de l'éditeur MapR est entièrement compatible au niveau binaire avec Apache HBase, et peut faire tourner Apache HBase dans un cluster avec le propre logiciel d'entreposage de données de M7. La version bêta de M7 est accessible à certains utilisateurs. A terme, M7 devrait remplacer la distribution M5 de MapR.
Plusieurs éditeurs ont aussi profité de la conférence Hadoop pour livrer leurs récents produits. C'est le cas par exemple de Splunk qui vend un moteur de données machine. Celui-ci a livré Splunk Hadoop Connect qui facilite l'échange de données entre Splunk et Hadoop. Le vendeur a également sorti un module de monitoring pour Hadoop appelé The Splunk App for HadoopOps. Enfin, VMware a annoncé une version actualisée de son projet Serengeti, un logiciel qui sert à faire tourner Hadoop dans les environnements virtualisés.
Cloudera, MapR, Splunk annoncent des mises à jour pour Hadoop
Alors que les entreprises continuent d'évaluer Hadoop pour l'analyse de données à grande échelle, les éditeurs de logiciels Hadoop affinent leurs produits pour une utilisation en entreprise, et s'attache à répondre à des préoccupations spécifiques comme la fiabilité et l'usage élargi.