Créée en 2005 pour analyser les grosses quantités de logs générés par le trafic Web, la plate-forme Hadoop est de plus en plus utilisée pour l'analyse des masses de données non structurées. Souvent dénommées big data, ces quantités énormes de données sont trop volumineuses pour être entassées dans une base de données relationnelle ou dans un data warehouse. Selon les résultats d'un sondage publié mardi par la SSII Capgemini, 58% des 600 directeurs du développement et cadres du secteur IT ont l'intention d'investir dans des systèmes big data comme Hadoop, au cours des trois prochaines années.
Apache Hadoop est lui-même un projet Open Source, et un grand nombre des améliorations réalisées par les différents vendeurs visent à rendre le logiciel plus facile à utiliser et à déployer, mais aussi à améliorer sa compatibilité avec d'autres logiciels.
Mise à jour des 3 distributions majeures
Cette semaine, les trois distributions Hadoop les plus importantes - Cloudera, Hortonworks et MapR - ont été mises à jour, tout comme certaines technologies de données complémentaires, notamment celles proposées par Teradata et Pentaho.
Ainsi, MapR Technologies vient de livrer la deuxième version majeure de sa distribution Hadoop. Celle-ci est proposée sous deux formes : une version de base dite M3, qui prend en charge le Network File System (NFS) pour assurer un déploiement facile, et une version dite M5, configurée pour la haute disponibilité (HA). La v2 de cette distribution Hadoop est la première à supporter le multitenancy, ce qui lui confère un certain nombre d'avantages. Le logiciel de gestion peut maintenant supporter les clusters multiples, si bien que les administrateurs peuvent partitionner logiquement un cluster physique et lui attribuer des tâches différentes. « Lorsque l'on commence à augmenter le nombre d'utilisations, la possibilité de les séparer logiquement devient très important », a déclaré Jack Norris de MapR. « Le multitenancy permet également aux administrateurs de spécifier sur quel noeud en particulier ils souhaitent effectuer une tâche déterminée », a ajouté le vice-président marketing. « Certaines données gagneraient à être traitées sur certains matériels, comme des disques SSD par exemple », a-t-il ajouté.
Le logiciel compile également les données de log de chaque noeud dans un seul noeud. Le dépannage est plus facile, notamment avec les outils d'analyse spécifiques ou les histogrammes et les diagrammes à barres que l'on trouve désormais dans le logiciel.  « L'administrateur aime bien savoir pourquoi une tâche prend beaucoup plus de temps que nécessaire », a précisé Jack Norris.
MapR disponible sur Amazon Web Service
MapR a également annoncé que sa distribution Hadoop était désormais disponible via Elastic MapReduce Service (EMR) d'Amazon Web Service. « La distribution de MapR est la première distribution externe utilisée par Amazon », a encore ajouté le vice-président marketing de MapR. « Les entreprises pourraient par exemple utiliser notre service M5 sur Amazon, pour sauvegarder un Hadoop interne dans le cloud, ou déplacer des charges de travail internes vers Amazon et bénéficier d'une puissance de traitement supplémentaire ».
Cloudera et Hortonworks ont également livré de nouveaux packs Hadoop cette semaine. Cloudera a étendu les fonctionnalités de sa distribution. Celle-ci peut prendre en charge d'autres algorithmes de traitement que ceux utilisés par défaut par MapReduce. Pour sa part, la première version commerciale du produit d'Hortonworks est livrée avec un ensemble complet d'outils de gestion du cycle de vie, ainsi qu'un catalogue de métadonnées qui devrait faciliter l'interopérabilité avec d'autres logiciels d'analyse de données.
Ceux qui souhaitent faire tourner Hadoop dans un environnement virtualisé ne sont pas en reste. « VMware vient de sortir un logiciel Open Source, du nom de Serengeti, qui permet aux administrateurs de déployer des noeuds Hadoop dans des conteneurs virtuels, lesquels peuvent ensuite être gérés par vCenter », a déclaré Fausto Ibarra, directeur senior de la gestion produit chez VMware. « Avec Serengeti, il n'est plus nécessaire de configurer les paramètres réseau de chaque noeud manuellement », a-t-il expliqué.
Teradata pousse le langage de requête SQL-H pour Hadoop
DataStax a également mis à jour sa distribution. Celle-ci permet d'utiliser Hadoop avec sa base de données non relationnelle Cassandra. Selon l'éditeur, DataStax Enterprise (DSE) 2.1 est 20% plus rapide que la version précédente. Une telle rapidité est importante pour les systèmes qui mélangent le travail transactionnel, sensible au facteur temps, et l'analyse. Le logiciel permet également de faire tourner un cluster Hadoop entre de multiples datacenters.
Parmi les nouveaux packs annoncés, certains permettent de lier Hadoop à d'autres types de plates-formes d'analyse de données. D'ici la fin de l'année, le vendeur de solutions d'entreposage de données Teradata va proposer un nouveau langage de requête, du nom de SQL-H, pour sa base de données Aster Database. Le SQL-H va permettre aux utilisateurs de l'Aster MapReduce Appliance d'interroger les données stockées dans les systèmes de fichiers distribués Hadoop Distributed File System (HDFS) sans avoir à passer directement par MapReduce ou HDFS. Le logiciel utilise les métadonnées compilées dans le projet Open Source Apache HCatalog.
Enfin, Pentaho, le fournisseur de logiciels de BI, a annoncé que son logiciel d'analyse avait été certifié par Dell pour tourner sur l'appliance Apache Hadoop Solution, un ensemble de serveurs fournis avec Hadoop et le logiciel de gestion Crowbar de Dell, pré-installés. Les utilisateurs peuvent avoir accès aux données Hadoop via l'interface graphique de Pentaho.