Hortonworks vient de livrer, en mode preview, une distribution de la prochaine génération d'Apache Hadoop qui promet d'élargir le champ des tâches pouvant être réalisées sur la plate-forme de traitement de données. « Hadoop 2.0 inaugure une architecture fondamentalement différente qui en fait bien plus qu'une plate-forme de traitements par lots », selon Arun Murthy, l'un des fondateurs de Hortonworks, et l'un des principaux ingénieurs travaillant sur le développement d'Hadoop. Selon lui, cette mise à jour « va entraîner une nouvelle vague d'innovation ».
La Community Preview de Hortonworks Data Platform 2.0 (HDP 2) contient un certain nombre de nouveaux composants pour l'environnement Hadoop, et notamment YARN (Yet Another Ressources Negociator), qui succède au planificateur de tâches MapReduce de Hadoop. « Au départ, Hadoop a été conçu comme une « plate-forme d'application unique », principalement pour l'exploration et l'indexation de contenu web », a rappelé Arun Murthy. « Aujourd'hui, les entreprises cherchent à utiliser la plate-forme autrement, par exemple pour des requêtes interactives ou l'analyse des flux en temps réel ». YARN va plus loin que MapReduce parce qu'il permet d'utiliser la plateforme Hadoop pour effectuer d'autres types de tâches. MapReduce permettait principalement de gérer les tâches de traitement par lots en effectuant l'analyse des données à travers un certain nombre de noeuds plus ou moins importants et de retourner les résultats une fois l'analyse terminée.
YARN peut gérer des tâches liées à des requêtes interactives
Au contraire, YARN apporte un framework multifonction pour la gestion des ressources. Il fournit une base pour exécuter des tâches qui n'ont plus nécessairement à voir avec le traitement par lots, par exemple l'analyse des flux de données en continu, ou des tâches impliquant des requêtes interactives dans l'interrogation de données à la volée par exemple. « Désormais,  avec YARN, on va pouvoir effectuer côte à côte du traitement par lots MapReduce et des requêtes SQL interactives », a déclaré le fondateur de Hadoop. « YARN permet de disposer d'un cluster capable de différencier les charges de travail et les besoins en ressources, de les faire cohabiter et de les équilibrer. Une charge de travail ne va pas dominer sur toutes les autres, ni mobiliser toutes les ressources au niveau du cluster », a expliqué Shaun Connolly, vice-président de la stratégie chez Hortonworks. « Jusque-là , il fallait affecter chaque cluster à des tâches différentes ».
HDP 2.0 comprend aussi d'autres nouveaux composants, comme Apache Tez, un add-on pour YARN qui permet d'accélérer le traitement des grosses tâches interactives, et Stinger, qui permet d'accéder à une série de technologies pour exécuter des requêtes SQL dans un référentiel Hadoop. L'aperçu de HDP 2.0 est une distribution Hadoop complète. Il fonctionne soit dans les environnements virtuels Oracle VirtualBox ou VMware.
Hadoop « as a service » chez Rackspace
C'est lors du Hadoop Summit 2013, qui s'est tenu les 26 et 27 juin derniers à San José (Californie) que Hortonworks a annoncé HDP 2.0. Pendant cette conférence, Rackspace a également annoncé qu'il allait proposer Hadoop sous forme de service avec des outils d'analyse de Pentaho. Par ailleurs, Splunk a livré un nouvel outil appelé Hunk pour explorer les référentiels Hadoop.
Quant au spécialiste de l'entreposage de données et d'applications analytiques, Teradata, il a dévoilé de nouvelles appliances Hadoop. Enfin, VMware a mis à jour sa plateforme de virtualisation vSphere pour la rendre compatible avec les clusters Hadoop.