Après sept ans de développement et de réglages, le framework Apache Hadoop, dédié au traitement des données non-structurées, est enfin disponible dans sa version finale. L'équipe de développeurs à l'origine du projet Apache Hadoop vient en effet de publier la version 1.0 de leur plateforme. « Les utilisateurs peuvent être beaucoup plus confiants dans cette version qui sera soutenue par la communauté Open Source », a déclaré Arun Murthy le vice-président du projet Apache Hadoop. « Il n'y a plus de confusion sur quelle version de Hadoop utiliser pour bénéficier de telle fonctionnalité. »
Trois nouveaux ajouts en particulier vont contribuer à faire de cette version, la première a pouvoir revendiquer l'appellation 1.0, a expliqué M. Murthy. Une sécurité de bout en bout est la caractéristique principale de cette version. Hadoop peut maintenant être utilisé à travers un réseau entier, en utilisant le protocole d'authentification Kerberos. En conséquence, les entreprises peuvent désormais faire confiance à leurs déploiements Hadoop et ce même avec des données sensibles. La deuxième caractéristique, l'API REST (représentation State Transfer Application Programming Interface) webhdfs, peut être utilisée pour interagir avec Hadoop en utilisant des technologies web que de nombreux administrateurs et programmeurs comprennent facilement. C'est un bon moyen de partager une base Hadoop entre plusieurs organisations. Enfin, cette version est la première à supporter totalement HBase, qui permet aux administrateurs de retrouver un environnement familier - celui d'une base de données relationnelle - pour stocker leurs données.
Un projet lancé en 2005
Lucene développé par Doug Cutting, avec le concours de Mike Cafarella, est à l'origine du projet Hadoop lancé en 2005 comme une implémentation de l'algorithme MapReduce de Google. Une technique d'analyse de données répartie sur plusieurs serveurs. M.Cutting a ensuite travaillé pour le compte de Yahoo afin d'aider l'entreprise à utiliser cette technologie au sein de son portail et de son moteur de recherche. Cette intégration a finalement été répartie dans plus de 40 000 serveurs.
Hadoop peut être utilisée pour stocker et analyser de grands volumes de données non-structurées, les fameuses Big Data. Bien que conçue à l'origine pour épauler les moteurs de recherche, cette technologie a également trouvé sa place dans des entreprises, a expliqué M. Murthy dit. Le projet a mobilisé pas moins de 35 développeurs très engagés et des centaines d'autres contributeurs bénévoles.
De nombreux usages sur Internet comme dans la finance
L'utilisation de Hadoop pour l'analyse de données est particulièrement indiquée quand le volume total des données dépasse les capacités des bases de données relationnelles traditionnelles, ou dans les cas où une entreprise recueille beaucoup de données, mais ne sait pas encore quelles données seront analysées.
La banque JPMorgan Chase emploie cette technologie pour la gestion des risques et la détection de fraudes. Ebay de son côté utilise Hadoop pour construire un nouveau moteur de recherche pour son service de vente aux enchères. La technologie a aussi obtenu beaucoup de soutiens financiers. IBM a incorporé Hadoop dans son outil InfoSphere BigInsights pour l'analyse de paquets de données, et Microsoft a inclus une version de Hadoop à SQL Server et à sa plate-forme cloud Windows Azure, suite à l'abandon de son projet Dryad.