Facebook dévoile sa solution pour corriger le talon d'Achille de Hadoop

Une des faiblesses de Hadoop, la synchronisation de l'activité des clusters reposant sur une seule machine "namenode", a été corrigée par Facebook avec l'ajout d'un serveur redondant.

Exploitant ce qu'ils croient être le plus grand système Hadoop au monde (100 Po), les ingénieurs de Facebook ont développé une méthode pour contourner une faiblesse au coeur de la plate-forme d'analyse de données, l'obligation d'utiliser un serveur unique baptisé « namenode » pour coordonner le travail de tous les clusters.

Un ingénieur de Facebook, Andrew Ryann, a discuté de cette solution de contournement lors de l'Hadoop Summit, qui se tient cette semaine à San Jose, en Californie. Il a également publié un résumé de son discours sur Facebook. Le réseau social pense exploiter la plus grande collection de données au monde sur un système Hadoop Distributed File (HDFS) : plus de 100 Po répartis sur 100 groupes différents à travers ses centres de calcul.

Alors que Hadoop est de plus en plus populaire pour les grandes tâches d'analyse de données, la plate-forme possède ce qu'on appelle en termes techniques un point de défaillance unique. Bien qu'un déploiement Hadoop peut se répartir sur des centaines ou des milliers de serveurs, le pilotage de l'ensemble de l'opération dépend d'un serveur unique, appelé le namenode. Ce dernier coordonne l'ensemble du trafic entre les noeuds de données. Si ce namenode venait à tomber, l'ensemble des noeuds de données serait dans l'incapacité de communiquer entre eux et l'ensemble du système cesserait de fonctionner. Facebook a estimé que la résolution de cette faiblesse permettrait de réduire de près de moitié les temps d'arrêt dans ses datawarehouses.

Un serveur redondant pour reprendre le travail

Afin de résoudre ce problème, Facebook a créé un logiciel, appelé Avatarnode, qui peut basculer vers un namenode de sauvegarde en cas de panne du serveur primaire pour une raison ou une autre. Dans cette configuration, chaque noeud de données envoie régulièrement et simultanément ses mises à jour aux namenodes primaire et de sauvegarde. Si le namenode primaire venait à s'interrompre, le namenode de sauvegarde reprendrait les opérations. Le logiciel, nommé d'après le film de James Cameron "Avatar", s'appuie sur l'outil de gestion et de configuration Hadoop Zookeeper.

La société offre Avatarnode en Open Source, pour inciter les administrateurs Hadoop à l'utiliser. Facebook a livré le logiciel en 2010, et l'utilise depuis en production.
« Avatarnode est utilisé pour accompagner des workloads particulièrement importants chez Facebook aujourd'hui, et il sera encore enrichi avec des améliorations substantielles portant sur la fiabilité et l'administration des clusters HDFS, » a écrit M. Ryan. « Pour aller vers l'avant, nous allons nous efforcer d'améliorer Avatarnode et l'intégrer à un plate-forme haute disponibilité qui permettra un basculement automatisé sans surveillance et en toute sécurité."

Facebook n'est pas le seul à essayer de s'attaquer à ce problème avec Hadoop. Les deux distributions MapR et Cloudera sont aujourd'hui également proposées avec une fonction de namenodes redondants.

Sur le même thème

Partenaires

Facebook dévoile sa solution pour corriger le talon d'Achille de Hadoop

Livres blancs

Commentaire

Suivre toute l'actualité

Newsletter