Pannes récurrentes : les supercalculateurs confrontés aux problèmes de résilience

David Fiala recommande de faire tourner deux copies de sauvegarde de chaque programme, pour une triple redondance. Certes, en faisant tourner plusieurs copies d'un programme, on utilise davantage de ressources, mais dans le temps, cela peut s'avérer plus efficace, du fait que les programmes n'ont pas besoin d'être réexécutés pour vérifier les réponses. En outre, le point de reprise n'est peut-être pas nécessaire quand on exécute plusieurs copies, ce qui permettrait également d'économiser des ressources système. « De mon point de vue, l'idée de faire une redondance est excellente. Pour les calculs d'envergure, impliquant des centaines de milliers de noeuds, il y a certainement une chance que des erreurs apparaissent », a estimé pour sa part Ethan Miller, professeur d'informatique à l'Université de Santa Cruz, Californie, qui a assisté à la présentation. Mais selon lui, l'approche n'est peut-être pas adaptée, étant donnée la quantité de trafic réseau que pourrait générer une telle redondance. Celui-ci suggère de faire tourner toutes les applications sur le même ensemble de noeuds, de façon à réduire le trafic.

Analyse des logs pour prédire les défaillances

Dans une autre présentation, Ana Gainaru, une étudiante en doctorat à l'Université Urbana-Champaign, Illinois, a présenté une technique d'analyse des fichiers de log pour prédire les défaillances du système. L'idée ici est de combiner l'analyse du signal avec le data mining. L'analyse du signal est utilisée pour caractériser un comportement normal, donc, quand une panne survient, elle peut être facilement repérée. L'exploration des données cherche des corrélations entre les différentes défaillances. « D'autres chercheurs ont montré que des défaillances multiples sont parfois corrélées les unes avec les autres, parce que l'échec d'une technologie peut affecter la performance d'une autre technologie », a déclaré Ana Gainaru. Par exemple, si une carte réseau tombe en panne, elle va entraver d'autres processus système qui reposent sur la communication réseau.

Les chercheurs ont constaté que 70 % des pannes corrélées ouvrent une fenêtre d'opportunité de plus de 10 secondes. En d'autres termes, lorsque le premier signe de panne est détecté, le système peut avoir jusqu'à 10 secondes pour enregistrer son travail, ou déplacer la tâche vers un autre noeud, avant qu'une panne plus grave ne se produise. Selon Ana Gainaru, « la prédiction des pannes peut être associée à d'autres techniques de tolérance de panne ».

Sur le même thème

Partenaires

Pannes récurrentes : les supercalculateurs confrontés aux problèmes de résilience

Commentaire

Suivre toute l'actualité

Newsletter

Newsletter LMI

Commentaire

Suivre toute l'actualité

Newsletter