La responsabilité de la panne revient à un mécanisme qui sert de «soupape de sécurité » pour prévenir les défaillances en cascade du réseau. Celui-ci consiste à maintenir le nombre de connexions dans la limite de ce que peuvent accepter les périphériques réseau. « Avant cet incident, nous avons ajouté de nouvelles capacités à la sous-région de l'Europe de l'Ouest pour répondre à une plus forte demande. Mais, au moment du processus de validation, la limite n'a pas été ajustée pour l'adapter à cette nouvelle capacité », écrit Mike Neil, directeur général de Windows Azure, dans un blog.
Une augmentation soudaine de la demande a dépassé le seuil programmé au niveau du cluster concerné et a entrainé l'activation de la «soupape de sécurité », générant une multitudes d'alertes au niveau de l'administration réseau. « En retour, la gestion du trafic a provoqué des bugs dans certains périphériques liés au cluster, au point de mobiliser 100% de la CPU, entrainant des répercussions sur le trafic de données », a poursuivi le directeur général de Windows Azure.
Les failles classiques d'un datacenter
Au moment des faits, Microsoft a résolu le problème en augmentant les limites du cluster mal configuré. Pour éviter que la situation ne se reproduise, Microsoft a entrepris de corriger les bugs identifiés dans les périphériques réseau, et a également amélioré ses systèmes de surveillance afin qu'ils puissent identifier et résoudre les problèmes de connectivité avant qu'ils ne provoquent des pannes.
Selon James Staten, analyste de Forrester Research, les clouds PaaS (Platform-as-a-Service) comme Azure sont des environnements très complexes et hautement automatisés. De ce fait, certaines défaillances n'apparaissent parfois que quand le service est en production, et ne peuvent être prévues dans les environnements de test. « C'est, semble-t-il, ce que l'on a observé ici », a répondu l'analyste par courriel à notre confrère d'IDG NS.
Optimiser en permanence le système
« Au fil du temps, alors que sont ajoutées de nouvelles fonctionnalités, que l'utilisation du service augmente, et que d'autres facteurs entrent en ligne de compte, les administrateurs doivent prendre des mesures pour ajuster et optimiser le fonctionnement du système, et parfois quelque chose ne colle plus », a ajouté l'analyste. « Mais cela ne cela doit pas inquiéter les clients. C'est tout à fait représentatif de ce qui peut arriver dans un environnement cloud. Des évènements bien plus graves se produisent - et plus fréquemment - dans les datacenter classiques des entreprises », a encore ajouté James Staten.
Les responsables informatiques et les développeurs qui envisagent d'héberger des applications dans le cloud doivent prévoir de les configurer et de les concevoir en leur permettant de tolérer les pannes. « C'est un changement fondamental dans la manière de penser de la plupart des équipes de développeurs et de directeurs opérationnels dans l'entreprise. Ils ont besoin de comprendre cela quand ils s'embarquent dans des déploiements cloud », a-t-il déclaré. « Ce genre de pannes sert d'apprentissage aux administrateurs et aux clients du cloud. Plutôt que de brandir ces incidents pour remettre en cause le bien fondé du cloud, ils devraient les voir comme des occasions pour améliorer l'usage du cloud computing », a-t-il ajouté.