C'est une mise à jour destinée à améliorer les performances qui a provoqué l'interruption sur les services de stockage de la plateforme cloud Azure, mardi dernier. Jason Zander, vice-président corporate, responsable de l'équipe Azure chez Microsoft, a publié un billet hier pour fournir des explications. Lors de cette procédure, un problème a été découvert entraînant une réduction des capacités sur l'ensemble des services utilisant Azure Storage, incluant notamment Virtual Machines, Visual Studio Online, Websites et Search. L'interruption a concerné les Etats-Unis, l'Europe et une partie de la région Asie.
En Europe de l'Ouest, ce matin, des clients continuent à en subir les conséquences de façon intermittente, ainsi que l'indique la page de service du site Azure. Celle-ci explique que le service est restauré pour certains clients et que Microsoft travaille directement avec un groupe d'utilisateurs dont les machines virtuelles sont en « Start State ». Des informations seront fournies via le portail d'administration.
Un problème non détecté lors des tests
Microsoft avait testé sa mise à jour de performance sur un ensemble de services de stockage pour Azure Tables afin d'identifier d'éventuels problèmes avant d'en généraliser le déploiement. Or un problème qui n'avait pas été détecté pendant cette procédure de test est intervenu pendant le déploiement général. Il s'est produit un phénomène d'enregistrement en boucle des données binaires (blob) sur le stockage primaire, provoquant par ricochet une interruption sur les services recourant aux fonctions de stockage.
Voilà qui met un peu à mal les arguments du cloud sur l'intérêt à louer des capacités de stockage en ligne plutôt qu'à les installer sur site. Différents sites web d'entreprises mais aussi le service Xbox Live de Microsoft ont été touchés par cette panne.
Un client mécontent annonce son passage sur AWS
Certains utilisateurs font valoir que le déploiement de la mise à jour aurait dû être effectué par étapes plutôt que d'un seul coup sur l'ensemble des régions au niveau mondial. L'équipe d'Azure a reconnu qu'elle n'avait pas suivi le protocole standard qui consiste à appliquer les changements de façon incrémentale sur les systèmes en production.
Sur un fil de discussion, une cliente a indiqué que son entreprise avait décidé, à la suite de cette panne, de transférer tous ses sites sur les services de l'opérateur concurrent Amazon Web Services.