Un accident majeur survenu dans un datacenter de British Airways a mis en évidence l'importance pour les entreprises de tester leurs systèmes de sauvegarde et leurs procédures de récupération après sinistre afin de vérifier que ceux-ci fonctionnent comme prévu. Selon le CEO Alex Cruz, la compagnie aérienne britannique a subi une « panne majeure de ses systèmes informatiques », laquelle a affecté tous ses systèmes d'enregistrement et ses systèmes opérationnels. La panne, survenue samedi 27 mai, a provoqué le retard ou l'annulation de centaines de vols, bloquant des milliers de passagers à l'aéroport londonien de Heathrow – le plus important d’Europe - pendant un week-end férié.
Deux jours plus tard, la situation n’était toujours pas rétablie. Le CEO a simplement parlé de « problème électrique », sans entrer dans les détails, pour expliquer la nature de la panne. Mais une porte-parole de British Airways a évoqué « un problème d'alimentation dans un des datacenters de la compagnie, localisé en Angleterre ». Ajoutant : « une surtension d’une puissance exceptionnelle a entrainé des dommages physiques sur notre infrastructure et un grand nombre de nos systèmes informatiques opérationnels extrêmement complexes sont tombés en panne ». Elle a précisé que l’entreprise avait bien un système de restauration, mais que « celui-ci n’avait pas fonctionné ».
D'autres compagnies aériennes également touchées
British Airways n'est pas la première compagnie aérienne à être perturbée par une panne de courant. Delta Airlines avait subi le même sort en août 2016 après la panne d’un commutateur chargé d’acheminer l'électricité au siège de l'entreprise, clouant au sol ses avions partout dans le monde. Le mois précédent, une panne affectant cette fois un routeur réseau avait également immobilisé les systèmes de la compagnie Southwest Airlines. British Airways possède plusieurs datacenters, et il n’est pas impossible que la surtension ait endommagé deux sites proches l’un de l’autre. En 2012, British Airways avait révélé qu’elle avait installé deux datacenters près de son siège mondial de Waterside près d'Heathrow.
Selon l’entreprise Sunbird qui a fourni le système DCIM (système de gestion de datacenter), ces sites abritent 500 armoires de données réparties sur six salles informatiques. Jusqu'à présent, British Airways ne sait pas pourquoi ses procédures de restauration ont échoué. Le personnel IT a passé ces deux derniers jours à redémarrer les systèmes, et ils n’ont toujours pas terminé. « Après un retour complet à la normale, nous mènerons une enquête exhaustive pour savoir ce qui s’est exactement passé. Surtout, nous ferons en sorte que cela ne se reproduise plus », a encore déclaré la porte-parole.
Tester la restauration
C’est probablement ce qu’espérait aussi Delta Airlines, jusqu'à ce qu’une nouvelle panne de ses systèmes informatiques perturbe à nouveau son activité en janvier 2017 et l’oblige à annuler 150 vols environ. À l’époque, la Federal Aviation Administration (FAA), l’agence gouvernementale chargée des réglementations et des contrôles concernant l'aviation civile aux États-Unis, avait déclaré que des « problèmes d'automatisation » étaient à l’origine de ces annulations de vols. Comme Delta Airlines, la mise en défaut des systèmes de sauvegarde va coûter des centaines de millions de dollars à British Airways, puisque la compagnie doit rembourser les billets et verser des indemnités aux passagers. Toutes les entreprises, même celles qui n’ont pas la responsabilité de faire voler quotidiennement des centaines d'avions, devraient méditer sur ces échecs : toutes les entreprises devraient tester leurs procédures de sauvegarde et restauration, vérifier que le basculement et la continuité de leur activité sont assurés. Avant qu’une catastrophe ne survienne.
Commentaire