Une erreur humaine à l'origine de la panne OVH

OVH a fourni des explications concernant l'incident qui a provoqué une interruption de plusieurs de ses services et paralysé de très nombreux sites pendant une quarantaine de minutes. L'effacement de la configuration OSPF de l'un de ses deux routeurs parisiens, le gsw-1-a9, est à l'origine de la panne.

On en sait plus sur les origines de la panne réseau qui a frappé hier OVH dans le milieu de l'après-midi. Cet incident, qui a concerné de nombreux services de l'hébergeur et rendu indisponible pendant une quarantaine de minutes de très nombreux sites, est d'origine humaine. « L’un des ingénieurs de l’équipe network a effacé par erreur la configuration OSPF sur l’un de nos 2 routeurs de Paris, gsw-1-a9 », a expliqué Octave Klaba, CTO et fondateur d'OVH dans un billet de support. Un incident couplé ensuite à un suivant : « nous avons eu un bug BGP sur le 3eme routeur reflector, rf-3-a1 qui n’a pas communiqué au reste de la backbone que gsw-1-a9 est down. rf-2-a1 l’a fait et rf-1-a1 a été down durant la panne. Du coup la backbone continuait à se comporter comme si le routeur gsw-1-a9 était UP. Nous avons redémarré toutes les sessions BGP sur rf-3-a1 mais sachant que rf-1-a1 a été en panne avec gsw-1-a9, et donc que seulement rf-2-a1 assurait la synchronisation BGP entre tous les routeurs en Europe, nous avons eu des yoyos dans le réseau en Europe », a également précisé Octave Klaba.

Jeudi en milieu de matinée, certains services rencontrent toujours des difficultés, en particulier dedicated cloud, réseau internet et baies, VPS, hébergements mutualisés, serveurs dédiés et support.

OVH est loin d'être le seul acteur cloud dont les pannes ont été provoquées par des erreurs humaines. On se souvient notamment des cas d'Amazon Web Services en 2011 ou, plus récemment, en décembre dernier de Microsoft qui a connu un bug bloquant sur l'ensemble du système de stockage Azure suite à un changement hasardeux de configuration. En début d'année, l'hébergeur Oxalide avait quant à lui été concerné par une erreur de documentation ayant débouché sur un broadcast storm.