La nuit de mardi dernier a été longue pour les équipes de Free Pro et pour ses clients. En effet, vers 22 heures hier, une fuite s'est déclarée sur le circuit de refroidissement primaire du datacenter MAR02 de l’opérateur à Marseille (issu du rachat de Jaguar Network). Elle a entraîné une élévation rapide des températures dans les salles machines. Une surchauffe qui s’est propagée à une grande partie du datacenter (comme le montre le graphique ci-dessous partagé par Dynamic Host). Au point où Denis Planat, directeur général de Free Pro, a pris la décision un peu avant minuit de couper l’électricité alimentant l’ensemble des machines. « Ce n’est pas une décision facile à prendre, mais nous ne voulions pas endommager les équipements », souligne le dirigeant.
Les températures ont grimpé rapidement selon Dynamic Host. (Crédit Photo : Dynamic Host)
Une cellule de crise a été mise en place à la fois pour identifier et résoudre le problème, mais aussi pour contacter les clients et leur expliquer la situation. Les équipes de Free Pro ont communiqué sur le compte Twitter Jaguar Network by Free Pro en réalisant des points d’information réguliers. Dans un de ses messages, la firme conseillait aux clients d’activer leur PRA et quelques-uns l’ont fait.
Un retour à la normal en cours
Dans la matinée, le diagnostic a été établi et la fuite a été réparée. « Nous avons alors relancé le système, salle par salle en fin de matinée », nous précise Denis Planat. Le retour à la normale ou situation nominale dans le jargon des datacenters prendra encore un peu de temps, « certains de nos clients disposent de leurs propres infrastructures et vont faire des vérifications de leurs installations », glisse le dirigeant.
L’incident aura donc duré plusieurs heures et l’interruption de services a impacté beaucoup d'entreprises. Certains ont fait part de leur mécontentement sur les réseaux sociaux arguant d’une perte de chiffre d’affaires sur la matinée. Denis Planat met en avant « les capacités de réaction des équipes pour contacter et aider les clients » et « ces derniers sont plutôt solidaires avec nous ». Une analyse post-mortem sera réalisée pour connaître les raisons exactes de la fuite et les éventuelles responsabilités. Cet incident maîtrisé intervient après plusieurs autres évènements touchant Global Switch à Clichy (une fuite et un incendie qui a touché notamment Google Cloud) et le datacenter Maxnod d’Adeli parti en fumée. Sans oublier le cas OVH à Strasbourg et ses répercussions juridiques.
A quoi sert le label /certificat IDCA et TierIII ou V qui prévoit la redondance et un diowntile de moins de 5 minutes /année ?
Signaler un abusFait chaud sur les DT Français!!
Signaler un abusLes certifications multiples, la redondance N+1 ou N+2 ne servent à rien semble-t-il, puisqu'une fuite sur un circuit ne permet pas de continuer l'exploitation. On a donc un "single point of failure" alors que la norme Tier4 devrait l'éviter.
Signaler un abusJ'ai aussi été étonné que le site web de la Gendarmerie Nationale n'ait pas de failover sur un autre datacenter, alors qu'il passe pourtant par un CDN.