Le matin du 30 août 2023, un incendie se déclare dans un datacenter exploité par le géant belge des télécommunications Proximus. Rapidement, les numéros d'urgence 112, 101 et 100, qui servent à appeler les ambulances, les pompiers et la police, deviennent injoignables. Près d'une demi-heure sera nécessaire pour rétablir ces services essentiels.

Chaque minute d'inactivité d'une organisation peut coûter beaucoup d'argent, voire, comme dans le cas cité plus haut, se traduire par la perte de vies humaines. Et si les attaques de ransomware font la une des journaux, les catastrophes naturelles peuvent également être dévastatrices.

Les incendies, les pannes électriques, les tremblements de terre, les ouragans et même les tirs de missiles dans des régions déchirées par la guerre comme l'Ukraine peuvent faire tomber un datacenter. Souvent, il n'y a aucun moyen de prédire quand de tels événements se produiront, mais certains risques peuvent être atténués via un plan de reprise adéquat. La préparation aux catastrophes naturelles est toutefois différente de la gestion des attaques par ransomware, car le type de dommages et les priorités diffèrent.

Catastrophe ou attaque par ransomware : les priorités diffèrent

La reprise après sinistre se concentre généralement sur l'infrastructure physique, comme les supports de stockage et l'équipement réseau, tandis que la reprise après attaque par ransomware se focalise sur l'intégrité des données et la protection contre les cybermenaces. « En cas de sinistre, il est tout à fait possible qu'il faille remplacer le matériel. Dans le cas d'une cyberattaque, le matériel sera probablement récupérable, il suffit de réinitialiser l'appareil », explique Amar Ramakrishnan, vice-président produits chez BackBox.

Les catastrophes naturelles pouvant affecter les datacenters de multiples façons, les entreprises doivent élaborer plusieurs plans et établir clairement les priorités associées. « Comprendre et documenter les scénarios pour lesquels vous serez préparés et ceux qui resteront hors de portée est une partie importante du processus de planification de la reprise après sinistre », reprend Amar Ramakrishnan.

Les catastrophes naturelles et les attaques de ransomware peuvent créer d'énormes difficultés pour les entreprises. « Bien que chaque type d'événement soit différent, tous peuvent entraîner des pertes catastrophiques qui peuvent obliger les entreprises à fermer leurs portes pendant une longue période voire à cesser complètement leurs activités », déclare Steve Butterfield, vice-président pour les ventes en EMEA chez Arcserve.

La résilience ne doit pas se limiter à cocher des cases

De nombreuses organisations abordent les mesures de reprise après sinistre et de réponse aux cyberattaques sous l'angle de la conformité. Elles veulent cocher toutes les cases requises par la législation, ce qui signifie que, parfois, « elles font le strict minimum », observe Igor Volovich, vice-président de la stratégie de conformité chez Qmulos.

Bien que l'approche conformité soit nécessaire, elle n'est pas suffisante. La meilleure stratégie, suggère-t-il, consiste à considérer les exigences de conformité comme un guide détaillé et d'adopter une vision plus holistique basée sur des données automatiquement collectées, analysées et rapportées en temps réel. Cela implique, bien sûr, de renforcer la posture de sécurité, ainsi que d'élaborer ou de mettre à jour un plan complet de reprise après sinistre.

« Votre plan doit comprendre votre stratégie de sauvegarde des données - y compris vos objectifs en termes de point de récupération (RPO) et de délai de récupération (RTO) - ainsi que des procédures détaillées pour la restauration des données, la reprise du système et la continuité des activités », explique Steve Butterfield.

Ce dernier recommande une stratégie de sauvegarde dite 3-2-1-1, consistant à conserver trois copies des données (une copie principale et deux de sauvegarde), avec des copies stockées localement sous deux formats, et une copie stockée hors site dans le cloud ou dans un espace de stockage sécurisé. La dernière copie correspond à un stockage immuable, dans lequel vos données sont enregistrées dans un format « write-once-read-many-time », qui ne peut être ni modifié ni supprimé. « L'immuabilité diffère du chiffrement dans le sens où il n'y a pas de clé et qu'il ne devrait donc y avoir aucun moyen de revenir sur l'immuabilité de la donnée, explique Steve Butterfield. Elle vous offre une dernière ligne de défense contre n'importe quelle catastrophe ». L'expert préconise le stockage cloud, qui offre « une évolutivité et une flexibilité inégalées ». Certaines solutions sur le cloud permettent une récupération rapide grâce à des sauvegardes automatisées et à la réplication dans plusieurs datacenters, de sorte que, même en cas de catastrophe localisée, les données restent accessibles.

Des plans de reprise sur papier

En plus du cloud, les entreprises peuvent envisager la sauvegarde sur bande, une option fiable et abordable. « La bande est une excellente option pour l'archivage à long terme des données et elle est particulièrement efficace pour le stockage hors site 'air-gapped', qu'il s'agisse d'un air gap virtuel ou physique, explique Steve Butterfield. Les bandes sont également une solution économiquement très rentable pour les gros volumes de données. »

Lorsqu'il s'agit d'élaborer la stratégie de résilience, Amar Ramakrishnan recommande d'établir des plans distincts pour les différentes crises potentielles et de les stocker dans des dossiers physiques dans le centre des opérations réseau, en plus des copies électroniques. « Bien que l'accès électronique soit crucial, la documentation physique fournit une sauvegarde tangible et reste facilement accessible dans les situations où les systèmes numériques peuvent être compromis », explique-t-il.

Les temps d'arrêt peuvent également être réduits si les ingénieurs sont bien préparés à gérer les incidents, qu'il s'agisse de catastrophes naturelles, de pannes ou d'attaques par ransomware. « Assurez-vous que l'équipe réseau est impliquée dans les discussions sur la reprise après sinistre au sein de l'entreprise », précise Amar Ramakrishnan. Dans les organisations les moins matures sur ces sujets, les discussions sur les modalités de reprise se déroulent en effet parfois en l'absence d'un membre de l'équipe réseau.

Un site secondaire à l'utilité variable

La stratégie de réponse aux sinistres et aux attaques de ransomware se concentre sur la remise en service des systèmes et la réduction des temps d'arrêt. Lors d'une catastrophe naturelle ou d'un autre type d'événement ayant un impact sur les systèmes informatiques, le matériel et la connectivité peuvent être perdus, ce qui rend le processus de récupération plus difficile. Dans de telles situations, « il est courant que le site de production d'une organisation touchée soit partiellement ou complètement hors ligne », souligne Sergei Serdyuk, vice-président produits chez Nakivo.

Lorsqu'une catastrophe survient, les organisations doivent se concentrer sur la restauration de l'infrastructure physique, la relocalisation des opérations, la sécurité des équipes et le rétablissement de la continuité opérationnelle. Elles doivent utiliser des outils de gestion logistique et de communication pour coordonner ces efforts. « La procédure standard prévoit un basculement vers un site dédié à la reprise après sinistre, qui continue à prendre en charge les opérations de base jusqu'à ce que le site principal soit entièrement rétabli », reprend Sergei Serdyuk.

En revanche, il est rare que les attaques par ransomware entraînent la perte de l'infrastructure. Les dommages se situent plutôt au niveau des applications et des données, et les mesures de récupération des données et de cybersécurité doivent alors être prioritaires. « Dans de tels cas, un site de reprise après sinistre peut s'avérer nécessaire, mais uniquement dans le but de mettre en place un environnement de reprise isolé, qui permet de protéger l'intégrité des données, d'empêcher la réinfection par le ransomware et d'accélérer l'endiguement de l'attaque », détaille Sergei Serdyuk.

Igor Volovich ajoute que les organisations devraient utiliser des outils de déchiffrement (pour tenter d'inverser l'attaque), des outils d'analyse de l'attaque et des plateformes de renseignement sur les menaces. Elles doivent également communiquer avec les différentes parties prenantes de l'organisation au sujet de l'événement et des mesures prises. Une stratégie de sauvegarde et de récupération bien élaborée, avec des sauvegardes fiables, permettra évidemment une récupération plus rapide des systèmes.

Disposer d'un inventaire et d'un responsable

La préparation aux catastrophes nécessite du temps, des ressources et une attention particulière aux détails. Et il n'est pas rare que les organisations négligent certains éléments ou en sous-estiment d'autres. Par exemple, disposer d'un inventaire complet de tous les actifs informatiques - matériel, logiciels, données et ressources réseau - s'avère essentiel. « Il s'agit d'un point de départ essentiel pour un plan de reprise efficace. Sans savoir exactement ce qui doit être protégé, il y a un risque potentiel à ne pas récupérer toutes les données essentielles en cas de sinistre », explique Steve Butterfield.

Et de conseiller un classement des actifs en fonction de leur importance pour les métiers de l'entreprise, une hiérarchie qui doit servir de base au processus d'évaluation des risques. Cette dernière doit bien sûr être méticuleuse, mais également vue comme un processus continu afin de tenir compte des nouvelles menaces et des nouvelles technologies qui ne cessent d'émerger.

Amar Ramakrishnan va plus loin et recommande de nommer un responsable de la reprise après sinistre, une personne chargée de superviser le processus de planification. « Ce responsable doit avoir une formation en informatique pour comprendre les défis, de solides compétences en gestion de projet et un sens aigu du business », explique-t-il. Une partie de sa mission consiste à constituer une équipe composée d'experts de chaque service IT ainsi que d'intervenants clés des départements métiers essentiels.

Le test, outil clé pour rendre la procédure fiable

Le responsable de la reprise après sinistre peut faire pression pour s'assurer de la robustesse des procédures de sauvegarde et de récupération. « Trop d'entreprises essaient de restaurer leurs données à partir d'une sauvegarde et se rendent alors compte que, pour une raison ou une autre, la sauvegarde n'a pas fonctionné depuis un certain temps », explique Amar Ramakrishnan. « S'il y a une chose à retenir, c'est que tester votre capacité à restaurer en cas d'urgence est un élément essentiel de toute stratégie de sauvegarde. Si vous ne testez pas vos sauvegardes et le processus de restauration par votre équipe, vous vous exposez à un échec ».

Sergei Serdyuk reconnaît qu'il faudrait procéder à davantage de tests pour rendre les procédures de restauration plus robustes. « Elles [les entreprises] effectuent souvent des tests irréguliers ou superficiels, sans tenir compte de scénarios très défavorables, tels que des cyberattaques simultanées, des catastrophes naturelles ou des pannes d'électricité », estime-t-il. Ces exercices devraient impliquer des participants de tous les services, et les enseignements tirés de chaque session devraient être utilisés pour améliorer la préparation.

En fin de compte, qu'il s'agisse d'un RSSI, d'un DSI ou d'un responsable informatique, les personnes qui participent au processus ont un rôle crucial à jouer dans l'amélioration et l'exécution de ces plans de restauration. C'est pourquoi ils doivent travailler en bonne intelligence. Amar Ramakrishnan recommande également d'élaborer un plan de communication interne qui « permettra de réduire au minimum les pertes de temps dues à la confusion qui risque de régner en cas de catastrophe ».