Les perturbations engendrées par la mise à jour défectueuse de CrowdStrike, qui a entraîné une panne mondiale des systèmes Windows, a provoqué une onde de choc dans la communauté IT. Pour les responsables informatiques, cet événement rappelle brutalement les risques inhérents à une dépendance excessive à un seul fournisseur, en particulier dans le domaine du cloud.

L'incident qui a vu les systèmes Windows s'effondrer et afficher le fameux « écran bleu de la mort » (BSOD pour Blue screen of death), a mis en évidence les vulnérabilités des infrastructures fortement dépendantes au cloud. Bien que le problème soit en cours de résolution, il souligne les conséquences catastrophiques potentielles d'une défaillance d'un composant de sécurité essentiel. Cette situation doit pousser les DSI à s'interroger sur la résilience de leurs environnements cloud et à explorer d'autres stratégies.

Réévaluer ses dépendances au cloud

« Lorsqu'un problème d'une telle ampleur survient et provoque des perturbations aussi importantes, il est important et nécessaire de réévaluer les convictions, les décisions et les compromis qui ont permis d'aboutir à l'architecture actuelle », estime Abhishek Gupta, DSI de DishTV, l'un des plus grands fournisseurs de télévision par câble d'Inde. « Cette analyse peut déboucher sur un statu quo, mais ce réexamen est nécessaire », reprend le DSI, ajoutant que DishTV est déjà en train de réévaluer sa stratégie cloud de manière progressive après l'incident Crowdstrike.

Shashank Jain, DSI de la société de services financiers Shree Financials, suggère, lui, un changement de stratégie : « les organisations et les RSSI doivent revoir leurs stratégies en matière de cloud, et la mise à jour automatique des correctifs doit être découragée. Tous les correctifs devraient d'abord être testés sur un environnement de test ». Et de souligner que malgré la réputation de CrowdStrike, l'incident soulève un problème de confiance. A cause de correctifs non testés qui ont eu un effet en cascade.

Saurabh Gugnani, directeur et responsable de la cyberdéfense, de l'IAM et de la sécurité des applications au sein du groupe TMF, basé aux Pays-Bas, ajoute qu'une approche équilibrée des stratégies cloud constitue une voie pour atténuer ces risques. « Oui, elles [les entreprises] devraient revoir leurs stratégies cloud. Il faut davantage mixer toutes les solutions disponibles. »

Réviser les plans de continuité

Quelques organisations ont déjà commencé à sauter le pas. « En réponse aux récentes perturbations qui ont affecté nos opérations critiques, nous avons proactivement mis à jour notre plan de continuité des activités pour faire face aux temps d'arrêt inattendus et minimiser leur impact sur la productivité et nos prestations de services », indique par exemple Shivkumar Borade, fondateur et directeur général de Mytek Innovations, une société de services IT indienne victime de l'effet BSOD. « Notre plan révisé comprend une gestion améliorée de la communication, avec plusieurs niveaux pour s'assurer que tous les employés sont bien informés des problèmes potentiels et de leur résolution ».

Lors de la panne Crowdstrike, la communication interne de l'entreprise a été considérablement perturbée, l'ensemble de son réseau, y compris Outlook, Teams et SharePoint, étant hébergé sur Microsoft 365. « Cependant, notre application développée en interne n'a pas été affectée, car GoDaddy utilise sa propre infrastructure d'hébergement, souligne le dirigeant. Nous avons rencontré des problèmes avec quelques intégrations par API liées à la plateforme Azure, qui n'ont pas fonctionné pendant toute la journée. Ces perturbations ont entraîné une interruption des services pour nos clients et nos utilisateurs. »

La confiance dans les outils de sécurité mise en cause

L'une des principales préoccupations des DSI réside dans le lock-in, une dépendance à un fournisseur bloquant tout contournement aisé de ses services. La dépendance à l'égard d'un seul fournisseur de cloud, comme l'a montré l'incident CrowdStrike, crée un point de défaillance unique. Si un service critique de ce fournisseur est interrompu, cela peut avoir des conséquences considérables pour une organisation. Pour atténuer ce risque, les DSI peuvent miser sur des architectures multicloud ou hybrides, se traduisant par une répartition des applications sur plusieurs plates-formes.

Allie Mellen, analyste chez Forrester, souligne l'importance d'outils et de services fiables pour faire face aux cybermenaces. « La fiabilité des outils et des services utilisés par les équipes de cybersécurité est essentielle face aux cyberattaques, dit-elle. Un incident comme celui-ci remet en question cette fiabilité. Cela va sans aucun doute susciter des interrogations et des inquiétudes de la part des dirigeants sur la manière de garantir la fiabilité de leurs systèmes, en particulier avec une technologie aussi intégrée dans les opérations quotidiennes que les logiciels de cybersécurité ».

L'incident a mis en évidence la fragilité des systèmes dépendant du cloud, où un point de défaillance unique peut avoir des effets en cascade sur l'ensemble d'une organisation. Pour Sunil Varkey, professionnel de la sécurité et conseiller principal chez Beagle Security, « la confiance entre les fournisseurs de services cloud et les éditeurs de solutions de sécurité est désormais remise en question. Cette rupture de confiance devrait conduire à mettre davantage l'accent sur les solutions sans agent, qui peuvent offrir une sécurité accrue sans les vulnérabilités associées aux agents traditionnels. »

8,5 millions de PC sous Windows touchés

Car la panne provoquée par CrowdStrike constitue l'un des pires événements en matière de cybersécurité, compte tenu de l'ampleur de son impact. L'incident a touché des ordinateurs fonctionnant sous Windows dans divers secteurs, notamment les compagnies aériennes, les banques, les distributeurs, les maisons de courtage, les médias et les chemins de fer. Le secteur du voyage a été particulièrement touché, les compagnies aériennes et les aéroports d'Allemagne, de France, des Pays-Bas, du Royaume-Uni, des États-Unis, d'Australie, de Chine, du Japon, d'Inde, de Singapour et de Taïwan ayant rencontré d'importants problèmes avec les systèmes d'enregistrement et de billetterie, provoquant des retards de vols et le chaos dans certains aéroports. Microsoft a reconnu qu'environ 8,5 millions d'ordinateurs sous Windows avaient été touchés. L'impact a été tel que le Pdg de SpaceX et Tesla, Elon Musk, a décidé de supprimer CrowdStrike de tous les systèmes des entreprises qu'il dirige.

Amélioration des pratiques de gestion des risques

L'incident a également mis en évidence la nécessité d'améliorer les pratiques de gestion des risques. Une plus grande diligence dans la reprise, le test rigoureux des mises à jour et leurs déploiements progressifs apparaissent désormais comme des pratiques indispensables. « Cet incident a servi de signal d'alarme, soulignant la nécessité d'une adaptation et d'une amélioration continue des pratiques de cybersécurité dans l'ensemble du secteur », reconnaît Gaurav Ranade, directeur de la technologie chez l'éditeur de logiciels RAH Infotech.

D.R. Goyal, architecte chez Rakuten Symphony, une société du groupe Rakuten fournissant des services pour le marché des télécoms, plaide ainsi un mécanisme permettant de tester les mises à jour auprès d'utilisateurs sélectionnés avant leur diffusion complète : « Il devrait y avoir un mécanisme permettant de tester les mises à jour auprès de certaines organisations et d'un ensemble d'utilisateurs restreint avant de les diffuser à l'ensemble de la communauté et de la base d'utilisateurs, afin de réduire l'impact d'un incident potentiel. »

À mesure que le paysage numérique évolue, garantir la résilience des systèmes basés sur le cloud devient incontournable. « L'incident a des implications très importantes sur l'économie mondiale ; des temps d'arrêt et de rétablissement plus longs auront un impact sur la productivité et l'économie », note Ashis Guha, fondateur de la société de conseils An Idea Global Innovations

Tests approfondis des mises à jour et déploiements progressifs

Les experts du secteur recommandent plusieurs stratégies pour préparer de futurs incidents, notamment des déploiements progressifs, des tests complets et des systèmes de sauvegarde robustes. Siddharth Ugrankar, cofondateur de la société de blockchain Qila, estime qu'un déploiement progressif et des tests approfondis des mises à jour auraient pu atténuer l'impact : « Si CrowdStrike avait déployé la mise à jour de manière progressive, l'impact aurait été bien moindre », juge-t-il.

Les entreprises qui souhaitent éviter des problèmes similaires à l'incident CrowdStrike doivent renforcer leur gestion des mises à jour, en améliorant les protocoles de test dans divers environnements, en mettant en oeuvre des évaluations rigoureuses des risques et en renforçant les processus de gestion des changements avec une gouvernance solide associée, résume Moyukh Goswami, CTO de Nuvepro, société spécialisée dans la formation. « Il est essentiel de renforcer ses capacités de monitoring, d'affiner les plans de réponse aux incidents, en les adaptant aux défaillances consécutives aux mises à jour, et de favoriser des relations proactives avec les fournisseurs », ajoute le CTO.

L'incident CrowdStrike souligne la nécessité pour les DSI de revoir et de renforcer leurs stratégies en matière de cloud computing. En mettant en oeuvre de solides pratiques de gestion des risques, en renforçant les mesures de sécurité et en diversifiant les solutions de cloud, les entreprises peuvent mieux se protéger contre de futures perturbations. Alors que l'industrie est toujours aux prises avec les implications de la panne Crowdstrike, l'accent doit être mis sur l'élaboration de stratégies de cloud résilientes, adaptables et testées en profondeur, afin de naviguer dans un paysage numérique toujours plus complexe.