L'éditeur de solutions de cybersécurité CrowdStrike a provoqué une série de pannes de systèmes informatiques dans le monde entier le vendredi 19 juillet, perturbant de nombreux secteurs d'activité et semant le chaos dans des aéroports, dans certaines institutions financières ou établissements de santé, entre autres. En cause, une mise à jour défectueuse de Falcon, la plateforme de détection et de réponse aux intrusions (EDR) de CrowdStrike, qui a fait planter les machines Windows et les a entraînées dans un cycle de reboot infini mettant hors service les serveurs et faisant apparaître des « écrans bleus de la mort » (BSOD, Blue Screen of Death) un peu partout dans le monde.

1) Comment s'est déroulée la panne ?

Les entreprises australiennes ont été parmi les premières à signaler des difficultés vendredi matin, et certaines ont continué à rencontrer des problèmes tout au long de la journée. À l'aéroport de Sydney, retards et annulations s'enchaînent. À 18 heures, heure normale à l'Est de l'Australie, Bank Australia a publié sur sa page d'accueil une annonce indiquant que les services de son centre de contact rencontraient toujours des problèmes.

A mesure que la journée avance, les mauvaises nouvelles s'enchaînent. Les entreprises du monde entier rencontrent des difficultés. Les voyageurs des aéroports de Hong Kong, d'Inde, de Berlin et d'Amsterdam subissent des retards et annulations. L'administration fédérale de l'aviation des Etats-Unis indique que les compagnies aériennes américaines ont immobilisé tous leurs vols pendant un certain temps, rapporte le New York Times.

2) Quel a été l'impact de la panne ?

Les logiciels de CrowdStrike, l'une des plus grandes entreprises de cybersécurité au monde, sont très populaires au sein des entreprises du monde entier. On estime ainsi que plus de la moitié des entreprises du classement Fortune 500 utilisent ses produits de sécurité. C'est pourquoi les retombées de la mise à jour défectueuse ont été considérables, certains la qualifiant de « plus grande panne informatique de l'histoire ».

Pour illustrer ces propos, plus de 3 000 vols intérieurs, à l'entrée ou en sortie des États-Unis ont été annulés le 19 juillet, et plus de 11 000 ont été retardés. Les avions ont continué à être cloués au sol dans les jours qui ont suivi, avec près de 2 500 vols annulés et plus de 38 000 vols retardés trois jours après la panne.

La panne a également eu des répercussions importantes sur le secteur de la santé, certains systèmes de soins et hôpitaux reportant la totalité ou la plupart des actes programmés et les cliniciens étant obligés de revenir au papier et au crayon, faute de pouvoir accéder aux dossiers électroniques.

Compte tenu de la nature du correctif et de la popularité du logiciel de CrowdStrike, les organisations informatiques ont travaillé jour et nuit pour restaurer leurs systèmes, mais nombre d'entre elles sont encore embourbées dans cette tâche plusieurs jours après la publication de la mise à jour défectueuse diffusée par CrowdStrike.

3) Qu'est-ce que CrowdStrike Falcon ?

CrowdStrike Falcon est un logiciel de détection et de réponse aux incidents pour les points d'accès. En jargon, un EDR. Ce type de solutions surveille les appareils des utilisateurs finaux sur un réseau pour détecter les activités et comportements suspects, réagissant automatiquement pour bloquer les menaces et sauvegarder les données des activités jugées à risque, en vue d'une enquête plus approfondie.

Comme toutes les plateformes EDR, CrowdStrike dispose d'une visibilité maximale sur tout ce qui se passe sur un terminal - processus, modifications des paramètres du registre, activité sur les fichiers et le réseau - qu'il associe à des capacités d'agrégation et d'analyse des données afin de reconnaître et contrer les menaces via des processus automatisés ou une intervention humaine.

Pour cette raison, Falcon est un logiciel doté d'un haut niveau de privilèges avec des accès très étendus aux systèmes qu'il surveille, ce qui le rend étroitement intégré aux systèmes d'exploitation. Un EDR dispose, par ailleurs, de la capacité à mettre fin aux activités qu'il juge malveillantes. Cette intégration étroite s'est avérée être une faiblesse pour les DSI dans le cas présent, rendant les machines Windows inopérantes en raison de la mise à jour défectueuse de Falcon.

Crowstrike a également introduit dans Falcon for IT des capacités d'automatisation alimentée par l'IA, afin, selon l'éditeur, de combler le fossé entre les opérations informatiques et les opérations de sécurité.

4) Quelle est la cause de la panne de CrowdStrike ?

Dans un billet de blog publié le 19 juillet, George Kurtz, Pdg de CrowdStrike, s'est excusé auprès des clients et partenaires de l'entreprise. Séparément, l'entreprise a fourni les premiers détails sur les causes du désastre. Selon cette communication, une mise à jour défectueuse du contenu de sa plateforme Falcon EDR a été envoyée aux machines Windows à 04:09 UTC (Coordinated Universal Time) le vendredi 19 juillet. Une procédure tout ce qu'il y a de plus banal. CrowdStrike envoie généralement plusieurs fois par jour des mises à jour des fichiers de configuration (appelés « Channel Files ») pour les sondes Falcon déployées sur les endpoints.

Le défaut qui a déclenché la panne se trouvait dans le Channel File 291, qui est stocké dans « C:\NWindows\NSystem32\Ndrivers\NCrowdStrike\N » avec un nom de fichier commençant par « C-00000291- » et se terminant par « .sys ». Ce fichier transmet au capteur Falcon des informations sur la manière d'évaluer l'exécution de « tubes nommés », que les systèmes Windows utilisent pour la communication intersystème ou interprocessus. Ces commandes ne sont pas intrinsèquement malveillantes même si elles peuvent être utilisées à mauvais escient.

Et, précisément, « la mise à jour qui a eu lieu à 04:09 UTC a été conçue pour cibler les « tubes nommés » associés à des activités malveillantes récemment observées et utilisés par des structures C2 [soit l'infrastructure de commande et contrôle des assaillants] courantes dans les cyberattaques », explique le document technique de l'éditeur. Sauf que, précise CrowdStrike, « la mise à jour de la configuration a déclenché une erreur logique qui a entraîné un plantage du système d'exploitation ».

Lors du redémarrage automatique, les systèmes Windows sur lesquels le fichier Channel 291 défectueux était installé se bloquaient à nouveau, provoquant un cycle de redémarrage sans fin. Signalons que la mise à jour défectueuse n'a affecté que les systèmes fonctionnant sous Windows, les machines Linux et MacOS étant épargnées, selon l'éditeur.

5) Comment CrowdStrike a-t-il réagi ?

Selon la communication officielle, CrowdStrike a diffusé très rapidement un correctif supprimant le contenu défectueux du fichier Channel 291. 79 minutes seulement après l'envoi de la mise à jour défectueuse. Les machines qui n'avaient pas encore été mises à jour avec le Channel File 291 n'ont pas été affectées par l'erreur de l'éditeur. Mais les machines qui avaient déjà téléchargé le contenu défectueux n'ont pas eu cette chance.

Pour remédier à la situation de ces systèmes bloqués dans un cycle de redémarrage sans fin, CrowdStrike a publié un autre billet de blog contenant une série d'actions à effectuer. On y trouve des suggestions pour la détection à distance et la récupération automatique des systèmes affectés, ainsi que des instructions détaillées pour mettre en place des solutions de contournement temporaires pour les machines physiques ou les serveurs virtuels touchés. Y compris des redémarrages manuels.

6) Comment s'est déroulée la reprise après la panne ?

Pour de nombreuses organisations, la reprise reste une problématique ouverte. L'une des solutions proposées pour remédier aux effets de la mise à jour consiste à redémarrer manuellement chaque machine en mode sans échec, à supprimer le fichier défectueux et à redémarrer l'ordinateur. PC par PC et serveur par serveur !

Notons que certaines organisations, qui avaient mis en place des plans de renouvellement de leur matériel, envisagent de les accélérer afin de remplacer les machines touchées plutôt que d'engager les ressources nécessaires pour effectuer la réparation à la main de leur flotte.

7) Quelles sont les retombées de cet échec pour CrowdStrike ?

Outre la réparation de leurs machines Windows, les responsables informatiques et leurs équipes évaluent les leçons à tirer de cette panne de grande ampleur, beaucoup cherchant à éviter les points de défaillance uniques et à réévaluer leurs stratégies en matière de cloud.

Quant à CrowdStrike, le Congrès américain a demandé à son Pdg de témoigner lors d'une audition portant sur cette panne technologique. Selon le New York Times, Mark Green (un Républicain élu à la chambre des représentants), président de la commission de la sécurité intérieure, et le représentant Andrew Garbarino (un autre élu républicain) ont envoyé une lettre à George Kurtz. Les Américains « méritent de savoir en détail comment cet incident s'est produit et quelles mesures d'atténuation CrowdStrike a prises », ont-ils écrit, selon le New York Times.