Des excuses et des explications. Après la gigantesque panne ayant frappé des millions de systèmes informatiques Windows (les systèmes Linux et MacOS ne sont pas concernés) suite à une mise à jour logicielle Crowdstrike défectueuse, le CEO de l'éditeur de sécurité américain s'est adressé à ses clients et partenaires. "Je tiens à m'excuser sincèrement auprès de vous tous pour la panne d'aujourd'hui. Tout le personnel de CrowdStrike comprend la gravité et l'impact de la situation », a expliqué George Kurtz, fondateur et CEO de CrowdStrike. Dans son message, le dirigeant a réitéré le message précédent de l'entreprise selon lequel l'incident, qui a mis hors service des millions d'ordinateurs dans le monde entier le vendredi 19 juillet, n'était pas le résultat d'une cyberattaque. Un scénario non retenu également à ce stade également par l'Anssi et le CERT-FR.
Quelle est la cause du crash de CrowdStrike ?
La panne a été causée par une mise à jour défectueuse du capteur de l'agent Falcon Sensor diffusée automatiquement à tous les hôtes Windows qui en sont équipés vendredi 19 juillet à 04h09 UTC (06h09 heure française) et un correctif a été diffusé 79 minutes plus tard, a indiqué la société samedi. Bien entendu, il était déjà trop tard car de nombreux systèmes ayant reçu cette mise à jour étaient déjà hors ligne. « Les systèmes utilisant le capteur Falcon pour Windows 7.11 et supérieur qui ont téléchargé la configuration mise à jour entre 04:09 UTC et 05:27 UTC étaient susceptibles de subir une panne du système », indique le billet de blog. Dans certains cas, ces pannes de systèmes utilisant le capteur Falcon ont entraîné des vols manqués, la fermeture de centres d'appels et l'annulation d'opérations chirurgicales, car de nombreux systèmes Windows affectés affichaient le fameux écran bleu de la mort. Néanmoins, George Kurtz a insisté dans sa lettre sur le fait qu'« il n'y a aucun impact sur la protection si le capteur Falcon est installé ». C'est peut-être vrai pour les systèmes qui n'ont pas reçu la mise à jour du contenu défectueux, et à proprement parler, un système qui ne fonctionne plus n'a pas besoin de protection, mais les clients concernés se demanderont si CrowdStrike a vraiment protégé leurs systèmes pendant ces 79 minutes critiques.
Quel était le défaut de la mise à jour de CrowdStrike ?
CrowdStrike met à jour plusieurs fois par jour les fichiers de configuration des agents de ses solutions endpoint qui font partie de sa plateforme Falcon. Ces mises à jour sont appelées Channel Files. Le défaut se trouve dans un fichier appelé Channel 291. Ce fichier est stocké dans un répertoire nommé « C:\NWindows\NSystem32\Ndrivers\NCrowdStrike\N » et dont le nom commence par C-00000291- et se termine par .sys. Malgré l'emplacement et le nom du fichier, il ne s'agit pas d'un pilote de noyau Windows, a insisté CrowdStrike. Le fichier de canal 291 est utilisé pour transmettre au capteur Falcon des informations sur la manière d'évaluer l'exécution d'un canal nommé (named pipe). Les systèmes Windows utilisent ces canaux pour la communication inter-systèmes ou inter-processus, et ne constituent pas en eux-mêmes une menace - bien qu'ils puissent être utilisés à mauvais escient. La mise à jour qui a eu lieu à 04:09 UTC a été conçue pour identifier les canaux nommés malveillants récemment observés et utilisés par les structures C2 [commande et contrôle] courantes dans les cyberattaques, explique le billet de blog technique du fournisseur. Mais cette mise à jour de la configuration a déclenché une erreur logique ayant entraîné une panne du système d'exploitation.
Quelle est l'ampleur de cet incident ?
Microsoft a communiqué samedi 20 juillet sur le nombre d'hôtes Windows touchés par cette panne. "Nous estimons actuellement que la mise à jour de CrowdStrike a affecté 8,5 millions de terminaux Windows, soit moins d'un pour cent de toutes les machines Windows", a expliqué David Weston, vice-président de l'activité Enterprise and OS Security de Microsoft. "Bien que le pourcentage soit faible, les impacts économiques et sociétaux importants reflètent l'utilisation de CrowdStrike par des entreprises qui gèrent de nombreux services critiques." Si le dirigeant pointe que cet incident n'est pas dû à Microsoft, l'éditeur indique avoir réagi pour aider les entreprises à remettre leurs systèmes en ligne en s'engageant avec CrowdStrike pour automatiser leur travail de développement d'une solution, mobiliser des centaines d'ingénieurs et d'experts pour travailler directement avec ses clients pour rétablir les services, publier de la documentation et des scripts de remédiation manuelle, tenir les clients informés de l'état d'avancement de l'incident par le biais du tableau de bord de l'état d'Azure. Mais aussi collaborer avec d'autres fournisseurs de cloud et parties prenantes, y compris Google Cloud Platform (GCP) et Amazon Web Services (AWS), pour partager la connaissance de l'état de l'impact observé et informer des conversations en cours avec CrowdStrike et les clients.
Crowdstrike a expliqué quelques dizaines d'heures plus tard que sur les quelque 8,5 millions de terminaux Windows qui ont été touchés, un grand nombre sont de nouveau en ligne et opérationnels
Une résolution rapide mais une reprise lente
Pour que le problème ne se reproduise plus, il a suffi de supprimer le contenu défectueux du fichier : "CrowdStrike a corrigé l'erreur logique en mettant à jour le contenu du fichier Channel 291. Cela n'a cependant pas résolu le problème pour les très nombreuses PC Windows qui avaient déjà téléchargé le contenu défectueux et s'étaient ensuite bloquées. Pour ces derniers, CrowdStrike a publié un autre billet de blog contenant une série beaucoup plus longue d'actions à effectuer par les clients concernés, avec des suggestions pour la détection à distance et la récupération automatique des systèmes affectés, ainsi que des instructions détaillées pour des solutions de contournement temporaires pour les machines physiques ou les serveurs virtuels affectés. "Les systèmes qui ne sont pas actuellement affectés continueront à fonctionner comme prévu, à fournir une protection et ne risquent pas de subir cet événement à l'avenir", indique Crowdstrike.
"En collaboration avec nos clients, nous avons testé une nouvelle technique pour accélérer la restauration des systèmes touchés", a dernièrement fait savoir Crowdstrike. "Nous sommes en train de mettre en place un système d'opt-in pour cette technique. Nous progressons de minute en minute. Nous sommes conscients de l'impact profond que cette situation a eu sur tout le monde. Nous savons que nos clients, nos partenaires et leurs équipes informatiques travaillent sans relâche et nous leur en sommes profondément reconnaissants. Nous nous excusons pour les perturbations que cela a engendrées. Notre objectif est clair : restaurer chaque système dès que possible. Nous continuerons à fournir des mises à jour au fur et à mesure que des informations seront disponibles et que de nouveaux correctifs seront déployés."