Après avoir eu son heure de gloire au sein de Netflix (et l’outil Chaos Monkey), l'ingénierie du chaos séduit de plus en plus d’entreprise (Mano Mano, SNCF…). Pour autant, casser volontairement un système d’information pour voir comment il réagit et l’améliorer n’est pas une décision à prendre à la légère.

Les sociétés doivent examiner attentivement les ressources exigées, les risques introduits et l'alignement de la démarche sur des objectifs stratégiques plus larges. Il est essentiel de comprendre ces facteurs pour décider si cette approche doit être un élément central ou un outil complémentaire dans la stratégie IT d'une entreprise. Chaque organisation doit déterminer dans quelle mesure elle suivra cette évolution technologique et le temps qu’elle peut attendre pour que son fournisseur IT lui propose des solutions.

Des erreurs de plus en plus fréquentes et coûteuses

Les récentes actualités montrent que les erreurs humaines (mauvaises configuration, problème de code…), les attaques de type DDoS et les pannes peuvent avoir un impact important sur la résilience des infrastructures IT. Ainsi sur les campagnes par déni de service, Cloudflare a enregistré 4 millions d’attaques au deuxième trimestre 2024, en forte progression par rapport au trimestre précédent. Les fournisseurs de cloud ne sont pas épargnés non plus par les défaillances de serveurs ou les cyberattaques. L’actualité la plus emblématique de cet été a eu lieu le 19 juillet avec la panne des services Microsoft Azure. Elle était liée à une mise à jour défectueuse du capteur Falcon de Crowdstrike. Plusieurs firmes ont été touchées avec de lourdes conséquences financières. La compagnie Delta Airlines évoque un manque à gagner de 500 M$.

Cet incident a été un signal d'alarme pour plusieurs raisons. En premier, la plupart des entreprises ont commencé à se rendre compte de leur vulnérabilité. La production pouvait s'arrêter à cause d'une erreur stupide. Deuxièmement, le coût total de cet événement a été beaucoup plus élevé que ce à quoi s'attendaient la plupart des entreprises. Il a également eu un impact plus important que prévu sur des questions non techniques comme les relations publiques et avec les clients. Enfin, l’enseignement que l’on en a tiré, c’est que le plus grand risque vient des personnes et non de la technologie. Se préparer à ces erreurs, donc de se tourner vers l’ingénierie du chaos, est donc devenu une réflexion dans nombre d'organisations, en mettant dans la balance les bénéfices et les contraintes.

Avantages de l'ingénierie du chaos

Supposons qu'une grande société du e-commerce mette en œuvre l'ingénierie du chaos pour tester la résilience de son système cloud pendant les périodes de pointe des achats. Elle utilise un outil dédié pour simuler des charges de trafic accrues qui imitent les conditions du Black Friday. L'équipe introduit délibérément des temps de latence et des arrêts de serveur aléatoires pour observer comment le système réagit au stress. Au cours de ces tests, ils découvrent des goulets d'étranglement dans l'architecture de leur base de données que les tests traditionnels auraient dû déceler. Grâce à des mesures en temps réel, ils mettent rapidement en œuvre des stratégies adaptatives comme la mise à l'échelle automatique des ressources du serveur et l'optimisation des requêtes de la base de données.

En répétant continuellement ces expériences de chaos, la plateforme de commerce électronique résiste non seulement aux pressions simulées, mais améliore sa capacité à s'adapter automatiquement aux pics inattendus. Cela garantit, ou devrait garantir, une expérience client transparente pendant les périodes de vente critiques. Cette approche proactive transforme un chaos potentiel en une opportunité de renforcer la résilience de l'infrastructure. C'est du moins l'idée.

Inconvénients de l'ingénierie du chaos

Malgré ses avantages, l'ingénierie du chaos pose des défis et des questions importants aux entreprises. En premier lieu, il y a l’intensité des ressources mobilisées. En effet, la mise en œuvre de cette méthode nécessite des investissements substantiels dans les bons outils, du personnel qualifié et du temps pour simuler et analyser efficacement les scénarios. Cela peut grever les budgets et détourner l'attention des principaux objectifs de l'entreprise. Autre point de friction, les possibles impacts opérationnels car l’introduction intentionnelle d’erreurs comporte des risques inhérents. Les sociétés doivent être prudentes, car ces pratiques peuvent perturber les services, affecter les performances et créer des effets secondaires indésirables susceptibles d'entraîner le mécontentement des clients ou des pertes financières.

Par ailleurs, l'ingénierie du chaos peut détourner l'attention d'initiatives plus stratégiques. Les entreprises donnent souvent la priorité à des projets simples, basés sur le retour sur investissement, qui contribuent directement à la croissance. S'engager à fond dans la méthode pourrait les détourner de la poursuite d'innovations ou d'améliorations opérationnelles qui présentent des avantages immédiats. Il faut aussi prendre en considération la gestion de la complexité. L’ingénierie du chaos exige une compréhension approfondie des interdépendances au sein des systèmes. Un défi qui pourrait dissuader les entreprises d'appliquer efficacement les principes de cette démarche.

Une choix réfléchi et équilibré

L'ingénierie du chaos offre un mécanisme de défense proactif contre les faiblesses des systèmes, mais les sociétés doivent en évaluer les risques par rapport à leurs objectifs stratégiques. Investir massivement dans l'ingénierie du chaos peut être justifié pour certains, en particulier dans les secteurs où la disponibilité et la fiabilité sont cruciaux. D'autres, en revanche, feraient mieux de se concentrer sur l'amélioration des normes de cybersécurité, la mise à jour de l'infrastructure et le recrutement de talents.

Par ailleurs, il y a lieu de se demander ce que comptent offrir les fournisseurs de services cloud en la matière ? Beaucoup d’entreprises se lancent sur les clouds publics parce qu'elles veulent transférer une partie de la charge aux fournisseurs, y compris l'ingénierie de la fiabilité. Parfois, le modèle de responsabilité partagée est trop axé sur les souhaits des fournisseurs de cloud plutôt que sur ceux de leurs clients. Il est peut-être temps que certains acteurs cloud passent à la vitesse supérieure. Certains l’ont déjà fait comme AWS. En fin de compte, les entreprises devraient réfléchir à la manière dont l'ingénierie du chaos s'inscrit dans leur stratégie IT plus large. En intégrant des éléments qui correspondent à leurs objectifs plutôt qu'en adoptant la méthode en bloc, les sociétés peuvent bénéficier des idées sans être détournées de leurs missions principales. Comme pour toute innovation, la clé réside dans une application judicieuse.