Depuis ces débuts par les équipes de Netflix, l’ingénierie du chaos a séduit d’autres entreprises comme récemment AWS. Une enquête menée par Gremlin, éditeur d’une plateforme dédiée au chaos, montre que cette méthode se développe et apporte des bénéfices à ces sociétés.
L’étude a interrogé plus de 400 personnes provenant de différents secteurs d’activité et de toutes tailles. Une forte majorité des répondants est issue d’éditeurs de logiciels et du secteur bancaire. Le profil des usagers de l’ingénierie du chaos est fortement orienté cloud avec 58% des sondés qui exécutent leurs charges de travail sur le cloud public (AWS pour 38% et Google et Microsoft à 12% chacun). En matière de base de données, ils se servent de MySQL et PostgreSQL à hauteur de 22% chacun. MongoDB (16%), DynamoDB (14%) et Cassandra (5%) suivent ensuite.
Un entraînement aux pannes pour renforcer la disponibilité
En injectant régulièrement des erreurs au hasard dans les systèmes pour éprouver les applications et les infrastructures, les entreprises renforcent la disponibilité de leurs services. Selon l’enquête, 57,5% des sondés atteignent plus de 99,5% de « disponibilité moyenne », même si la plupart avouent avoir entre 1 et 10 incidents de haute gravité par mois avec un délai moyen de résolution de plus d’une heure dans 75% des cas. Parmi les erreurs, on trouve des problèmes de déploiement de code, de dépendances ou de configuration.
L’étude se focalise sur les plus performants, c’est-à-dire ceux qui obtiennent 99,99% de disponibilité et un temps de résolution de moins d’une heure. Pour expliquer ces résultats, ce groupe de sondés ont réalisé plus d’expériences de chaos que les autres. 23% d’entre eux en réalisent de manière hebdomadaire ou quotidienne, contre 10,8% pour le groupe le moins performant (moins de 99% de disponibilité).
A noter que le rapport indique que les équipes IT des entreprises sondées se servent d’autres outils pour garantir la résilience des systèmes. On peut citer la mise à l'échelle automatique (65 % contre 43 %), le basculement DNS ou des IP élastiques (49 % contre 24 %), le recours aux répartiteurs de charge (77 % contre 71 %) et la résilience multi-régionale (38 % contre 19 % en actif-actif et 46 % contre 30 % en actif-passif).