Apparu chez les gros acteurs du cloud public, le métier de SRE (site reliability engineer) s'est popularisé et est aujourd'hui présent dans la plupart des grandes organisations utilisant des technologies cloud. Ces ingénieurs sont chargés d'assurer la fiabilité et la sécurité d'infrastructures de plus en plus basées sur le code, notamment à travers la définition d'objectifs de niveaux de services et l'automatisation. Toutefois, leur rôle n'a pas toujours été bien compris. Cette situation est en train de changer, comme en témoigne une récente étude de l'éditeur Dynatrace auprès de 450 SRE dans le monde entier. Dans cette enquête, 88% des répondants estiment ainsi que l'importance stratégique de leur rôle est mieux comprise aujourd'hui qu'il y a trois ans, même si 20% seulement considèrent que leur organisation est mature sur le sujet. Par ailleurs, 76% obtiennent des primes ou des récompenses quand les indicateurs clefs de fiabilité sont atteints.
Parmi les tâches qui occupent la majeure partie de leur temps, les SRE interrogés citent en premier lieu la réduction des temps moyens de réparation (MTTR), mentionnée par 67% d'entre eux. Viennent ensuite le développement et la maintenance du code d'automatisation (60%), la détection et l'élimination rapide des vulnérabilités de sécurité (58%) et la conception de tests et d'expérimentations pour réduire le risque de panne en production (52%). La dimension sécurité gagne en importance dans le rôle des SRE : 68% des répondants s'attendant à ce que leur rôle dans ce domaine devienne de plus en plus central, notamment en raison de l'usage croissant de bibliothèques logicielles tierces dans le développement d'applications cloud.
Automatisation et IA pour étendre les pratiques SRE
Les SRE témoignent cependant de certaines difficultés récurrentes. Ainsi, la quasi-totalité se heurte à des obstacles quand il faut définir des services level objectives (SLO), alors même que ces derniers sont de plus en plus importants pour fournir une expérience client de qualité. 64% des SRE mentionnent un trop grand nombre de sources de données ; 54% la difficulté à trouver les indicateurs les plus pertinents pour un service et 36% pointent l'incapacité des outils de monitoring à définir et suivre facilement les SLO. Les répondants notent également des difficultés pour gérer et évaluer les SLO : la première est le fonctionnement en silos des équipes et des outils (cité par 68%), suivie par la complexité croissante des applications, qui se traduit par des zones d'ombre (59%). Enfin, 52% évoquent une incapacité à corréler les indicateurs de performance avec l'expérience des utilisateurs.
Pour les répondants, l'un des enjeux clefs pour étendre les pratiques SRE réside dans l'usage croissant de l'automatisation. En effet, en termes d'outils, ils utilisent en majorité des solutions maison (66%), difficiles à passer à l'échelle. Aujourd'hui, ils s'appuient sur l'automatisation pour réduire les vulnérabilités de sécurité (61%) et les défaillances applicatives via l'auto-remédiation (57%), pour accélérer le rythme de livraison (56%) et pour prévoir les infractions aux SLO avant qu'elles ne se produisent (55%). L'intelligence artificielle représente un autre levier jugé prometteur, 68% des SRE ayant indiqué développer l'usage de technologies AIOps. Ils estiment que celles-ci vont permettre aux équipes d'automatiser davantage de processus essentiels pour s'assurer que les niveaux de service sont continuellement atteints (64%). AIOps va aussi aider à prioriser les problèmes ayant le plus grand impact sur la satisfaction des utilisateurs (63%), ainsi que les vulnérabilités de sécurité pour minimiser les temps d'indisponibilité (62%). Enfin, c'est un moyen de libérer du temps, pour mieux utiliser les capacités des équipes d'exploitation (62%).
Commentaire