Le big data n'est pas un sujet récent chez Axa France. Mais en 2019, l'assureur a souhaité passer à une autre échelle en matière d'exploitation des données. Pour cela, il a basculé son socle big data, auparavant basé sur une plateforme Hadoop on-premise, vers la plateforme cloud de Databricks. Robin Cunchillos, lead architect au sein de l'équipe socles big data et machine learning chez Axa France, explique les raisons de ce choix et partage les points clefs qui ont permis de réussir la transition.
« En 2018, lorsque j'ai rejoint Axa France, le socle big data reposait sur une appliance Hadoop mutualisée avec d'autres entreprises du groupe », se souvient Robin Cunchillos. « C'était un très bon premier pas, mais les tickets associés étaient de plus en plus conséquents ». En outre, certains métiers, tels les actuaires, dont le travail repose fortement sur les applications analytiques, ne pouvaient plus adresser leurs nouveaux besoins, notamment autour de l'apprentissage machine. L'équipe chargée du socle big data décide alors de rechercher une autre solution. Mais avant de consulter le marché, elle commence par recueillir les besoins des différentes communautés d'utilisateurs, en attachant un soin particulier à l'identification des points douloureux. « Nous avons observé de réelles difficultés à répondre aux niveaux de services souhaités. Par exemple, les équipes avaient beaucoup de mal à prendre des engagements sur la tarification », illustre Robin Cunchillos.
Déploiement automatisé à partir des spécifications
Une fois la collecte des besoins achevée, l'équipe entame une phase de proof of concept (PoC) avec les solutions cloud du marché, entre fin 2018 et début 2019. À l'issue de celle-ci, Axa France retient la solution cloud de Databricks, déployée sur le cloud Microsoft Azure. « Quatre piliers ont guidé notre choix : les performances, la capacité à tenir des SLA, les coûts et dans la mesure du possible, la réversibilité », se souvient Robin Cunchillos. L'équipe socle souhaite en particulier que chaque projet puisse être complètement indépendant en termes de coûts et d'usages, avec une architecture idempotente (l'idempotence signifie qu'une opération a le même effet qu'on l'applique une ou plusieurs fois).
Lors de la mise en oeuvre de la plateforme, un autre grand principe guide l'équipe : le déploiement et la gestion technique des cas d'usage doivent être automatisés à 100 %. « En créant cette platform-as-code, nous voulions une vision facile à définir pour les utilisateurs, avec une couche d'abstraction au-dessus des couches techniques et fonctionnelles », confie Robin Cunchillos. « Il s'agissait de réduire au maximum les opérations techniques pour les utilisateurs, par exemple pour accéder aux sources. » L'équipe veut également démontrer sa capacité à faire du 100% cloud, sans aucune opération manuelle. Dans ce but, elle crée son propre framework de déploiement, en exploitant Databricks pour la partie compute, ainsi que différentes briques d'Azure. Ce framework permet de faire de l'abstraction à partir des spécifications fonctionnelles fournies par les utilisateurs. « Nous avons essayé de rendre ces spécifications les plus intelligibles possibles, qu'il s'agisse de la sécurité, de la configuration réseau, du type de cluster ou des traitements souhaités », indique Robin Cunchillos.
De multiples cas d'usage
En janvier 2020, l'intégration est officiellement achevée. Aujourd'hui, Databricks a complètement remplacé le socle Hadoop chez Axa France. La plateforme est divisée en trois grands environnements, chacun destiné à différents types de services. Le premier est le data lake. Dans celui-ci sont gérés tous les aspects autour du data management : la préparation et l'ingestion des données, la conformité RGPD, la qualité, le data lineage, etc. « Tous ces éléments sont définis dans les spécifications, avec les data owners de chaque domaine qui remplissent les indicateurs associés », détaille Robin Cunchillos. Le second environnement accueille les cas d'usages mis en production. Parmi ceux-ci se retrouvent les usages classiques du secteur de l'assurance, comme la tarification intelligente, beaucoup d'analytique, de reporting, de BI, mais aussi de plus en plus de machine learning, d'entraînement de modèles et d'inférences selon l'architecte. Enfin, un dernier environnement, le data lab, répond aux besoins d'expérimentation. « Il s'agit d'un environnement exploratoire collaboratif, pour la simulation et l'entraînement de modèles », indique Robin Cunchillos.
Avec la nouvelle plateforme, l'équipe a obtenu des gains conséquents au niveau du délai de mise à disposition des cas d'usage. Cela s'est traduit par une forte hausse des cas en production : en novembre dernier, leur nombre avait été multiplié par cinq. Selon le lead architect, les objectifs liés au respect des SLA sont eux aussi largement atteints. « Grâce à toute la chaîne - Databricks, Azure et l'automatisation -, nous faisons aujourd'hui trois fois mieux en termes de respect des engagements de service que les années qui ont précédé. » À tel point que le socle a changé le quotidien de nombreux utilisateurs « Dès 2020, ils ont pu se concentrer davantage sur leurs problématiques métiers, plutôt que sur la résolution d'incidents », témoigne Robin Cunchillos. Le projet a d'ailleurs obtenu un prix « Best Cloud Projet » décerné par le groupe Axa, pour son impact sur les utilisateurs. Toutefois, pour ces derniers comme pour l'équipe socle, il a représenté un changement de paradigme majeur. Sur l'ancienne plateforme, l'équipe intervenait directement dans les processus de livraison. « Cela restait gérable, car il y avait beaucoup moins de cas d'usage déployés », précise le lead architect. Désormais, ce sont les squads qui gèrent tout le cycle de vie de leurs data products, livraison et production incluse. Ils intègrent donc l'ensemble des compétences nécessaires, architectes, tech leads et data engineers. « Le coût d'entrée a été important pour eux, car auparavant la totalité de la gestion était déléguée. Maintenant, ils en ont la responsabilité complète », pointe Robin Cunchillos.
Expliquer les choix aux utilisateurs
Dans un tel contexte, l'acculturation a joué un rôle clef pour le succès du projet. « Nous avons pu faire la bascule car les équipes utilisatrices se sont appropriés les processus et les spécifications, mais cela a nécessité un gros travail de notre part. Nous avons pris beaucoup de temps pour partager nos choix aux différentes communautés, expliquer pourquoi nous avions fait ainsi, pourquoi certains aspects étaient parfois configurés de façon restrictive », détaille Robin Cunchillos. En amont du projet, il insiste aussi sur l'importance de connaître les problèmes des utilisateurs d'un point de vue opérationnel. « Nous avons fait un vrai tour de table lors de la phase d'expression des besoins, et nous avons ensuite essayé de couvrir les points remontés », souligne-t-il.
Dernier élément clef selon lui, la volonté d'avoir 100 % d'opérations automatisées. « Avec Cédric Édouard Kassi, le responsable des socles big data et machine learning chez Axa France, nous avons décidé de ne rien livrer qui ne soit pas entièrement automatisé », relate Robin Cunchillos. En 2019, à l'époque du projet, un tel niveau d'automatisation était encore assez rare. « Aujourd'hui, les frameworks d'automatisation sont bien plus courants », observe le lead architect. Mais il s'agissait d'un choix stratégique pour pouvoir absorber la montée en puissance des cas d'usage : en effet, « une fois qu'une tâche est automatisée, elle peut être déléguée à d'autres équipes, chargées du run et du monitoring par exemple », explique Robin Cunchillos. La plateforme héberge d'ailleurs un cas d'usage spécifiquement dédié au monitoring, qui fournit une vue fonctionnelle de tous les use cases déployés. « Cet outil indique si les SLA sont respectés ou s'il y a un problème, et le cas échéant, il permet d'identifier la partie de la chaîne concernée par l'incident », décrit Robin Cunchillos. Les utilisateurs peuvent aller consulter ces rapports afin d'avoir un suivi de la production en temps réel. Une visibilité qui leur permet d'avoir confiance dans la chaîne, ajoute-t-il.
À l'heure actuelle, l'équipe chargée du socle mène plusieurs chantiers de front. Sur le plan technique, elle travaille notamment sur le machine learning et sur les LLM (large language models), qui prennent de plus en plus d'ampleur. « Nous avons déjà de tels modèles en production, mais l'un de nos objectifs est de les déployer à une échelle bien plus importante. Dans ce but, nous avons créé une communauté MLOps. Notre ambition est de faire évoluer notre plateforme pour construire un nouveau socle de machine learning, accessible à tous et pas seulement à des experts, et qui permette de pousser des modèles en production », confie Robin Cunchillos.
L'équipe discute également avec la CNIL sur les enjeux liés aux futures réglementations sur l'intelligence artificielle, en particulier l'explicabilité et la traçabilité des modèles. « Notre souhait est de pouvoir intégrer ces dimensions dans le socle technologique, afin que les éléments d'explicabilité soient disponibles sur étagère », espère Robin Cunchillos. Enfin, un dernier enjeu, cette fois non lié à la technologie, concerne le développement de la culture data au sein des différentes communautés d'utilisateurs. Un sujet majeur, sur lequel l'équipe travaille avec la chief data officer d'Axa France, Chafika Chettaoui. « Jusqu'à présent, la migration vers le cloud a plutôt été considérée sous l'angle technologique. Mais la culture data au sein des tribus est essentielle. Il s'agit d'embarquer les utilisateurs, pour qu'ils s'approprient la notion de data product et ce que cela implique pour eux au quotidien », indique le lead architect.
Commentaire