Du cloud public, mais pas uniquement. C'est un peu la conviction que s'est forgé Crédit Mutuel Arkéa, en matière d'exploitation de la donnée. « Nous avons démarré l'hybridation de nos environnements data dès 2017, au travers d'un premier environnement de données sur GCP (Google Cloud Platform) pour une de nos filiales. Puis plusieurs projets pilote se sont enchaînés, dont deux majeurs », raconte Maxime Havez, le Chief Data Officer (CDO) de ce groupe de 11 000 personnes environ, comportant une activité banque de détail et une quarantaine de filiales spécialisées.
En particulier, la migration d'un traitement réclamant plusieurs jours sur le datalake Hadoop interne de la banque et touchant à des données peu sensibles. « Nous avons testé l'élasticité du cloud et ramené ce traitement à quelques heures », illustre le CDO. Au passage, la migration dans le cloud a permis d'identifier des pistes d'optimisation sur ce traitement et, in fine, de le rapatrier sur les infrastructures on-premise hébergeant le datalake, un actif que la banque a construit dès 2009.
Un code unique pour le cloud et le on-premise
Au fil de ces projets, Maxime Havez et ses équipes ont acquis un certain nombre de certitudes, qui figurent désormais au coeur de leur démarche d'hybridation. En premier lieu, la nécessité de penser d'emblée portabilité et multicloud. « Y compris en matière d'architecture supportant la brique technologique concernée », glisse le CDO. D'autre part, Crédit Mutuel Arkéa a choisi de développer et déployer sa propre solution de développement dédié au Data Processing. L'avantage ? Que l'application tourne sur le cloud ou on-premise, le code n'a pas besoin d'être modifié, une passerelle intéressante dans le cadre d'une stratégie hybride. Cette plateforme distribuée mise, par ailleurs, sur le XML et le SQL pour faciliter le dialogue entre l'IT et les métiers, où des utilisateurs savent manipuler ces langages. « Notre premier enjeu autour de cette plateforme consiste à assurer son emploi par l'ensemble de notre communauté interne. Dans un second temps, nous réfléchissons également à la placer en Open Source », précise le CDO.
Pour accompagner la montée des usages, le Data Office s'est également tourné vers une solution de virtualisation de la donnée, en l'occurrence Starburst. « Au final, nous disposons d'un connecteur unique quel que soit l'endroit où se situe la donnée, d'un langage unique et maîtrisé par les métiers (SQL, NDLR) et d'une solution pour accélérer les traitements sur les environnements on-premise », résume le CDO. Sans oublier des efforts facilitant la dataviz, que celles-ci se trouvent on-premise ou dans le cloud.
Le cloud pour entraîner les modèles d'IA
Avec ces convictions et ces principes techniques en poche, Crédit Mutuel Arkéa a choisi de démarrer avec un premier fournisseur de cloud, en choisissant une option lui offrant des garanties en matière de chiffrement, via des clefs stockées à l'extérieur des environnements cloud. Une solution fournie par Thalès sur la Google Cloud Platform, un duo qu'on retrouve aujourd'hui à la baguette dans le lancement du cloud dit de confiance S3NS (prononcez Sens).
Maxime Havez, Chief Data Officer de Crédit Mutuel Arkéa : « Notre enjeu principal consiste à écrire une feuille de route pour notre plateforme Hadoop, qui reste encore largement on-premise ». (Photo : R.F.)
Ce galop d'essai permet aujourd'hui au Data Office de Crédit Mutuel Arkéa de répondre aux attentes des métiers en matière d'IA générative. « Nous avons identifié de multiples cas d'usage, touchant à des données présentant des niveaux de sensibilité très différents. Et nos initiatives en la matière ne doivent jamais perdre de vue une clef de lecture essentielle : la sobriété énergétique », dit Maxime Havez. Sur ce terrain, Crédit Mutuel Arkéa a ainsi fait le choix de développer une déclinaison très allégée d'un modèle disponible sur la plateforme HuggingFace. « Cela n'a été possible que grâce à la disponibilité de GPU sur le cloud. Ce socle technique nous sert aujourd'hui à explorer nos cas d'usage. Rien de tout cela n'aurait été possible sans notre stratégie d'hybridation », explique le CDO.
Ladite stratégie d'hybridation du Data Office, un département qui s'est structuré à partir de 2020, s'articule désormais avec le programme Move to cloud de la DSI, lancé en 2023. « Notre enjeu principal consiste à écrire une feuille de route pour notre plateforme Hadoop, qui reste encore largement on-premise », dit Maxime Havez. Par ailleurs, la Data Office a cartographié les applications fournissant les capacités data au sein du groupe, soit une soixantaine de technologies. « Notre stratégie consiste à hybrider ces capacités, mais en cohérence avec nos principes de portabilité, de protection de la donnée et de souveraineté. »
Commentaire