On le sait, les données sont un élément clé de la réussite de l'IA. Cependant, même les entreprises intéressées par les données et rompues à l'analytique peuvent avoir du mal à établir des pipelines de données fiables et automatisés pour alimenter les stratégies d'apprentissage machine. Cette problématique, Discover Financial Services y a été confrontée en 2019. Á l’époque, ses développeurs et ses ingénieurs de données devaient réaliser des processus manuels complexes qui leur prenaient énormément de temps et entravaient l'agilité de l'entreprise. Pour tirer pleinement parti de l'apprentissage machine et des informations sur les données en temps réel, Discover devait transformer ses processus pour acquérir, enrichir et utiliser ses données. Sa solution, elle l’a trouvée dans une plateforme maison appelée Cloud Data Fabric, qui combine divers services pour délivrer une automatisation basée sur les métadonnées, une ingestion/chargement en temps réel et une gouvernance intégrée dans le cloud. « Nous avons rassemblé nos meilleurs responsables techniques pour réfléchir au problème, définir les conditions initiales et imaginer des architectures pour atteindre nos objectifs », a expliqué Amir Arooni, vice-président exécutif et DSI de Discover Financial Services. « Nous avons demandé l’avis des différentes équipes des produits d'ingénierie ou des dirigeants sur ces projets et nous les avons ajustés au fur et à mesure ».
Jusque-là, le processus de Discover pour construire des pipelines de données impliquait de longues conversations entre les développeurs d'applications et les ingénieurs afin de décider quelles données envoyer à l'analytique. Les développeurs devaient ensuite coder manuellement des scripts pour extraire les données des bases de données opérationnelles et programmer ces scripts pour envoyer les données brutes vers une zone de l'environnement analytique. Les ingénieurs de données devaient ensuite créer des applications de données spécialisées pouvant accepter les fichiers de données brutes et effectuer différentes actions, et notamment la validation du schéma. Ils devaient également saisir les informations relatives à la sensibilité des données afin de programmer une logique de tokenisation des champs appropriée. Au final, les ingénieurs de données passaient des heures à coder manuellement la logique et à déterminer où envoyer les données analytiques et les bons formats dans lesquels les stocker.
Une automatisation basée sur les métadonnées
Amir Arooni et son équipe ont discuté avec les équipes de sécurité et de transmission de fichiers de Discover, ses groupes d'infrastructure cloud, ses équipes d'administrateurs de bases de données et de gouvernance des données, ainsi que ses ingénieurs et ses data scientists, afin de trouver des solutions pour remédier à cette situation. La plateforme Cloud Data Fabric qui en a résulté, et pour laquelle Discover Financial Services a récemment remporté le prix CIO 100 Award in IT Excellence, réunit des services qui diffusent des données à partir des bases de données des applications opérationnelles de Discover, capturent les métadonnées, tokenisent les champs de données sensibles et suivent l'historique des ensembles de données.
« Les produits du fabric s'efforcent d'améliorer l'efficacité de l'ingénierie des données par le biais d'une automatisation basée sur les métadonnées et d'une expérience utilisateur fluide », a expliqué M. Arooni. « Par exemple, notre fabric se compose de produits capables de gérer l’ingestion de données à des vitesses beaucoup plus rapides, et nous pouvons diriger les données vers plusieurs destinations en temps réel en appuyant sur quelques boutons ».
La voie du succès : ingénierie, automatisation, pratiques agiles...
« Le projet ne s’est pas déroulé sans difficultés, la plus importante étant de s'assurer que tout le monde, à tous les niveaux, était en phase avec les objectifs et la vision », a encore expliqué M. Arooni. « Il a fallu de nombreux échanges entre nos ingénieurs, les responsables de première ligne et la direction générale pour que tout le monde soit d'accord… tout le temps », a-t-il ajouté. « Nous sommes une grande entreprise, et il y a beaucoup d’avis, d’opinions et de niveaux de compréhension différents. Il faut tenir compte de tous ces aspects dans ses échanges, ses objectifs et ses solutions pour résoudre les problèmes afin de diriger tout en exécutant ». Pour y parvenir, Discover a lancé une nouvelle initiative appelée « The Runway », laquelle comporte cinq axes de travail : l'ingénierie, l'automatisation extrême, les pratiques agiles, l'organisation de la fiabilité et de la technologie, et la discipline et l'expérience des employés. L’initiative fait travailler ensemble des équipes d'ingénierie plus petites et autonomes, concentrées sur le développement d'une approche agile unique et sur l'automatisation des fonctions manuelles en mettant l'accent sur la simplification.
« La formation d'équipes autonomes capables de mettre en œuvre les technologies utilisées pour le projet a pris un certain temps », a reconnu Amir Arooni. Il a fallu communiquer et établir un climat de confiance avec les différents propriétaires des technologies, et les équipes ont dû travailler de manière transversale avec des développeurs de transmission de fichiers, des administrateurs de bases de données, des gestionnaires de données aguerris, des experts en sécurité et différents groupes de développeurs full-stack. Les architectes, les chefs de produit, les Scrum Masters et les équipes de gestion ont coordonné leurs efforts. Un certain nombre d'ingénieurs ont dû apprendre à développer sur des logiciels cloud pour la première fois. « Pour créer des équipes plus autonomes, nous avons mélangé les compétences afin de former des équipes produits », a encore expliqué M. Arooni. « Cela signifie que tout le monde peut participer à la technologie qu'il n'aurait peut-être pas eu la chance d'utiliser auparavant en raison de barrières artificielles de propriété ». Avec le recul, M. Arooni pense qu'il aurait dû faire davantage appel à des équipes plus autonomes dès le début, afin d'obtenir plus rapidement des gains en termes d’efficacité et de moral. Il ajoute que l'équipe aurait probablement aussi organisé son modèle de conception d'architecture un peu différemment. « Ce sont deux choses que nous faisons désormais pour nos nouveaux développements de produits », a-t-il déclaré.
Des millions de dollars d'économie
Selon M. Arooni, l'impact de la plateforme Cloud Data Fabric sur Discover a été inestimable. Le projet a permis de réduire le temps de développement et de prise en charge de ses pipelines de données, et ses data scientists, ses ingénieurs AI/ML et ses modélisateurs peuvent obtenir des données plus significatives plus rapidement. Le projet a permis de réaliser des millions de dollars d'économies et d'éviter des coûts en données rétroactives. « Le temps, la capacité et l’argent économisés grâce à cette initiative d'innovation sont une victoire massive pour Discover », a déclaré Amir Arooni. Ce dernier fait également remarquer que les ingénieurs de Discover ont développé « un tas d'idées » pour apporter de nouvelles améliorations tout au long du développement et du déploiement de la plateforme Cloud Data Fabric. M. Arooni conseille à ses pairs « d’automatiser autant que possible, de considérer l'expérience utilisateur comme primordiale, et d’aimer leurs ingénieurs en les responsabilisant ».