Experian a mis en place un système d'analyse de données qui lui permet de réduire de plusieurs jours à quelques heures le temps qu'il faut pour traiter les Pétaoctets de données provenant de centaines de millions de clients à travers le monde. La société irlandaise de services d'information a déployé une couche data fabric basée sur le système de traitement de fichiers Hadoop, parallèlement à des microservices et une plate-forme API. Grâce à ces systèmes, les entreprises et les consommateurs peuvent accéder plus rapidement aux comptes rendus financiers et aux informations de crédits. « C'est un événement qui change véritablement la donne pour nos clients, car il leur permet d’avoir un accès en temps réel à des informations qui demandent généralement un certain temps d’analyse et ne sont habituellement pas accessibles immédiatement », explique ainsi le CEO d'Experian, Barry Libenson. Hadoop, un outil open source conçu pour piloter de gros projets big data, est devenu un élément incontournable de nombreuses stratégies d'analyse, les DSI souhaitant mettre à la disposition des clients des produits et des services d'information. La technologie utilise des techniques de traitement parallèle qui permettent, avec les logiciels adéquats, de traiter plus rapidement de plus grosses quantités de données que les outils de gestion de données basés sur SQL.
Hadoop accélère le traitement des données
Quand Barry Libenson a pris la direction d’Experian en 2015, l’entreprise utilisait encore des systèmes mainframe pour traiter les requêtes. Mais, les données à gérer augmentaient à un rythme exponentiel. À l’époque, les ingénieurs devaient absorber et traiter au fur et à mesure les fichiers de données, puis homogénéiser et nettoyer les informations avant de les transmettre à l'entreprise cliente. Pour répondre aux nouvelles exigences de gestion des données, ils ont ajouté plus de processeurs. Cependant, à l’époque, sur Amazon.com, les clients pouvaient commander en quelques clics de souris des chaussures ou de la puissance de calcul. Barry Libenson savait qu'Experian avait besoin d'une stratégie de gestion des données plus fluide capable de fournir une analyse des données en temps réel.
Comme d’autres entreprises, Experian testait de nouveaux outils de traitement des données. L’entreprise s’amusait avec des variantes de Hadoop comme Cloudera, Hortonworks et MapR dans des sandbox sur site ou sur Amazon Web Service (AWS). Mais le CEO savait que si Experian voulait extraire des données pertinentes de ses sources et délivrer de nouveaux produits à ses millions de clients, l’entreprise avait besoin d’une plateforme qui lui permettrait de standardiser son process. Après quelques tests, Barry Libenson a opté pour Cloudera. Le système multitenant fonctionne sur site dans le cloud hybride d'Experian. Le CEO précise cependant que l’entreprise peut, si nécessaire, augmenter sa capacité de calcul en utilisant AWS. Une institution de crédit colombienne est l’un des premiers clients à profiter du data fabric Hadoop d'Experian. Grâce aux capacités de traitement en temps réel d'Hadoop, Experian a pu traiter 1000 états financiers en moins de six heures contre six mois précédemment avec son système mainframe qui n’a pas la capacité de normaliser et nettoyer les données de plus d’un seul état à la fois. « Les clients savent qu’ils vont disposer de données en temps quasi réel et qu’ils ne risquent pas de recevoir des données périmées », a encore déclaré le CEO.
Microservices et appels d’API
Avec de tels résultats, on peut se demander pourquoi plus d'entreprises n’ont pas encore opté pour Hadoop. La plateforme détient une part modeste, mais croissante du marché du Big data et des technologies d'analyse d'entreprise. Selon IDC, ce marché génèrera 187 milliards de dollars en 2019. Dans la pratique, le logiciel peut être compliqué à mettre en œuvre, notamment parce qu’il est difficile de trouver des ingénieurs connaissant bien la technologie. Le traitement parallèle et le traitement des informations non structurées répondent à une autre logique en termes de manipulation des données et demandent des compétences particulières. « La manière d'écrire et de penser les applications est totalement différente. Il faut réfléchir en termes de nœuds et savoir qu’une défaillance est possible au niveau de chaque nœud », explique Barry Libenson. « La plupart des développeurs de logiciels qui travaillent le code SQL ne pensent pas ainsi ». Selon le CEO d’Experian, « il est difficile de trouver des gens qui savent travailler dans cette architecture ». Contrairement aux ingénieurs de bases de données chevronnés imprégnés du monde SQL, les personnes fraichement diplômées, les statisticiens et les spécialistes des données ont été formés à Hadoop. Mais, étant donné la guerre acharnée qu’il faut livrer pour recruter ces talents, celui-ci fait souvent travailler ensemble de jeunes diplômés et des spécialistes des données avec des ingénieurs SQL pour obtenir de meilleurs résultats de Hadoop.
Suite à la migration d'Experian vers Hadoop, les ingénieurs de la société peuvent supprimer les goulets d'étranglement qui apparaissent pendant la préparation des données et enrichir en information les produits de l’entreprise. Les banques, les entreprises de services financiers et d'autres entreprises peuvent également accéder aux comptes rendus et à d’autres produits via la nouvelle plate-forme API et l'architecture microservices d'Experian, découplée et moins dépendante de la fonction applicative. Par exemple, une entreprise de services financiers qui souhaite connaître la solvabilité d'un client ou vérifier l'historique des paiements sur une carte de crédit peut faire un appel d’API via Experian pour récupérer les données au lieu de télécharger et de passer par des applications pour accéder à la totalité des informations. « Aujourd’hui, la demande de microservices pour accéder à l'information est beaucoup plus forte que la demande d’applications traditionnelles sur site », a déclaré M. Libenson. « Toutes les institutions financières sont en train de passer à un modèle de microservices, et le système d'API convient très bien à la manière dont ils veulent consommer les informations ».
Passage en mode DevOps
Le passage d'Experian à des architectures plus modernes et modulaires - Hadoop, microservices et API - a également nécessité une refonte du développement logiciel. Les projets sont rigoureusement documentés et élaborés en plusieurs étapes pendant des mois, et les fonctionnalités sont ajoutées progressivement. Barry Libenson affirme que son département informatique a adopté des méthodologies agiles et DevOps pour construire des produits suffisamment viables, les tester et les affiner selon les besoins. Le passage à un modèle de cloud hybride, à une architecture de microservices et à une plate-forme API représente « un grand changement ». « Cette évolution va permettre à Experian de réduire les erreurs, de faire baisser les coûts et d’accélérer l'innovation », a déclaré M. Libenson.
Commentaire