Depuis sa création au début des années 1970, Lexisnexis, qui propose des données juridiques et commerciales et des services d'analyse associés, a déjà été menacé à plusieurs reprises par des avancées du numérique : arrivée du Web, de Google Search, puis de logiciels libres équivalents à son offre. Pourtant, si l'on en croit Jeff Reihl, CTO de l'entreprise, son tout nouvel adversaire se révèle bien plus redoutable encore. Et il s'agit sans surprise de l'IA générative. Il admet en effet sans détour que cette technologie évolue beaucoup plus rapidement que tout ce qu'il a vu durant ses 40 ans de carrière dans des services IT.
La direction de Lexisnexis n'a d'ailleurs pas attendu pour réagir et a décidé, dès mars 2023, et le lancement de GPT-4 d'OpenAI, d'élaborer une stratégie pour s'attaquer de front à ce nouvel ennemi. L'équipe dirigeante a décidé de réécrire sa solution et de redéfinir ses objectifs annuels prioritaires. « Nous sommes tous sur le pont, insiste Jeff Reihl. Nous avons dû pivoter, car les capacités d'interaction de l'IA générative, l'exhaustivité de ses réponses et ses capacités à générer des données changent radicalement la donne dans notre secteur. Ses capacités sont tout simplement stupéfiantes. »
Des données exclusives et des LLM personnalisés
La menace est d'autant plus réelle pour Lexisnexis que son activité consiste à recueillir et à fournir des informations et des analyses aux cabinets juridiques, d'assurance ou de finance, ainsi qu'aux organismes gouvernementaux. Pour Jeff Reihl, l'entreprise a la possibilité de se défendre pour deux raisons en particulier. D'une part, parce que les grands modèles de langage (LLM) généralistes actuels comportent encore beaucoup d'imperfections. D'autre part, parce que les quelque 2 000 informaticiens et 200 data scientists de Lexisnexis travaillent avec des données exclusives et des outils spécifiquement conçus pour personnaliser les LLM utilisés pour ses propres services, comme Claude AI d'Anthropic et GPT-4 sur Microsoft Azure. LexisNexis travaille aussi déjà depuis longtemps avec d'autres IA comme la famille de modèles de traitement du langage naturel (NLP) BERT, depuis son introduction par Google en 2018, ainsi qu'avec Chat GPT depuis sa création. L'entreprise exploite aussi désormais tous les principaux LLM du marché.
Lexisnexis a lancé sa propre IA générative LLM multimodèle Lexis+ AI en octobre dernier. La plateforme SaaS développée spécifiquement pour le monde juridique dispose de capacités de recherche conversationnelle fine, est dotée d'un moteur d'élimination des hallucinations et de fonctions de rédaction de documents juridiques, de résumés de cas et de téléchargement de documents. Elle propose des citations juridiques avec les liens vers leur source, pour s'assurer que les avocats ont accès aux précédents juridiques précis et à jour. Lexisnexis a collaboré sur la version bêta avec des clients pour affiner les prompts et les requêtes, et définir des dispositifs de sécurité pour assurer le respect de la vie privée et permettre aux avocats de conserver certaines recherches en interne.
Une transition impossible sans le cloud
Pour le CTO, cette évolution aurait été impossible sans la migration vers le cloud entamée en 2015. Principalement client d'AWS, l'entreprise propose désormais également Microsoft Azure à de nombreux clients utilisant Microsoft Office et d'autres plateformes de l'éditeur. « Chaque requête dans notre outil de recherche conversationnelle est dirigée à la fois vers ChatGPT-4 dans Azure et Anthropic dans AWS, précise le CTO. Nous choisissons le LLM optimal en fonction de la question posée. » Pour autant, le passage dans le cloud n'a pas été un long fleuve tranquille. Lorsque Jeff Reihl a rejoint l'entreprise en 2007, environ la moitié de l'infrastructure reposait encore sur un mainframe et deux importants datacenters installés aux États-Unis. Par ailleurs, après plusieurs acquisitions de sociétés, le SI de Lexisnexis reposait sur un ensemble très hétérogène de technologies et sur une grande variété de formats de données.
Pour Jeff Reihl, CTO de Lexisnexis, l'arrivée de l'IA générative est bien plus redoutable encore que ne l'ont été celle du Web ou de Google Search. (Photo Lexisnexis)
La direction informatique a alors demandé au conseil d'administration plusieurs centaines de millions de dollars pour remplacer toute cette infrastructure par des systèmes ouverts basés sur XML. L'entreprise a alors migré directement (en lift-and-shift) une grande partie des données du système historique vers le nouveau, tout en ajoutant des capacités de recherche propriétaires, ainsi que des fonctions d'indexation et d'automatisation. Reste que les applications n'étaient pas optimisées pour le cloud et ont dû être restructurées pour s'adapter à l'architecture en microservices, il y a près de dix ans. LexisNexis a éteint ses derniers mainframes en 2020. Même si certains workloads s'exécutent encore dans le dernier datacenter encore opérationnel de Lexisnexis.
L'absence problématique de compétences
Les données que Lexisnexis exploite proviennent de plus de 50 000 sources extérieures, telles que des dossiers judiciaires, les données de cabinets d'avocats ou de sites de presse, qui sont intégrées dans son système propriétaire de fabrication de contenu. Celui-ci est ensuite enrichi par les équipes rédactionnelles maison. Bien sûr, Lexisnexis a bénéficié de la baisse des coûts d'infrastructure ou des capacités de passage à l'échelle liées à l'utilisation du cloud. Mais la société a trouvé un autre avantage majeur à ce dernier lorsqu'il lui a permis d'adopter rapidement le machine learning et les LLM. « C'est à ce moment-là que nous avons commencé à travailler sur l'intelligence artificielle, confirme Jeff Reihl. Nous sommes passés par du NLP et du machine learning de base, avant d'exploiter du deep learning. »
Enfin, pour faire face à l'IA générative, Lexisnexis fait aussi évoluer ses employés. Alors que l'équipe technique était principalement constituée de designers UX, de chefs de produits et d'ingénieurs logiciels, elle accueille désormais des experts juridiques spécialistes en propriété intellectuelle par exemple, ainsi que près de 200 data scientists et ingénieurs en machine learning. « Il existe encore très peu de compétences en IA générative aujourd'hui sur le marché, constate Jeff Reihl, alors nous formons aussi des personnes qui ont déjà le sens des données ». Au total, Lexisnexis a dépensé pas moins de 1,4 milliard de dollars pour sa transformation.