Spécialiste de la manipulation d'informations pour les professionnels du droit, de la fiscalité, du risque ou de la conformité, Thomson Reuters a vu les modèles d'IA générative faire un bond qualitatif avec la sortie de LLM comme GPT-3. Un niveau qui lui permet désormais d'intégrer la technologie dans ses offres, comme dans son outil de recherche d'informations juridiques Westlaw Precision.
Mais la société, qui a réalisé 6,6 Md$ de chiffre d'affaires en 2022 (dernier exercice publié), doit à la fois mettre de nouveaux outils à base d'IA générative rapidement sur le marché et s'assurer de leur sécurité. Pour ce faire, Shawn Malhotra, responsable de l'ingénierie chez Thomson Reuters, raconte comme ses équipes ont développé une plateforme interne, permettant aux développeurs - y compris à des experts métiers sans connaissances techniques - de concevoir rapidement des applications répondant aux attentes des professions clientes du groupe.
Quels sont les systèmes de données que vous avez dû connecter aux LLM ? Les fournisseurs de ceux-ci disposaient-ils des API nécessaires ou avez-vous dû les créer ?
Shawn Malhotra : Certains de nos contenus sont propriétaires, et nous ne les obtenons donc pas de nos clients. C'est pourquoi, depuis des années, nous construisons des API qui les rendent très accessibles. Cela nous ramène à notre plateforme de GenAI. L'un de ses éléments est constitué d'API simples permettant d'accéder au contenu.
Si vous êtes un développeur souhaitant créer une application à partir d'un contenu juridique, la plateforme GenAI vous permet d'y accéder facilement et en toute sécurité. Vous pouvez donc vous contenter de développer la logique métier de l'application.
Qu'est-ce que la plateforme d'IA de Thomson Reuters ? S'agit-il simplement de votre version de Microsoft 365 Copilot ou d'une plateforme entièrement propriétaire ?
Elle est distincte [de Copilot]. C'est quelque chose que Thomson Reuters a développé. Il s'agit d'un ensemble de modules. Chacun d'entre eux vise à faciliter la tâche d'une ou plusieurs équipes au sein de Thomson Reuters pour construire une application de valeur pour nos clients. Certains modules vous permettent d'accéder au contenu en toute sécurité. D'autres de créer une interface cohérente pour tous nos produits, donc facile à utiliser.
On y trouve aussi des composants qui sont utilisés pour construire le prompt. Le développeur final n'a donc pas besoin de comprendre toutes les nuances de la construction d'un prompt pour un grand modèle de langage donné. Il y a des blocs qui vous permettent d'expérimenter avec différents LLM, afin que vous puissiez déterminer lequel fonctionnera bien pour vos usages. Certains de ces modèles propriétaires ont été construits par nos soins, d'autres sont des modèles de tiers dont nous pensons qu'ils produisent de bons résultats.
Certains de ces modules vous permettent d'accéder au modèle de langage d'une manière que nous appelons Low-code ou No-code, pour les non-experts. Supposons que je sois rédacteur juridique chez Thomson Reuters, que je comprenne le droit et que je me demande si un modèle d'IA pourrait faire un bon travail en résumant un certain type de documents. Notre plateforme de GenAI leur permet d'expérimenter et de répondre à cette question sans avoir à écrire du code.
L'écriture de codes augmentée par l'IA a souvent été citée comme un premier bénéfice de l'IA générative. Qu'avez-vous constaté ?
Il y a deux choses à considérer. Quelle que soit votre fonction, et cela ne s'applique pas seulement à Reuters, la GenAI a le potentiel d'augmenter ce que vous faites - pour vous rendre plus efficace. Ainsi, au sein de mon équipe de développement, nous cherchons effectivement des outils d'IA générative pour nous aider à écrire un meilleur code et à le faire plus rapidement. En fait, cela a augmenté la satisfaction des développeurs. Encore une fois, cela nous ramène à la vitesse de développement de nouveaux produits pour nos clients. Nous utilisons donc ces outils dans l'environnement de nos développeurs.
Ensuite, on assiste à ce même type d'accélération avec les personnes de l'organisation qui n'étaient pas vraiment capable d'expérimenter avec l'IA jusqu'alors, qui n'avaient pas un profil technique. En leur donnant accès à ces composants Low-code et No-code de la plateforme GenAI, ils peuvent prendre part à ce processus d'idéation et d'expérimentation à leur tour.
Quelles sont vos préoccupations en matière de sécurité et de protection de la vie privée, en particulier depuis que vos LLM sont exécutés dans le cloud ou dans une infrastructure en colocation ?
La protection de la vie privée et la sécurité sont au coeur de nos préoccupations depuis le début. Si vous regardez les marchés que nous servons - les professionnels du droit, de la fiscalité, de la conformité, du risque et de la lutte contre la fraude -, ils sont tous sensibles aux données. Ils ont des obligations envers leurs clients que nous devons les aider à respecter et à faire respecter. La sécurité et la protection de la vie privée sont donc intégrées à chaque étape du processus de développement.
Dès lors, comment faire pour aller plus vite ? Ce que je ne voulais éviter, c'était que chaque équipe de développement trouve la meilleure façon d'accéder en toute sécurité aux LLM et au contenu qui les alimente, d'une manière responsable. Car même avec les meilleures intentions du monde, si ces contraintes ne sont pas intégrées par design, quelque chose peut mal tourner.
C'est là que la plateforme de GenAI entre en jeu. En proposant des composants de base, nous pouvons nous assurer que les choses sont faites de la bonne manière. Ces composants garantissent le respect du lieu de stockage et de la confidentialité des données. Ils garantissent encore que les préoccupations éthiques sont évaluées par rapport aux modèles que nous créons. En intégrant tout cela dans la plateforme, je n'ai plus qu'un seul message pour les développeurs : "Vous devez utiliser la plateforme". Si c'est le cas, je sais que la vie privée, la sécurité et la sûreté sont intégrées par de design.
Comment avez-vous formé vos techniciens et vos employés à l'utilisation de la GenAI ?
La gestion du changement est tout aussi importante pour nous que pour nos clients. Nous avons donc mis en place une formation de base à l'IA pour chaque membre de notre entreprise. Il s'agit d'une formation que nous élaborons avec nos experts en Data Science et experts en technologie. Elle s'adresse à un large public. Avec des notions fondamentales que nous pensons utiles pour tout le monde afin de mieux servir nos clients. Nous avons ensuite créé des programmes de formation spécifiques pour certains pans de l'entreprise.
Par exemple, dans mon organisation de développement, nous avons mis en place une formation à l'IA beaucoup plus complète, destinée aux développeurs. Il s'agit de personnes qui conçoivent des produits, donc il est évident que la formation va aller plus en profondeur que le module de base. Et nous avons des types similaires de formation ciblée pour d'autres segments de l'organisation. Ce qu'un vendeur face au client devra savoir sur l'IA sera différent de ce qu'un développeur de mon équipe devra en connaître.
Quels sont les coûts, les besoins en énergie et le temps nécessaires à la construction d'une plateforme d'IA comme la vôtre ? Entraînez-vous vos propres LLM ?
Il existe plusieurs façons d'entraîner un modèle d'IA. Les plus grands modèles au monde sont bâtis par des fournisseurs qui investissent du temps et des ressources pour construire ces modèles gigantesques qui peuvent servir pratiquement à n'importe quelle fin. Ce n'est pas quelque chose que nous envisageons de faire par nous-mêmes. Nous accéderons à ces modèles, comme n'importe lequel de nos clients.
En ce qui concerne nos propres modèles, nous expérimentons toute une série de choses. Comme la construction de nos propres modèles, plus petits que les modèles gigantesques fournis par les hyperscalers. Encore une fois, tout cela revient à dire qu'il n'y aura pas de modèle unique à l'avenir. J'imagine un avenir où, en fonction du problème d'un client, nous emploierons un modèle différent. Notre contenu et notre expertise en la matière nous permettront d'apporter une valeur unique avec des modèles sur mesure, mais ils n'auront pas la taille de ces modèles gigantesques que l'on voit chez les hyperscalers.
Pour nous, l'idéal est de découvrir le plus petit modèle apportant la meilleure réponse au problème d'un client. Car plus le modèle est petit, plus il est efficace à bien des égards, comme la durée d'exécution, les coûts, l'efficacité sous toutes ses formes. C'est ce sur quoi se penche notre recherche et développement.
Votre annonce de novembre mentionnait une stratégie pluriannuelle. Comment voyez-vous l'évolution de l'IA chez Thomson Reuters ?
Le rythme de nos livraisons de solutions va s'accélérer. Nous avons lancé un produit en novembre, nous en avons deux autres à venir et nous avons fait l'acquisition de Casetext. C'est pourquoi l'investissement dans la plate-forme socle était si important, parce que nous pensons que cela nous donnera un avantage concurrentiel à l'avenir.
Vous avez annoncé que Thomson Reuters allait investir 100 M$ dans l'IA. S'agit-il de cette année ou d'un investissement s'étalant sur plusieurs années ?
C'est ce que nous investissons au minimum dans la construction de nos propres solutions d'IA. Afin de construire notre stratégie. Mais je voudrais aussi parler de notre récente acquisition de Casetext (pour 650 M$, NDLR). Si nous voyons une entreprise qui correspond parfaitement à Thomson Reuters à tous points de vue - culturellement, technologiquement -, et surtout qui peut nous aider à résoudre les problèmes des clients, nous ferons des acquisitions dans le cadre de notre stratégie d'achat.
Et il faut aussi ajouter à ce paysage notre stratégie de partenariat. Nous avons récemment annoncé un partenariat avec Microsoft. Lors de la conférence Build de cet éditeur, nous avons été l'une des premières organisations à dessiner ce que pourrait être une intégration avec Microsoft Copilot. Nous avons donc des équipes qui travaillent pour concrétiser cette vision consistant à aider les avocats à rédiger plus efficacement leurs contrats dans Microsoft Word.
Nous examinons donc trois aspects complémentaires : les 100 M$ pour construire, les acquisitions éventuelles et les partenariats, là où les ressources de tiers peuvent aider nos clients.