Les cabinets d'avocats utilisent déjà l'IA depuis au moins une décennie, en particulier pour retrouver les traces papier et électroniques nécessaires à un dossier au sein d'une masse de documents. Mais ce n'est qu'avec l'arrivée, il y a deux ans, de ChatGPT, que la technologie est devenue suffisamment facile à utiliser pour que même les associés de première année fraichement sortis de la faculté de droit l'utilisent ce type.
Le cabinet américain d'envergure internationale Cleary Gottlieb a non seulement réduit considérablement le nombre d'avocats affectés à ces démarches d'enquête préalable au procès en utilisant l'IA, il a même créé une division de GenAI juridique, ClearyX, qui propose à ses clients de sous-traiter et d'automatiser cette étape. Le cabinet reconnaît que la GenAI n'est pas parfaite. Elle ne récupère jamais 100% des documents liés à une affaire et ne crée pas toujours un synopsis très précis à partir de ceux-ci. Mais... les humains non plus. En l'état actuel de la technologie, l'IA suffit cependant la plupart du temps pour réduire la charge de travail et les coûts.
Mais dans certains cas, la personnalisation d'un LLM pour des besoins spécifiques revient plus cher que quelques dizaines d'avocats désireux de faire leurs preuves. Nos confrères de Computerworld se sont entretenus avec Christian Mahoney, avocat et responsable monde de l'équipe e-discovery and litigation technology de Cleary Gottlieb et Carla Swansburg, PDG de ClearyX, à propose de l'utilisation de la GenAI au sein du cabinet.
Computerworld : Pourquoi l'IA est-elle adoptée dans la profession juridique ?
Christian Mahoney : Depuis une vingtaine d'années la profession assiste à une explosion des informations et des données créées par ses clients. Et cela ne fait que s'accélérer. Il devient donc de plus en plus difficile de digérer ces data uniquement avec une équipe d'avocats. Je viens de m'occuper d'un cas pour lequel nous avons analysé en quelques semaines plus de 50 millions de documents d'un total de 15 To pour identifier les éléments à fournir à la partie adverse ! Nous en avons profité pour trier ce qui, dans ces documents, pouvait étayer notre plaidoyer. Les méthodes traditionnelles ne sont vraiment plus exploitables dans de tels cas. Il faut absolument intégrer l'IA.
Carla Swansburg : Il se passe plusieurs choses depuis l'explosion de la GenAI. Pour commencer, les clients s'attendent à ce que tout soit plus rapide et moins cher. Ensuite, l'IA devient plus accessible grâce au traitement du langage naturel. Enfin, on assiste à une explosion des outils spécialement conçus pour la profession juridique, même si les solutions de due diligence et d'automatisation des contrats sont là depuis une décennie.
Comment le métier d'avocat a-t-il changé avec la GenAI ?
Carla Swansburg : « Quand j'ai commencé en tant qu'avocate, j'ai dû fouiller dans des cartons de documents chez des banquiers, post-it à la main. Personne n'est allé à la faculté de droit pour s'occuper de ça ! Personne n'a envie de lire 100 contrats de location pour trouver la clause de cession adéquate. La GenAI monte dans la chaîne de valeur, mais elle commence surtout par ce automatiser ce type de tâches que personne ne veut faire de toute façon ».
Mais est-ce que l'IA ne remplace pas certaines fonctions ?
Christian Mahoney : Pour l'instant, elle nous rend plus efficaces. J'avais plus de 60 avocats ce week-end une seule affaire, pour passer la pléthore de data à disposition au peigne fin. Mais nous utilisons de plus l'IA en amont de l'enquête préalable pour faciliter le classement des documents en fonction de ce que nous devons remettre et pour réduire la quantité de contenu à examiner. Elle nous aide à résumer les contenus avant même de les regarder, pour digérer l'information plus rapidement.
Christian Mahoney, avocat et responsable monde de l'équipe e-discovery and litigation technology de Cleary Gottlieb et Carla Swansburg, PDG de ClearyX. (photo Cleary Gottlieb. DR)
Carla Swansburg : Il ne s'agit pas encore vraiment de remplacer les emplois, mais d'éliminer le travail routinier et répétitif. D'après notre expérience - et nous avons testé de nombreux LLM et outils spécialement conçus pour le juridique -, ils ne sont pas assez bons pour remplacer les juristes dans la grande majorité de leur travail.
À quoi ressemble la data que vous découvrez ?
Christian Mahoney : La plupart de datasets ne sont pas structurés. Il s'agit d'e-mails et de messages sur un ordinateur portable ou d'une partie d'un référentiel de documents sur un serveur de fichiers. Et aujourd'hui, on parle aussi de chats sur des plateformes comme Teams ou des appareils mobiles. La plupart du temps, ce sont de bons avocats qui vont s'en occuper, mais parfois il faut passer au crible des boîtes aux lettres entières. Et là, nous utilisons des LLM.
Nous examinons quelques échantillons, certains au hasard et d'autres avec des approches d'entrainement développées pour cibler des documents qui, selon nous, aideront le modèle à comprendre plus rapidement. Nous examinons des milliers de documents pour entraîner le modèle à prédire si un document répond aux demandes de la partie adverse. Puis, nous exécutons ce modèle sur des millions de data. Avec ces processus itératifs d'amélioration de l'entraînement des modèles, nous nous rapprochons du niveau de performance d'une équipe de 150 personnes. Parfois nous le dépassons...
Avez-vous trouvé d'autres usages de la GenAI auxquels vous n'auriez pas pensé au départ ?
Christian Mahoney : Oui, pour examiner des fichiers qui ne contiennent pas de texte, mais des images ou des films, par exemple. Nous avons créé un process de GenAI en utilisant certains des tout nouveaux algorithmes du marché pour les analyser et y trouver des informations.
L'IA a tendance à commettre des erreurs et générer des hallucinations. Comment abordez-vous cela ?
Carla Swansburg : Chez Christian, les équipes travaillent avec des taux de précision de l'ordre de 80 %. Mais nous, nous devons être à 100 %. La plupart du temps, dans notre travail, qu'il s'agisse d'analyse et de gestion de contrats ou de diligence transactionnelle, nous disposons de documents contextuels. Ainsi, le potentiel d'hallucinations est plus limité. L'une de nos principales parades, c'est de demander à l'IA de sourcer sa réponse.
Une autre partie de notre travail consiste à demander à un modèle de trouver la date de résiliation d'un NDA [accord de non-divulgation, NDLR]. Ces accords de confidentialité ont une date d'entrée en vigueur et une durée qui peut être rédigée de plusieurs façons : deux ans, trois ans, etc. et elle est souvent combinées avec des conditions de prolongation. Donc, si vous vous contentez de demander : « Quand cet accord de confidentialité prend-il fin ? », de nombreux modèles d'IA se tromperont. Mais si vous générez un moyen de dire : « Trouve la date d'entrée en vigueur, trouve une clause correspondante, trouve la période durant laquelle les obligations se prolongent », c'est généralement exact à 100 %. Nous combinons des documents contextuels ciblés, une ingénierie spécifique de prompts et un processus de validation.
Utilisez-vous du RAG [retrieval augmented generation] pour affiner ces modèles, et avec quel niveau d'efficacité ?
Christian Mahoney : « Nous utilisons le RAG pour mettre en place des garde-fous face à la façon dont le LLM réagit. Et en ce qui nous concerne, contrairement aux équipes de Carla, le taux de réussite recherché est moins élevé, car nous le comparons aux résultats fournis par des humains. Nous avons accumulé des données sur les tâches de découverte électronique durant plusieurs décennies - les humains réussissent généralement environ 75% du temps. Donc, lorsque nous examinons les LLM et la GenAI, nous voulons nous assurer qu'ils fonctionnent bien, mais nous voulons également veiller à ne pas les tenir à des normes trop élevées.
Si vous rédigez un brief, une précision de 75 % est inacceptable. Mais lorsque vous parcourez deux millions de documents, ça l'est tout à fait. C'est pour cela que le processus est un peu différent, même si sa structure est la même en termes d'étapes.
Vous intéressez-vous aux small language models, de plus en plus populaires ?
Christian Mahoney : Nous utilisons des LLM ouverts depuis cinq ans maintenant. Nous avons commencé avec Bert, qui était sans doute ce qu'il y avait de plus proche à l'époque, mais s'apparente probablement davantage à un SLM aujourd'hui. Nous l'utilisons toujours pour de l'apprentissage supervisé.
Nous sommes très agnostiques en matière de LLM, en ce sens que nous sommes en mesure d'examiner les différents algorithmes et de voir lequel convient le mieux à une tâche particulière. Pour l'analyse d'images, ou l'analyse multimédia, nous utilisons les plus récents et les plus performants, tels que le ChatGPT Omni. Il est unique en ce sens qu'il a des capacités pour rédiger des lignes de journal.
Prenez-vous en compte les prix lors de l'adoption d'un modèle ?
Christian Mahoney : Les LLM ont des niveaux de prix très différents. Et justement, pour certains de nos datasets, la façon dont GPT 3.5 Turbo exécute les lignes de journal par exemple est tout à fait suffisante. Donc, nous ne voudrions pas dépenser d'argent supplémentaire pour GPT-4 dans ce cas. En ce qui concerne les SLM, nous ajustons plutôt que de recréer un SLM distinct pour chaque application. Nous prenons un modèle existant et nous effectuons quelques adaptations pour l'exécuter sur un dataset différent avant qu'il ne commence à faire des prédictions dessus.
Vous estimez que certains LLM sont meilleurs dans certaines tâches que d'autres ?
Christian Mahoney : Certains modèles de langage sont meilleurs lorsqu'il s'agit de résumer ou d'identifier quelque chose, par exemple. Idéalement, si vous avez un workflow en six étapes, vous utilisez un LLM différent à chaque étape. On ne sait jamais qui va émerger demain et être meilleur à telle ou telle tâche. Nous utilisions celui d'OpenAI avant qu'il ne soit lancé publiquement. Et nous avons testé Meta et Claude.
Scientifiques et analystes de données, ingénieurs prompts - avez-vous intégré de nouvelles compétences pour répondre à vos besoins en matière de LLM ?
Carla Swansburg : Pour nous, plus le dataset est important, plus il y a besoin de data scientists. Christian travaille donc avec des data scientists. Ce n'est pas encore notre cas, car nous utilisons des datasets discrets. Il s'agit donc davantage de concevoir les prompts, ce que font nos développeurs. Mais cela évolue continuellement. Nous avons aussi des rôles intermédiaires, des « technologues juridiques », qui recueillent les exigences des clients et des avocats, les réinjectent et les personnalisent sur les plateformes que nous construisons