La DGFIP entraîne LLama pour résumer les amendements

Associée à la Dila et à la Dinum, la DGFIP a spécialisé le LLM de Meta pour qu'il rédige des synthèses des dizaines de milliers d'amendements déposés chaque année par les députés et sénateurs. Une illustration du potentiel de l'IA générative dans l'administration.

Avec l'appui de la Dila (la Direction de l'information légale et administrative) et de la Dinum (la DSI de l'Etat), la DGFiP publie en open source une adaptation de Llama, un modèle LLM de Meta, spécialisée sur la synthèse des amendements législatifs. Baptisé LlaMandement, le modèle est disponible sur la plate-forme HuggingFace, tout comme le jeu de données d'entraînement (sur le GitLab de l'Adullact). Un effort de transparence à souligner à l'heure où l'administration semble parfois rechigner à se conformer à une obligation pourtant inscrite dans la loi (comme le montre l'exemple de Parcoursup).

« Répondant aux défis administratifs posés par le traitement manuel d'un volume croissant d'amendements législatifs, LLaMandement constitue une étape importante en matière de technologie au service du juridique, offrant une solution qui dépasse les capacités de traitement humaines tout en égalant la robustesse d'un rédacteur juridique spécialisé », commentent les auteurs d'un article de recherche détaillant les travaux menés sur le modèle.

Trois étapes de traitement

Le LLM, mis en place à l'automne au sein de la DGFiP à l'occasion de loi de Finances 2024, s'inscrit dans la chaîne de traitement des amendements soumis par les députés et sénateurs, amendements qui se comptent souvent par milliers pour un seul texte de loi. D'où la volonté d'automatiser la chaîne de traitement de ces propositions. Celle-ci se décompose en trois étapes : l'attribution d'un amendement à l'administration la plus adaptée à son analyse, la recherche de textes ou amendements similaires et, enfin, la synthèse. Des tâches qui servent à la rédaction de mémorandums remis au gouvernement, afin de préparer leur réponse aux députés ou sénateurs lors de l'examen en séance des amendements.

Les deux premières étapes peuvent être automatisées avec des systèmes classiques (des systèmes experts ou des algorithmes de recherche approximative ou 'fuzzy matching'). Les auteurs de l'article font ainsi état d'un taux de succès de 94% dans l'attribution des 5400 amendements de la loi de Finances au sein du ministère du même nom. « Cependant, la reproduction de ce processus axé sur le NLP dans les différents ministères est difficile en raison de la diversité de leurs pratiques et de leurs méthodes opérationnelles », avertissent les auteurs de la DGFiP, de la Dila et de la Dinum. Sur ce même ensemble de 5400 amendements, la recherche de similarités a permis d'isoler un texte redondant sur six proposés.

Le choix d'un modèle plus petit et préentraîné

Reste donc à synthétiser les dizaines de milliers d'amendements examinés chaque année, chacun comprenant en moyenne deux pages. C'est sur ce terrain que la DGFiP a fait appel à Llama. Si les auteurs ne détaillent pas réellement les raisons du choix du modèle de Meta par rapport à des alternatives comme Mistral ou Bloom, ils explicitent leurs choix d'implémentation. Si les tests s'avèrent concluants avec le modèle Llama à 70 milliards de paramètres (ou 70B), alimenté en exemples, les équipes de développement ont orienté leurs efforts vers des modèles plus petits (à 7 et 13 milliards de paramètres), bénéficiant d'une étape de fine tuning. « Ce choix a été dicté par la nécessité de trouver un équilibre entre puissance de calcul, efficacité et utilisation durable des ressources », écrivent DGFiP, Dila et Dinum.

Pour entraîner ces modèles, l'équipe en charge du développement a bâti un corpus de plus de 15 000 amendements couplés à leur résumé, corpus qui a été affiné pour exclure les items jugés de mauvaise qualité, afin d'entraîner le LLM. Puis les résultats d'un test sur 30 amendements à la loi de Finances ont été soumis à un panel de spécialistes fiscaux. Si ceux-ci attribuent une note moyenne de 16,5 sur 20 aux résumés qu'ils ont eux-mêmes écrits, les LLM font presque aussi bien. 15,5 pour le plus grand modèle Llama alimenté en exemples, et à peine moins (15,1) pour le modèle à 13 milliards de paramètres pré-entraîné, mais sollicité avec un prompt simple. Le modèle Llama à 7 milliards de paramètres, lui aussi pré-entraîné, fait assez logiquement un peu moins bien (14,1), poussant la DGFiP à privilégier l'option intermédiaire. À titre de comparaison, les modèles de fondation de générations précédentes (comme T5 ou mT5 de Google) ne dépassent pas la note de 5 sur 20.

« Une avancée significative dans le domaine du NLP »

« La combinaison d'une compétence proche du niveau humain, de la vitesse et de la capacité de passage à l'échelle, malgré un modèle plus petit que LLaMA 70B, positionne LLaMandement comme un outil très efficace pour l'analyse de textes législatifs. Cela souligne l'utilité du modèle et son impact potentiel dans le paysage des applications législatives, marquant une avancée significative dans le domaine du NLP », soulignent les auteurs, qui indiquent également avoir vérifié que la phase de fine-tuning n'a pas ajouté de biais ethnique, politique ou de genre aux résultats, par rapport au modèle Llama originel.