En quelques semaines, ChatGPT a saturé l'espace médiatique. Drainé des millions d'utilisateurs (le cap des 100 millions a été franchi en janvier). Et déclenché une nouvelle bataille technologique entre les leaders de la technologie, l'alliance entre OpenAI, l'éditeur du chatbot, et Microsoft déclenchant des réactions en particulier chez Google et Meta. Une bataille dont l'Europe apparaît, en première lecture, assez largement absente. D'ailleurs, le ministre délégué au numérique Jean-Noël Barrot vient de promettre, pour le premier semestre 2023, une « accélération » de la stratégie française en matière d'IA, avec un focus sur l'IA générative, autrement dit capable de créer des contenus. Le signe d'une forme d'urgence ? Cela y ressemble fort.
Le ministre assure qu'il s'agira de « veiller à ce que la langue et la culture françaises soient prises en compte ». Au moins, le principal danger semble bien identifié : car, au-delà même de la mainmise des Gafam sur un pan de l'économie appelé à croître fortement, les IA génératives portent plus que jamais le risque d'une domination culturelle par les Etats-Unis. « Ces outils sont entraînés en majorité sur des textes en anglais, souligne Laurence Devillers, chercheuse au CNRS et professeur à la Sorbonne. Par exemple, pour GPT-3, le corpus de données était composé à 46% de documents en anglais pour moins de 5% de documents en français. Or, ChatGPT répond aux utilisateurs français... en français. »
Agréger de vastes corpus de données dans les langues européennes
Et la chercheuse de réclamer davantage de recherches en Europe pour mieux comprendre quel impact culturel aura l'injection de données multilingues sur la génération de textes. Ou encore pour appréhender la taille minimale du corpus de données dans une langue pour générer des textes corrects sur les plans syntaxique et lexical. « Injecter des pourcentages minoritaires de certaines langues n'est-il qu'un sparadrap en la matière ? Je n'ai pas l'impression que l'Europe ait encore bien compris l'importance des réponses à ces questions, la constitution de vastes corpus de données dans les langues européennes restant sous-estimée à ce jour. Or, on parle ici d'un enjeu de pouvoir évident. S'il profite aux seuls Gafam, le déploiement de ces outils va clairement renforcer le pouvoir des Etats-Unis, car ces modèles encapsulent la culture anglo-saxonne. » La chercheuse se positionne pour une régulation basée sur des seuils de données dans les langues européennes au sein des corpus de données entraînant les LLM (Large Language Models, modèles d'apprentissage automatique de modélisation de la langue entraînés sur de très grands volumes de données), « par exemple l'interdiction des modèles basés sur trop de ressources uniquement anglo-saxonnes ».
ChatGPT soulève des questions en matière d'égalité de traitement des différentes langues. Et, en Europe, cette question s'étend à 27 langues !
Un point de vue que rejoint François Yvon, chercheur au CNRS : « Un outil comme ChatGPT soulève des questions en matière de qualité de la langue produite : va-t-il proposer la même qualité en français qu'en anglais ? On ne sait pas. On sait en revanche qu'il ne parle pas le bulgare par exemple. Pour l'autorité européenne, cette question de l'égalité de traitement des langues masque un premier enjeu important. L'accès aux sources de connaissances en est un autre, car ChatGPT embarque toute une série de biais culturels. Ainsi, sa façon de raconter l'histoire mondiale risque fort de ne refléter que la vision américaine. » Dans le domaine des IA génératives, la puissance de votre modèle dépend largement du corpus de données que vous pouvez mobiliser pour la phase d'entraînement du modèle. « La constitution des grands corpus de données nécessaires pour entraîner les LLM ne bénéficie pas de la visibilité qu'elle mérite, car ce volet est souvent masqué dans les initiatives privées. Or, c'est le nerf de la guerre ! Il existe certes des projets européens, mais nous pourrions encore faire davantage d'efforts sur ce sujet », explique Thomas Wolf, le cofondateur de Hugging Face, une start-up américaine fondée par trois Français qui s'est donné pour mission de démocratiser l'accès à ces modèles d'IA en s'inspirant des principes de l'Open Source. Pour Thomas Wolf, précisément, la constitution de ces corpus de données devrait également reposer sur ces mêmes principes.
Un modèle entraîné sur le supercalculateur Jean Zay
Alors l'Europe est-elle déjà - et une nouvelle fois - larguée ? Avec 27 langues et plusieurs alphabets, la collecte d'un grand volume de données pour entraîner les modèles LLM est d'emblée bien plus complexe que la situation des Etats-Unis, qui peuvent s'appuyer sur la langue la plus usitée sur Internet. Elle peut toutefois compter sur quelques atouts, selon Thomas Wolf, qui s'appuie notamment sur la réussite de Bloom, un modèle LLM d'une puissance comparable à ChatGPT, mis au point selon un modèle de science participative piloté par Hugging Face et impliquant environ un millier de chercheurs de toutes nationalités. Mais avec un appui marqué de la recherche publique française. « Je ne suis pas si pessimiste sur le poids de l'Europe dans cette bataille technologique, explique cet ancien de Polytechnique. D'abord notre partenariat avec le supercalculateur Jean Zay (basé à Saclay, NDLR) autour de Bloom est un succès. Nous avons eu accès à des niveaux de performances très élevés. » En particulier, parce que Bloom a pu bénéficier de la totalité de la puissance du supercalculateur, soit 5 millions d'heures. Un point clef pour Thomas Wolf, qui soulignent les limites des politiques de découpage de la puissance entre de multiples projets.
Le supercalculateur Jean Zay, opéré par l'Institut du développement et des ressources en informatique scientifique (Idris) du CNRS.
« Et plusieurs supercalculateurs arrivent en production en Europe, dont trois projets publics offrant chacun l'accès à une puissance d'environ 15 000 GPU. Ce sont des capacités qui restent difficiles à réunir quel que soit l'endroit du monde où on se situe », avance le cofondateur de Hugging Face, qui fait ici référence aux supercalculateurs Lumi (Finlande, env. 10 000 GPU), Leonardo (Italie, 20 000 GPU) et Adastra (France, entre 10 000 et 20 000 GPU). Par ailleurs, au-delà de Bloom, d'autres projets se focalisent également sur des modèles d'apprentissage centrés sur les langues européennes, comme HPLT (High Performance Language Technologies, soutenu par l'Europe et le gouvernement britannique) ou OpenGPT-X (d'initiative allemande). Si on y ajoute les start-ups en pointe sur le sujet, comme LightOn (France) ou Aleph Alpha (Allemagne), « nous n'avons guère qu'un à deux ans de retard sur les Etats-Unis, guère plus », veut croire le co-fondateur de Hugging Face.
Le modèle Open Source pour faire contrepoids aux Gafam ?
Un des principaux atouts européens pour combler ce décalage réside précisément dans Bloom. « Ce n'est que la première génération des modèles que nous voulons proposer, précise Thomas Wolf. Nous voulons maintenant entraîner des modèles conversationnels ainsi que des modèles opérant dans d'autres langues que celles déjà proposées ». Mais Bloom reste à ce jour un projet de recherche - et non un projet industriel - visant à analyser et expertiser les grands modèles de langue, modèles qui au départ n'étaient disponibles que pour de grands acteurs privés. Le projet visait avant tout à redévelopper un modèle comparable sur des bases transparentes, inspirées de l'Open Source. « La licence de Bloom est très permissive. Elle offre une grande souplesse aux entreprises privées, qui peuvent s'en emparer », observe François Yvon. Sur Internet, on peut ainsi retrouver toutes les discussions et les résultats associés à ce projet. « Contrairement à OpenAI, où on ne sait rien. Ainsi GPT-3 a déjà connu plusieurs déclinaisons et l'API fournit des résultats qui changent au fil du temps sans que les causes de ces changements soient documentées », reprend le chercheur.
Thomas Wolf, le cofondateur de Hugging Face, la start-up qui a hébergé le développement de Bloom.
Si le modèle est séduisant, quel industriel européen pourrait aujourd'hui saisir la balle au bond et se lancer dans un déploiement industriel ? « La prochaine étape pour Bloom devrait être la création d'un ChatBloom, un robot conversationnel basé sur le modèle mis au point par les chercheurs et les industriels qui ont participé au projet. Des appels à projet ont été lancés en ce sens par l'Europe », tranche Laurence Devillers. Reste que, si l'Europe parvient à réunir les fonds pour financer les start-ups, elle pêche souvent quand il s'agit de passer à l'échelle, pour prendre le risque industriel. « Par ailleurs, sur le Vieux continent, les enjeux de l'IA, en termes de bénéfices potentiels mais aussi de capacités de nuisance, restent mal compris. Les gouvernements manquent de conseillers scientifiques pour appréhender ces enjeux à moyen ou long terme. »
Vers les très très grands modèles de langage
François Yvon, lui aussi, ne peut que constater l'absence d'industriels capables de jouer dans la cour des Microsoft, Google ou Meta : « Par exemple, l'ensemble de Jean Zay est trois fois plus petit que ce que Microsoft a déployé pour son partenariat avec OpenAI. Nous manquons de grands acteurs industriels en Europe. » Un peu comme si la faiblesse du Vieux Continent sur la technologie s'auto-alimentait à mesure que les vagues technologiques se déploient. D'ailleurs, la reconnaissance de la qualité de la formation française sur les mathématiques qui sous-tendent les modèles d'IA par les industriels américains ne fait que souligner, en creux, le manque d'opportunités que ces compétences rencontrent dans l'Hexagone et, plus largement, sur le Vieux Continent. Pour ne citer qu'un exemple, pas moins de 11 des 14 créateurs de LLaMA (l'IA générative dévoilée par Meta en réponse à ChatGPT) sortent de Polytechnique ou de Normale Sup. A tel point qu'on commence à parler d'une mafia française de l'IA de l'autre côté de l'Atlantique...
Un constat d'autant plus inquiétant que la bataille technologique ne fait que commencer. Pour Thomas Wolf, dont la start-up vient de renforcer son partenariat avec AWS pour là encore simplifier l'accès à ces modèles d'apprentissage automatique, 2023 sera l'année des très grands modèles d'apprentissage du langage. « On parle désormais du trillion de paramètres (Bloom en possède 176 milliards, NDLR), indique le co-fondateur de Hugging Face. Et il n'est pas souhaitable que les Gafam conservent seuls ces modèles. Aujourd'hui, on se rapproche d'une situation de monopole, avec le duo OpenAI - Microsoft qui est ultra-dominant. Ce n'est pas une situation saine. » Une situation qui agace au plus haut point Laurence Devilliers, qui s'étonne que le gouvernement français et le CNRS ne communiquent pas davantage sur la réussite de Bloom, largement associée à la recherche française. « C'est comme si on ne se donnait pas réellement les moyens de réussir. La souveraineté est-elle une question sans action réelle, qui ne se donne pas les moyens de parvenir réellement à déployer des solutions industrielles ? », interroge la chercheuse, qui réclame, pour commencer, une modification des pratiques d'achat de l'Etat permettant de favoriser la technologie européenne.
ChatGPT, le syndrome de la chaise vide pour l'Europe
En quelques semaines, ChatGPT a saturé l'imaginaire technologique. Laissant, pour l'instant, la France et l'Europe sans réponse. Malgré la contribution clef de la recherche publique hexagonale à une technologie comparable : Bloom.