Les participants étaient nombreux à s’être donnés rendez-vous au Palais des Congrès à Paris où se tient le salon Open Source Expérience (du 4 au 5 décembre). L’occasion pour l’écosystème du logiciel libre de discuter de l’état du marché, de voir des retours d’expérience, mais aussi d’entendre des débats sur des sujets tendances. Et l’IA en fait bien évidemment partie et a été au cœur de la conférence inaugurale sur le sujet de l’IA et l’open source. Une thématique sensible au regard de la récente actualité de l’OSI (open source initiative) qui a proposé enfin une définition de l’IA open source.
Des frictions sur la définition de l’OSI
Gaël Blondelle, membre du comité exécutif de l’OSI, explique « beaucoup d’acteurs parlent aujourd’hui d’open source dans l’IA, mais quand on regarde dans le détail ce qui l’est réellement par exemple dans Llama ce n’est pas de l’open source ». L’association planche « depuis 2 ans et a proposé un texte le 28 octobre dernier ». Le document rappelle « les 4 libertés fondamentales du libre [NDLR : liberté d’utiliser le logiciel, de l’étudier, de le copier et de le modifier en partageant ces changements] adaptées à l’IA sur l’accès au poids et aux paramètres du modèle, au code d’entraînement, au code sur les datasets utilisés avec une notion de données publiables ».
Ce dernier point suscite des frictions de la part de la communauté et des chercheurs. Laurence Devillers, professeur en IA et chercheuse au CNRS , attaque bille en tête, « les datasets, on ne les aura jamais, il faut intégrer des notions d’évaluation et de transparence, quel est le taux de données synthétiques pour entraîner les modèles, quel est le nombre de langues mobilisés et leur poids dans le modèle ? ». Elle ajoute, « il faut une définition dynamique qui évolue, car la technologie n’est pas statique » Et de souligner qu’il y a d’autres sujets comme « les audits réalisés principalement par les américains, la guerre dans le domaine des normes et des interrogations sur les assurances quand l’IA provoquera des crises ».
La contribution a un coût
Yann Lechelle (ex-Scaleway), co-fondateur et PDG de Probabl, une spin-off de l’Inria se fait l’avocat de l’OSI. « Face à la position de Meta sur l’open source qui est une agression de la communauté, la réponse de l’OSI était nécessaire ». Gaël Blondelle rebondit en soulignant qu’effectivement « il n’y avait pas le choix » tout en se déclarant ouvert « à faire évoluer la définition ». Il met cependant en garde, « nous ne sommes pas là pour légiférer ». Par ailleurs, sur les problématiques liées aux droits d’auteur ou sur ce que Yan Lechelle appelle « le hold-up de l’information », il martèle que « les licences open source ne sont pas exemptées de respecter les lois comme l’IA Act ou d’autres ».
Mathieu Boussard, responsable de la R&D chez Craft.AI (plateforme MLOps) revient sur le paradoxe d’une des libertés de l’open source : la contribution. « Aujourd’hui pour contribuer, il faut avoir de l’argent » et de raconter une anecdote, « nous avons modifié un élément dans un modèle e l’évaluation de ce changement nous a coûté 25 000 euros ». Laurence Devillers plaide pour une mobilisation plus importante de la recherche en France et en Europe sur ces sujets. Elle se remémore « le travail sur Bloom avec la volonté de savoir ce que l’on mettait dans le système et comment il fonctionnait ». Pour Yann Lechelle, il existe des succès en France sur l’IA autre que Mistral ou Hugging Face et de prêcher pour sa paroisse avec la librairie de machine learning scikit-learn « téléchargée plus de 1,5 milliard de fois, soit plus que PyTorch et TensorFlow ». Il reste donc optimiste et estime que « l’open source sous toutes ses formes (science, données, innovation) est une option que la France et l’Europe ne soient plus des challengers ».