Édito : ChatGPT, une perversion du modèle open source

Un des débats qui revient régulièrement dans la communauté open source est la contribution – en jour-homme, avec la mise à disposition d’instances pour des tests ou en espèces sonnantes et trébuchantes – aux projets portés par les différentes fondations (Apache, CNCF ou Linux). Même si, dans les faits, l’exploitant commercial – les hyperscalers par exemple - prend toujours plus qu'il ne contribue. Et ce schéma se reproduit à une très grande échelle avec les bots de type ChatGPT et les générateurs d'images comme Dall-E, qui reposent sur les LLM (large language model) avec un grand nombre de paramètres (généralement de l'ordre du milliard ou plus). Comme l’explique un article de Wired, OpenAI, le créateur de ChatGPT et de Dall-E, propose désormais des offres commerciales (achat de tokens) pour accéder à sa plateforme IA exploitant des ensembles de données issus de millions de sources en ligne.

Et certains sites communautaires comme Stack Overflow (aide à la programmation) ou Reddit (forums de discussions), qui alimentent les routines LLM des IA génératives, ont manifesté leur mécontentement devant le pillage de leurs forums sans contrepartie financière. Des sites médias comme Condé Nast appellent également les développeurs d’IA génératives à respecter les droits d’auteurs et négocier les droits d’utilisation de leurs données. Si les batailles autour des licences open source et de l’utilisation du code – comme le conflit juridique opposant Minio à Nutanix - ne sont toujours pas réglées, un autre volet judiciaire s’ouvre avec les IA génératives qui requièrent de grandes masses de données pour alimenter leurs modèles et générer un chiffre d’affaires qui s’annoncent particulièrement conséquent.