OpenAI : copier, voler, coller

Selon la logique d'OpenAI, tous les travaux que l'on met en ligne sont susceptibles d'être copiés et incorporés dans ses grands modèles de langage. Au point de prendre le droit d'auteur un peu trop comme un paillasson.

En moyenne, chaque article publié par notre confrère d'IDG NS est volé une vingtaine de fois. Par exemple, pendant ses vacances, de nombreux sites d’arnaques ont copié et collé sa dernière chronique sur les licenciements plus d'une douzaine de fois le même jour. Pourquoi ? Parce qu'ils obtiennent l'avis des lecteurs sans avoir à lui payer un centime. Certes, les sites automatisés d’extraction de contenu ne gagnent pas beaucoup d'argent, mais comme pour le spam, le processus ne leur coûte pas grand-chose non plus. OpenAI, en revanche, a réalisé un chiffre d'affaires de 1,3 Md$ en 2023 et lui non plus n'a pas versé un centime. En se défendant contre le procès du New York Times sur les droits d'auteur, OpenAI affirme que « l'entraînement de modèles d'IA à l'aide de matériel Internet accessible au public est une utilisation équitable ». Oui, c'est vrai. Nous avons déjà entendu cela dans les très rares occasions où un extracteur de contenu a répondu à des actions engagées par exemple par l'avocat de notre confrère pour mettre fin à cette pratique. Le Times affirme que des millions de ses articles sont désormais utilisés pour former des chatbots qui lui font concurrence. Ce n'est pas faux. OpenAI et d'autres entreprises d'IA générative (genAI) entraînent leurs grands modèles de langage (LLM) à l'aide d'articles du New York Times. Elles gagnent des milliards grâce au travail des écrivains et des rédacteurs du journal sans avoir à payer pour cela.

OpenAI affirme également que le Times peut - et a effectivement - refusé que ses articles soient utilisés dans le LLM de ChatGPT. Mais, si c'était le cas, comment ChatGPT a-t-il pu plagier des articles comme celui de l'enquête en cinq parties, couronnée par un prix Pulitzer, sur les pratiques de prêt à des conditions abusives dans l'industrie des taxis de la ville de New York, à laquelle les auteurs ont consacré 18 mois de travail ? L'éditeur admet que l'un des moyens d'y parvenir est ce qu'elle appelle la mémorisation. « Il s'agit d'un échec rare du processus d'apprentissage sur lequel nous progressons continuellement, mais il est plus courant quand un contenu particulier apparaît plus d'une fois dans les données d'entraînement, par exemple si des éléments apparaissent sur un grand nombre de sites Web publics différents ». Comme c'est le cas sur les sites pirates susmentionnés, qui copient et collent des articles. En effet, OpenAI admet que l'escroquerie de l’enquête sur taxis semble avoir émergé « d'anciens articles publiés il y a plusieurs années qui ont proliféré sur de multiples sites web tiers ». C'est ce que j'appelle la défense « Ils l'ont fait en premier ». On ne peut pas s'en étonner car dans le même temps OpenAI affirme que le Times « n'a pas contribué de manière significative à l'entraînement de nos modèles existants et n'aurait pas non plus d'impact suffisant pour les entraînements futurs ». Les trois principales sources de données de l'ensemble de données le plus pondéré dans GPT-3, Common Crawl, sont Wikipédia, une base de données de brevets américains et… le New York Times.

Un modèle commercial reposant sur la collecte de documents aussi protégés par droit d'auteur

Comme l'a récemment écrit Victor Tangermann, collaborateur de Futurism.com, « tout le modèle commercial d'OpenAI repose sur la collecte d'un maximum de données, y compris des documents protégés par le droit d'auteur ». Vous n'êtes pas d'accord avec lui ? Que pensez-vous des arguments avancés par OpenAI devant le Parlement britannique ? L'entreprise y a déclaré ce qui suit : « Parce que le droit d'auteur couvre aujourd'hui pratiquement toutes les formes d'expression humaine, y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux, il serait impossible d'entraîner les meilleurs modèles d'IA d'aujourd'hui sans utiliser des documents protégés par le droit d'auteur ». Il n'y aucune objection à ce qu'OpenAI utilise des documents protégés par le droit d'auteur. Notre confrère n'est pas le Times, mais il a à son actif plus de 10 000 articles parus dans des publications technologiques de premier plan. Il ne doute pas que son travail soit utilisé par OpenAI. Cette société est libre de l'utiliser à condition qu’elle le paye pour cela. Dans son célèbre discours « Payez l'écrivain », le défunt écrivain de science-fiction Harlan Ellison avait déclaré : « Ils veulent tout pour rien. Ils ne resteraient pas cinq secondes sans être payés. Et ils se plaignent de leurs salaires et ils en veulent plus. Je devrais faire un cadeau à Warner Brothers ! Je ne m’étais pas rendu compte que Warner Brothers faisait la manche dans la rue avec un gobelet en fer-blanc et un cache-œil ! Non, franchement, ils veulent toujours que l’auteur travaille gratuitement ».

Il en va de même pour OpenAI et d'autres entreprises de genAI. Les sociétés d'édition, les publications, les écrivains et les rédacteurs font le travail, et ils veulent en tirer profit sans que personne n'ait à débourser un centime. Nous avons déjà connu cette situation. Dans les années 1990, les journaux et les magazines ont entamé un long déclin parce qu'ils ne parvenaient pas à tirer profit de la publication sur Internet. C'est pourquoi Google, qui a su transformer notre contenu en profits grâce à la publicité, a gagné des milliards et des milliards, tandis que les publications d'information continuent de s'épuiser. On ne voit pas les éditeurs refaire cette erreur. Cette fois, les auteurs seront payés. Et si Microsoft et OpenAI ne gagnent pas autant de milliards qu'ils l'espéraient, on ne pleurera pas pour eux.

Qualité Vs quantité des contenus : qui va gagner

Bien sûr, rien ne dit que les auteurs vont gagner. Si c’est le cas, il suffit de lire ce qui dit le blogueur et auteur de science-fiction Cory Doctorow, qui a inventé le terme croustillant d'« Enshittification », c’est-à-dire, selon sa définition, une baisse de la qualité des sites et des informations en ligne. Ce n'est pas qu'une simple opinion. Une étude récente montre que « les résultats de recherche de Google sont de moins en moins utiles et contiennent de plus en plus de sites de spam ». De plus en plus de contenus sont basés sur l'optimisation des moteurs de recherche et sur des imbécillités créées par l'intelligence artificielle. Dans le même temps, la baisse de la qualité au profit de la quantité se traduit par une diminution des revenus des publications et des rédacteurs. Cela signifie qu'il y aura encore moins d'histoires dignes d'intérêt dont les moteurs d'IA générative pourront s'inspirer. Si OpenAI et ses semblables ont un peu d’intelligence, ils commenceront à partager la richesse avec les créateurs de contenu. C'est vraiment la seule façon d'avancer à long terme pour nous tous, que nous soyons milliardaires de la technologie ou auteurs indépendants.

Sur le même thème

Partenaires

Livres blancs

Un modèle commercial reposant sur la collecte de documents aussi protégés par droit d'auteur

Qualité Vs quantité des contenus : qui va gagner

Commentaire

Suivre toute l'actualité

Newsletter

Livres blancs

Un modèle commercial reposant sur la collecte de documents aussi protégés par droit d'auteur

Qualité Vs quantité des contenus : qui va gagner

Newsletter LMI

Commentaire

Suivre toute l'actualité

Newsletter