Les agents générateurs de code informatique, reposant sur l'IA, devraient prendre en charge une grande partie du développement de logiciels dans les années à venir, mais ce changement s'accompagnera d'un risque juridique en matière de propriété intellectuelle.

Les agents à base d'IA constitueront un progrès par rapport aux assistants de développement basés sur l'IA, ou copilotes, utilisés aujourd'hui par de nombreux programmeurs pour écrire des bribes de code. Mais comme les agents de codage sont susceptibles d'écrire davantage de logiciels et d'accomplir des tâches habituellement dévolues aux développeurs débutants, les entreprises devront surveiller de près les résultats de leurs robots codeurs, selon des juristes spécialisés dans la technologie.

Selon Jeffrey Gluck, avocat au cabinet Panitch Schwarze, spécialisé dans la propriété intellectuelle, des médias et des artistes ont déjà intenté plusieurs actions en justice devant les tribunaux américains pour violation du droit d'auteur contre des fournisseurs d'IA, les plaignants accusant ces derniers d'utiliser leur matériel pour entraîner leurs modèles d'IA ou les plagier dans les résultats proposés aux utilisateurs.

La même chose pourrait se produire avec le code d'un logiciel, même si les entreprises ne partagent généralement pas leur code source, dit-il. « Le résultat enfreint-il quelque chose que quelqu'un d'autre a fait ? Plus l'IA a été entraînée en utilisant le travail d'un auteur comme données d'entraînement, plus il est probable que le résultat ressemble à ces données de départ », souligne l'avocat.

Comment l'IA a-t-elle été formée ?

Au-delà de la possibilité que des agents de codage à base d'IA copient des lignes de code, les tribunaux devront décider si les fournisseurs d'outils technologiques peuvent utiliser du matériel protégé par le droit d'auteur - y compris certains codes sources - pour entraîner leurs modèles, explique Jeffrey Gluck. « Au niveau des grands modèles de langage, la question du droit d'auteur n'a pas encore été résolue », dit-il.

Les questions juridiques ne sont pas près de disparaître, ajoute Michael Word, avocat spécialisé dans la propriété intellectuelle et les technologies de l'information au cabinet Dykema Gossett. « Nous voyons déjà la possibilité d'utiliser l'IA en arrière-plan, essentiellement pour rédiger des parties importantes du code », dit l'avocat. Via l'interface utilisateur, vous indiquez ce que vous souhaitez que votre application fasse, vous appuyez sur un bouton et le code est généré en arrière-plan. »

Sans un examen du code généré par l'IA, les organisations peuvent s'exposer à des poursuites judiciaires, ajoute-t-il. « Il y a beaucoup de travail à mener en coulisses autour de ces bouts de code unitaires qui peuvent être empruntés, ajoute Michael Word. Ces emprunts proviennent-ils tous d'une seule source ou de sources multiples ? ».

Si un code écrit par un être humain peut également porter atteinte au droit d'auteur ou violer des licences de logiciels libres, le risque du code généré par l'IA est lié aux données sur lesquelles l'IA est entraînée, explique Ilia Badeev, responsable Data Science chez Trevolution Group, une entreprise spécialisée dans les technologies pour le secteur des voyages. Et il est très probable que de nombreux agents d'IA soient formés sur des codes protégés par des droits de propriété intellectuelle.

« Cela signifie que l'IA peut produire un code identique à un code propriétaire à partir de ses données d'entraînement, ce qui représente un risque énorme, résume Ilia Badeev. Il en va de même pour les logiciels libres. De nombreux programmes à code source ouvert sont destinés à un usage non commercial uniquement. Lorsqu'une IA génère du code, elle ne sait pas comment ce code sera utilisé, et vous pouvez donc vous retrouver à violer accidentellement les termes de la licence. »

Premières mesures anti-plagiat chez les fournisseurs

GitHub Copilot, l'assistant de Microsoft, reconnaît qu'il pourrait, dans de rares cas, reproduire des exemples de code utilisés pour entraîner le modèle d'IA de GitHub ». L'assistant de codage dispose d'un filtre de référencement de code optionnel pour détecter et supprimer les suggestions qui copient du code public, et il devrait intégrer une fonction de référencement de code pour aider les utilisateurs à trouver et à examiner les licences Open Source associées et potentiellement pertinentes.

GitHub a également mis en place des protections juridiques. « Lorsque les utilisateurs activent le filtre qui bloque les reproductions de code public existant, ils sont couverts par la politique d'indemnisation de GitHub », explique une porte-parole de l'entreprise.

Tabnine, un autre fournisseur d'assistant de développement à base d'IA, a annoncé son propre agent de révision de code à la fin du mois d'octobre. Mais GitHub Copilot et Tabnine ne sont pas les seuls assistants disponibles, et GitHub note que les utilisateurs sont responsables de leurs propres politiques de gestion des licences Open Source.

Pour se protéger, les organisations qui utilisent des agents de codage IA devront vérifier que le code produit par l'IA ne viole pas les droits d'auteur et les licences Open Source, soit en demandant à leurs développeurs d'y veiller, soit via des services spécialisés, indique Michael Word de Dykema Gossett. Certaines plates-formes de génération de code par l'IA « contribueront à vous protéger et à vous soustraire à une certaine responsabilité, ou du moins à vous rassurer », déclare l'avocat.

D'autres services sont susceptibles d'émerger, selon lui. « Au fur et à mesure que les usages des assistants se développent, ce type de fournisseur de services, permettant de télécharger votre code source afin de vérifier qu'il ne comporte pas d'infractions au code source ouvert, devrait émerger, explique-t-il. Ces services s'entraîneront sur les ensembles de données publiques existant et vérifieront votre code afin d'identifier les plaintes potentielles pour violation de droits d'auteur. »

Ilia Badeev, de Trevolution, recommande aux entreprises d'utiliser des agents pour vérifier les résultats produits par les assistants, de la même manière qu'elles vérifient le code généré par l'homme pour détecter les violations de propriété intellectuelle. « Vous devez toujours appliquer les mêmes bonnes pratiques que pour un code écrit par un humain ; les révisions de code sont toujours aussi importantes, explique-t-il. On ne peut pas faire confiance à l'IA pour qu'elle fasse tout d'elle-même. »

Un risque également pour la DSI ?

On ne sait pas exactement dans quelle mesure cette question posera problème aux organisations déployant des agents de codage. Jeffrey Gluck, de Panitch Schwarze, suggère que les grands fournisseurs d'IA pourraient être des cibles plus importantes pour les poursuites en matière de droits d'auteur et de violations de la propriété intellectuelle, mais Michael Word estime que les organisations utilisatrices courent également un risque, en particulier lorsqu'elles utilisent des agents pour mettre au point des logiciels populaires et visibles en externe.

« Vous devez être conscient de ce que font vos développeurs », explique en conséquence l'avocat. Vos codeurs vont utiliser la technologique parce que c'est un outil très utile, et il est difficile d'empêcher que cela se produise. » D'où le besoin, pour les DSI, de prendre des mesures équilibrées afin de prévenir les violations de la propriété intellectuelle, ajoute-t-il.