La sécurité des LLM d'OpenAI et d'Anthropic testée avant leur sortie

Les accords signés par OpenAI et Anthropic avec l'Institut américain de sécurité de l'IA dépendant du NIST prévoient une validation amont des dernières versions de ChatGPT et de Claude avant publication. Un moyen de s'assurer de la sécurité de ces LLM et de s'engager aussi sur l'évaluation des capacités et des méthodes d'atténuation des risques.

Les fournisseurs de grands modèles de langage (LLM) OpenAI et Anthropic ont signé des accords individuels avec l'institut américain de sécurité de l'IA (US AI Safety Institute) rattaché au NIST (institut national des normes et de la technologie du ministère du commerce américain. Objectif : collaborer à la recherche sur la sécurité de l'IA, qui comprend des tests et des évaluations. Dans le cadre de ces accords, les deux sociétés vont partager leurs derniers modèles avec l'institut avant qu'ils ne soient mis à la disposition du public pour des contrôles de sécurité. « Grâce à ces accords, nous sommes impatients de commencer nos collaborations techniques avec Anthropic et OpenAI pour faire progresser la science de la sécurité de l'IA », a déclaré Elizabeth Kelly, directrice de l'Institut américain de sécurité de l'IA, dans un communiqué.

Les accords prévoient une recherche collaborative sur la manière d'évaluer les capacités et les risques pour la sécurité, ainsi que sur les méthodes permettant d'atténuer ces risques. Ces accords interviennent près d'un an après que le président américain Joe Biden a adopté un décret visant à mettre en place une série complète de normes, de mesures de protection de la sécurité et de la vie privée et de mesures de surveillance pour le développement et l'utilisation de l'intelligence artificielle. Début juillet le NIST a publié un logiciel libre appelé Dioptra disponible sur GitHub pour les développeurs afin de déterminer le type d'attaques qui rendraient un modèle d'intelligence artificielle moins performant. Outre Dioptra, le NIST a également publié plusieurs documents visant à promouvoir la sécurité et les normes en matière d'IA, conformément au décret. Ces documents comprennent la première version de ses lignes directrices pour le développement de modèles de base, intitulées Managing Misuse Risk for Dual-Use Foundation Models, et deux documents d'orientation qui serviront de ressources complémentaires au cadre de gestion des risques de l'IA (AI RMF) et au cadre de développement de logiciels sécurisés (SSDF) du NIST, destinés à aider les développeurs à gérer les risques de la GenAI.

Une approche de sécurité de l'IA au diapason du Royaume-Uni

Les accords avec les fournisseurs de LLM comprennent également une clause qui permettra à l'institut de sécurité américain de fournir un retour d'information aux deux entreprises sur les améliorations potentielles à apporter à leurs modèles en matière de sécurité, en collaboration avec leurs partenaires de l'institut de sécurité de l'IA du Royaume-Uni. Au début du mois d'avril, les États-Unis et le Royaume-Uni ont signé un accord visant à tester les LLM de sécurité qui sous-tendent les systèmes d'IA. L'accord - ou protocole d'accord - a été signé à Washington par Gina Raimondo, secrétaire au commerce des États-Unis, et Michelle Donelan, secrétaire à la technologie du Royaume-Uni, et la collaboration entre les instituts de sécurité de l'IA découle directement de cet accord.

Les accords signés par OpenAI et Anthropic interviennent au moment où le projet de loi californien sur la sécurité de l'intelligence artificielle entre dans sa phase finale de transformation en loi. Celui-ci pourrait établir la réglementation la plus stricte du pays en matière d'IA et ouvrir la voie à d'autres similaires dans l'ensemble du pays. Le projet de loi, intitulé « Safe and Secure Innovation for Frontier Artificial Intelligence Models Act » (SB 1047), propose des tests rigoureux et des mesures de responsabilisation pour les développeurs d'IA, en particulier ceux qui créent des modèles complexes et de grande envergure. S'il est adopté, le projet de loi obligera les entreprises d'IA à tester la sécurité de leurs systèmes avant de les mettre à la disposition du public. Au début du mois, l'OpenAI s'est opposée au projet de loi pendant au moins cinq jours avant de s'engager à le soutenir la semaine dernière.

Le NIST a par ailleurs pris d'autres mesures, notamment la formation d'un groupe consultatif sur la sécurité de l'IA en février dernier, qui comprend des créateurs d'IA, des utilisateurs et des universitaires, afin de mettre en place des garde-fous pour l'utilisation et le développement de l'IA. Le groupe consultatif, baptisé US AI Safety Institute Consortium (AISIC), a été chargé d'élaborer des lignes directrices concernant les systèmes d'IA en équipe restreinte, l'évaluation de la capacité de l'IA, la gestion des risques, la garantie de la sûreté et de la sécurité, et le filigrane des contenus générés par l'IA. Plusieurs grandes entreprises technologiques, dont OpenAI, Meta, Google, Microsoft, Amazon, Intel et Nvidia, ont rejoint le consortium afin de garantir le développement sûr de l'IA.