Pour l'Institut britannique AI Safety Institute (AISI), les mesures de protection intégrées à cinq grands modèles de langage (LLM), publiés par des institutions ou entreprises de renom et déjà disponibles, sont toutes inefficaces. Les modèles, anonymisés par l'AISI, ont été évalués en mesurant la conformité, l'exactitude et l'exhaustivité des réponses qu'ils fournissent. Ces tests ont été menés à l'aide du framework d'évaluation des modèles de l'institut, baptisé Inspect et publié en open source au début du mois.
« Tous les LLM testés restent très vulnérables aux jailbreaks de base, et certains fourniront des résultats potentiellement nuisibles, même en l'absence de tentatives spécifiques de contournement de leurs protections », explique l'institut dans son rapport. Rappelons que les jailbreaks visent à contourner par des prompts adaptés les mesures de protection implantées par les concepteurs de LLM.
Cyberattaques : les LLM au niveau lycée
Fondé dans la foulée du premier sommet sur la sécurité de l'IA, qui s'est tenu à Bletchley Park (où les codes allemands furent déchiffrés par les équipes d'Alan Turing durant la Seconde Guerre mondiale) en novembre dernier, l'AI Safety Institute teste les LLM dans plusieurs directions : usage possible dans la facilitation de cyberattaques, capacité à fournir des connaissances de niveau expert en biologie et chimie (pouvant être utilisées à des fins malveillantes), conduite de séquences d'actions se révélant difficiles à contrôler par un humain (fonctionnement en agents) et, enfin, vulnérabilité aux jailbreaks.
Dans le détail, les résultats que l'institut publie soit se révèlent assez inquiétants, soit pointent les limites opérationnelles des modèles. Par exemple, en matière de cybersécurité, « les modèles accessibles au public sont capables de résoudre des défis simples, de type Capture The Flag (CTF), du niveau de ceux destinés aux élèves du secondaire, mais éprouvent des difficultés à résoudre des problèmes plus complexes, de niveau universitaire », écrit l'institut. Mêmes limitations concernant le comportement autonome, de type agent (consistant à enchaîner des tâches sans intervention humaine). En la matière, deux des modèles testés sont capables de mener à bien des séquences simples, en particulier en ingénierie logicielle. Mais les problèmes plus complexes (de type R&D logicielle) restent hors de portée de tous les LLM passés au crible.
Jailbreak : tous les LLM cèdent facilement
Plus inquiétant, aucun des modèles testés ne résiste réellement aux jailbreaks. Les LLM ne sont même pas à 100% sécurisés quand le prompt demande directement une information potentiellement dangereuse, sans même tenter de contourner les garde-fous mis en place par les concepteurs ! Un des LLM testés répond ainsi positivement à ces invites dans 28% des cas. Et tous les modèles cèdent à des attaques par jailbreak conçues pour contourner leurs maigres défenses, surtout quand celles-ci sont répétées. « Les attaques sont relativement basiques en ce sens qu'elles insèrent directement la question dans un modèle de prompt ou suivent une procédure en quelques étapes pour générer des prompts spécifiques », écrit pourtant l'AISI.
Les LLM posent encore un problème de sécurité publique en raison de leurs compétences en biologie et chimie. Testés par l'AISI sur « 600 questions rédigées par des experts et portant sur des connaissances et compétences particulièrement pertinentes dans un contexte de sécurité », plusieurs LLM affichent un niveau expert en chimie et biologie, similaire à celui d'un professionnel ayant un doctorat dans ces spécialités.
La sécurité des LLM sur la sellette
Les tests de l'institut britannique pour la sécurité de l'IA montrent à la fois les limites opérationnelles des LLM, mais aussi leurs dangers. Aucun ne résiste à des attaques par jailbreak.