Avec Dioptra, le NIST vérifie la sécurité des modèles d'IA

Le NIST a publié un outil nommé Dioptra à destination des développeurs pour déterminer l'exposition des modèles d'IA à des attaques. L'organisme présente aussi des lignes directrices sur la protection de la GenAI.

La sécurité des systèmes d’IA devient de plus en plus importante au fur et à mesure de leur déploiement. Dans ce cadre, le NIST (National Institute of Standards and Technology) du ministère américain du Commerce apporte sa pierre à l’édifice en présentant un outil open source nommé Dioptra et de la documentation. « Tester les effets des attaques adverses sur les modèles d'apprentissage machine est l'un des objectifs de Dioptra », a déclaré le NIST dans un communiqué, ajoutant que « ce logiciel était destiné à aider les développeurs d'IA et les clients à savoir comment leur application d'IA pouvait résister à différentes attaques ». La solution, téléchargeable gratuitement, « peut aussi aider les développeurs de systèmes d'IA à quantifier la perte de performance d'un modèle et savoir ainsi à quelle fréquence et dans quelles circonstances le système échouerait », a expliqué l’organisme. La publication de Dioptra répond au décret adopté en 2023 par le président Biden, qui demandait au NIST d’apporter son aide dans les tests de modèles.

Outre cette solution et conformément au décret, le NIST a également publié plusieurs documents visant à promouvoir la sécurité et les normes de l'IA. L'un de ces documents, intitulé « Managing Misuse Risk for Dual-Use Foundation Models » est la première version publique des lignes directrices pour le développement de modèles de fondation. Le document décrit les pratiques que les développeurs peuvent adopter lors de la conception et de l'élaboration de leur modèle afin d'éviter qu'il ne soit utilisé à mauvais escient pour nuire délibérément à des personnes, à la sécurité publique et à la sécurité nationale. Le projet propose sept approches clés pour atténuer les risques d'utilisation abusive des modèles, ainsi que des recommandations sur la manière de les mettre en œuvre et de faire preuve de transparence à ce sujet. « Ensemble, ces pratiques peuvent contribuer à empêcher les modèles de nuire via des activités comme le développement d'armes biologiques, la réalisation d'opérations cybernétiques offensives et la production de matériel pédopornographique et d'images intimes sans consentement », a déclaré le NIST, ajoutant qu'il acceptait les commentaires sur le projet jusqu'au 9 septembre.

Des annexes sur la sécurité de l'IA générative

Les autres publications comprennent deux directives du NIST appelées respectivement « AI Risk Management Framework (AI RMF) » et Secure Software Development Framework (SSDF), qui serviront de ressources complémentaires pour la gestion des risques de l'IA et le développement de logiciels sécurisés et dont l’objectif est d’aider les développeurs à gérer les risques de l'IA générative. L'un des deux documents, intitulé AI RMF Generative AI Profile, fournit une liste de 12 risques provisoires liés à l'IA générative et propose aux développeurs près de 200 mesures pour les gérer. Parmi ces risques figurent un accès plus facile à la mise en œuvre d’attaques de cybersécurité, la production de fausses informations et de désinformation, de discours haineux et autres contenus nuisibles, et les hallucinations des systèmes d'IA générative. « La seconde directive, intitulée Secure Software Development Practices for Generative AI and Dual-Use Foundation Models, est complémentaire de la directive Secure Software Development Framework (SSDF) », a indiqué l'organisme. « Alors que le SSDF s'intéresse de manière générale aux pratiques de codage des logiciels, le document d'accompagnement élargit le SSDF en partie pour traiter la question d'un modèle compromis par des données d'entraînement malveillantes qui affectent négativement les performances du système d'IA », a expliqué le NIST.

Dans le cadre de son plan visant à garantir la sécurité de l'IA, le NIST a aussi proposé une initiative distincte qui autorise les parties prenantes américaines de collaborer avec d'autres pays à l'élaboration de normes en matière d'IA. En novembre de l'année dernière, la Chine et les États-Unis ont convenu de collaborer avec au moins 25 autres pays pour atténuer les risques liés à la progression de l'IA. Les deux pays, ainsi que plusieurs autres, dont l'UE, l'Inde, l'Allemagne et la France, ont signé, en novembre 2023, un accord, baptisé « Déclaration de Bletchley », lors du sommet sur la sécurité de l'IA « UK AI Safety Summit », afin de définir une ligne de conduite commune pour superviser l'évolution de l'IA et veiller à ce que la technologie progresse en toute sécurité.