Dédié à la création d'outils open source, le projet Purple Llama présenté par Meta permet aux développeurs d'évaluer et de renforcer la fiabilité et la sécurité des modèles d'IA générative avant leur utilisation publique. Meta estime que les défis de l'IA ne peuvent être relevés de manière isolée et qu’il est nécessaire de collaborer pour garantir la sécurité de l'IA. Selon une déclaration de l'entreprise, Purple Llama vise à établir une base commune pour le développement d'une genAI plus sûre, alors que les préoccupations concernant les grands modèles de langage et d'autres technologies d'IA augmentent. « Les personnes qui construisent des systèmes d'IA ne peuvent pas relever les défis de l'IA en vase clos, c'est la raison pour laquelle nous voulons uniformiser les règles du jeu et créer un socle de confiance et de sécurité ouvertes », a écrit Meta dans un billet de blog.
Gareth Lindahl-Wise, directeur de la sécurité de l'information de l'entreprise de cybersécurité Ontinue, a qualifié Purple Llama d'étape « positive et proactive » vers une IA plus sûre. « L’idée de rassembler le développement sur une plateforme aura sans doute ses partisans et ses opposants, mais le fait d’offrir une protection prête à l’emploi au consommateur sera bénéfique », a-t-il ajouté. « Les entités qui ont des obligations internes, clients ou réglementaires strictes devront, bien sûr, toujours suivre des évaluations solides, sûrement très au-delà de l'offre de Meta, mais tout ce qui peut aider à mettre de l’ordre dans ce Far West potentiel est bon pour l'écosystème », a ajouté Gareth Lindahl-Wise. Le projet prévoit des partenariats avec des développeurs d'IA, des services cloud comme AWS et Google Cloud, des entreprises de semi-conducteurs comme Intel, AMD et Nvidia, et des fournisseurs de logiciels comme Microsoft. La collaboration doit encourager la production d’outils pour la recherche et à usage commercial capables de tester les capacités des modèles d'IA et d’identifier les risques de sécurité.
Llama Guard pour identifier le langage nuisible ou offensant
La première série d'outils publiée par Purple Llama comprend CyberSecEval, qui évalue les risques de cybersécurité dans les logiciels générés par l'IA. Le modèle de langage de CyberSecEval identifie les textes inappropriés ou nuisibles, y compris les discussions sur la violence ou les activités illégales. Les développeurs peuvent utiliser CyberSecEval pour vérifier si leurs modèles d'IA sont susceptibles de créer des codes non sécurisés ou de contribuer à des cyberattaques. Les recherches de Meta ont montré que les grands modèles de langage suggèrent souvent un code vulnérable, d’où l'importance des tests et des améliorations en continu pour la sécurité de l'IA. Llama Guard, autre outil de cette suite, est un grand modèle de langage formé pour identifier le langage potentiellement nuisible ou offensant. Les développeurs peuvent utiliser Llama Guard pour vérifier si leurs modèles produisent ou acceptent des contenus dangereux, en filtrant les invites qui pourraient conduire à des résultats inappropriés.