Les LLM sont peut être très performants en matière de traitement du langage naturel, mais sont loin d'être doués pour repérer des invites de commande malveillante cachées dans de l'art ASCII (des images réalisées à l'aide de lettres et de caractères spéciaux propres au code ASCII). C'est ce que montre un travail de recherche mené par des chercheurs des universités de Washington et de Chicago. "De nombreuses techniques telles que le filtrage des données et le réglage fin supervisé ont été développées pour renforcer la sécurité des LLM. Cependant, les techniques actuellement connues supposent que les corpus utilisés pour l'alignement de sécurité des LLM sont uniquement interprétés par la sémantique. Cette hypothèse n'est toutefois pas valable dans les applications réelles, ce qui entraîne de graves vulnérabilités dans les LLM comme par exemple avec l'art ASCII", explique le rapport.
Dans le cadre de leur étude, les chercheurs ont mis au point une technique d'attaque, un jailbreak basé sur l'art ASCII et ont mesuré la capacité, via un benchmark maison Vision-in-Text Challenge (ViTC), de plusieurs grands modèles de langage du marché à repérer la tromperie. Cekui-ci a été conçu à partir de deux ensembles de données uniques. Le premier est VITC-S, qui se concentre sur les caractères uniques représentés dans l'art ASCII, couvrant un ensemble diversifié de 36 classes avec 8 424 échantillons. Les échantillons englobent un large éventail de représentations ASCII utilisant diverses polices destinées à mettre à l'épreuve les capacités de reconnaissance des MFR. Le second est VITC-L qui se concentre sur la complexité croissante en présentant des séquences de caractères, s'étendant à 800 classes dans 10 polices distinctes.
Seul, la moitié des chiffres ou caractères associés sont reconnus
De GPT-3.5 à GPT-4, en passant par Gemini, Claude ou encore Llama2, tous rivalisent de lacunes pour déceler correctement les invites de commandes malveillantes. Le PoC d'attaque des universitaires, baptisé ArtPrompt, nécessite pour fonctionner un accès boite noire aux LLM visés ce qui en fait "une attaque pratique" selon eux :"ArtPrompt peut effectivement et efficacement induire des comportements indésirables de la part des cinq LLM". ArtPrompt se compose de deux étapes. Dans la première, ce vecteur d'attaque masque les mots de sécurité (par exemple, "bombe") dans une invite qui pourrait entraîner le rejet de la part du LLM victime. Dans la deuxième étape, ArtPrompt remplace le mot masqué à l'étape I par de l'art ASCII. L'invite masquée est ensuite combinée avec la représentation ASCII et envoyée à un LLM cible.
"La performance la plus élevée (affichée par GPT-4) sur le jeu de données l'ensemble de données VITC-S est seulement de Acc [qui attribue un résultat binaire à chaque échantillon individuel x, ndlr] = 25.19%, ce qui est considérablement plus faible comparé aux évaluations sur d'autres tâches telles que la complétion de code, le résumé, et la reconnaissance d'autres tâches telles que l'achèvement de codes, le résumé et le raisonnement mathématique ", peut-on lire dans l'étude. " Lorsqu'ils sont évalués sur l'ensemble de données VITC-L, les performances de tous les modèles se détériorent de manière significative. Par exemple, le modèle GPT-4 n'obtient qu'un Acc = 3,26 %. Par rapport aux résultats de l'évaluation sur le jeu de données VITC-S, la baisse significative de l'Acc s'explique par le fait que la tâche de reconnaissance devient plus difficile à mesure que les échantillons contiennent des séquences de chiffres ou de caractères. En outre, l'AMR [capture l'accomplissement partiel de la tâche de reconnaissance, ndlr] le plus élevé parmi tous les modèles est de 54,39 %, obtenu par GPT-3.5. Cela indique que, en moyenne, le modèle ne peut reconnaître qu'environ la moitié des chiffres ou des caractères associés à un échantillon de données ".
ArtPrompt toujours efficace pour attaquer des LLM ?
En résumé, tous les LLMs évalués montrent une faible performance sur les deux ensembles de données VITC-S et VITCL lorsqu'ils sont évalués avec les mesures Acc et AMR indiquent les chercheurs. La raison en est que ces modèles sont entraînés avec des corpus de données qui s'appuient uniquement sur la sémantique pour l'interprétation. " La performance d'ArtPrompt sur des modèles de langage multimodaux doit faire l'objet d'une étude plus approfondie ", peut-on lire toutefois dans le rapport. " Nous émettons l'hypothèse qu'ArtPrompt restera efficace pour attaquer les modèles de langage multimodaux. La raison en est que bien que les modèles de langage multimodaux puissent interpréter des images la même manière que l'art ASCII, les invites masquées générées par ArtPrompt se présentent toujours sous la forme de textes. Un tel format d'entrée perturbe le modèle, ce qui permet à ArtPrompt d'induire des erreurs et des comportements dangereux pour les modèles de langage multimodaux ".
Commentaire