La mise en place de garde-fous dans les modèles d’IA n’est pas la réponse parfaite pour éviter de générer du mauvais contenu. Anthropic vient de s’attaquer à ce problème face à la multiplication des techniques pour contourner ces barrières. Ces méthodes aussi appelées jailbreak, « exploitent le LLM en l'inondant d'invites excessivement longues, tandis que d'autres manipulent le style d'entrée, par exemple en utilisant des majuscules inhabituelles », souligne la...