Que se passerait-il si un pirate pouvait manipuler un agent IA pour qu'il se souvienne de fausses informations, de préjugé, d'instructions ou encore effacer tous ses résultats ? Ce scénario n'est pas de science-fiction mais un vrai problème soulevé en mai dernier par le chercheur en sécurité Johann Rehberger. Il y a quelques mois, ce dernier a détaillé ses travaux portant sur un risque par injection indirecte rapide dans l'application ChatGPT pour macOS suite au lancement de la dernière fonction Memory développée par OpenAI pour son assistant IA.

Dans le cadre de sa recherche, Johann Rehberger a notamment découvert que de faux souvenirs pouvaient être créés et stockés de manière permanente par le biais de cette technique d'attaque. Avec à la clé faire par exemple prendre pour argent comptant qu'un utilisateur ciblé avait 102 ans et qu'il vivait dans la Matrice ou encore de marteler que la Terre est plate... Si OpenAI avait introduit un premier correctif pour contrer ce risque par injection indirecte rapide, le chercheur avait indiqué que du contenu non fiable pouvait toujours être utilisé pour stocker des informations long terme déviantes. Mais la situation a fini par être définitivement prise en compte par OpenAI. "OpenAI a corrigé un problème persistant d'exfiltration de données dans l'application macOS ChatGPT que j'avais signalé", a fait savoir Johann Rehberger.

Pour se prémunir de ce risque, les utilisateurs de l'application macOS de ChatGPT doivent veiller à disposer de la dernière version en date.