Ceux qui s’inquiètent de voir l'intelligence artificielle menacer leur emploi risquent d’être confortés dans leur crainte. Si l’on en croit la présentation, la dernière version du modèle Claude présentée par Anthropic, spécialisée dans la GenAI comme OpenAI et Mistral, est capable de regarder un écran d'ordinateur et de manipuler une souris et un clavier virtuels, « comme le font les gens ». Dans une vidéo de démonstration, le chercheur Sam Ringer montre Claude 3.5 Sonnet en train d'effectuer un travail de saisie de données, le modèle d'IA utilisant des captures d'écran d'un bureau Mac pour trouver des informations pertinentes et soumettre un formulaire. Tout à fait le genre de tâches que des employés effectuent quotidiennement partout dans le monde, même si M. Ringer précise qu'il s'agit d'un « exemple représentatif ». On ne sait pas exactement comment a été faite la vidéo.
Anthropic a mis à niveau son LLM Claude 3.5 Sonnet avec une nouvelle capacité, l'utilisation de l'ordinateur, ouvrant des opportunités dans l'automatisation des processus robotisés (RPA) et plus encore.
Mais il n'est pas nécessaire de croire Anthropic sur parole. Dès maintenant, il est possible de tester la première version de l'API Claude 3.5 Sonnet. Et c'est ce qu'a fait Ethan Mollick, professeur d'IA à la Wharton School de l'université de Pennsylvanie. M. Mollick a testé l'IA avec Universal Paperclips, un jeu de clics en ligne dont l'arrière-plan est une science-fiction particulièrement subtile. Celui-ci a dirigé le programme vers la fenêtre du navigateur du jeu et lui a dit « de gagner », puis il s'est assis et l'a regardé fonctionner. Le résultat est fascinant. L'IA a été capable d'identifier le point du jeu en extrapolant son interface textuelle, puis de procéder par essais et erreurs pour essayer de gagner. Dans le cas présent, il s'agissait essentiellement de faire grimper les chiffres. Il a pu jouer avec le prix des trombones pour augmenter ses revenus virtuels grâce à des tests A/B de base, comme le ferait un vrai joueur. Mais l’IA n'a pas réussi à mettre en place les étapes nécessaires à l'optimisation du processus, ce qui aurait été assez évident pour un joueur humain.
Une démonstration convaincante
Une IA du monde réel « jouait » à un jeu sur une IA fictive. Elle s'est heurtée à quelques boucles logiques qui l'ont empêchée de faire des progrès significatifs, et la machine virtuelle de M. Mollick est tombée en panne à plusieurs reprises avant que le jeu, qui durait des heures, ne puisse être achevé. Mais, grâce à un commentaire intéressant de l'opérateur humain, à savoir « vous êtes un ordinateur, utilisez vos capacités », l'ordinateur a été amené à écrire un code de base pour automatiser ses processus. Il s’agit typiquement d'un exemple d'ordinateur virtuel écrivant un code virtuel pour jouer à un jeu virtuel. Nous sommes en plein dans l’univers d’Inception, même si l'objectif et le résultat sont assez basiques. Claude a déclaré qu'il avait « gagné » le jeu en atteignant une étape « dans les limites des contraintes données » après de multiples plantages de la VM.
La démonstration reposant sur Paperclips montre les usages possibles dans le domaine du RPA. (Crédit Than Mollick)
Claude n'a pas gagné le concours Universal Paperclips, loin de là. Mais il faut garder à l'esprit que jouer à ce jeu largement contextuel va bien au-delà de l'intention initiale d'automatisation exposée dans la vidéo de démonstration d'Anthropic. La capacité de l'IA à identifier un objectif et à progresser avec un minimum d'incitation est impressionnante. L'analyse complète vaut la peine d'être lue. « Claude s'est montré flexible et persévérant face à la plupart des erreurs », a écrit le professeur Mollick. « Il a fait des choses intelligentes comme des tests A/B. Et surtout, il a fait ce qu'il fallait, et il a travaillé pendant près d'une heure sans interruption. »
Commentaire