Des scientifiques de Google ont développé un programme d'intelligence artificielle devenu imbattable dans les jeux vidéo Atari. Le Deep Q-network (DQN) développé par l’éditeur de logiciels d’intelligence artificielle Deepmind est capable d’apprendre à jouer à des jeux vidéo de console Atari 2600 en ayant comme seule information le score et les pixels affichés à l’écran. Basé à Londres, Deepmind a été racheté par Google l’an dernier.
Dans une étude publiée par la revue Nature, Demis Hassabis et d'autres collaborateurs de Google Deepmind ont indiqué que le programme dépassait de loin la performance des anciens algorithmes sur la plupart des 49 jeux qui ont été utilisés pour les tests. De plus, il s’est montré presque aussi fort qu’un testeur de jeu professionnel « humain ». Il ne connaissait pas les règles à l’avance et sa seule « motivation » était d’obtenir le meilleur score et d’améliorer son jeu au fur et à mesure des sessions. Finalement, le programme est devenu très fort dans la plupart des jeux vidéo, notamment Pinball et Breakout (*), grâce à l’algorithme qui imite les méthodes cognitives et d’apprentissage de la pensée humaine.
Renforcement de l’apprentissage
L’approche utilisée par les scientifiques est connue sous le nom de renforcement de l’apprentissage : la méthode consiste à donner des récompenses pour inciter le système à apprendre. Celle-ci a été combinée avec une sorte de réseau neuronal artificiel appelé réseau neuronal profond, qui utilise différentes couches de calcul pour représenter les données de façon toujours plus abstraite. L'équipe a utilisé une architecture d'inspiration biologique connue sous le nom de « réseau avec codage convolutif profond », une approche similaire à celle adoptée par des chercheurs de l'Université du Maryland qui ont créé des robots ayant appris à cuisiner par eux-mêmes en regardant des vidéos sur YouTube.
L'algorithme DQN s’est montré performant avec plusieurs types de jeux, notamment les jeux de tir à défilement latéral, les matchs de boxe et la course automobile en 3D. Dans 29 des 49 jeux, le programme a obtenu 75 % du score du testeur « humain ». Plus important encore, il a pu améliorer sa stratégie de jeu au fur et à mesure des sessions. Ainsi, après 600 sessions du jeu Breakout, le programme a appris à passer dans le tunnel situé derrière un mur de briques, seule manière pour parvenir à le détruire. Le programme a envoyé la balle dans le tunnel à plusieurs reprises, laquelle, en rebondissant, détruit les briques.
Associé à des mécanismes basés sur la biologie
Ce n’est pas la première fois que l’apprentissage des algorithmes est utilisé pour jouer à des jeux vidéo sans préparation préalable. Cependant, DQN s’est montré piètre joueur dans des jeux comme la Vengeance de Montezuma, qui demande une stratégie de planification à long terme. Néanmoins, dans le cas présent, les chercheurs font remarquer qu’une même architecture a été capable d'apprendre et de s’adapter à différents jeux, ce qu’ils considèrent comme une nouvelle étape dans le développement de programmes d’intelligence artificielle. « Plus généralement, notre travail montre qu’il est possible d'exploiter des techniques d'apprentissage machine de manière efficace. Combinées à des mécanismes basés sur la biologie, nous pouvons créer des agents capables d'apprendre à exécuter des tâches variées et complexes », ont écrit les auteurs.
(*) Breakout est le premier jeu de casse-briques adapté sur console Atari 2600 en 1978.
Commentaire