Google a présenté Gemini 2.0, son dernier modèle de langage taillé pour la création d'agents et que l'entreprise qualifie de modèle le plus performant à ce jour. Annoncé hier, un premier modèle expérimental nommé Flash sera disponible pour tous les utilisateurs. La seconde itération est présentée comme présentant des avancées en matière de capacités multimodales, pour traiter des tâches d'entrée/sortie audio multilingues, de raisonnement, de recherche... Le fournisseur prévoit que Gemini 2.0 facilitera le développement d'agents d'IA se rapprochant d'un assistant universel. Les modèles d'agents peuvent comprendre davantage, anticiper plusieurs étapes et prendre des mesures au nom de l'utilisateur, sous supervision, a déclaré Sundar Pichai le CEO de Google.

Les avancées de Gemini 2.0 s'appuient sur des investissements réalisés pendant dix ans dans une approche complète et différenciée de l'innovation en matière d'IA, selon le dirigeant. Rappelons toutefois que la firme de Mountain View a surtout été prise de cours par le succès de ChatGPT et mis depuis deux ans les bouchées doubles pour rattraper son retard. La technologie a été construite sur du matériel personnalisé tel que ses TPU (tensor processing unit) Trillium de sixième génération - dévoilés en mai dernier - , qui ont alimenté l'entraînement et l'inférence de Gemini 2.0. Trillium est également disponible pour les clients qui souhaitent l'utiliser. Avec cette annonce, la société a également présenté la fonctionnalité, Deep Research, qui exploite les capacités de raisonnement avancé et de contexte long pour agir comme un assistant de recherche, en explorant des sujets complexes et en compilant des rapports. Deep Research est disponible dans Gemini Advanced.

Performances LLM Google Gemini

Comparatif des performances selon différents benchmarks des modèles Gemini 1.5 Flash, Pro et 2.0 Flash. (crédit : Google)

La recherche dopée à l'IA avec le projet Mariner

Alors que Gemini 1.0, présenté en décembre 2023, visait à organiser et à comprendre l'information, Gemini 2.0 vise à la rendre plus utile, selon M. Pichai. En vantant les mérites de Gemini 2.0, le fournisseur a cité le projet Mariner, un prototype de recherche précoce construit avec Gemini 2.0 qui explore l'avenir de l'interaction entre l'homme et l'agent, en commençant par un navigateur. En tant que prototype de recherche, il peut comprendre et raisonner à travers les informations d'un écran de navigateur, y compris les pixels et les éléments web tels que le texte, le code, les images et les formulaires, puis utiliser ces informations via une extension Chrome expérimentale pour effectuer des tâches. Des fonctions intéressantes sur lequel travaille aussi The Browser Company avec son navigateur IA Dia prévu pour tourner aussi bien sur macOS, iOS que Windows et Android.