xAI dévoile son LLM multimodal Grok 1.5 Vision

Après avoir annoncé son grand modèle de langage Grok 1.5, la start-up détenue par Elon Musk lève le voile sur son LLM multimodal Grok 1.5 Vision. Ce dernier se démarque par une compréhension accrue en termes d'éléments visuels, tels que des documents, photographies, captures d'écran, graphiques ou encore diagrammes.

La start-up d'Elon Musk xAI spécialisée dans l'intelligence artificielle ne perd pas de temps. Une poignée de semaines après avoir annoncé la dernière version 1.5 de son grand modèle de langage Grok, la jeune pousse lève cette fois le voile sur son premier LLM multimodal. Celui-ci est doté de capacités de traitements améliorées et de résolution de tâches plus complexes aussi bien en matière d'images, de documents, de photographies ou encore de schémas et de diagrammes. « Nous sommes particulièrement enthousiasmés par les capacités de Grok à comprendre notre monde physique. Grok surpasse ses pairs dans notre nouveau benchmark RealWorldQA qui mesure la compréhension spatiale du monde réel », affirme xAI dans un billet de blog.

Pour étayer ses propos, xAI dévoile les résultats de son comparatif maison évaluant les performances de Grok 1.5 Vision avec d'autres LLM multimodaux tels que GPT-4V (Open AI), Claude 3 Sonnet et Opus (Anthropic) et Gemini Pro 1.5 (Google). Avec à la clé des résultats prometteurs mais inégaux : s'agissant de TextVQA (lecture de texte), Grok 1.5V ressort premier - d'une très courte tête cependant par rapport à GPT-4V soit 78,1 % versus 78 %. En revanche pour le comparatif DocVQA le LLM multimodal de xAI est à la traine par rapport à Claude 3 Sonnet (85,6 % contre 89,5 %) ce qui montre encore une marge notable de progression sur la concurrence.

Taillé pour la compréhension du monde réel

S'agissant du benchmark RealWorldQA (compréhension du monde réel) spécialement conçu par xAI, Grok 1.5V affiche un résultat de 68,7 % contre 67,5 % pour Gemini Pro 1.5, 61,4 % pour GPT-4V et 51,9 % pour Claude 3 Sonnet. « La version initiale du RealWorldQA comprend plus de 700 images, avec une question et une réponse facilement vérifiable pour chaque image. L'ensemble de données se compose d'images anonymes prises sur des véhicules, ainsi que d'autres images du monde réel », explique la start-up. A noter que l'éditeur propose son jeu de données à la communauté, disponible en téléchargement sous licence creative commons.

Grok 1.5V sera prochainement disponible pour les utilisateurs et testeurs actuels de Grok. En attendant, la jeune pousse en profite pour annoncer qu'il prévoit dans les mois à venir d'apporter des améliorations significatives en matière de compréhension multimodale et capacités de génération de son modèle aussi bien en termes d'images, d'audio que de vidéo. Et d'indiquer qu'il recrute dans de nombreux domaines (ingénieurs et chercheurs IA, ingénieurs data et web crawling, full stack web ou encore ingénieurs frontend et designer UI/UX)...