Avec GPT-4o, OpenAI ouvre les vannes du multimodal

Face à une concurrence de plus en plus forte, OpenAI a lancé GPT-4o, une version gratuite de son LLM phare. Multimodal, il peut interagir avec du texte, de la voix et des images.

A quelques heures de la conférence développeur I/O de Google, OpenAI a dégainé une offre gratuite nommée GPT-4o, la lettre o signifiant « omnimodel ». Le caractère multimodal donne aux utilisateurs les capacités d’interagir en utilisant du texte, de la voix et des images. GPT-4o peut reconnaître et répondre à des captures d'écran, des photos, des documents ou des tableaux téléchargés.

Des performances sur l’audio et sur la reconnaissance d’image améliorées

Le modèle d’IA est également capable de distinguer les expressions faciales et les informations écrites à la main sur du papier. OpenAI a déclaré que le LLM amélioré et le chatbot qui l'accompagne peuvent répondre aux entrées audio en 232 millisecondes seulement, avec une moyenne de 320 millisecondes, « ce qui est similaire au temps de réponse d'un humain dans une conversation ». Les versions précédentes de GPT disposaient également d'un mode vocal conversationnel, mais les temps de latence étaient en moyenne de 2,8 secondes (dans GPT-3.5) et de 5,4 secondes (dans GPT-4).

Selon Mira Murati, Chief Technology Officer d'OpenAI, GPT 4o atteint désormais les performances de GPT-4 Turbo (sorti en novembre) pour les textes en anglais et en code, avec une amélioration significative pour les textes dans des langues autres que l'anglais. Lors de sa présentation, la dirigeante a déclaré que GPT-4o disposera également des récentes capacités de mémoire, ce qui lui permettra d'apprendre des conversations précédentes avec les utilisateurs et de les ajouter à ses réponses.

Ne pas se laisser distancer par la concurrence

Si les performances sont au rendez-vous, Chirag Dekate, analyste chez Gartner, souligne que le LLM présenté rattrape ses concurrents dans l’ère du multimodal accessible pour tous. « Il se mesure à ce que Google a proposé il y a trois mois avec l’annonce de Gemini 1.5 son système multimodal doté d’une fenêtre contextuelle d’un million de tokens », précise-t-il. Nonobstant, il reconnait que les capacités démontrées par GPT-4o sont impressionnantes dans le domaine de la conversation, où les utilisateurs peuvent l'interrompre et commencer de nouvelles requêtes ou des requêtes modifiées et cela dans 50 langues.

Plusieurs démonstrations ont été réalisées pour démontrer les capacités du LLM. Ainsi, le Voice Mode a été capable de traduire une discussion entre Mira Murati, qui parlait en italien, et Barret Zoph, responsable de la post-formation chez OpenAI, qui parlait anglais. Dans un autre test, Barret Zoph a écrit une équation algébrique puis l’a montrée à ChatGPT via la caméra de son smartphone et lui a demandé de lui expliquer le résultat. Toujours sur la partie vocale, les deux responsables ont demandé au chatbot de composer une histoire pour enfant avant d’aller se coucher. Ils ont pu interrompre le chatbot et lui demander d'ajouter plus d'émotion à l'intonation de sa voix.

De gauche à droite, Mira Murati, CTO d'OpenAI, Mark Chen, responsable de Frontiers Research, et Barret Zoph, responsable de la post-formation, démontrent la capacité de GPT-4o à interpréter les données d'un graphique. (Crédit Photo: OpenAI)

Disponibilité et limitation de la fenêtre contextuelle

Mira Murati a indiqué que les capacités de GPT-4o en matière de texte et d'images seront déployées de manière itérative avec un accès étendu à la « red team» à partir d'aujourd'hui. Les utilisateurs payants de ChatGPT Plus auront des limites de messages jusqu'à cinq fois plus élevées. Une version du mode vocal avec GPT-4o arrivera en version alpha dans les semaines à venir, a souligné la dirigeante. Les développeurs de modèles peuvent également accéder à GPT-4o dans l'API en tant que modèle de texte et de reconnaissance d’image. Le LLM est deux fois plus rapide, deux fois moins cher, et ses limites de débit sont cinq fois plus élevées que celles du GPT-4 Turbo, glisse-t-elle. « Nous prévoyons de lancer la prise en charge d’autres capacités audio et vidéo de GPT-4o auprès d'un petit groupe de partenaires de confiance avec l'API dans les semaines à venir », complète la CTO.

Reste un détail à préciser et non des moindres selon Chirag Dekate, la taille de la fenêtre contextuelle. Pour GPT-4, elle était de 128 000 tokens. « « La taille du contexte permet de définir la précision du modèle. Plus la taille du contexte est grande, plus vous pouvez entrer de données et plus vous obtenez de bons résultats », explique le consultant. A nos confrères d’IDG, un porte-parole d’OpenAI a déclaré que la taille de la fenêtre contextuelle de GPT-4o était elle aussi de 128 000 tokens. Un peu loin du million de tokens de Gemini 1.5 de Google ou des 200 000 de Claude 2.1 d’Anthropic.