Après OpenAI et Google, Mistral AI fait ses premiers pas dans les LLM multimodaux. La start-up française vient de lancer discrètement un modèle nommé Pixtral 12B pouvant analyser du texte et des images. Comme son nom l’indique, le LLM utilise environ 12 milliards de paramètres et dispose de capacité de reconnaissance d’image (computer vision).
Pixtral 12B a été élaboré sur la base de Nemo 12B, un ancien modèle auquel la société a greffé un adaptateur de computer vision de 400 millions de paramètres. Ce dernier permet aux utilisateurs d'ajouter des images par le biais d'URL ou de les encoder via base64 dans le texte saisi. Le modèle présenté devrait donc à l’instar de ses homologues Claude d’Anthropic, GPT-4o d’OpenAI ou Gemini de Google être capable de réaliser des tâches comme légender des images et compter le nombre d’objets sur une photo.
Un modèle en open source
La société a publié les paramètres et le code de Pixtral 12B via un lien torrent sur GitHub et la plateforme d'hébergement et de partage de code dédié à l'IA Hugging Face. Elle a confirmé à nos confrères de Techcrunch que le modèle est disponible sous licence Apache 2.0 sans aucune restriction. Les développeurs peuvent donc l’affiner et l’entraîner selon leurs propres besoins. Sophia Yang, responsable des relations avec les développeurs de Mistral, a déclaré dans un message sur X que le modèle serait bientôt disponible pour être testé sur les plateformes de chatbot et API de Mistral, Le Chat et La Plateforme.