Après avoir levé 105 millions d’euros en juin dernier, Mistral AI livre son premier grand modèle de langage, baptisé Mistral 7B. Le chiffre et la lettre correspondent à la quantité d’hyperparamètres utilisés par le modèle, soit 7 milliards. Les fondateurs Arthur Mensch, Guillaume Lample et Timothée Lacroix (anciens de DeepMind et de Meta) ont mis les bouchées doubles pour présenter ces premiers travaux, attendus initialement au début 2024.
La start-up propose son LLM en mode open source sous licence Apache 2.0. Il est possible de le télécharger directement (archive de 13,5 Go) ou de le déployer sur des instances de cloud public (AWS/GCP/Azure), ainsi que sur la plateforme Hugging Face. Avec 7 milliards de paramètres, Mistral 7B n’entend pas concurrencer les GPT-3.5 ou 4 d’OpenAI, ni Palm 2 de Google, mais compte bien se frotter à des LLM de petite taille comme Llama 2 (13B) ou 1 (34B), ainsi que Code Llama de Meta.
Des benchmarks et des optimisations prometteuses
La société a réalisé plusieurs benchmarks sur certains points : connaissance, raisonnement, compréhension, mathématiques,… Et les résultats donnent un avantage à Mistral 7B en termes de précision. Même constat pour le modèle Mistral Instruct 7B entraîné pour le chat avec des datasets disponibles sur HuggingFace. Ce modèle « est une démonstration rapide que le modèle de base peut être facilement ajusté pour obtenir des performances convaincantes », souligne la start-up.
Pour réaliser Mistral 7B, la jeune pousse a pu compter sur le soutien de CoreWeave, un fournisseur de cloud orienté IA avec des instances HGX H100 de Nvidia, mais aussi sur les ressources de l'équipe CINECA/EuroHPC, et en particulier les opérateurs de Leonardo (supercalculateur basé en Italie).