Après la vague des LLM (large langage model), les entreprises se tournent vers des modèles plus petits, plus légers pour réaliser des tâches spécifiques plus rapidement et plus efficacement. Les éditeurs de modèles d’IA l’ont bien compris et multiplient les annonces sur les SLM (small langage model). Dans ce cadre, Nvidia et Microsoft viennent de faire des annonces dans ce domaine.

Un SLM Mistral et Nvidia

Nvidia a dévoilé Mistral-Nemo-Minitron 8B qui est une version réduite du modèle de langage Mistral Nemo 12B. Ce dernier a été développé en collaboration avec la start-up française Mistral AI. Le SLM présenté se sert deux techniques de machine learning connues sous le nom élagage (pruning) et distillation. Le premier procédé est un moyen de réduire les exigences matérielles d'un modèle en supprimant les composants inutiles de son code. Un réseau neuronal est constitué de neurones artificiels à base de code effectuant chacun un ensemble de calcul relativement simple. Certaines parties de code jouent un rôle moins actif que d’autres dans le traitement des demandes des utilisateurs. Elles peuvent donc être supprimées sans que la qualité des résultats de l’IA ne baisse de manière significative.

Après avoir allégé Mistral Nemo 12B, Nvidia passe à la séquence distillation. Il s’agit d’un processus par lequel des développeurs transfèrent les connaissances d’une IA à un second réseau neuronal, plus efficace sur le plan matériel. Dans ce cas, le second modèle était le Mistral-NeMo-Minitron 8B présenté aujourd'hui, qui compte 4 milliards de paramètres de moins que l'original. Cette approche, par rapport à celle de former un modèle à partir de zéro, offre une meilleure qualité des résultats de l’IA. La distillation d'un grand modèle en un modèle plus petit coûte également moins cher, car la tâche ne nécessite pas autant de données d'entraînement. Dans un blog, Nvidia souligne qu’avec la combinaison des deux techniques, le modèle Mistral-NeMo-Minitron 8B est « suffisamment petit pour fonctionner sur une station de travail équipée d'une Nvidia RTX tout en excellant dans de nombreux benchmarks pour les chatbots alimentés par l'IA, les assistants virtuels, les générateurs de contenu et les outils éducatifs ».

Microsoft étoffe sa famille Phi 3

En avril dernier, Microsoft avait présenté son offre de SLM avec un modèle nommé Phi-3 mini. L’éditeur vient d’enrichir son catalogue de petit modèle avec trois déclinaisons sous licence MIT : Phi 3.5-MoE-instruct, Phi 3.5-mini-instruct et Phi 3.5-vision-instruct. Le premier est un modèle léger construit à partir d'ensembles de données utilisés pour les données synthétiques Phi-3 et de documents filtrés accessibles au public, en mettant l'accent sur des données de très haute qualité et à forte densité de raisonnement. Le modèle offre un support multilingue et est livré avec 128K de longueur de contexte (en tokens).

Le modèle mini-instruct est une mise à jour de la version Phi-3 Mini réglée sur les instructions de juin 2024, basée sur les commentaires des utilisateurs, a déclaré la société. Il compte 3,8 milliards de paramètres et revendique de meilleures performances que ses concurrents Llama 3.1 8B et Mistral 7B. Enfin, la firme de Redmond a dévoilé Phi 3.5-vision-instruct comprenant 4,2 milliards de paramètres. Il est très orienté sur la reconnaissance d’image en intégrant un encodeur, un connecteur et un projecteur d’images. L’ensemble des modèles de Microsoft et Nvidia sont disponibles sur Hugging Face.