Il n'aura fallu qu'une poignée de jours pour que le raz de marée Deepseek mette le monde sans dessus-dessous. Alors que les Etats passent à l'offensive pour analyser aussi bien les impacts de cette IA tant en termes de sécurité que de confidentialité des données - avec plus d'un million de données sensibles déjà exposées - la concurrence fourbit ses armes.

Alibaba muscle Qwen 2.5

Parmi eux, le compatriote Alibaba n’a pas tardé à réagir y compris en plein nouvel an lunaire (où les chinois sont en congés) avec la présentation du grand modèle de langage Qwen 2.5 Max. Il serait selon la société plus performant que DeepSeek v3 et Llama 3.1 405B de Meta ou encore GPT 4o d'OpenAI. Le LLM est basé sur une architecture MoE (mixture of expert) et a été pré-entraîné sur 20 000 milliards de tokens. Il a ensuite été affiné avec du renforcement supervisé et humain.

De son côté, l’association Allen Institute for AI (Ai1) a présenté Tülu 450B qui « qui "atteint des performances compétitives ou supérieures à celles de Deepseek v3 et de GPT-4o ». L’organisme  ajoute que son modèle surpasse aussi des concurrents comme Llama 3.1 405B Instruct et Nous Hermes 3 405B, sur de nombreux critères de référence.

Des membres de Hugging Face décortiquent R1 de Deepseek

Sautant sur la mise à disposition en open source par Deepseek de son LLM par raisonnement R1 (licence MIT), la communauté du libre s'active pour en percer tous les secrets. Pour cela, sur Hugging Face, le projet Open-R1 a été créé pour disséquer le modèle chinois et en connaitre les moindres détails. Elie Bakouch, l'un des ingénieurs de Hugging Face à la tête de ce projet, a expliqué à TechCrunch que R1 n’est pas complètement open source. En effet de nombreux composants servant à le construire, ainsi que les données sur lesquelles il a été formé n’ont pas été rendues publiques.

Un flou qui selon l’ingénieur empêche la communauté de s’en inspirer ou de l’améliorer. Un travail de rétro-engineering a été mis en place pour découvrir les éléments manquants. Pour ce faire, l’initiative s'appuiera sur un serveur de recherche dédié de Hugging Face, le Science Cluster, alimenté par 768 GPU Nvidia H100. Le projet Open-R1 a suscité beaucoup d'intérêt jusqu'à présent, sa page GitHub ayant obtenu plus de 100 000 étoiles en trois jours seulement après son lancement.

Mistral pousse son SLM Small 3 

Très discret depuis le lancement de Deepseek, Mistral a jugé par la voix de son co-fondateur et DG Arthur Mensch que le modèle de la société chinoise « était un élément important et complémentaire de la technologie open source ». Pour autant, Mistral n’entend pas concurrencer en frontal R1, mais préfère porter le combat sur les modèles de plus petites tailles. C’est dans ce cadre, que l’entreprise française a présenté Small 3.

Doté de 24 milliards de paramètres et open source, il « peut servir de modèle de base solide pour faire émerger des capacités de raisonnement », explique Mistral. Sa petite taille n’exclut pas des bonnes performances en marquant des points face à d'autres comme Llama 3.3 70B ou GPT-4o. L'occasion de rappeler que dans la guerre que se livre les fournisseurs LLM, la bataille ne se joue (vraiment pas) seulement sur le terrain de la performance mais de l'usage et de l'adéquation aux besoins.