Jusqu'alors disponible sur Azure AI Foundry, le petit modèle de langage phi-4 de Microsoft (14 milliards de paramètres) est désormais proposé en open source sur HuggingFace par Microsoft. Sous licence MIT, phi-4 revendique des performances supérieures à Google Gemini Pro 1.5 et OpenAI GPT-4o. Selon l’éditeur, ce SLM (small langage model), annoncé en décembre dernier, atteint des capacités de raisonnement mathématique remarquables tout en consommant moins de ressources IT que des LLM concurrents. « Nous avons été complètement surpris par l'accueil réservé au lancement de phi-4. Beaucoup de gens nous ont demandé de lâcher du lourd. Quelques-uns ont même téléchargé des versions phi-4 piratés sur HuggingFace. Eh bien, n'attendez plus. Nous publions aujourd'hui le modèle phi-4 officiel sur HuggingFace ! Avec la licence MIT ! », s'est réjouit Shital Shah, chercheur en machine learning et LLM chez Microsoft.

Le fournisseur définit phi-4 comme un modèle ouvert de pointe construit à partir d'un mélange d'ensembles de données synthétiques de sites web du domaine public filtrés, de littératures universitaires et de datasets de questions-réponses. « L'objectif de cette approche était de s'assurer que les petits modèles soient formés avec des données de haute qualité et un raisonnement avancé. Phi-4 a fait l'objet d'un processus rigoureux d'amélioration et d'alignement, incorporant à la fois un réglage fin supervisé et une optimisation directe des préférences pour garantir une adhésion précise aux instructions et des mesures de sécurité solides », explique Microsoft.

Robustesse et sécurité pas oubliées

D'après la firme de Redmond, phi-4 est conçu pour accélérer la recherche sur les modèles de langage, en vue d'une utilisation en tant qu'élément de base pour les fonctions alimentées par la GenAI. Il permet en particulier de se servir des systèmes et des applications d'IA à usage général (principalement en anglais) nécessitant des environnements avec des contraintes de mémoire et de calcul, des scénarios à latence limitée, ainsi que du raisonnement et de la logique. Par ailleurs ce SLM a adopté une approche qualifiée de robuste et sécurisée de post-entraînement.

« Cette approche s'appuie sur une variété d'ensembles de données synthétiques de source ouverte et générés en interne. La technique globale employée pour aligner la sécurité est une combinaison de SFT (supervised fine-tuning) et de DPO (direct preference optimization) itératif, y compris des ensembles de données accessibles au public », assure la société.