La famille de LLM o1 d'OpenAI capable de raisonnement complexe

Jusqu'alors connu sous le nom de code Strawberry, le dernier LLM o1 d'OpenAI serait en mesure d'émuler des raisonnements complexes. Basée sur des techniques de chaines de pensée, cette génération de grands modèles de langage se déclinera en plusieurs représentants dont dès aujourd'hui o1-preview et o1-mini.

OpenAI lève finalement un peu plus tôt le voile sur sa dernière génération de LLM. Jusqu'alors connue sous le nom de code Strawberry, elle était censée arrivée d'ici une à deux semaines mais c'est en réalité dès à présent que le fournisseur américain a décidé de passer à l'action en présentant o1. Cette génération de grands modèles de langage a pour caractéristique de passer plus de temps à traiter les réponses aux requêtes dans un but de résoudre des problèmes difficiles. Il se base pour cela sur des techniques de chaines de pensée avec à la clé la capacité d'émuler des raisonnements plus complexes.

Pour étayer ses propos, OpenAI a annoncé que o1 se classe dans le 89e percentile pour les questions de programmation compétitives (Codeforces), parmi les 500 meilleurs étudiants des États-Unis lors d'une épreuve de qualification pour les Olympiades de mathématiques (AIME), et dépasse le niveau de précision d'un doctorat humain sur un benchmark de problèmes de physique, de biologie et de chimie (GPQA). "Notre algorithme d'apprentissage par renforcement à grande échelle apprend au modèle à penser de manière productive en utilisant sa chaîne de pensée dans le cadre d'un processus de formation très efficace en termes de données", assure la société. "Nous avons constaté que les performances de o1 s'améliorent constamment avec plus d'apprentissage par renforcement (calcul du temps de formation) et avec plus de temps consacré à la réflexion (calcul du temps de test)."

Des garde-fous en termes de valeurs et de principes humains

o1 s'améliore par rapport à GPT-4o sur un large éventail de points de référence, y compris 54/57 sous-catégories MMLU. Sept d'entre elles sont présentées à titre d'illustration. (crédit : OpenAI)

Les utilisateurs de ChatGPT Plus et Team ont d'ores et déjà accès à la beta de ce LLM (o1-preview) sachant que et o1-mini est également lancé en même temps. Les utilisateurs des plans Enterprise et Edu y auront quant à eux accès début de la semaine prochaine. OpenAI prévoir de donner o1-mini à tous les utilisateurs gratuits de ChatGPT, mais n'a pas encore fixé de date de sortie. Pour les développeurs en revanche, ce LLM apparait très coûteux : o1-preview en mode API coûte en effet 15 $ pour 1 million de tokens en entrée, ou morceaux de texte analysés, et 60 $ pour 1 million de tokens en sortie. À titre de comparaison, GPT-4o coûte 5$ pour 1 million de jetons en entrée et 15 $ pour 1 million de tokens en sortie.

OpenAI reconnait cependant que les contraintes liées à la mise à l'échelle de l'approche utilisée pour o1 diffèrent considérablement de celles du préapprentissage de ses précédents LLM et qu'il continue à travailler dessus. "Nous avons constaté que l'intégration de nos politiques de comportement du modèle dans la chaîne de pensée d'un modèle de raisonnement est un moyen efficace d'enseigner de manière robuste les valeurs et les principes humains", assure également la société. Un point sur lequel le groupe se montre particulièrement vigilant et sur lequel il veille comme le lait sur le feu au risque de se faire encore passer pour un apprenti-sorcier.