La vie n'est pas un long fleuve tranquille pour OpenAI. Depuis le départ tonitruant de son co-fondateur et directeur scientifique Ilya Sustskever en mai dernier, la fuite de cerveaux s'est soudainement accélérée avec les défections récentes de Mira Murati (directrice technique), Bob McGrew (directeur de la recherche) et Barret Zoph (vice-président du post-entraînement). Mais également tout dernièrement de Diederik (Durk) Kingma, un de ses co-fondateurs spécialiste en développement IA qui rejoint Anthropic où il retrouvera un certain John Schulman, ex chercheur scientifique et aussi co-fondateur... d'OpenAI. A l'aune d'un tour de table financier qui pourrait atteindre 6,5 Md$ - et dans lequel Softbank prendrait sa part à hauteur de 500 M$ - le fournisseur est bien conscient du rôle essentiel de la communauté des développeurs dans l'adoption de ses solutions. Pour se démarquer d'une concurrence plus féroce que jamais en matière de LLM et d'agents conversationnels dopés à la GenAI, OpenAI met donc les bouchées doubles pour les séduire.

A l'occasion de la deuxième édition de sa conférence DevDay (San Francisco) ce 1er octobre, le fournisseur a ainsi dévoilé une série d'outils pour faciliter leur travail et gagner du temps : Realtime API, Vision fine-tuning pour GPT-4o, Model distillation et Prompt caching.

Realtime API

Avec Realtime API, les développeurs peuvent désormais intégrer rapidement de la synthèse vocale dans leurs applications. "Tout comme le mode vocal avancé de ChatGPT, l'API en temps réel prend en charge les conversations vocales naturelles en utilisant les six voix prédéfinies déjà prises en charge dans l'API", explique OpenAI. Pour les cas d'usage ne nécessitant pas nécessairement de faible latence, l'éditeur annonce l'arrivée de Chat Completions API pour que les développeurs puissent transmettre n'importe quel texte ou entrée audio à GPT-4o et faire en sorte que le modèle réponde par du texte, de l'audio ou les deux. "Avec Chat Completions API, les développeurs peuvent gérer l'ensemble du processus avec un seul appel d'API, bien qu'il reste plus lent qu'une conversation humaine.

Realtime API améliore cette situation en diffusant directement les entrées et sorties audio, ce qui permet des expériences conversationnelles plus naturelles. Elle peut également gérer les interruptions automatiquement, à l'instar du mode vocal avancé de ChatGPT", assure OpenAI. Alimenté par GPT-4o, Realtime API est pour l'instant en beta tandis que Chat Completions API (et son modèle associé gpt-4o-audio-preview) le sera dans les prochaines semaines. Realtime API utilise à la fois des jetons texte et des jetons audio. Pour le texte le prix est de 5$ HT par million de tokens en entrée et de 20$ HT par million en sortie, et pour l'audio de 100$ par million en entrée et de 200$ HT par million en sortie. Cela équivaut à environ 0,06 $ HT par minute d'entrée audio et 0,24 $ HT par minute de sortie audio selon OpenAI. Le prix de l'audio dans Chat Completions API sera identique.

Vision fine-tuning pour GPT-4o

Après le fine-tuning de texte pour GPT-4o, OpenAI met à disposition des développeurs un affinage par images. "Ils peuvent améliorer les performances de GPT-4o pour les tâches de vision avec seulement 100 images et obtenir des performances encore plus élevées avec des volumes plus importants de données textuelles et d'images", fait savoir le fournisseur. Quelques exemples concrets d'applications bénéficiant de cette dernière fonctionnalité ont été dévoilés comme le livreur de nourriture Grab pour localiser correctement les panneaux de signalisation et compter les séparateurs de voies pour affiner ses données cartographiques. Ou encore Automat qui a entraîné GPT-4o à localiser des éléments d'interface utilisateur sur un écran à partir d'une description en langage naturel, améliorant ainsi le taux de réussite de leur agent RPA de 16,60 % à 61,67 %. En disponibilité générale, Vision fine-tuning pour GPT-4o fonctionne à partir de la version du modèle gpt-4o-2024-08-06. Hors promotion (1M de tokens d'entrainement gratuits), à partir du 31 octobre il faudra débourser 25 $ HT pour 1M de jetons et l'inférence coûtera 3,75 $ HT par million de jetons d'entrée et 15 $ HT par million de jetons de sortie. 

Model distillation

OpenAI profite de son événement pour annoncer une amélioration de sa fonction Model distillation pour affiner des modèles plus petits et moins coûteux en utilisant les résultats de modèles plus performants. Objectif : égaler les performances des modèles avancés pour des tâches spécifiques à un coût bien moindre. "Jusqu'à présent, la distillation était un processus en plusieurs étapes, sujet aux erreurs, qui exigeait des développeurs qu'ils orchestrent manuellement de multiples opérations à l'aide d'outils déconnectés, depuis la génération d'ensembles de données jusqu'à l'affinement des modèles et la mesure des améliorations de performance", fait savoir l'éditeur. Cette version revisée inclut les modules suivants : Stored completions (construction d'ensembles de données pour évaluer et affiner les modèles), Evals (création et exécution d'évaluations personnalisées pour mesurer la performance des modèles sur des tâches spécifiques) et Fine-tuning (pour utiliser des ensembles de données créés avec des complétions stockées dans leurs jobs personnalisés et effectuer des évaluations sur des modèles fine tunés). Model distillation est disponible dès à présent et peut être utilisé sur les modèles d'OpenAI incluant  GPT-4o et o1-preview. 

Prompt caching

"De nombreux développeurs utilisent le même contexte de manière répétée à travers plusieurs appels d'API lorsqu'ils créent des applications d'IA, par exemple lorsqu'ils apportent des modifications à une base de code ou qu'ils ont de longues conversations à plusieurs tours avec un chatbot", explique OpenAI. Face à ce constat, la société annonce la possibilité de mise en cache des prompts pour réduire les coûts et la latence. "En réutilisant des jetons d'entrée récemment vus, les développeurs peuvent bénéficier d'une réduction de 50 % et d'un traitement plus rapide des prompts", assure le fournisseur. Disponible dès maintenant, cette fonction est automatiquement appliquée aux dernières versions de GPT-4o, GPT-4o mini, o1-preview et o1-mini, ainsi qu'aux versions améliorées de ces modèles. A noter que les invites mises en cache sont proposées à un prix inférieur à celui des invites non mises en cache.

"Les appels d'API aux modèles pris en charge bénéficieront automatiquement de la mise en cache des invites pour les invites de plus de 1 024 tokens. L'API met en cache le préfixe le plus long d'une invite qui a été calculée précédemment, à partir de 1 024 jetons et par incréments de 128 jetons. Si vous réutilisez des invites avec des préfixes communs, nous appliquerons automatiquement la remise sur la mise en cache des invites sans que vous ayez à modifier votre intégration API", précise en outre OpenAI.