Si ChatGPT continue sa croissance, tout comme son homologue Dall-E pour les images, il faudra compter sur une troisième solution, Sora. OpenAI a présenté hier sa solution de génération de vidéo à partir de texte. Elle est capable de créer des animations d’une durée maximale d’une minute avec une très bonne qualité visuelle (résolution 1080p)
Sur le plan technique, OpenAI indique dans un document « nous formons des modèles de diffusion conditionnelle de texte conjointement sur des vidéos et des images d’une durée, d’une résolution et de ratio d'aspect variables ». La société se base sur la technologie des transformeurs (à la base des LLM) qui « opère sur les éléments spatio-temporels des vidéos et le code latent des images ». Et le résultat est là. Sora peut générer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques et des détails précis sur le sujet et l'arrière-plan. Le modèle comprend non seulement ce que l'utilisateur a demandé dans l'invite, mais aussi comment ces choses existent dans le monde physique.
Des défauts persistent et un accès limité
Si les premières démonstrations sont impressionnantes, OpenAI reste lucide sur Sora en reconnaissant quelques défauts. Le modèle comporte des faiblesses notamment sur la simulation précise des propriétés des scènes complexes. Par ailleurs, le modèle peut confondre les détails spatiaux d’une invite, confondant la gauche et la droite. Sur la partie temporelle, il peut avoir du mal à décrire avec précision des évènements qui se déroulent dans le temps, comme le suivi de la trajectoire d’une caméra spécifique.
En termes de disponibilité, Sora n’est distribué qu’à certaines personnes. La « red team » (équipe chargée d’évaluer les risques) est chargée d’analyser les zones critiques. OpenAI donne également accès à un certain nombre d'artistes visuels, de designers et de cinéastes pour obtenir des commentaires sur la manière de faire progresser le modèle afin qu'il soit le plus utile possible aux professionnels de la création. Une chose est sûre, la start-up entend bien se faire une place dans le marché de la génération de vidéo où la concurrence est déjà forte avec des acteurs comme Meta, Microsoft ou Runway.