Microsoft a commencé à déployer Image Creator sur Bing en avant-première sur certains marchés, préparant ainsi le générateur d'art à base d'IA pour un déploiement plus large dans Edge plus tard ce mois-ci. Dans un billet de blog et une vidéo connexe, la société a montré comment Image Creator fonctionnera et a expliqué plus en détail les limites qu'elle imposera aux invites que les utilisateurs génèrent. Il y a plusieurs semaines, Meta a déjà fait une démonstration de ses pouvoirs en la matière avec Make-A-Video, s’attaquant ainsi à la création d’images à partir de deux différentes, leur animation mais aussi la création d’un GIF à partir d’une invite textuelle. Une semaine plus tard, c’est au tour de Google d’animer du texte avec Imagen Video.
La semaine dernière, Microsoft a déclaré qu'elle allait introduire un générateur d'image à base d'IA dans Bing et Edge, en utilisant l'algorithme plus avancé de DALL-E 2. Il semble qu'Image Creator sera accessible depuis Bing.com et qu'une version connexe sera disponible depuis Edge peu après. L'éditeur a montré qu'Image Creator fonctionne dans la barre latérale d'Edge, découpant une petite colonne verticale pour afficher les résultats de recherche et d'autres informations, ainsi que des utilitaires pratiques. C'est ici que chacun pourra accéder au nouveau créateur d'images.
Un outil sans limite pour l’imagination
Dans une vidéo, Microsoft a montré comment les utilisateurs pouvaient générer une invite, en utilisant des termes conventionnels comme les styles artistiques. Image Creator peut ainsi renvoyer plusieurs petits résultats en l'espace de quelques secondes seulement. On ne sait pas encore s'il y aura une sorte de système de crédit ou un autre compteur pour limiter la génération d'invites pour tout utilisateur. Ici, l'approche de Microsoft est plus collaborative : l'exemple montré est celui d'un utilisateur qui conçoit une « maison de rêve » à l'aide des outils de création de contenu d'Image Creator, puis la partage sur les réseaux sociaux. Là encore, l'image est apparue en quelques secondes et quatre images ont été générées.
L'article de blog de Microsoft laisse entendre que les outils de génération d'image par l'IA fonctionneront de la même manière que d'autres services tels que Midjourney ou DreamStudio fonctionnant sur le cloud Azure. « Nous avons constaté qu'en général, Image Creator fonctionne mieux lorsque vous tapez une description de quelque chose, avec un contexte supplémentaire comme le lieu ou le style d'art que vous souhaitez émuler, par opposition à une description plus limitée », a déclaré Microsoft.
L’IA responsable mise en avant
La firme utilisera également l'IA pour filtrer les requêtes, en appliquant le même type de signaux qui aident Microsoft Defender à filtrer les sites Web problématiques, par exemple. Ces listes de blocage et ces classificateurs seront utilisés pour « réduire le risque d'utilisation d'invites offensantes ». Il est intéressant de noter que Microsoft applique également une technologie supplémentaire pour remédier aux biais constatés dans la génération d'images d'IA. (Il n'a pas précisé ce que cela signifie, bien que de manière anecdotique, certaines invites génériques semblent favoriser les résultats avec certaines couleurs de peau).
« Nous prenons au sérieux notre engagement en faveur d'une IA responsable », a déclaré Microsoft. « Pour aider à prévenir la fourniture de résultats inappropriés à travers l'app Designer et Image Creator, nous travaillons avec notre partenaire OpenAI, qui a développé DALL∙E 2, pour prendre les mesures nécessaires et nous continuerons à faire évoluer notre approche. Nous prendrons régulièrement en compte les retours que nous avons et les partagerons avec OpenAI pour améliorer le modèle ainsi que pour l'appliquer à notre propre travail d'atténuation ». Ce partenariat pourrait être renforcé sur le plan capitalistique. Selon The Information et le Wall Street Journal, OpenAI serait en discussion avec Microsoft pour un investissement supplémentaire (la firme de Redmond a déjà investi 1 Md $). Enfin l'éditeur a déclaré que ses générations d'images seraient régies par sa politique de contenu, qui empêche les images d'abus sexuels sur des enfants, d'activités intimes non consensuelles, de suicide, de terrorisme, de discours de haine, etc.