En levant 19 M$, ElevenLabs accélère sur l'IA vocale générative

L'IA générative sur la voix monte en puissance avec ElevenLabs. La start-up américaine qui développe des modèles d'IA audio vient de lever 19 millions d'euros en série A. À long terme, elle ambitionne de rendre le contenu universellement accessible dans n'importe quelle langue et voix.

Elle n’a pas encore soufflé sa deuxième bougie mais est très en avance sur son temps. ElevenLabs, société américaine de recherche sur la technologie vocale et éditeur de logiciels d'IA audio, vient de boucler son premier tour de table. D’un montant de 19 millions de dollars, ce financement servira à poursuivre ses recherches sur l'IA vocale et le déploiement de ses produits. L’opération a été co-dirigée par les entrepreneurs Nat Friedman, CEO de GitHub et Daniel Gross, fondateur de Pioneer ainsi que le fonds de capital-risque Andreessen Horowitz. Ont également participé à ce tour de table Credo Ventures, Concept Ventures et une série d'investisseurs stratégiques, incluant notamment Mike Krieger, co-fondateur d'Instagram, Brendan Iribe, co-fondateur d'Oculus VR, Anjney Midha, co-fondateur d'Ubiquity6, Mustafa Suleyman, co-fondateur de Deepmind & Inflection, et bien d’autres. À noter qu’à la suite de cette prise de participation, Andreessen Horowitz siège au conseil d'administration.

Fondée par Mati Staniszewski, ancien de Palantir et Piotr Dabkowski, ex ingénieur logiciel chez Google, la jeune pousse a passé sa première année à développer des modèles d'IA audio capables de créer les voix les plus polyvalentes et les plus sensibles au contexte. Sa plateforme lancée en version bêta en janvier 2023, a attiré plus d'un million d'utilisateurs enregistrés à ce jour qui ont généré plus de 10 ans de contenu audio dans les domaines de la création, du divertissement, du jeu et de l'édition. Ses outils peuvent transformer n'importe quel texte en discours en utilisant des voix synthétiques, des voix clonées ou en créant des voix artificielles entièrement nouvelles qui peuvent être adaptées en fonction du sexe, de l'âge et des préférences en matière d'accent. La jeune pousse a réussi à atteindre un niveau de qualité vocale qu’elle qualifie de « presque impossible à distinguer d'un véritable être humain avec une latence inférieure à 1 seconde ».

« Faire tomber complètement les barrières linguistiques »

Sa plateforme a notamment servi à créer des livres audios, à donner la voix à des personnages dans des jeux vidéo, à aider les malvoyants à accéder à du contenu écrit en ligne ou encore à alimenter la première chaîne de radio IA au monde. Mati Staniszewski, CEO et cofondateur d'ElevenLabs, ne cache d’ailleurs pas sa fierté : « Au cours des cinq derniers mois, nous avons vu notre technologie adoptée par des millions de créateurs, d'entreprises et d'esprits curieux. Nous n'en sommes qu'au début de ce voyage et maintenant que Nat, Daniel et Andreessen Horowitz nous rejoignent, nous avons les meilleurs partenaires pour continuer sur la voie ambitieuse de l'avenir ». Avec ce financement, la start-up compte propose d’autres produits et toucher d’autres secteurs. Ainsi, elle propose dès maintenant des outils supplémentaires « permettant à quiconque de créer un livre audio complet sur la plateforme en quelques minutes, ainsi qu'un modèle de détection de la parole par l'IA ».

Baptisé Projects, la dernière innovation d’ElevenLabs en matière d’IA consiste en un flux de production très recherché pour l'édition et la création de contenu oral dynamique et de longue durée. Disponible dès maintenant en accès anticipé avant un lancement général en juillet, Projects s’adresse donc aux créateurs de contenu, tels que les éditeurs et les auteurs indépendants, afin d'accéder à un niveau de contrôle jusqu'ici inaccessible sur leur contenu audio généré par l'IA. Pour parvenir à cela, l’entreprise a beaucoup investi dans ses recherches en matière de synthèse vocale sur une longue durée et de remplissage audio. ElevenLabs a même comparé Projects à Google Docs en termes de simplicité et de convivialité.

Un outil de doublage par IA prévu courant 2023

Projects rejoint la suite de produits ElevenLabs, qui comprend donc Speech Synthesis, une plateforme de synthèse vocale qui exploite des voix synthétiques préexistantes, et VoiceLab, un flux de travail permettant de créer une voix unique ou une version numérique d'une voix existante. La plateforme a également récemment donné accès à Eleven Multilingual, un modèle de synthèse vocale qui peut être utilisé dans les principales langues européennes. L’ensemble de ces développements doit conduire à la mise au point d'un outil de doublage par IA dont la sortie est prévue dans le courant de l'année. Avec cet outil, les utilisateurs seront en mesure de doubler n'importe quelle vidéo dans n'importe quelle langue de manière efficace et évolutive, tout en conservant la voix du locuteur d'origine. L'entreprise mène déjà un certain nombre de tests avec des partenaires de l'industrie pour déployer le doublage par IA à grande échelle.

ElevenLabs dévoile également son classificateur de discours AI. Cet outil offre les moyens de télécharger un échantillon audio et de déterminer si le clip contient du son généré par l'IA de l'éditeur. Décrit comme le premier de son genre dans le domaine de l'audio génératif, l’outil est désormais accessible au public et à des partenaires sélectionnés sous la forme d'une API. Pour Piotr Dabkowski, directeur technique et cofondateur d'ElevenLabs, l’avenir s’annonce radieux : « Depuis notre création en avril 2022, nous nous sommes concentrés sur la constitution d'une excellente équipe [..]. Avec un tel ensemble de collègues et de partenaires, nous sommes sur la bonne voie pour réaliser notre ambition de faire tomber complètement les barrières linguistiques grâce à la technologie ». À terme, la jeune pousse ambitionne en effet de « rendre tous les contenus universellement accessibles dans n'importe quelle langue et avec n'importe quelle voix » comme l’indique Mati Staniszewski.