Un service Microsoft crée des synthèses vocales réalistes et personnalisées

Proposé en bêta en septembre, Custom Neural Voice est maintenant livré en disponibilité générale pour créer des voix synthétisées personnalisées. L'utilisation de ces capacités, fournies avec le service Speech d'Azure Cognitive, doit toutefois passer par des contrôles techniques de Microsoft pour éviter les abus.

Le service cloud Speech de Microsoft combine des fonctionnalités de reconnaissance, de synthèse et de traduction vocale dans le même abonnement. C'est l'un des services d’Azure Cognitive proposé par Microsoft sur son cloud public. Avec Custom Neural Voice, il vient de s’enrichir de capacités text-to-speech à partir desquelles peut être générée une voix synthétique personnalisée qui pourra constituer une identité vocale reconnaissable, en particulier pour les entreprises. Le text-to-speech neuronal est un nouveau type de synthèse vocale obtenu à partir de réseaux neuronaux profonds. Il s’approche de plus en plus de la voix humaine, de telle façon qu’il est difficile de distinguer la différence, souligne Microsoft à travers plusieurs exemples donnant à écouter différentes intonations.

L'accès aux capacités de Custom Neural Voice est toutefois soumis à un cadre défini. Microsoft précise que, bien qu’elles soient maintenant livrées en disponibilité générale « d’un point de vue technologique », les clients intéressés par la technologie doivent néanmoins s’inscrire et recevoir une approbation pour pouvoir les utiliser. L’éditeur de Redmond souhaite en effet réaliser des contrôles techniques destinés à éviter une utilisation abusive de ces outils. La version bêta, disponible depuis septembre, a déjà permis à des entreprises comme AT&T, Duolingo, Progressive ou Swisscom de créer des voix pour leurs clients.

Chatbots, accessibilité, e-formation...

Pour créer cette voix personnalisée, l’entreprise fournit ses propres données audio qu’elle aura sélectionnées. Les applications sont diverses en commençant par la personnalisation des assistants numériques ou des chatbots. Ces voix personnalisées pourront aussi se décliner dans les contenus de formation en ligne, des audio books, ou des annonces publiques par exemple pour des communications dans les transports, ou encore pour de la traduction en temps réel. La technologie peut aussi être utilisée pour améliorer l’accessibilité en permettant à des personnes ayant un handicap qui les empêchent de parler d’utiliser une voix qui leur est propre. Dans sa présentation de la technologie, Microsoft suggère aux entreprises de l’utiliser pour renforcer leur stratégie de marque avec la possibilité de tenir compte, dans les interactions avec les clients, de l’analyse de sentiments pour personnaliser les caractéristiques vocales.

La fonctionnalité Custom Neural Voice est constitué principalement de trois composants : Text Analyzer qui génère une voix synthétique à partir d’un texte, Neural Acoustic Model, qui traite ensuite les séquences de phonèmes et définit les signaux vocaux (timbre, vitesse de parole, intonations…) et un nouveau vocodeur neuronal, HiFiNet qui améliore la fidélité vocale. Dans une vidéo, Microsoft détaille la façon d’utiliser le service. Les développeurs peuvent ajouter des fonctionnalités de synthèse vocale à leurs applications en créant une instance Azure Speech. Ils disposent d’un choix de 200 voix, incluant 129 voix neuronales et 77 voix standard couvrant 54 langues.