Le service Custom Speech de Microsoft apprend à reconnaitre les voix

Désormais accessible en bêta publique sur Azure, le service cloud Custom Speech est l'une des 25 API d'apprentissage machine proposées par Microsoft dans ses Cognitive Services. Toutes peuvent être testées gratuitement.

Les développeurs qui intègrent la reconnaissance dans leurs applications disposent depuis hier d’un nouvel outil, ajouté à la collection d’API Rest Cognitive Services proposée par Microsoft sur son cloud public Azure. L’éditeur vient d’ouvrir la bêta publique de son service Custom Speech, dénommé jusque-là CRIS, Custom recognition intelligent service. Celui-ci permet d’entraîner un système de reconnaissance vocale sur un scénario spécifique afin d’obtenir de meilleurs résultats, par exemple pour mieux comprendre une phrase prononcée dans le hall bruyant d’une gare ou d’un aéroport, ou encore pour travailler avec les voix de certains groupes d’utilisateurs, par exemple des enfants. Pour l’instant, Custom Speech peut être appliqué à l’anglais et au chinois. Et l'un des intérêts du service, c'est justement qu’il peut entraîner un système à reconnaître les accents de locuteurs dont ce ne sont pas les langues natales.

Les Cognitive Services réunissent en tout 25 outils qui mettent en œuvre les technologies d’apprentissage machine développées par Microsoft dans l’analyse vocale et visuelle : identification de locuteurs, détection de visages sur des photos, analyse de vidéos, analyse de sentiments pour personnaliser les interactions, conversion de paroles en texte et vice-versa, correction de fautes, exploration de contenus, recommandations, création de FAQ, etc. Sur l'ensemble de ces API accessibles sur le cloud public Azure, 8 sont déjà commercialisées et 17 encore en bêta. Elles peuvent être testées gratuitement, ce que 424 000 développeurs ont déjà fait depuis leur lancement, selon Microsoft. Côté tarification en revanche, celle de Custom Speech n'est pas des plus simples à comprendre. Elle comporte un abonnement auquel s’ajoutent différents coûts en fonction du nombre d’échantillons de voix utilisés et du temps d’apprentissage requis pour adapter le système.

Combiné à l'outil LUIS pour piloter un jeu vidéo à la voix

Le service Custom Speech est notamment mis en oeuvre par l'éditeur de jeux vidéos Human Interact fondé par Alexander Mejia. Ce dernier l'utilise dans son logiciel Starship Commander fonctionnant à l'aide de commandes vocales. Custom Speech est combiné à un autre outil de Microsoft, LUIS (Language understanding intelligent service), qui apprend aux applications à comprendre les commandes vocales des utilisateurs. Avec Custom Speech Service, Human Interact crée un dictionnaire spécifique à Starship Commander afin que le système comprenne le vocabulaire spécifique au jeu. Les injonctions vocales des joueurs seront converties en texte que l’outil LUIS traduira ensuite en commandes pour le jeu.

Deux autres outils Cognitive Services seront livrés en disponibilité générale le mois prochain, Content Moderator et Bing Speech API, annonce Microsoft dans un billet. Le premier sert à mettre en quarantaine des textes, images ou vidéos afin de les pouvoir les débarrasser d'éventuels éléments indésirables. Il est notamment utilisé par une société comme Prism qui analyse les vidéos de caméras de surveillance pour détecter des événements intéressants ou potentiellement dangereux. Quant à l'API Bing Speech, elle convertit les fichiers audio en texte, analyse leur intention et reconvertit le texte en paroles. « Disposer de logiciels qui observent les gens, les écoutent, réagissent et disposent d’informations sur le monde physique qui les entoure permet de rendre les interfaces plus naturelles et plus faciles à comprendre », fait valoir Andrew Shuman, vice-président corporate de Microsoft, responsable de l’entité Intelligence artificielle et recherche. Ces technologies peuvent dès lors renforcer l'efficacité de l'utilisateur dans différents scénarios.