« Parmi tous les services hébergés par Microsoft, c'est la reconnaissance vocale qui mobilise l'un des plus gros systèmes cloud de l'entreprise, » a déclaré Zig Serafin, directeur général des applications voix chez Microsoft. Celui-ci concerne aussi bien les services de réponse vocale utilisés par les lignes téléphoniques des services clients de grandes entreprises comme Orbitz ou American Airlines, que la technologie permettant aux utilisateurs mobiles d'utiliser la voix dans le moteur de recherche Bing ou encore aux abonnés de Ford Sync d'obtenir des informations routières. C'est avec l'acquisition de Tellme en 2007 que Microsoft s'est immiscé sur ce marché. A l'époque, la reconnaissance vocale était dans l'air depuis des années, mais sans faire preuve de résultats probants en terme de fonctionnement. « Essayer d'utiliser une partie du logiciel embarqué sur un téléphone mobile était une épreuve, même quand on était dans un endroit tranquille, » a déclaré Will Stofega, analyste chez IDC.
Zig Serafin, directeur général des applications voix chez Microsoft
« Mais la technologie a suffisamment évolué pour que, sur l'ensemble des moteurs de recherche mobiles gérés par Microsoft, 20% soient maintenant accessibles par la voix, » a indiqué Microsoft. Via le cloud, l'éditeur recueille aussi des informations sur la manière dont les gens utilisent le service et s'en sert pour l'améliorer. Par exemple, si un utilisateur dit sur son mobile tournant sous Windows Phone 7 « Seattle restaurant italien » dans Bing, la firme sait si l'utilisateur clique sur un résultat, ce qui signifie qu'il a obtenu la réponse souhaitée. A l'inverse, l'utilisateur peut être amené à énoncer plusieurs fois sa requête vocale, indiquant peut-être que le service de Microsoft n'a pas bien identifié la demande. L'éditeur recueille également des informations sur la qualité de la connexion, pour estimer si elle peut être responsable des mauvais résultats. « Ces informations sont précieuses pour aider à améliorer la technologie sous-jacente du système », a déclaré Zig Serafin.
Un service également proposé par Google
Google permet également à ses utilisateurs d'effectuer des recherches par la voix et propose différentes offres mettant en oeuvre la reconnaissance vocale. L'entreprise fait aussi du traitement en back-end pour observer la façon dont les gens utilisent ses services. Pour sa part, Microsoft, qui a de multiples produits utilisant la reconnaissance vocale, dit traiter environ 11 milliards de requêtes « voix » par an. Sur les appareils tournant sous Windows Phone 7, les utilisateurs ont juste à appuyer sur le bouton Accueil pour lancer la fonction voix, laquelle permet de contrôler de nombreuses applications sur ces mobiles. L'énorme volume de données relatif à l'usage de la reconnaissance vocale est dirigé vers un centre d'opérations situé dans la Silicon Valley. «L'afflux de requête est tout simplement fascinant, » déclare Zig Serafin. « On se croirait dans un laboratoire de la NASA. » Certaines fonctions de la boucle de feedback sont automatisées de sorte que le moteur de reconnaissance vocale est capable d'analyser lui-même les données, » explique-t-il. « Mais certaines informations sont examinées de plus près par des experts qui peuvent ensuite apporter des modifications au système, » ajoute-t-il.
[[page]]
Les enseignements tirés de ce volume de données utilisateurs permettront à Microsoft d'avancer vers une prochaine étape de la reconnaissance vocale, notamment ce que l'entreprise appelle la « compréhension conversationnelle. » [ou traitement de la question en langage naturel, NDLR] Zig Serafin explicite la méthode : « Ramenés à des technologies d'apprentissage, ces travaux de recherche et de développement nous permettront d'anticiper sur ce que l'utilisateur essaie de faire, » déclare-t-il. « La compréhension conversationnelle trouvera de multiples applications, » déclare de son côté Ilya Bukshteyn, directeur senior du marketing pour les applications voix chez Microsoft. « Par exemple, un utilisateur pourrait demander dans Bing : trouver un endroit où nous pourrions dîner demain soir,» dit-elle. « Le téléphone irait alors automatiquement voir nos agendas pour constater que nous serons à San Francisco. Le système saurait que nous avons déjà été mangés des sushis auparavant. Le téléphone demanderait alors si l'on veut diner à San Francisco, et si nous aimerions manger des sushis... »
Apple intéressé par le rachat de Nuance
« En attendant, Microsoft espère rester devant Google, son principal concurrent dans ce domaine, » ajoute Zig Serafin. Pour l'instant, et pour une fois, Microsoft estime être en avance sur Google, car il offre déjà la reconnaissance vocale à un large éventail d'utilisateurs - joueurs, utilisateurs de téléphones mobiles et automobilistes -, et cela depuis une seule plate-forme. « C'est un avantage certain, » selon Bern Elliot, analyste chez Gartner. «Tellme donne à Microsoft un très gros avantage, aussi bien sur site que dans le cloud, » dit-il. «L'éditeur a donc la possibilité de proposer la reconnaissance vocale sur un nombre de marchés très différents. » En outre, l'éditeur pense avoir aussi une longueur d'avance sur le traitement des données et permet aux utilisateurs d'effectuer des recherches plus fines. Le rachat récent de Phonetic Arts par Google pourrait lui permettre d'offrir des fonctionnalités comparables. « Phonetic Arts a travaillé sur la synthèse vocale et peut générer des voix naturelles, » a déclaré Google, ce qui signifie que cette acquisition pourrait permettre à Google de fournir du contenu voix, ou des réponses à des gens qui utilisent les technologies de reconnaissance vocale. Selon Will Stofega, Microsoft a peut-être un autre avantage, celui lié à l'expérience utilisateur. Sur les téléphones tournant sous Windows Phone 7, les utilisateurs peuvent voir l'icône Tellme et une rangée de points leur indiquant que le service est en train de traiter la parole. «Ça n'a rien à voir avec la technologie, mais du point de vue de l'expérience utilisateur, c'est cool, » dit-il. « Microsoft espère utiliser des icônes similaires et promouvoir des services. Que ce soit avec Kinect ou avec Windows Mobile 7, les utilisateurs constateront qu'ils peuvent utiliser la voix de façon similaire, » a-t-il ajouté.
Google et Microsoft doivent aussi rivaliser avec Nuance, le leader dans cette niche qui travaille au développement de technologies pour la reconnaissance vocale. « Celle-ci a la réputation d'offrir la meilleure technologie en terme de voix, » confirme Bern Elliot. « Certaines rumeurs ont laissé entendre qu'Apple pourrait être intéressé par le rachat de Nuance, soit un marché de plus sur lequel Apple, Google et Microsoft seraient en concurrence. » Mais, même si toutes les entreprises ont fait des progrès dans la reconnaissance vocale, elles ont encore du pain sur la planche. « Il y a des problèmes de base comme le bruit de fond et d'autres aspects qui n'ont pas encore été vraiment résolus, » dit Will Stofega.