A l’heure de la mondialisation où pas moins de 7 000 langues cohabitent, se comprendre est devenu d’autant plus complexe. Les traducteurs se sont donc multipliés au fil du temps, à l’instar de Google Traduction, DeepL, Reverso ou encore Linguee mais avec une portée et des capacités limitées. Avec le bond en avant de l’IA générative, les outils mis à disposition sont alors renforcés et proposent de plus en plus des traductions de la parole au texte et vice versa. Surfant sur cette tendance, Meta a développé SeamlessM4T, un modèle de traduction AI multimodale et multilingue tout-en-un « qui permet aux gens de communiquer sans effort par la parole et le texte dans différentes langues ».
SeamlessM4T propose ici une traduction de la parole vers la parole. (Crédit : Meta)
SeamlessM4T prend en charge la reconnaissance vocale pour près de 100 langues ; la traduction de la parole au texte pour près de 100 langues d'entrée et de sortie ; la traduction de la parole vers la parole, prenant en charge près de 100 langues d'entrée et 36 langues de sortie (y compris l'anglais) ; la traduction texte à texte pour près de 100 langues, et enfin, la traduction texte-parole, prenant en charge près de 100 langues d'entrée et 35 langues de sortie (dont l'anglais).
SeamlessM4T propose ici une traduction de la parole vers le texte. (Crédit : Meta)
Publié sous une licence de recherche, l’outil est donc accessible gratuitement aux chercheurs et aux développeurs qui veulent s’appuyer sur ce travail. Dans le même temps, la firme a publié les métadonnées de SeamlessAlign, la base de données sur laquelle repose l'outil et décrite comme « le plus grand ensemble de données de traduction multimodale ouvert à ce jour, totalisant 270 000 heures d'alignements de discours et de textes ». Ce traducteur universel représente un défi majeur car les systèmes de synthèse vocale et de synthèse textuelle existants ne couvrent qu'une petite partie des langues du monde. Selon Meta, le système de SeamlessM4T se démarque des autres approches utilisant des modèles distincts en réduisant notamment les erreurs et les retards, et, in fine, en augmentant l’efficacité et la qualité du processus de traduction.
En quête d’un traducteur universel
L’entreprise travaille depuis plusieurs années sur le projet d’un traducteur universel. L’année dernière, la firme a publié No Language Left Behind (NLLB), un modèle de traduction automatique texte à texte qui prend en charge 200 langues, et qui a depuis été intégré à Wikipédia comme l’un des fournisseurs de traduction. Une démonstration de son traducteur vocal universel a également été faite. Enfin, au début de l'année, l’entreprise a dévoilé Massively Multilingual Speech, qui fournit une technologie de reconnaissance vocale, d’identification de la langue et de synthèse vocale dans plus de 1 100 langues.
« SeamlessM4T s’appuie sur les conclusions de tous ces projets » affirme Meta. Bien sûr, la firme ne compte pas s’arrêter là et évoque les développements à venir. « À l'avenir, nous souhaitons explorer comment ce modèle fondamental peut permettre de nouvelles capacités de communication, nous rapprochant ainsi d'un monde où tout le monde peut être compris ». En tout cas, la quête d’un traducteur universel semble bel et bien aboutir avec Meta.
Commentaire