Une équipe de chercheurs de l’université Carnegie Mellon cherche à étendre la reconnaissance automatique de la parole à 2 000 langues. À l’heure actuelle, seule une partie des quelque 7 000 à 8 000 langues parlées dans le monde bénéficieraient des technologies linguistiques modernes telles que la transcription voix-texte ou le sous-titrage automatique.
Xinjian Li est titulaire d’un doctorat.. étudiant au Language Technologies Institute (LTI) de la School of Computer Science.
“Beaucoup de gens dans ce monde parlent différentes langues, mais les outils de technologie linguistique ne sont pas développés pour chacun d’entre eux”, a-t-il déclaré.”Développer une technologie et un bon modèle linguistique pour tous est l’un des objectifs de cette recherche.”
Li fait partie d’une équipe d’experts qui cherchent à simplifier les exigences en matière de données dont les langages ont besoin pour développer un modèle de reconnaissance vocale.
L’équipe comprend également LTI les membres du corps professoral Shinji Watanabe, Florian Metze, David Mortensen et Alan Black.
La recherche intitulée” ASR2K : Reconnaissance vocale pour environ 2 000 langues sans audio » a été présenté à Interspeech 2022 en Corée du Sud.
La majorité des modèles de reconnaissance vocale existants nécessitent des ensembles de données textuelles et audio. Alors que les données textuelles existent pour des milliers de langues, il n’en va pas de même pour l’audio. L’équipe souhaite éliminer le besoin de données audio en se concentrant sur les éléments linguistiques communs à de nombreuses langues.
Les technologies de reconnaissance vocale se concentrent normalement sur le phonème d’une langue, qui sont des sons distincts qui la distinguent des autres langues. Ceux-ci sont propres à chaque langue. Dans le même temps, les langues ont des téléphones qui décrivent comment un mot sonne physiquement, et plusieurs téléphones peuvent correspondre à un seul phonème. Bien que des langues distinctes puissent avoir des phonèmes différents, les téléphones sous-jacents peuvent être les mêmes.
L’équipe travaille sur un modèle de reconnaissance vocale qui s’appuie moins sur les phonèmes et davantage sur les informations sur la façon dont les téléphones sont partagés entre les langues. Cela permet de réduire l’effort nécessaire pour créer des modèles distincts pour chaque langue individuelle. En associant le modèle à un arbre phylogénétique, qui est un diagramme qui cartographie les relations entre les langues, il aide aux règles de prononciation. Le modèle de l’équipe et l’arborescence leur ont permis d’approximer le modèle de parole pour des milliers de langues, même sans données audio.
“Nous essayons de supprimer cette exigence de données audio, qui nous aide à passer de 100 à 200 langues à 2 000 », a déclaré Li.”Il s’agit de la première recherche à cibler un si grand nombre de langues, et nous sommes la première équipe visant à étendre les outils linguistiques à cette portée.”
La recherche, bien qu’encore à un stade précoce, a amélioré de 5 % les outils d’approximation linguistique existants.
« Chaque langue est un facteur très important dans sa culture. Chaque langue a sa propre histoire, et si vous n’essayez pas de préserver les langues, ces histoires pourraient être perdues », a déclaré Li.”Le développement de ce type de système de reconnaissance vocale et de cet outil est une étape pour essayer de préserver ces langues.”