Uma equipe de pesquisadores da Carnegie Mellon University está tentando expandir o reconhecimento automático de fala para 2.000 idiomas. No momento, apenas uma parte dos estimados 7.000 a 8.000 idiomas falados em todo o mundo se beneficiariam de tecnologias de linguagem modernas, como transcrição de voz para texto ou legendagem automática.
Xinjian Li é Ph.D.. aluno do Language Technologies Institute (LTI) da Escola de Ciência da Computação.
“Muitas pessoas neste mundo falam diversas línguas, mas as ferramentas de tecnologia de linguagem não estão sendo desenvolvidas para todas elas,” ele disse. “Desenvolver tecnologia e um bom modelo de linguagem para todas as pessoas é um dos objetivos desta pesquisa.”
Li pertence a uma equipe de especialistas que procura simplificar os requisitos de dados necessários para desenvolver um modelo de reconhecimento de fala.
A equipe também inclui LTI membros do corpo docente Shinji Watanabe, Florian Metze, David Mortensen e Alan Black.
A pesquisa intitulada “ASR2K: reconhecimento de fala para cerca de 2.000 idiomas sem áudio” foi apresentado na Interspeech 2022 na Coreia do Sul.
A maioria dos modelos de reconhecimento de fala existentes requer conjuntos de dados de texto e áudio. Embora existam dados de texto para milhares de idiomas, o mesmo não se aplica ao áudio. A equipe quer eliminar a necessidade de dados de áudio concentrando-se em elementos linguísticos comuns em vários idiomas.
As tecnologias de reconhecimento de fala normalmente se concentram no fonema de um idioma, que são sons distintos que o distinguem de outros idiomas. Estes são exclusivos para cada idioma. Ao mesmo tempo, as línguas têm fonemas que descrevem como uma palavra soa fisicamente, e vários fonemas podem corresponder a um único fonema. Embora idiomas separados possam ter fonemas diferentes, os telefones subjacentes podem ser os mesmos.
A equipe está trabalhando em um modelo de reconhecimento de fala que depende menos de fonemas e mais de informações sobre como os telefones são compartilhados entre os idiomas. Isso ajuda a reduzir o esforço necessário para criar modelos separados para cada idioma individual. Ao emparelhar o modelo com uma árvore filogenética, que é um diagrama que mapeia as relações entre os idiomas, ele ajuda nas regras de pronúncia. O modelo da equipe e a estrutura em árvore permitiram aproximar o modelo de fala para milhares de idiomas, mesmo sem dados de áudio.
“Estamos tentando remover esse requisito de dados de áudio, o que nos ajuda a passar de 100 para 200 idiomas para 2.000”, disse Li. “Esta é a primeira pesquisa a atingir um número tão grande de idiomas, e somos a primeira equipe com o objetivo de expandir as ferramentas de linguagem para esse escopo.”
A pesquisa, embora ainda em estágio inicial, melhorou em 5% as ferramentas de aproximação de idiomas existentes.
“Cada idioma é um fator muito importante em sua cultura. Cada idioma tem sua própria história e, se você não tentar preservar os idiomas, essas histórias podem se perder”, disse Li. “Desenvolver esse tipo de sistema de reconhecimento de fala e essa ferramenta é um passo para tentar preservar esses idiomas.”