Ein Forscherteam der Carnegie Mellon University möchte die automatische Spracherkennung auf 2.000 Sprachen erweitern. Derzeit würde nur ein Teil der geschätzten 7.000 bis 8.000 gesprochenen Sprachen weltweit von modernen Sprachtechnologien wie Sprache-zu-Text-Transkription oder automatischer Untertitelung profitieren.
Xinjian Li ist Ph.D. Student am Language Technologies Institute (LTI) der School of Computer Science.
„Viele Menschen auf dieser Welt sprechen verschiedene Sprachen, aber Sprachtechnologie-Tools werden nicht für alle entwickelt“, sagte er. „Die Entwicklung von Technologie und eines guten Sprachmodells für alle Menschen ist eines der Ziele dieser Forschung.“
Li gehört zu einem Expertenteam, das versucht, die Datenanforderungen zu vereinfachen, die Sprachen benötigen, um ein Spracherkennungsmodell zu entwickeln.
Zu dem Team gehört auch LTI Fakultätsmitglieder Shinji Watanabe, Florian Metze, David Mortensen und Alan Black.
Die Studie mit dem Titel „ASR2K: Speech Recognition for Around 2.000 Languages Without Audio“ wurde auf der Interspeech 2022 in Südkorea vorgestellt.
Ein Großteil der bestehenden Spracherkennungsmodelle benötigt Text-und Audiodatensätze. Während Textdaten für Tausende von Sprachen existieren, gilt dies nicht für Audio. Das Team möchte die Notwendigkeit von Audiodaten eliminieren, indem es sich auf sprachliche Elemente konzentriert, die vielen Sprachen gemeinsam sind.
Spracherkennungstechnologien konzentrieren sich normalerweise auf das Phonem einer Sprache, bei dem es sich um unterschiedliche Laute handelt, die sie von anderen Sprachen unterscheiden. Diese sind für jede Sprache einzigartig. Gleichzeitig haben Sprachen Laute, die beschreiben, wie ein Wort physikalisch klingt, und mehrere Laute können einem einzelnen Phonem entsprechen. Während verschiedene Sprachen unterschiedliche Phoneme haben können, könnten die zugrunde liegenden Telefone gleich sein.
Das Team arbeitet an einem Spracherkennungsmodell, das weniger auf Phonemen und mehr auf Informationen darüber basiert, wie Telefone zwischen Sprachen geteilt werden. Dies trägt dazu bei, den Aufwand zu reduzieren, der erforderlich ist, um separate Modelle für jede einzelne Sprache zu erstellen. Indem das Modell mit einem phylogenetischen Baum gekoppelt wird, der ein Diagramm ist, das die Beziehungen zwischen Sprachen abbildet, hilft es bei Ausspracheregeln. Das Modell des Teams und die Baumstruktur haben es ihnen ermöglicht, das Sprachmodell für Tausende von Sprachen auch ohne Audiodaten anzunähern.
„Wir versuchen, diese Audiodatenanforderung zu beseitigen, was uns dabei hilft, von 100 auf 200 zu kommen Sprachen auf 2.000“, sagte Li. „Dies ist die erste Forschung, die auf eine so große Anzahl von Sprachen abzielt, und wir sind das erste Team, das darauf abzielt, Sprachwerkzeuge auf diesen Bereich auszudehnen.“
Die Forschung befindet sich zwar noch in einem frühen Stadium, hat es aber getan Verbesserung bestehender Sprachannäherungstools um 5 %.
„Jede Sprache ist ein sehr wichtiger Faktor in ihrer Kultur. Jede Sprache hat ihre eigene Geschichte, und wenn Sie nicht versuchen, Sprachen zu bewahren, könnten diese Geschichten verloren gehen“, sagte Li. „Die Entwicklung eines solchen Spracherkennungssystems und dieses Tools ist ein Schritt, um zu versuchen, diese Sprachen zu bewahren.“