Forscher von Microsoft haben kürzlich VALL-E angekündigt, ein neues Text-to-Speech-KI-Modell, das die Stimme einer Person genau nachahmen kann, wenn ihr ein dreisekündiges Audio-Sample gegeben wird. Sobald es eine bestimmte Stimme gelernt hat, kann VALL-E Audio von dieser Person synthetisieren, die etwas sagt, während es versucht, den emotionalen Ton des Sprechers beizubehalten. In Kombination mit anderen generativen KI-Modellen wie GPT-3 glauben die Entwickler von VALL-E, dass es für hochwertige Text-to-Speech-Anwendungen und Sprachbearbeitung verwendet werden kann, bei der eine Aufzeichnung einer Person aus einem Texttranskript bearbeitet und geändert werden kann (was sie dazu bringt, etwas zu sagen, was sie eigentlich nicht gesagt haben) und die Erstellung von Audioinhalten.
Laut Microsoft ist VALL-E in erster Linie ein”neuronales Codec-Sprachmodell”und basiert auf EnCodec, das Meta im Oktober 2022 enthüllte. VALL-E erstellt diskrete Audio-Codec-Codes aus Text und akustischen Aufforderungen, im Gegensatz zu andere Text-zu-Sprache-Methoden, die normalerweise Sprache durch Manipulieren von Wellenformen synthetisieren. Es verarbeitet, wie eine Person klingt, zerlegt die relevanten Daten mithilfe von EnCodec in diskrete Komponenten (als „Token“ bezeichnet) und verwendet dann Trainingsdaten, um das abzugleichen, was es darüber „weiß“, wie diese Stimme klingen könnte, wenn sie darüber hinaus andere Sätze sprechen würde das Drei-Sekunden-Sample.
Microsoft trainierte die Sprachsynthesefunktionen von VALL-E mit Metas LibriLight-Audiobibliothek. Es umfasst 60.000 Stunden englischsprachige Sprache von über 7.000 Sprechern, die hauptsächlich aus gemeinfreien Hörbüchern von LibriVox stammen. Die Stimme im dreisekündigen Beispiel sollte einer Stimme im Lernalgorithmus für VALL-E sehr ähnlich sein, um ein gutes Ergebnis zu erzielen.
Der amerikanische Technologieriese bietet Dutzende von Audiobeispielen des KI-Modells in Aktion an die VALL-E-Beispielwebsite. Der „Speaker Prompt“-Datensatz ist das Drei-Sekunden-Audio, das VALL-E gegeben wird und das es versuchen muss zu emulieren. Die „Ground Truth“ ist eine zuvor aufgenommene Version desselben Sprechers, der einen bestimmten Satz zu Vergleichszwecken sagt (ähnlich wie die „Kontrolle“ im Experiment). Das „Baseline“-Beispiel wird durch ein herkömmliches Text-zu-Sprache-Syntheseverfahren generiert, und das „VALL-E“-Beispiel wird durch das VALL-E-Modell generiert.
A Blockdiagramm von VALL-E, wie es auf der Beispiel-Website von Microsoft-Forschern gezeigt wird
Bildnachweis: Microsoft
Die Forscher lieferten nur das drei Sekunden lange”Speaker Prompt”-Beispiel und eine Textzeichenfolge (was sie möchten die Stimme zu sagen) in VALL-E, um diese Ergebnisse zu erhalten. Einige VALL-E-Ergebnisse scheinen computergeneriert zu sein, andere könnten jedoch für die menschliche Sprache missverstanden werden, was das Ziel des Modells ist. Aufgrund des Potenzials von VALL-E, Fehlverhalten und Täuschung zu schüren, hat Microsoft den VALL-E-Code anderen nicht zur Untersuchung zur Verfügung gestellt. Die Forscher scheinen sich des potenziellen sozialen Schadens bewusst zu sein, den diese Technologie verursachen kann.
Sie schreiben in der Schlussfolgerung des Papiers: „Da VALL-E Sprache synthetisieren konnte, die die Sprecheridentität beibehält, kann es potenzielle Risiken bergen Missbrauch des Modells, wie z. B. das Spoofing der Spracherkennung oder die Identität eines bestimmten Sprechers. Um solche Risiken zu mindern, ist es möglich, ein Erkennungsmodell zu erstellen, um zu unterscheiden, ob ein Audioclip von VALL-E synthetisiert wurde. Wir werden auch die KI-Prinzipien von Microsoft integrieren Praxis bei der Weiterentwicklung der Modelle.”
Affiliate-Links können automatisch generiert werden-siehe unsere Ethik-Erklärung für Details.
Sehen Sie sich das Neueste von der Consumer Electronics Show auf”TNGD”in unserem CES 2023-Hub an.
Poco C55 soll ein umbenanntes Redmi 12C werden, soll bald auf den Markt kommen
Vorgestelltes Video des Tages
CES 2023: AMD stellt neue Laptop-CPUs und-GPUs vor, neuer Ryzen 7000 X3D-Desktop-CPUs