Alles, was es braucht, ist ein dreisekündiges Audiobeispiel
Software King of the World Microsoft hat ein neues Text-to-Speech-KI-Modell namens VALL angekündigt. E, das die Stimme einer Person genau simulieren kann, wenn ihm ein dreisekündiges Audio-Sample gegeben wird.
Sobald es Sie drei Sekunden lang sprechen gehört hat, kann VALL-E Audio von Ihnen synthetisieren und Ihren emotionalen Ton nachahmen.
Volish Boffins behaupten, dass VALL-E für hochwertigen Text verwendet werden könnte-to-Speech-Anwendungen, Sprachbearbeitung, bei der eine Aufnahme einer Person bearbeitet und von einem Texttranskript geändert werden kann (was sie dazu bringt, etwas zu sagen, was sie nie getan haben), und die Erstellung von Audioinhalten in Kombination mit anderen generativen KI-Modellen wie GPT-3.
Während die Technik hinter der Idee interessant ist, scheint niemand daran gedacht zu haben – dies ist eine idiotische Idee, die dazu verwendet werden könnte, nichts Gutes zu bewirken.
Microsoft ruft an VALL-E ist ein „neuronales Codec-Sprachmodell“ und verwendet eine Technologie namens EnCodec, die Meta im Oktober 2022 angekündigt hat. VALL-E generiert diskrete Audio-Codec-Codes aus Text und akustischen Aufforderungen, im Gegensatz zu anderen Text-zu-Sprache-Methoden, die Sprache synthetisieren durch Manipulation von Wellenformen.
Es analysiert, wie eine Person klingt, zerlegt diese Informationen dank EnCodec in diskrete Komponenten (sogenannte „Token“) und verwendet Trainingsdaten, um das abzugleichen, was es über den Klang dieser Stimme „weiß“. wenn es andere Sätze außerhalb des Drei-Sekunden-Samples sprach. Oder wie Microsoft es im VALL-E-Papier ausdrückt:
Um personalisierte Sprache zu synthetisieren (z. B. Zero-Shot-TTS), generiert VALL-E die entsprechenden akustischen Token, die auf den akustischen Token der drei zweite eingetragene Aufnahme und die Phonem-Eingabeaufforderung, die die Sprecher-und Inhaltsinformationen einschränken. Schließlich werden die generierten akustischen Token verwendet, um die endgültige Wellenform mit dem entsprechenden neuralen Codec-Decoder zu synthetisieren.
Microsoft trainierte die Sprachsynthesefähigkeiten von VALL-E an einer von Meta zusammengestellten Audiobibliothek namens LibriLight. Es enthält 60.000 Stunden englischsprachige Sprache von mehr als 7.000 Sprechern, die größtenteils aus gemeinfreien Hörbüchern von LibriVox stammen. Damit VALL-E ein gutes Ergebnis erzielen kann, muss die Stimme im Drei-Sekunden-Sample genau mit einer Stimme in den Trainingsdaten übereinstimmen.
Vielleicht aufgrund der Fähigkeit von VALL-E, Unfug und Täuschung zu schüren, die Microsoft hat keinen VALL-E-Code für andere zum Experimentieren bereitgestellt, daher konnten wir die Fähigkeiten von VALL-E nicht testen. Die Forscher scheinen sich des potenziellen sozialen Schadens bewusst zu sein, den diese Technologie mit sich bringen könnte. Zum Abschluss des Papiers schreiben sie:
Da VALL-E Sprache synthetisieren kann, die die Sprecheridentität aufrechterhält, kann es potenzielle Risiken beim Missbrauch des Modells bergen, wie z. B. das Spoofing der Stimmerkennung oder die Identität eines bestimmten Sprechers. Um solche Risiken zu mindern, behauptet Vole, dass es möglich ist, ein Erkennungsmodell zu erstellen, um zu unterscheiden, ob VALL-E einen Audioclip synthetisiert hat.