Microsoft hat Einzelheiten zu seinem jüngsten Vorstoß in die Welt der künstlichen Intelligenz bekannt gegeben. VALL-E wird als „neuronales Codec-Sprachmodell“ bezeichnet und ist ein fortschrittliches KI-gesteuertes Text-to-Speech-System (TTS), von dem die Entwickler sagen, dass es trainiert werden kann, wie jeder andere zu sprechen, basierend auf nur einer dreisekündigen Probe seiner Stimme.

Das Ergebnis ist ein unglaublich natürlich klingendes TTS-System, das einen völlig anderen Ansatz als bestehende Systeme verfolgt. VALL-E kann Töne und Emotionen besser als je zuvor vermitteln und klingt realistisch menschlich, aber es gibt Bedenken, dass es für Audio-Deepfakes verwendet werden könnte.

Siehe auch:

Die KI wurde gebaut und trainiert mit 60.000 Stunden Audioeingabe von Tausenden von Personen, einschließlich gemeinfreier Hörbücher. Durch die Arbeit mit einem kurzen Sample ist VALL-E in der Lage, den Ton und die Klangfarbe einer Stimme auf eine Weise nachzuahmen, die zuvor einfach nicht möglich war.

Schreiben über VALL-E, ein Team von Microsoft-Forschern say:

Wir führen einen Sprachmodellierungsansatz für die Text-zu-Sprache-Synthese (TTS) ein. Insbesondere trainieren wir ein neuronales Codec-Sprachmodell (genannt VALL-E) mit diskreten Codes, die von einem handelsüblichen neuronalen Audio-Codec-Modell abgeleitet sind, und betrachten TTS als eine bedingte Sprachmodellierungsaufgabe und nicht als kontinuierliche Signalregression wie in früheren Arbeiten. Während der Vortrainingsphase skalieren wir die TTS-Trainingsdaten auf 60.000 Stunden englische Sprache, was hundertmal größer ist als bei bestehenden Systemen. VALL-E entwickelt kontextbezogene Lernfähigkeiten und kann verwendet werden, um qualitativ hochwertige personalisierte Sprache mit nur einer 3-sekündigen registrierten Aufnahme eines unsichtbaren Sprechers als akustische Aufforderung zu synthetisieren.

Das Team fährt fort: „Experimentergebnisse zeigen, dass VALL-E das hochmoderne Zero-Shot-TTS-System in Bezug auf Sprachnatürlichkeit und Sprecherähnlichkeit deutlich übertrifft. Außerdem stellen wir fest, dass VALL-E die Emotionen des Sprechers bewahren konnte und akustische Umgebung des akustischen Prompts in der Synthese”.

Mehr erfahren Sie auf VALL-E-Demoseite, auf der es zahlreiche Beispiele dafür gibt, wie es basierend auf verschiedenen Trainingseingaben klingt.

Bildnachweis: ra2studio/depositphotos

By Henry Taylor

Ich arbeite als Backend-Entwickler. Einige von Ihnen haben mich vielleicht auf der Entwicklerkonferenz gesehen. In letzter Zeit arbeite ich an einem Open-Source-Projekt.