Sprachklone von Microsoft AI erzeugen in Sekundenschnelle fehlerfreie Sprachausgabe

Ein neues KI-Programm von Microsoft, das direkt aus Science-Fiction stammt, ist in der Lage, die Stimme einer Person mit nur drei Sekunden Audio zu klonen. A lá Mission Impossible oder Predator, Microsofts KI-Sprachklone sind eine beeindruckende Angst vor Software, aber sind sie gefährlich?

In den letzten Jahren wurde KI-Technologie zur Erstellung von Deepfakes verwendet, bei denen jemandem das Gesicht auf den Körper gepflastert wurde von jemand anderem. Während diese Technologie in Medien wie The Mandalorian zur Unterhaltung verwendet wurde, wurde sie auch für politische Ausflüchte und sogar Inhalte für Erwachsene ohne Genehmigung der Ähnlichkeit verwendet.

Microsofts KI-Sprachklone können zu denselben Problemen führen. Die neue Technologie mit dem Namen VALL-E ist in der Lage, die Stimme eines Benutzers mit nur drei Sekunden Probe perfekt zu reproduzieren und dann alles zu sagen, was er sagen möchte.

In einem ausführlichen Bericht von Ars Microsofts KI soll auf der EnCodec-Technologie von Meta aufbauen. Das bedeutet, dass die Audio-KI Sprache aus Eingabeaufforderungen erstellen kann, die auf einer Analyse basieren, wie eine Person tatsächlich spricht. Diese Generationen verlassen sich auf eine andere Meta-Kreation – LibriLight – um realistische Sprache zu erzeugen.

Die Qualität der KI-Sprachklone von Microsoft ist Berichten zufolge sehr hoch. Die Klone sind nicht nur eine einfache Synthese, sondern in der Lage, realistische emotionale Töne und Klangfarben ihrer analysierten Quelle zu reproduzieren. Darüber hinaus kann die KI sogar akustische Umgebungen nachbilden, wie z. B. Telefonieren oder Schreien in einem leeren Tunnel.

Microsoft ist sich anscheinend der Gefahren bewusst, die von seiner Software für künstliche Intelligenz ausgehen. Daher wird das Unternehmen VALL-E in seiner jetzigen Form in absehbarer Zeit nicht für die Öffentlichkeit freigeben.

“Da VALL-E Sprache synthetisieren konnte, die die Sprecheridentität beibehält, Es kann potenzielle Risiken bei Missbrauch des Modells bergen, wie z. B. das Spoofing der Spracherkennung oder die Identität eines bestimmten Sprechers”, heißt es in der Studienarbeit. „Um solche Risiken zu mindern, ist es möglich, ein Erkennungsmodell zu erstellen, um zu unterscheiden, ob ein Audioclip synthetisiert wurde von VALL-E. Bei der Weiterentwicklung der Modelle werden wir auch die KI-Prinzipien von Microsoft in die Praxis umsetzen.“

Microsoft ist nicht das einzige Unternehmen, das KI-Voice-Clone-Dienste anbietet. Tatsächlich gibt es mehrere konkurrierende KIs, die behaupten, ein ähnliches Qualitätsniveau zu bieten. Angesichts der mangelnden Bereitschaft von Microsoft, sein Programm zu veröffentlichen, scheinen die Technologiegiganten jedoch mehrere Schritte voraus zu sein.

Sprachklone von Microsoft AI erzeugen in Sekundenschnelle fehlerfreie Sprachausgabe

ByMaxwell Gaven

By Maxwell Gaven

Related Post

Hisense U8G vs. LG C1, was ist besser?

Der PS Vita-Nachfolger von Sony wird nur Cloud Gaming unterstützen

Omegle-Fehler beim Verbinden mit dem Server – So beheben Sie das Verbindungsproblem

You missed

Hisense U8G vs. LG C1, was ist besser?

Pokemon Unendliche Fusion (Mac)

Apple beginnt mit Entlassungen in der Apple Store Division: Ein letzter Ausweg

ROG Ally: ASUS stellt tragbare Spielkonsole für Rival Steam Deck vor