Ein neues KI-Programm von Microsoft, das direkt aus Science-Fiction stammt, ist in der Lage, die Stimme einer Person mit nur drei Sekunden Audio zu klonen. A lá Mission Impossible oder Predator, Microsofts KI-Sprachklone sind eine beeindruckende Angst vor Software, aber sind sie gefährlich?

In den letzten Jahren wurde KI-Technologie zur Erstellung von Deepfakes verwendet, bei denen jemandem das Gesicht auf den Körper gepflastert wurde von jemand anderem. Während diese Technologie in Medien wie The Mandalorian zur Unterhaltung verwendet wurde, wurde sie auch für politische Ausflüchte und sogar Inhalte für Erwachsene ohne Genehmigung der Ähnlichkeit verwendet.

Microsofts KI-Sprachklone können zu denselben Problemen führen. Die neue Technologie mit dem Namen VALL-E ist in der Lage, die Stimme eines Benutzers mit nur drei Sekunden Probe perfekt zu reproduzieren und dann alles zu sagen, was er sagen möchte.

In einem ausführlichen Bericht von Ars Microsofts KI soll auf der EnCodec-Technologie von Meta aufbauen. Das bedeutet, dass die Audio-KI Sprache aus Eingabeaufforderungen erstellen kann, die auf einer Analyse basieren, wie eine Person tatsächlich spricht. Diese Generationen verlassen sich auf eine andere Meta-Kreation – LibriLight – um realistische Sprache zu erzeugen.

Die Qualität der KI-Sprachklone von Microsoft ist Berichten zufolge sehr hoch. Die Klone sind nicht nur eine einfache Synthese, sondern in der Lage, realistische emotionale Töne und Klangfarben ihrer analysierten Quelle zu reproduzieren. Darüber hinaus kann die KI sogar akustische Umgebungen nachbilden, wie z. B. Telefonieren oder Schreien in einem leeren Tunnel.

Microsoft ist sich anscheinend der Gefahren bewusst, die von seiner Software für künstliche Intelligenz ausgehen. Daher wird das Unternehmen VALL-E in seiner jetzigen Form in absehbarer Zeit nicht für die Öffentlichkeit freigeben.

“Da VALL-E Sprache synthetisieren konnte, die die Sprecheridentität beibehält, Es kann potenzielle Risiken bei Missbrauch des Modells bergen, wie z. B. das Spoofing der Spracherkennung oder die Identität eines bestimmten Sprechers”, heißt es in der Studienarbeit. „Um solche Risiken zu mindern, ist es möglich, ein Erkennungsmodell zu erstellen, um zu unterscheiden, ob ein Audioclip synthetisiert wurde von VALL-E. Bei der Weiterentwicklung der Modelle werden wir auch die KI-Prinzipien von Microsoft in die Praxis umsetzen.“

Microsoft ist nicht das einzige Unternehmen, das KI-Voice-Clone-Dienste anbietet. Tatsächlich gibt es mehrere konkurrierende KIs, die behaupten, ein ähnliches Qualitätsniveau zu bieten. Angesichts der mangelnden Bereitschaft von Microsoft, sein Programm zu veröffentlichen, scheinen die Technologiegiganten jedoch mehrere Schritte voraus zu sein.

By Maxwell Gaven

Ich habe 7 Jahre im IT-Bereich gearbeitet. Es macht Spaß, den stetigen Wandel im IT-Bereich zu beobachten. IT ist mein Job, Hobby und Leben.