Microsoft machte kürzlich Schlagzeilen, indem es ankündigte, dass es an einer Art künstlicher Intelligenz (KI) namens VALL-E arbeitet, die das kann Klonen Sie Stimmen aus einem drei Sekunden langen Audioclip. Stellen Sie sich vor, dass die KI jetzt die Stimme jedermann dazu bringen kann, Wörter zu sagen, ohne dass diese Person tatsächlich spricht! Noch vor kurzem hat Samsung angekündigt, dass sein Software-Assistent Bixby jetzt die Stimmen, um Anrufe entgegenzunehmen. Insbesondere ermöglicht Bixby jetzt englischsprachigen Personen, Anrufe anzunehmen, indem sie eine Nachricht eingeben, die Bixby in Audio umwandelt und in ihrem Namen an den Anrufer weiterleitet.

Technologien wie VALL-E und Bixby bringen das Klonen von Stimmen in die Realität und haben das Potenzial, Game Changer in der Branche zu sein. Der Begriff Stimmklonen bezieht sich auf die Fähigkeit, mithilfe von KI eine digitale Kopie der einzigartigen Stimme einer Person zu erstellen, einschließlich Sprachmustern, Akzenten und Stimmbeugung, indem ein Algorithmus mit einer Probe der Sprache einer Person trainiert wird. Sobald ein Stimmmodell erstellt ist, ist nur noch Klartext erforderlich, um die Sprache einer Person zu synthetisieren und den Klang einer Person zu erfassen und nachzuahmen. Tatsächlich starten jetzt viele verschiedene Arten von Unternehmen zum Klonen von Stimmen, wodurch diese Technologie viel zugänglicher wird.

KI-basiertes Klonen von Stimmen kann, wenn es ethisch korrekt durchgeführt wird, viele hervorragende Anwendungen haben, insbesondere in der Unterhaltungsindustrie. Stellen Sie sich zum Beispiel vor, Sie könnten der Stimme Ihres Lieblingsschauspielers lauschen, der Ihre Einkaufsliste erzählt, während Sie durch die Gänge gehen. In dem unglücklichen Vorfall, dass ein Schauspieler mitten in der Produktion verstirbt, kann seine Stimme den Film immer noch durch die Verwendung einer tiefen falschen Stimme „vervollständigen“.

Ein weiterer Bereich, in dem das Klonen von Stimmen von Vorteil sein kann, ist die Unterstützung von Personen mit Sprachbehinderungen. In diesem Fall ist es möglich, eine synthetische Stimme zu erzeugen, die beeinträchtigten Personen helfen kann, sich mit einer einzigartigen Stimme auszudrücken. Zum Beispiel könnte die Stimme eines Patienten mit Kehlkopfkrebs, dem möglicherweise der Kehlkopf entfernt werden muss, vor der Operation geklont werden, um eine Stimme zu replizieren, die mehr wie ihr altes Ich klingt.

Andererseits Andererseits gibt es einige echte Probleme damit, dass diese Technologie zum Mainstream wird. Abgesehen von den offensichtlichen ethischen Bedenken ist das Erstellen und Verwenden einer Nachbildung der Stimme einer Person ohne deren Erlaubnis und möglicherweise für böswillige Aktivitäten eine schwerwiegende Verletzung der Identität und Privatsphäre. Es gibt auch rechtliche Überlegungen, bei denen das Klonen von Stimmen böswillig verwendet werden kann, um Menschen zu diffamieren, zu täuschen oder zu belasten. Während es zwangsläufig Fälle von Betrügern geben wird, die Menschen unwissentlich und gegen ihren Willen aufzeichnen, müssen wir jedes Mal, wenn wir uns bemühen, die Stimme einer Person aufzuzeichnen, die gleichen Opt-in-/Opt-out-Zustimmungsverfahren implementieren, die für die Gesichtserkennung alltäglich geworden sind. Nur so können Menschen die Kontrolle über ihre einzigartigen, natürlichen biologischen Identifikatoren behalten.

Im Hinblick auf Betrüger ist das Missbrauchspotenzial himmelhoch. Bis vor kurzem brauchte man zum Klonen einer Stimme eine große Menge an aufgezeichneter Sprache, um den Algorithmus zu trainieren. Aber die Technologie zum Klonen von Stimmen entwickelt sich so schnell, dass heute nur noch ein paar Minuten Sprache benötigt werden – oder im Fall von Microsoft VALL-E ein paar Sekunden. Das bedeutet, wenn ein Betrüger Sie nur drei Sekunden lang ans Telefon bringt, ist das alles, was er braucht, um Ihre Stimme ohne Ihre Zustimmung zu synthetisieren. Tatsächlich hat das FBI bereits Warnungen vor Sprachklontechnologien herausgegeben, die bei Großelternbetrug, wobei Betrüger ältere Paare anrufen und einen geliebten Menschen nachahmen, der sagt, sie seien im Gefängnis, in einem fremden Land gefangen oder in anderen schwierigen Situationen, um Geld zu erpressen. Leider können wir damit rechnen, dass das Klonen von Stimmen auch für andere skrupellose Zwecke verwendet wird, wie z. B. das Erstellen von Deep-Fakes von Politikern, die Bemerkungen machen, die Fehlinformationen verbreiten oder Kontroversen hervorrufen können.

Eine weitere wichtige Überlegung ist die Tatsache, dass viele Organisationen verlassen sich auf Spracherkennung als eine Form der biometrischen Authentifizierung – denken Sie beispielsweise an ein aufstrebendes Fintech, das Spracherkennung verwendet, um Benutzern den Zugriff auf Konten und den Austausch von Geldern zu ermöglichen. Wenn es um Stimmen geht, kann es sehr schwierig sein zu sagen, was echt ist und was nicht. Da das Klonen von Stimmen in die reale Welt vordringt – wie viele erwarten – müssen diese Organisationen Maßnahmen ergreifen, um sicherzustellen, dass ihre Systeme nicht durch böswillige Nutzung unterwandert werden.

Es gibt zwei Schlüssel Möglichkeiten, wie Organisationen dies tun können. Zum einen durch die Implementierung der Lebendigkeitserkennung, einem Verfahren, das bereits in der Gesichtserkennung weit verbreitet ist. Die Liveness-Erkennung vereitelt Versuche, ein System zu täuschen, indem sie entscheidet, ob es sich wirklich um eine lebende Person oder eine Fälschung handelt – wie ein Foto oder Video oder eine Sprachaufzeichnung im Gegensatz zu einer Live-Stimme. Eine zweite Technik beinhaltet die Einführung der Multi-Faktor-Authentifizierung (MFA), sodass eine Person, wenn die Stimme identifiziert wird, aufgefordert wird, eine zweite Form der Authentifizierung wie ein Passwort oder einen einmaligen Code anzugeben, der an ihr mobiles Gerät gesendet wird. Diese sekundären Authentifizierungsmethoden sind nicht narrensicher (beide können abgefangen werden) und sie können einige Benutzerprobleme verursachen, aber sie können beim Schutz vor Spoofs wirksam sein.

Zusammenfassend ist das Klonen von Stimmen eine aufregende neue Grenze kann viele Vorteile bieten, insbesondere im Bereich der Unterstützung von Menschen mit Sprachbehinderungen. Aber wir müssen mit dieser vielversprechenden Technologie vorsichtig sein, da das Potenzial für ethische und rechtliche Haftung und Betrug erheblich sein kann. Aus diesem Grund sind Organisationen, die in Spracherkennung als eine Form der biometrischen Authentifizierung investiert haben, gut beraten, zusätzliche Maßnahmen zum Schutz vor Betrugsbedrohungen zu ergreifen.

Bildnachweis: nevarpp/depositphotos.com

Dr. Mohamed Lazzouni, ist CTO, Aware.

By Henry Taylor

Ich arbeite als Backend-Entwickler. Einige von Ihnen haben mich vielleicht auf der Entwicklerkonferenz gesehen. In letzter Zeit arbeite ich an einem Open-Source-Projekt.