Das Ende des Jahres 2022 folgte auf KI-Technologien, die aufgrund der überwältigenden Popularität von OpenAI und ChatGPT eine weit verbreitete Akzeptanz erfuhren. Zum ersten Mal erreichte die KI eine Attraktivität für den Massenmarkt, indem sie ihre Nützlichkeit und ihren Wert bei der Schaffung erfolgreicher Geschäftsergebnisse unter Beweis stellte.
Viele KI-Technologien, die den Alltagsmenschen im Jahr 2023 wie eine Revolution erscheinen, wurden tatsächlich von aktiv genutzt große Unternehmen und Medien seit mehreren Jahren. Begleiten Sie mich, wenn ich mir die Technologie, die diese Lösungen antreibt, genauer anschaue, insbesondere generative KI-Systeme für das Klonen von Stimmen, ihre geschäftlichen Vorteile und ethische Ansätze für die Verwendung von KI.
Wie funktioniert das Klonen von Stimmen?
Kurz gesagt ermöglicht das Klonen von Stimmen einer Person, mit der Stimme einer anderen Person zu sprechen.
Es verwendet generative KI-Technologie, um Aufnahmen der Stimme einer Person zu erstellen und sie zu verwenden, um neue Audioinhalte mit der Stimme derselben Person zu generieren. Es ermöglicht den Leuten im Wesentlichen zu hören, was jemand gesagt hätte, auch wenn sie es selbst nicht gesagt hätten.
Auf der technischen Seite scheinen die Dinge nicht sehr kompliziert zu sein. Aber wenn Sie etwas tiefer eintauchen, gibt es einige Mindestanforderungen, um loszulegen:
Sie benötigen mindestens 5 Minuten qualitativ hochwertige Audioaufnahmen der Quellstimme, um sie zu klonen. Diese Aufzeichnungen sollten klar und frei von Hintergrundgeräuschen oder anderen Verzerrungen sein, da Unvollkommenheiten die Genauigkeit der Modellausgabe beeinträchtigen könnten.Führen Sie diese Aufzeichnungen anschließend in ein generatives KI-Modell ein, um einen „Stimmen-Avatar“ zu erstellen. Trainieren Sie dann das Modell um Sprachmuster in Tonhöhe und Timing genau zu reproduzieren. Sobald es fertig ist, kann dieses trainierte Modell unbegrenzte Inhalte mit der Quellstimme einer anderen Person generieren und wird zu einem effektiven Werkzeug zum Erstellen realistisch klingender Nachbildungen von Stimmen.
Das ist der Punkt, an dem Viele werfen ethische Bedenken auf. Was passiert, wenn wir einen beliebigen Text in den Mund einer anderen Person einfügen können und es unmöglich ist zu sagen, ob diese Wörter echt oder falsch sind?
Ja, diese Möglichkeit ist längst Realität geworden. Wie im Fall von OpenAI und ChatGPT stehen wir derzeit vor einer Reihe ethischer Probleme, die nicht ignoriert werden dürfen.
Ethische Standards in der KI
Wie bei vielen anderen neuartigen Technologien in ihren Anfängen Phasen der Einführung besteht die Hauptbedrohung darin, ein negatives Stigma um die Technologie herum zu erzeugen, anstatt die Bedrohungen als Quelle für Diskussionen und wertvolles Wissen anzuerkennen. Wichtig ist, die Methoden offenzulegen, mit denen schlechte Akteure die Technologie und ihre Produkte missbrauchen, Minderungsinstrumente anwenden und weiter lernen.
Heute haben wir drei Ebenen von Rahmenbedingungen für ethische Standards in Bezug auf die Nutzung generativer KI. Die nationalen und supranationalen Regulierungsebenen befinden sich in der Anfangsphase ihrer Entwicklung. Die politische Welt hält möglicherweise nicht mit der Geschwindigkeit der Entwicklung neuer Technologien Schritt, aber wir können bereits beobachten, dass die EU mit EU-Vorschlag zur KI-Verordnung und Der Verhaltenskodex von 2022 zu Desinformation, der die Erwartungen an große Technologieunternehmen umreißt, um die Verbreitung böswilliger KI-manipulierter Inhalte zu bekämpfen. Auf nationaler Ebene sehen wir erste regulatorische Schritte der USA und des Vereinigten Königreichs, um das Problem mit dem National Deepfake and Digital Provenance Task Force und Großbritanniens Online Safety Bill.
Die Ebene der Technologiebranche bewegt sich schneller, da Unternehmen und Technologen diese neue Realität in Bezug auf neue Technologien und ihre Auswirkungen auf die gesellschaftliche Sicherheit und den Datenschutz akzeptieren. Der Dialog über die Ethik der generativen KI ist lebhaft und hat den Weg zur Entwicklung von Brancheninitiativen für Verhaltenskodizes rund um die Verwendung der generativen KI (d. h. The Partnership on AI Synthetic Media Code of Conduct) und ethische Erklärungen, die von verschiedenen Unternehmen veröffentlicht wurden. Die Frage ist, wie lässt sich das Verhalten praktisch gestalten? Und sind sie in der Lage, Produkte, spezifische Funktionen und die Abläufe von Teams zu beeinflussen?
Nachdem ich mit einer Reihe verschiedener Medien-und Unterhaltungs-, Cybersicherheits-und KI-Ethik-Communities an diesem Problem gearbeitet habe, habe ich einige praktische Grundsätze für den Umgang mit KI-Inhalten und insbesondere Stimmen formuliert:
IP Eigentümer und das Unternehmen, das die geklonte Stimme verwendet, können viele der potenziellen Komplikationen vermeiden, die mit der Verwendung von Originalstimmen verbunden sind, indem sie rechtliche Vereinbarungen unterzeichnen. Projektinhaber sollten die Verwendung einer geklonten Stimme öffentlich bekannt geben, damit die Zuhörer nicht irregeführt werden for voice sollte einen Prozentsatz der Ressourcen für die Entwicklung von Technologien bereitstellen, die in der Lage sind, KI-generierte Inhalte zu erkennen und zu identifizieren. Die Kennzeichnung von KI-generierten Inhalten mit Wasserzeichen ermöglicht die Sprachauthentifizierung. Jeder KI-Dienstleister sollte jedes Projekt auf seine Auswirkungen (gesellschaftlich, geschäftlich und Datenschutzniveaus), bevor Sie zustimmen, daran zu arbeiten.
Natürlich wirken sich die Grundsätze der Ethik in der KI nicht auf die Verbreitung hausgemachter Deepfakes im Internet aus. Sie werden jedoch alle grauen Projekte aus der Reichweite des öffentlichen Marktes drängen.
In den Jahren 2021-22 wurden KI-Stimmen in verschiedenen Mainstream-Projekten verwendet, die erhebliche Auswirkungen auf Ethik und Gesellschaft hatten. Dazu gehörte das Klonen der Stimme des jungen Luke Skywalker für den Mandalorianer Serie, KI-Stimme für God of War 2 und Richard Nixons Stimme für das historische”In Event of Moon Disaster”.
Das Vertrauen in Technologie wächst über Medien und Unterhaltung hinaus. Traditionelle Unternehmen in vielen Branchen verwenden geklonte Stimmen in ihren Projekten. Hier sind einige der wichtigsten Anwendungsfälle.
Anwendungsfälle in der Industrie
Im Jahr 2023 wird das Klonen von Stimmen weiter zunehmen, während verschiedene Unternehmen von seinen zahlreichen Vorteilen profitieren werden. Vom Gesundheitswesen und Marketing über den Kundenservice bis hin zur Werbebranche revolutioniert Voice Cloning die Art und Weise, wie Unternehmen Beziehungen zu ihren Kunden aufbauen und ihre Arbeitsabläufe optimieren.
Voice Cloning kommt Gesundheitsexperten und Sozialarbeitern zugute, die in einer Online-Umgebung arbeiten. Digitale Avatare mit der gleichen Stimme wie Mediziner fördern stärkere Bindungen zwischen ihnen und ihren Patienten, stärken das Vertrauen und binden Kunden.
Die potenziellen Anwendungen des Stimmklonens in der Film-und Unterhaltungsindustrie sind enorm. Das Synchronisieren von Inhalten in mehrere Sprachen, das Ersetzen von zusätzlichen Dialogen für Kinder und Erwachsene (ADR) und eine nahezu unendliche Auswahl an Anpassungsoptionen werden durch diese Technologie ermöglicht.
In ähnlicher Weise wird im Betriebssektor die KI-gesteuerte Stimme verwendet Das Klonen kann hervorragende Ergebnisse für Marken liefern, die kosteneffiziente Lösungen für interaktive Sprachantwortsysteme oder Unternehmensschulungsvideos benötigen. Mit der Sprachsynthese-Technologie können Schauspieler ihre Reichweite erweitern und gleichzeitig ihre Fähigkeit erhöhen, Residuen aus Aufnahmen zu verdienen.
Schließlich hat das Aufkommen des Stimmenklonens in Werbeproduktionsstudios dazu beigetragen, die Kosten und die Anzahl der damit verbundenen Stunden erheblich zu reduzieren mit kommerzieller Produktion. Solange eine qualitativ hochwertige Aufzeichnung zum Klonen verfügbar ist (selbst von nicht verfügbaren Schauspielern), können Anzeigen schneller und kreativer als je zuvor produziert werden.
Interessanterweise können Unternehmen und KMU die Vorteile des Sprachklonens nutzen etwas Einzigartiges für ihre Marken zu schaffen. Große Projekte können ihre ehrgeizigsten Pläne verwirklichen, während kleine Unternehmen auf zuvor kostenintensive Modelle zugreifen können. Das ist wahre Demokratisierung.
Abschluss
Das Klonen von KI-Stimmen bietet Unternehmen bahnbrechende Vorteile wie die Schaffung einzigartiger Kundenerlebnisse, die Integration natürlicher Sprachverarbeitungsfunktionen in ihre Produkte und Dienstleistungen und Generieren hochpräziser Nachahmungen von Stimmen, die absolut echt klingen.
Unternehmen, die ihren Wettbewerbsvorteil im Jahr 2023 behaupten wollen, sollten sich mit dem Klonen von KI-Stimmen befassen. Unternehmen können diese Technologie nutzen, um eine Vielzahl neuer Möglichkeiten zu erschließen, um Marktanteile zu gewinnen und Kunden zu binden, während sie dies auf ethisch verantwortliche Weise tun.