由於 OpenAI 和 ChatGPT 的驚人流行,AI 技術在 2022 年底得到了廣泛採用。 AI 首次通過證明其在創造成功業務成果方面的效用和價值而獲得了大眾市場的吸引力。

許多 AI 技術在 2023 年對普通人來說似乎是一場革命,但實際上已被廣泛使用大企業和媒體多年。和我一起深入了解為這些解決方案提供動力的技術,特別是用於語音克隆的生成式 AI 系統、其業務優勢以及使用 AI 的道德方法。

語音克隆如何工作?

簡而言之,語音克隆可以讓一個人用另一個人的聲音說話。

它使用生成式 AI 技術來創建一個人的聲音的錄音,並使用它們生成具有同一個人聲音的新音頻內容。它基本上可以讓人們聽到別人會說的話,即使他們自己沒有說。

在技術方面,事情似乎並不復雜。但是,如果您深入了解一下,則需要滿足一些最低入門要求:

您需要至少 5 分鐘的源語音高質量錄製音頻才能克隆它。這些錄音應該清晰且沒有背景噪音或其他失真,因為任何不完美都可能影響模型輸出的準確性。之後,將這些錄音輸入生成式 AI 模型以創建“語音化身”。然後,訓練模型準確地再現音調和時間方面的語音模式。一旦完成,這個經過訓練的模型可以使用任何其他人的源聲音生成無限的內容,成為創建逼真的複制聲音的有效工具。

這就是要點許多人提出道德問題。如果我們可以將任何文字插入另一個人的嘴裡,卻無法判斷這些文字是真是假,會發生什麼?

是的,這種可能性早已成為現實。與 OpenAI 和 ChatGPT 的情況一樣,我們目前面臨著許多不容忽視的道德問題。

AI 中的道德標準

與許多其他新技術一樣,它們的初始階段在採用階段,主要威脅是圍繞技術造成負面污名,而不是承認威脅是討論和寶貴知識的來源。重要的是揭露不良行為者濫用技術及其產品、應用緩解工具並繼續學習的方法。

今天,我們擁有與使用生成式 AI 有關的道德標準的三層框架。國家和超國家監管層正處於發展的初始階段。政策世界可能跟不上新興技術的發展速度,但我們已經可以觀察到歐盟領先於 歐盟關於 AI 法規的提案國家深度偽造和數字來源特別工作組和英國的在線安全法案

隨著公司和技術人員接受這一與新興技術及其對社會安全和隱私的影響有關的新現實,科技行業的層級正在加速發展。關於生成人工智能倫理的對話充滿活力,並引領了圍繞生成人工智能的使用制定行為準則的行業倡議(即 The Partnership on AI Synthetic Media Code of Conduct) 以及不同公司發布的道德聲明。問題是,如何實踐?而且,它們是否能夠影響產品、特定功能和團隊的程序?

在與許多不同的媒體和娛樂、網絡安全和 AI 倫理社區合作解決這個問題後,我制定了一些處理 AI 內容和聲音的實用原則:

IP所有者和使用克隆語音的公司可以通過簽署法律協議避免許多與使用原始語音相關的潛在並發症。項目所有者應公開披露克隆語音的使用,以免聽眾被誤導。從事人工智能技術的公司語音應用程序應分配一定比例的資源用於開發能夠檢測和識別 AI 生成內容的技術。使用水印標記 AI 生成的內容可實現語音身份驗證。每個 AI 服務提供商應審查每個項目的影響(社會、商業和隱私級別),然後才同意對其進行研究。

當然,人工智能的道德原則不會影響自製深度造假的在線傳播。但是,他們會將任何處於灰色地帶的項目推向公共市場之外。

在 2021-22 年,AI 聲音被用於不同的主流項目,這些項目對道德和社會產生了重大影響。其中包括為曼達洛人克隆年輕的盧克·天行者的聲音系列,阿特柔斯為戰神配音2,以及 Richard Nixon 為具有歷史意義的“月球災難事件”發聲

對技術的信心正在超越媒體和娛樂領域。許多行業的傳統企業都在他們的項目中使用克隆的聲音。以下是一些最突出的用例。

行業用例

到 2023 年,語音克隆將繼續興起,各行各業都將從中受益。從醫療保健和營銷到客戶服務和廣告行業,語音克隆正在徹底改變組織與客戶建立關係和簡化工作流程的方式。

語音克隆使在線環境中工作的醫療保健專業人員和社會工作者受益。具有與醫療專業人員相同聲音的數字化身可以促進他們與患者之間更牢固的聯繫,從而提高信任度並留住客戶。

聲音克隆在電影和娛樂行業中的潛在應用非常廣泛。將內容配音成多種語言、兒童和成人附加對話替換 (ADR) 以及幾乎無限的定制選項都可以通過這項技術實現。

同樣,在運營領域,AI 驅動的語音克隆可以為需要交互式語音響應系統或企業培訓視頻的經濟高效解決方案的品牌帶來出色的結果。借助語音合成技術,演員可以擴大他們的影響力,同時提高他們從錄音中賺取殘差的能力。

最後,在廣告製作工作室中,語音克隆的出現有助於顯著降低相關成本和工時與商業生產。只要有可供克隆的高質量錄音(即使來自不可用的演員),就可以比以往更快、更有創意地製作廣告。

有趣的是,企業和 SMB 可以利用語音克隆為他們的品牌創造一些獨特的東西。大型項目可以實現其最雄心勃勃的計劃,而小型企業則可以使用以前成本過高的規模模型。這就是真正的民主化的含義。

總結

AI 語音克隆為企業提供了改變遊戲規則的好處,例如創造獨特的客戶體驗、將自然語言處理功能集成到他們的產品和服務中,以及生成聽起來完全真實的高度準確的聲音模仿。

希望在 2023 年保持競爭優勢的企業應該研究 AI 語音克隆。公司可以使用這項技術來開啟各種新的可能性,以在道德上負責任的方式贏得市場份額並留住客戶。

By Henry Taylor

我是後端開發人員。 你們中有些人可能在開發者大會上見過我。 最近我一直在做一個開源項目。