Microsoft 最近成為頭條新聞,宣布它正在開發一種名為 VALL-E 的人工智能 (AI),它可以從三秒鐘的音頻剪輯中克隆聲音。想像一下,現在 AI 可以讓任何人的聲音說話,而無需那個人實際說話!甚至最近,三星宣布其軟件助手 Bixby 現在可以克隆用戶的語音接聽電話。具體來說,Bixby 現在可以讓說英語的人通過鍵入一條消息來接聽電話,Bixby 會代表他們將消息轉換為音頻並轉發給呼叫者。
VALL-E 和 Bixby 等技術正在將語音克隆變為現實,並擁有有可能成為行業遊戲規則的改變者。語音克隆一詞指的是使用 AI 通過用一個人的語音樣本訓練算法來構建一個人獨特聲音的數字副本的能力,包括語音模式、口音和語音變化。創建語音模型後,只需純文本即可合成一個人的語音、捕捉和模仿一個人的聲音。事實上,許多不同類型的語音克隆公司現在都在推出,這使得這項技術更容易獲得。
基於 AI 的語音克隆,如果以合乎道德的方式進行,可以有許多出色的應用,尤其是在娛樂行業。例如,想像一下,當您走過過道時,能夠聽到您最喜歡的演員講述您的購物清單的聲音。在演員中途不幸去世的情況下,他們的聲音仍然可以通過使用低沉的假聲來“完成”電影。
另一個語音克隆可能有益的領域是幫助有語言障礙的人。在這種情況下,可以創建一種合成語音,它可以幫助受損的人以他們自己獨特的聲音表達自己的能力。例如,可能需要切除喉部的喉癌患者可以在手術前克隆他的聲音,以便複製聽起來更像他們原來的聲音。
另一方面另一方面,這項技術成為主流存在一些實際問題。除了明顯的道德問題之外,在未經他人許可的情況下創建和使用某人聲音的複製品,並可能用於惡意活動,是對身份和隱私的嚴重侵犯。出於法律考慮,語音克隆可能會被惡意用於誹謗、欺騙或定罪他人。雖然肯定會有騙子在不知情的情況下違背人們的意願錄音的情況,但我們必須實施相同的選擇加入/選擇退出同意程序,這在面部識別中已經司空見慣,無論何時我們努力記錄一個人的聲音。這是使人們能夠保持對其獨特的自然生物標識符的控制的唯一方法。
對於騙子來說,濫用的可能性是極高的。直到最近,要克隆語音,您還需要大量錄製的語音來訓練算法。但語音克隆技術發展如此之快,以至於今天所需要的只是幾分鐘的演講——或者在 Microsoft VALL-E 的案例中,只需幾秒鐘。這意味著,如果詐騙者只讓您打電話三秒鐘,他們就可以在未經您同意的情況下合成您的聲音。事實上,FBI 已經針對祖父母詐騙,騙子打電話給老年夫婦,模仿親人說他們在監獄裡,被困在國外或其他困難的情況下,以勒索錢財。不幸的是,我們可能會看到語音克隆也被用於其他流氓目的,例如製造政客的深度造假,發表可能傳播錯誤信息或引發爭議的言論。
另一個重要的考慮因素是許多人組織依靠語音識別作為生物特徵認證的一種形式——比如說,想一想一種新興的金融科技,它使用語音識別使用戶能夠訪問賬戶和交換資金。就聲音而言,很難分辨什麼是真實的,什麼不是。隨著語音克隆進入現實世界——正如許多人預期的那樣——這些組織將不得不採取措施確保他們的系統不會被惡意使用破壞。
有兩個關鍵組織可以做到這一點的方式。一種是通過實施活體檢測,該過程已廣泛用於面部識別。活體檢測通過確定係統是真人還是惡搞來阻止欺騙系統的嘗試——比如照片或視頻,或者使用錄音而不是真人語音。第二種技術涉及採用多因素身份驗證 (MFA),因此如果一個人的聲音被識別,他或她將被提示提供第二種形式的身份驗證,例如發送到他們的移動設備的密碼或一次性代碼.這些輔助身份驗證方法並非萬無一失(兩者都可以被攔截),它們可能會引起一些用戶摩擦,但它們可以有效地幫助防止欺騙。
總而言之,語音克隆是一個令人興奮的新領域可以帶來很多好處,尤其是在幫助有語言障礙的人方面。但我們需要對這項有前途的技術保持謹慎,因為道德和法律責任以及詐騙的可能性可能很大。這就是為什麼投資語音識別作為一種生物認證形式的組織最好採取額外措施來防範欺詐威脅。
圖片來源:nevarpp/depositphotos.com
博士。 Mohamed Lazzouni 是 Aware 的首席技術官。