Microsoft ha recentemente fatto notizia annunciando che sta lavorando a una forma di intelligenza artificiale (AI) chiamataVALL-E che può clona le voci da una clip audio di tre secondi. Immagina che ora l’intelligenza artificiale possa far dire parole alla voce di chiunque senza che quell’individuo parli effettivamente! Ancora più recentemente, Samsungha annunciato che il suo assistente software, Bixby, può ora clonare gli utenti voci per rispondere alle chiamate. Nello specifico, Bixby ora consente agli anglofoni di rispondere alle chiamate digitando un messaggio che Bixby converte in audio e inoltra al chiamante per loro conto.

Tecnologie come VALL-E e Bixby stanno portando la clonazione vocale alla realtà e hanno la potenziale per cambiare le regole del gioco del settore. Il termine clonazione vocale si riferisce alla capacità di utilizzare l’intelligenza artificiale per costruire una copia digitale della voce unica di una persona, inclusi modelli di discorso, accenti e inflessione vocale, addestrando un algoritmo con un campione del discorso di una persona. Una volta creato un modello vocale, il testo semplice è tutto ciò che serve per sintetizzare il discorso di una persona, catturando e imitando il suono di un individuo. In effetti, molti diversi tipi di società di clonazione vocale stanno ora lanciando, rendendo questa tecnologia molto più accessibile.

La clonazione vocale basata sull’intelligenza artificiale, se eseguita in modo etico, può avere molte applicazioni eccellenti, specialmente nel settore dell’intrattenimento. Ad esempio, immagina di poter ascoltare la voce del tuo attore preferito che racconta la tua lista della spesa mentre cammini tra i corridoi. Nello sfortunato caso in cui un attore muoia nel bel mezzo della produzione, la sua voce può ancora”completare”il film attraverso l’uso di una profonda voce finta.

Un altro un’area in cui la clonazione della voce può essere utile è aiutare le persone con disabilità del linguaggio. In questo caso è possibile creare una voce sintetica che possa assistere le persone con disabilità con la capacità di esprimersi con una voce che sia unicamente loro. Ad esempio, un paziente con cancro alla gola che potrebbe aver bisogno di sottoporsi alla rimozione della laringe, potrebbe clonare la sua voce prima dell’intervento chirurgico per replicare una voce che suoni più simile a quella di prima.

Dall’altro D’altra parte, ci sono alcuni problemi reali con questa tecnologia che diventa mainstream. Al di là delle ovvie preoccupazioni etiche, la creazione e l’utilizzo di una replica della voce di qualcuno senza il suo permesso, e potenzialmente per attività dannose, è una grave violazione dell’identità e della privacy. Ci sono anche considerazioni legali in cui la clonazione della voce può essere usata maliziosamente per diffamare, ingannare o incriminare le persone. Sebbene ci siano sicuramente casi di artisti della truffa che registrano persone inconsapevolmente e contro la loro volontà, dobbiamo implementare le stesse procedure di consenso opt-in/opt-out che sono diventate comuni per il riconoscimento facciale, ogni volta che tentiamo di registrare la voce di una persona. Questo è l’unico modo per consentire alle persone di mantenere il controllo sui loro identificatori biologici univoci e naturali.

Per quanto riguarda i truffatori, il potenziale di uso improprio è alle stelle. Fino a poco tempo fa, per clonare una voce avresti bisogno di una grande quantità di parlato registrato per addestrare l’algoritmo. Ma la tecnologia di clonazione vocale si sta evolvendo così rapidamente che oggi bastano pochi minuti di conversazione o, nel caso di Microsoft VALL-E, pochi secondi. Ciò significa che se un truffatore ti chiama al telefono per soli tre secondi, è tutto ciò di cui ha bisogno per sintetizzare la tua voce senza il tuo consenso. In effetti, l’FBI ha già emesso avvisi di tecnologie di clonazione vocale utilizzate nelle truffe dei nonni, in cui i truffatori chiamano coppie anziane e imitano una persona cara dicendo che sono in prigione, intrappolati in un paese straniero o in altre situazioni difficili per estorcere denaro. Sfortunatamente, possiamo aspettarci di vedere la clonazione vocale utilizzata anche per altri scopi disonesti, come la creazione di falsi profondi di politici che fanno commenti che possono diffondere disinformazione o suscitare polemiche.

Un’altra considerazione significativa è il fatto che molti le organizzazioni si affidano al riconoscimento vocale come forma di autenticazione biometrica: si pensi, ad esempio, a un fintech emergente che utilizza il riconoscimento vocale per consentire agli utenti di accedere ai conti e scambiare fondi. Per quanto riguarda le voci, può essere molto difficile dire cosa è reale e cosa no. Man mano che la clonazione vocale irrompe nel mondo reale, come molti si aspettano, queste organizzazioni dovranno adottare misure per garantire che i loro sistemi non vengano sovvertiti da usi dannosi.

Ci sono due fattori chiave modi in cui le organizzazioni possono farlo. Uno consiste nell’implementare il rilevamento della vivacità, un processo già ampiamente utilizzato nel riconoscimento facciale. Il rilevamento della vivacità ostacola i tentativi di ingannare un sistema, decidendo se si tratta davvero di una persona dal vivo o di una parodia, come una foto o un video o utilizzando una registrazione vocale invece di una voce dal vivo. Una seconda tecnica prevede l’adozione dell’autenticazione a più fattori (MFA), in modo che se la voce di una persona viene identificata, gli verrà chiesto di fornire una seconda forma di autenticazione come una password o un codice monouso inviato al proprio dispositivo mobile. Questi metodi di autenticazione secondari non sono infallibili (entrambi possono essere intercettati) e possono introdurre qualche attrito da parte dell’utente, ma possono essere efficaci nell’aiutare a proteggersi dagli spoofing.

In sintesi, la clonazione vocale è una nuova entusiasmante frontiera che può offrire molti vantaggi, specialmente nell’area di aiutare le persone con disabilità del linguaggio. Ma dobbiamo essere cauti con questa tecnologia promettente, poiché il potenziale di responsabilità etiche e legali e truffe può essere significativo. Questo è il motivo per cui le organizzazioni che hanno investito nel riconoscimento vocale come forma di autenticazione biometrica farebbero bene ad adottare misure aggiuntive per proteggersi dalle minacce di truffa.

Credito immagine: nevarpp/depositphotos.com

Dott. Mohamed Lazzouni, è CTO, Aware.

By Maisy Hall

Lavoro come scrittrice freelance. Sono anche vegana e ambientalista. Quando ho tempo, mi dedico alla meditazione.