Tout droit sorti de la science-fiction, un nouveau programme Microsoft AI est capable de cloner la voix d’une personne avec seulement trois secondes d’audio. A lá Mission Impossible, ou Predator, les clones de voix IA de Microsoft sont une peur impressionnante des logiciels, mais sont-ils dangereux ?

Ces dernières années, la technologie IA a été utilisée pour créer des Deepfakes, coller le visage de quelqu’un sur le corps de quelqu’un d’autre. Bien qu’utilisée pour le divertissement dans des médias tels que The Mandalorian, cette technologie a également été utilisée pour des subterfuges politiques et même du contenu pour adultes sans autorisation de ressemblance.

Les clones de voix IA de Microsoft peuvent entraîner les mêmes problèmes. Baptisée VALL-E, la nouvelle technologie est capable de reproduire parfaitement la voix d’un utilisateur avec seulement un échantillon de trois secondes, puis de dire ce qu’il veut.

Dans un rapport détaillé de Ars, l’IA de Microsoft serait construite à partir de la technologie EnCodec de Meta. Cela signifie que l’IA audio peut créer un discours à partir d’invites basées sur une analyse de la façon dont une personne parle réellement. Ces générations s’appuient sur une autre création Meta-LibriLight-pour créer un discours réaliste.

La qualité des clones de voix IA de Microsoft serait très élevée. Pas seulement une simple synthèse, les clones sont capables de reproduire le ton émotionnel réaliste et le timbre de leur source analysée. De plus, l’IA peut même reproduire des environnements acoustiques, comme parler au téléphone ou crier dans un tunnel vide.

Microsoft est apparemment conscient des dangers que pose son logiciel d’intelligence artificielle. En tant que tel, la société ne diffuse pas VALL-E au public dans sa forme actuelle dans un avenir prévisible.

“Puisque VALL-E pourrait synthétiser un discours qui maintient l’identité du locuteur, il peut comporter des risques potentiels d’utilisation abusive du modèle, tels que l’usurpation d’identité vocale ou l’usurpation de l’identité d’un locuteur spécifique”, lit le document d’étude.”Pour atténuer ces risques, il est possible de construire un modèle de détection pour discriminer si un clip audio a été synthétisé par VALL-E. Nous mettrons également en pratique les principes de Microsoft AI lors du développement ultérieur des modèles.”

Microsoft n’est pas la seule entreprise à fournir des services de clonage de voix IA. En fait, il existe plusieurs IA concurrentes qui prétendent offrir un niveau de qualité similaire. Cependant, compte tenu de la réticence de Microsoft à publier son programme, il semble que les géants de la technologie aient plusieurs longueurs d’avance.

By Maisy Hall

Je travaille comme écrivain indépendant. Je suis également vegan et écologiste. Chaque fois que j'ai le temps, je me concentre sur la méditation.