La fin de l’année 2022 a suivi l’adoption généralisée des technologies d’IA en raison de la popularité étonnante d’OpenAI et de ChatGPT. Pour la première fois, l’IA a atteint un attrait sur le marché de masse en prouvant son utilité et sa valeur dans la création de résultats commerciaux réussis.

De nombreuses technologies d’IA qui semblent être une révolution pour les gens ordinaires en 2023 ont en fait été utilisées activement par grandes entreprises et médias depuis plusieurs années. Rejoignez-moi alors que j’examine de plus près la technologie qui alimente ces solutions, en particulier les systèmes d’IA générative pour le clonage de la voix, ses avantages commerciaux et les approches éthiques de l’utilisation de l’IA.

Comment fonctionne le clonage de la voix ?

En bref, le clonage de la voix permet à une personne de parler en utilisant la voix d’une autre personne.

Il utilise la technologie IA générative pour créer des enregistrements de la voix d’une personne et les utiliser pour générer un nouveau contenu audio avec la voix de cette même personne. Cela permet essentiellement aux gens d’entendre ce que quelqu’un aurait dit, même s’ils ne l’ont pas dit eux-mêmes.

Sur le plan technique, les choses ne semblent pas très compliquées. Mais si vous plongez un peu plus loin, il y a quelques exigences minimales pour commencer :

Vous avez besoin d’au moins 5 minutes d’enregistrement audio de haute qualité de la voix source pour la cloner. Ces enregistrements doivent être clairs et exempts de bruit de fond ou d’autres distorsions, car toute imperfection pourrait affecter la précision de la sortie du modèle. Après cela, introduisez ces enregistrements dans un modèle d’IA génératif pour créer un « avatar vocal ». Ensuite, entraînez le modèle. pour reproduire avec précision les modèles de parole dans la hauteur et le timing. Une fois terminé, ce modèle formé peut générer un contenu illimité en utilisant la voix source de toute autre personne, devenant un outil efficace pour créer des répliques de voix réalistes.

C’est le point auquel beaucoup soulèvent des préoccupations éthiques. Que se passe-t-il lorsque nous pouvons insérer n’importe quel texte dans la bouche d’une autre personne et qu’il est impossible de dire si ces mots sont vrais ou faux ?

Oui, cette possibilité est depuis longtemps devenue une réalité. Comme dans le cas d’OpenAI et de ChatGPT, nous sommes actuellement confrontés à un certain nombre de problèmes éthiques qui ne peuvent être ignorés.

Normes éthiques en matière d’IA

Comme pour de nombreuses autres technologies innovantes dans leur phase initiale étapes d’adoption, la principale menace est de créer une stigmatisation négative autour de la technologie plutôt que de reconnaître les menaces comme une source de discussion et de connaissances précieuses. Ce qui est important, c’est d’exposer les méthodes que les mauvais acteurs utilisent pour abuser de la technologie et de ses produits, appliquer des outils d’atténuation et continuer à apprendre.

Aujourd’hui, nous avons trois couches de cadres pour les normes éthiques relatives à l’utilisation de l’IA générative. Les couches réglementaires nationales et supranationales sont dans leur phase initiale de développement. Le monde politique peut ne pas suivre la vitesse de développement des technologies émergentes, mais nous pouvons déjà observer l’UE en tête avec le Proposition de l’UE sur la réglementation de l’IA et Le code de pratique 2022 sur la désinformation qui décrit les attentes des grandes entreprises technologiques pour lutter contre la diffusion de contenu malveillant manipulé par l’IA. Au niveau national, nous voyons les premières mesures réglementaires prises par les États-Unis et le Royaume-Uni pour résoudre le problème avec le National Deepfake and Digital Provenance Task Force et Online Safety Bill du Royaume-Uni.

La couche de l’industrie technologique évolue plus rapidement à mesure que les entreprises et les technologues acceptent cette nouvelle réalité en ce qui concerne les technologies émergentes et leur impact sur la sécurité et la confidentialité de la société. Le dialogue sur l’éthique de l’IA générative est dynamique et a ouvert la voie au développement d’initiatives industrielles pour des codes de conduite autour de l’utilisation de l’IA générative (c’est-à-dire Code de conduite du Partenariat sur les médias synthétiques IA) et les déclarations éthiques publiées par différentes entreprises. La question est, comment rendre la conduite pratique ? Et sont-ils capables d’affecter les produits, les fonctionnalités spécifiques et les procédures des équipes ?

Ayant travaillé sur ce problème avec un certain nombre de communautés différentes de médias et de divertissement, de cybersécurité et d’éthique de l’IA, j’ai formulé quelques principes pratiques pour traiter le contenu de l’IA et les voix en particulier : 

IP les propriétaires et l’entreprise qui utilise la voix clonée peuvent éviter bon nombre des complications potentielles associées à l’utilisation de voix originales en signant des accords juridiques. Les propriétaires de projet doivent divulguer publiquement l’utilisation d’une voix clonée afin que les auditeurs ne soient pas induits en erreur. pour la voix devrait allouer un pourcentage des ressources au développement d’une technologie capable de détecter et d’identifier le contenu généré par l’IA.L’étiquetage du contenu généré par l’IA avec des filigranes permet l’authentification vocale.Chaque fournisseur de services d’IA devrait examiner chaque projet de son impact (sociétal, commercial et niveaux de confidentialité) avant d’accepter d’y travailler.

Bien sûr, les principes d’éthique de l’IA n’affecteront pas la propagation en ligne des deep fakes faits maison. Cependant, ils pousseront tous les projets dans le gris hors de portée du marché public.

En 2021-22, les voix de l’IA ont été utilisées dans différents projets grand public qui ont introduit de lourdes implications pour l’éthique et la société. Ceux-ci comprenaient le le clonage de la voix du jeune Luke Skywalker pour le Mandalorien série, Voix d’Atreus pour God of War 2, et La voix de Richard Nixon pour l’historique”In Event of Moon Disaster”.

La confiance dans la technologie va au-delà des médias et du divertissement. Les entreprises traditionnelles de nombreux secteurs utilisent des voix clonées dans leurs projets. Voici quelques-uns des cas d’utilisation les plus importants.

Cas d’utilisation de l’industrie

En 2023, le clonage de la voix poursuivra son ascension aux côtés de diverses entreprises prêtes à récolter ses nombreux avantages. De la santé et du marketing au service client et à l’industrie de la publicité, le clonage vocal révolutionne la façon dont les organisations établissent des relations avec leurs clients et rationalisent leurs flux de travail.

Le clonage vocal profite aux professionnels de la santé et aux travailleurs sociaux qui travaillent dans un environnement en ligne. Les avatars numériques présentant la même voix que les professionnels de la santé favorisent des liens plus solides entre eux et leurs patients, renforçant la confiance et fidélisant les clients.

Les applications potentielles du clonage de voix dans l’industrie du cinéma et du divertissement sont vastes. Le doublage de contenu dans plusieurs langues, le remplacement des dialogues supplémentaires pour les enfants et les adultes (ADR) et une gamme presque infinie d’options de personnalisation sont tous rendus possibles par cette technologie.

De même, dans le secteur des opérations, la voix pilotée par l’IA le clonage peut donner d’excellents résultats pour les marques qui ont besoin de solutions rentables pour les systèmes de réponse vocale interactifs ou les vidéos de formation d’entreprise. Grâce à la technologie de synthèse vocale, les acteurs peuvent étendre leur portée tout en augmentant leur capacité à gagner des résidus sur les enregistrements.

Enfin, dans les studios de production publicitaire, l’émergence du clonage de la voix a permis de réduire considérablement les coûts et le nombre d’heures associées avec la production commerciale. Tant qu’un enregistrement de haute qualité est disponible pour le clonage (même d’acteurs indisponibles), les publicités peuvent être produites rapidement et de manière plus créative que jamais.

Il est intéressant de noter que les entreprises et les PME peuvent tirer parti du clonage vocal pour créer quelque chose d’unique pour leurs marques. Les grands projets peuvent réaliser leurs plans les plus ambitieux, tandis que les petites entreprises peuvent accéder à des modèles à l’échelle auparavant prohibitifs. C’est ce que signifie la véritable démocratisation.

Récapitulation

Le clonage de voix par IA offre aux entreprises des avantages révolutionnaires tels que la création d’expériences client uniques, l’intégration de capacités de traitement du langage naturel dans leurs produits et services, et générant des imitations très précises de voix qui semblent complètement réelles.

Les entreprises qui cherchent à maintenir leur avantage concurrentiel en 2023 devraient se pencher sur le clonage de voix par IA. Les entreprises peuvent utiliser cette technologie pour débloquer une variété de nouvelles possibilités pour gagner des parts de marché et fidéliser leurs clients tout en le faisant de manière éthiquement responsable.

By Maisy Hall

Je travaille comme écrivain indépendant. Je suis également vegan et écologiste. Chaque fois que j'ai le temps, je me concentre sur la méditation.