Microsoft apareció recientemente en los titulares al anunciar que está trabajando en una forma de inteligencia artificial (IA) llamada VALL-E que puede clonar voces de un clip de audio de tres segundos. ¡Imagínese que ahora la IA puede hacer que la voz de cualquier persona diga palabras sin que esa persona realmente hable! Incluso más recientemente, Samsunganunció que su asistente de software, Bixby, ahora puede clonar los voces para contestar llamadas. Específicamente, Bixby ahora permite que los angloparlantes respondan llamadas escribiendo un mensaje que Bixby convierte en audio y transmite a la persona que llama en su nombre.

Tecnologías como VALL-E y Bixby están haciendo realidad la clonación de voz y tienen la potencial para cambiar las reglas del juego de la industria. El término clonación de voz se refiere a la capacidad de utilizar la IA para crear una copia digital de la voz única de una persona, incluidos los patrones del habla, los acentos y la inflexión de la voz, entrenando un algoritmo con una muestra del habla de una persona. Una vez que se crea un modelo de voz, todo lo que se necesita es texto sin formato para sintetizar el habla de una persona, capturando e imitando el sonido de un individuo. De hecho, ahora se están lanzando muchos tipos diferentes de empresas de clonación de voz, lo que hace que esta tecnología sea mucho más accesible.

La clonación de voz basada en IA, cuando se realiza de manera ética, puede tener muchas aplicaciones excelentes, especialmente en la industria del entretenimiento. Por ejemplo, imagina poder escuchar la voz de tu actor favorito narrando tu lista de compras mientras caminas por los pasillos. En el caso desafortunado de que un actor fallezca en medio de la producción, su voz aún puede”completar”la película mediante el uso de una voz profunda y falsa.

Otro El área donde la clonación de voz puede ser beneficiosa es ayudar a las personas con discapacidades del habla. En este caso, es posible crear una voz sintética que puede ayudar a las personas discapacitadas con la capacidad de expresarse con una voz que es exclusivamente suya. Por ejemplo, a un paciente con cáncer de garganta que puede necesitar que le extirpen la laringe, se le podría clonar la voz antes de la cirugía para replicar una voz que suene más como la de antes.

Por otro lado Por otro lado, hay algunos problemas reales con esta tecnología que se generaliza. Más allá de las preocupaciones éticas obvias, crear y usar una réplica de la voz de alguien sin su permiso, y potencialmente para actividades maliciosas, es una violación grave de la identidad y la privacidad. También existen consideraciones legales en las que la clonación de voz puede usarse de manera maliciosa para difamar, engañar o incriminar a las personas. Si bien es probable que haya casos de estafadores que graben a personas sin saberlo y en contra de su voluntad, debemos implementar los mismos procedimientos de consentimiento de aceptación/exclusión que se han vuelto comunes para el reconocimiento facial, cada vez que intentemos grabar la voz de una persona. Esta es la única forma de permitir que las personas mantengan el control sobre sus identificadores biológicos naturales únicos.

En cuanto a los estafadores, el potencial de uso indebido es altísimo. Hasta hace poco, para clonar una voz se necesitaba una gran cantidad de voz grabada para entrenar el algoritmo. Pero la tecnología de clonación de voz está evolucionando tan rápido que hoy todo lo que se necesita son unos minutos de voz, o en el caso de Microsoft VALL-E, unos segundos. Esto significa que, si un estafador lo llama por teléfono durante tan solo tres segundos, eso es todo lo que necesita para sintetizar su voz sin su consentimiento. De hecho, el FBI ya emitió advertencias sobre tecnologías de clonación de voz utilizadas en estafas de abuelos, mediante el cual los estafadores llaman a parejas de ancianos e imitan a un ser querido diciendo que están en la cárcel, atrapados en un país extranjero o en otras situaciones difíciles para extorsionar dinero. Desafortunadamente, también podemos esperar que la clonación de voz se use para otros fines pícaros, como crear falsificaciones profundas de políticos que hacen comentarios que pueden difundir información errónea o generar controversia.

Otra consideración importante es el hecho de que muchos Las organizaciones confían en el reconocimiento de voz como una forma de autenticación biométrica; piense, por ejemplo, en una tecnología financiera emergente que utiliza el reconocimiento de voz para permitir que los usuarios accedan a cuentas e intercambien fondos. En lo que respecta a las voces, puede ser muy difícil saber qué es real y qué no. A medida que la clonación de voz irrumpe en el mundo real, como muchos esperan, estas organizaciones tendrán que tomar medidas para garantizar que sus sistemas no se vean afectados por un uso malicioso.

Hay dos claves maneras en que las organizaciones pueden hacer esto. Una es implementando la detección de vida, un proceso que ya se usa ampliamente en el reconocimiento facial. La detección de vida frustra los intentos de engañar a un sistema al decidir si es realmente una persona viva o una parodia, como una foto o un video, o usar una grabación de voz en lugar de una voz en vivo. Una segunda técnica consiste en adoptar la autenticación multifactor (MFA), de modo que si se identifica la voz de una persona, se le pedirá que proporcione una segunda forma de autenticación, como una contraseña o un código de un solo uso enviado a su dispositivo móvil.. Estos métodos de autenticación secundarios no son infalibles (ambos pueden ser interceptados) y pueden generar cierta fricción en el usuario, pero pueden ser efectivos para ayudar a protegerse contra las falsificaciones.

En resumen, la clonación de voz es una nueva y emocionante frontera que puede brindar muchos beneficios, especialmente en el área de ayudar a las personas con discapacidades del habla. Pero debemos ser cautelosos con esta tecnología prometedora, ya que el potencial de responsabilidades éticas y legales y estafas puede ser significativo. Esta es la razón por la cual las organizaciones que han invertido en el reconocimiento de voz como una forma de autenticación biométrica deberían tomar medidas adicionales para protegerse contra las amenazas de estafa.

Crédito de la imagen: nevarpp/depositphotos.com

Dra. Mohamed Lazzouni, es CTO, Aware.

By Kaitlynn Clay

Trabajo como experto en UX. Me interesan el diseño web y el análisis del comportamiento del usuario. En mis días libres, siempre visito el museo de arte.