A Microsoft recentemente ganhou as manchetes ao anunciar que está trabalhando em uma forma de inteligência artificial (IA) chamada VALL-E que pode clonar vozes de um clipe de áudio de três segundos. Imagine que agora a IA pode fazer com que a voz de qualquer pessoa diga palavras sem que esse indivíduo realmente fale! Ainda mais recentemente, a Samsunganunciou que seu assistente de software, Bixby, agora pode clonar os vozes para atender chamadas. Especificamente, o Bixby agora permite que falantes de inglês atendam chamadas digitando uma mensagem que o Bixby converte em áudio e retransmite para o chamador em seu nome.

Tecnologias como VALL-E e Bixby estão tornando a clonagem de voz uma realidade e têm a potencial para mudar o jogo da indústria. O termo clonagem de voz refere-se à capacidade de usar IA para criar uma cópia digital da voz única de uma pessoa, incluindo padrões de fala, sotaques e inflexão de voz, treinando um algoritmo com uma amostra da fala de uma pessoa. Depois que um modelo de voz é criado, o texto simples é tudo o que é necessário para sintetizar a fala de uma pessoa, capturando e imitando o som de um indivíduo. Na verdade, muitos tipos diferentes de empresas de clonagem de voz estão lançando agora, tornando essa tecnologia muito mais acessível.

A clonagem de voz baseada em IA, quando feita de forma ética, pode ter muitas aplicações excelentes, especialmente na indústria do entretenimento. Por exemplo, imagine poder ouvir a voz de seu ator favorito narrando sua lista de compras enquanto você caminha pelos corredores. Na infeliz ocorrência de um ator falecer no meio da produção, sua voz ainda pode”completar”o filme por meio do uso de uma voz grave e falsa.

Outro A área em que a clonagem de voz pode ser benéfica é ajudar pessoas com deficiências de fala. Nesse caso, é possível criar uma voz sintética que pode ajudar indivíduos com deficiência a se expressarem com uma voz que é exclusivamente sua. Por exemplo, um paciente com câncer na garganta que pode precisar ser submetido à remoção da laringe pode ter sua voz clonada antes da cirurgia para replicar uma voz que soe mais parecida com o antigo eu.

Por outro lado Por outro lado, existem alguns problemas reais com essa tecnologia se tornando popular. Além das óbvias preocupações éticas, criar e usar uma réplica da voz de alguém sem permissão e potencialmente para atividades maliciosas é uma grave violação de identidade e privacidade. Há também considerações legais em que a clonagem de voz pode ser usada de forma maliciosa para difamar, enganar ou incriminar pessoas. Embora seja provável que haja casos de golpistas gravando pessoas sem saber e contra sua vontade, devemos implementar os mesmos procedimentos de consentimento de inclusão/exclusão que se tornaram comuns para o reconhecimento facial, sempre que tentarmos gravar a voz de uma pessoa. Esta é a única maneira de permitir que as pessoas mantenham o controle sobre seus identificadores biológicos únicos e naturais.

Em relação aos golpistas, o potencial de uso indevido é altíssimo. Até recentemente, para clonar uma voz, você precisaria de uma grande quantidade de fala gravada para treinar o algoritmo. Mas a tecnologia de clonagem de voz está evoluindo tão rapidamente que hoje tudo o que é necessário são alguns minutos de fala ou, no caso do Microsoft VALL-E, alguns segundos. Isso significa que, se um golpista colocar você no telefone por apenas três segundos, é tudo o que ele precisa para sintetizar sua voz sem o seu consentimento. Na verdade, o FBI já emitiu avisos sobre tecnologias de clonagem de voz usadas em golpes de avós, em que golpistas ligam para casais de idosos e imitam um ente querido dizendo que estão presos, presos em um país estrangeiro ou em outras situações difíceis para extorquir dinheiro. Infelizmente, podemos esperar ver a clonagem de voz usada para outros propósitos malandros também, como criar falsificações profundas de políticos fazendo comentários que podem espalhar informações erradas ou gerar controvérsia.

Outra consideração significativa é o fato de que muitos as organizações contam com o reconhecimento de voz como uma forma de autenticação biométrica – pense, digamos, em uma fintech emergente que usa o reconhecimento de voz para permitir que os usuários acessem contas e troquem fundos. No que diz respeito às vozes, pode ser muito difícil dizer o que é real e o que não é. À medida que a clonagem de voz irrompe no mundo real-como muitos esperam-essas organizações terão que tomar medidas para garantir que seus sistemas não sejam subvertidos por uso malicioso.

Existem dois principais maneiras pelas quais as organizações podem fazer isso. Uma delas é implementar a detecção de vivacidade, um processo que já é amplamente utilizado no reconhecimento facial. A detecção de vivacidade impede tentativas de enganar um sistema, decidindo se é realmente uma pessoa viva ou uma paródia-como uma foto ou vídeo ou usando uma gravação de voz em vez de uma voz ao vivo. Uma segunda técnica envolve a adoção de autenticação multifator (MFA), de modo que, se a voz de uma pessoa for identificada, ela será solicitada a fornecer uma segunda forma de autenticação, como uma senha ou um código único enviado para seu dispositivo móvel. Esses métodos de autenticação secundários não são infalíveis (ambos podem ser interceptados) e podem causar algum atrito ao usuário, mas podem ser eficazes para ajudar na proteção contra falsificações.

Em resumo, a clonagem de voz é uma nova fronteira empolgante que pode oferecer muitos benefícios, especialmente na área de ajudar pessoas com deficiências de fala. Mas precisamos ser cautelosos com essa tecnologia promissora, pois o potencial para responsabilidades éticas e legais e fraudes pode ser significativo. É por isso que as organizações que investiram em reconhecimento de voz como uma forma de autenticação biométrica deveriam tomar medidas extras para se proteger contra ameaças de golpes.

Crédito da imagem: nevarpp/depositphotos.com

Dr. Mohamed Lazzouni, é CTO, Aware.

By Kaitlynn Clay

Eu trabalho como especialista em UX. Estou interessado em web design e análise de comportamento do usuário. Nos meus dias de folga, sempre visito o museu de arte.