Em um vídeo de uma reportagem de 25 de janeiro, o presidente Joe Biden fala sobre tanques. Mas uma versão adulterada do vídeo acumulou centenas de milhares de visualizações esta semana nas mídias sociais, fazendo parecer que ele fez um discurso que ataca pessoas transgênero.
Especialistas forenses digitais dizem que o vídeo foi criado usando um novo geração de ferramentas de inteligência artificial, que permitem a qualquer pessoa gerar rapidamente áudio simulando a voz de uma pessoa com apenas alguns cliques de um botão. E embora o clipe de Biden nas mídias sociais possa não ter conseguido enganar a maioria dos usuários desta vez, o clipe mostra como agora é fácil para as pessoas gerar vídeos “deepfake” odiosos e cheios de desinformação que podem causar danos ao mundo real.
“Ferramentas como essa basicamente adicionam mais combustível ao fogo”, disse Hafiz Malik, professor de engenharia elétrica e de computação da Universidade de Michigan, que se concentra em análise forense de multimídia. “O monstro já está à solta.”
Chegou no mês passado com a fase beta da plataforma de síntese de voz da ElevenLabs, que permitia aos usuários gerar áudio realista da voz de qualquer pessoa carregando alguns minutos de áudio amostras e digitar qualquer texto para ele dizer.
A startup diz que a tecnologia foi desenvolvida para dublar áudio em diferentes idiomas para filmes, audiolivros e jogos para preservar a voz e as emoções do locutor.
Usuários de mídia social rapidamente começaram a compartilhar uma amostra de áudio gerada por IA de Hillary Clinton lendo o mesmo texto transfóbico apresentado no clipe de Biden, junto com clipes de áudio falsos de Bill Gates supostamente dizendo que a vacina COVID-19 causa AIDS e a atriz Emma Watson supostamente lendo o manifesto de Hitler “Mein Kampf.”
Pouco depois, a ElevenLabs twittou que estava vendo “um número crescente de casos de uso indevido de clonagem de voz” e anunciou que agora estava explorando salvaguardas para reprimir o abuso. Um dos primeiros passos foi disponibilizar o recurso apenas para quem fornecer informações de pagamento. Inicialmente, usuários anônimos podiam acessar a ferramenta de clonagem de voz gratuitamente. A empresa também afirma que, se houver problemas, ela pode rastrear qualquer áudio gerado até o criador.
Mas mesmo a capacidade de rastrear os criadores não atenuará os danos da ferramenta, disse Hany Farid, professor da da Universidade da Califórnia, em Berkeley, que se concentra em análise forense digital e desinformação.
“O estrago está feito”, disse ele.
Como exemplo, Farid disse que pessoas mal-intencionadas podem mover o mercado de ações com áudio falso de um CEO importante dizendo que os lucros caíram. E já existe um clipe no YouTube que usou a ferramenta para alterar um vídeo para fazer parecer que Biden disse que os EUA estavam lançando um ataque nuclear contra a Rússia.
Software gratuito e de código aberto com os mesmos recursos também surgiram online, o que significa que paywalls em ferramentas comerciais não são um impedimento. Usando um modelo online gratuito, a AP gerou amostras de áudio para soar como os atores Daniel Craig e Jennifer Lawrence em apenas alguns minutos.
“A questão é onde apontar o dedo e como colocar o gênio de volta a garrafa?”Malik disse. “Não podemos fazer isso.”
Quando os deepfakes chegaram às manchetes há cerca de cinco anos, eles eram fáceis de detectar, pois o sujeito não piscava e o áudio parecia robótico. Esse não é mais o caso à medida que as ferramentas se tornam mais sofisticadas.
O vídeo alterado de Biden fazendo comentários depreciativos sobre pessoas transexuais, por exemplo, combinou o áudio gerado por IA com um clipe real do presidente, retirado de uma transmissão ao vivo da CNN em 25 de janeiro anunciando o envio de tanques dos EUA para a Ucrânia. A boca de Biden foi manipulada no vídeo para combinar com o áudio. Embora a maioria dos usuários do Twitter reconhecesse que o conteúdo não era algo que Biden provavelmente diria, eles ficaram chocados com o quão realista parecia. Outros pareciam acreditar que era real – ou pelo menos não sabiam no que acreditar.
Os estúdios de Hollywood há muito tempo conseguem distorcer a realidade, mas o acesso a essa tecnologia foi democratizado sem considerar as implicações, disse Farid.
“É uma combinação da tecnologia baseada em IA muito, muito poderosa, a facilidade de uso e, em seguida, o fato de que o modelo parece ser: vamos colocá-lo na internet e ver o que acontece next”, disse Farid.
O áudio é apenas uma área em que a desinformação gerada por IA representa uma ameaça.
Geradores de imagens de IA on-line gratuitos, como Midjourney e DALL-E, podem produzir imagens fotorrealistas de guerra e desastres naturais no estilo dos meios de comunicação legados com um simples prompt de texto. No mês passado, alguns distritos escolares nos Estados Unidos começaram a bloquear o ChatGPT, que pode produzir texto legível – como trabalhos de conclusão de curso – sob demanda.
ElevenLabs não respondeu a um pedido de comentário.
Links afiliados podem ser gerados automaticamente-consulte nossa declaração de ética para obter detalhes.