No final do ano passado, a OpenAI anunciou Whisper, um novo modelo de linguagem de fala para texto que é extremamente preciso na tradução de muitos idiomas falados em texto. O repositório whisper contém instruções para instalação e uso.

tl;dr:

# Instale o sussurro e suas dependências. pip3 install git+https://github.com/openai/whisper.git # (Quando necessário) Atualizar sussurro. pip3 install–upgrade–no-deps–force-reinstall git+https://github.com/openai/whisper.git # Verifique se o ffmpeg está instalado. brew install ffmpeg # Traduzir fala em texto. sussurrar my_audio_file.mp3–language English

Uma coisa que faço regularmente no meu canal do YouTube é extrair a faixa de áudio, convertê-la em texto usando uma ferramenta online (eu costumava usar Welder até que eles fossem comprados pela Veed) e, em seguida, edite manualmente o arquivo para corrigir referências a nomes de produtos, pessoas, etc.

Em seguida, carrego um.txt ou.srt editado arquivo ao lado do meu vídeo no YouTube, e as pessoas podem usar legendas ocultas. O YouTube mostra se um vídeo tem legendas selecionadas manualmente com este pequeno ícone’CC’:

Mas como o nível gratuito de Veed permite apenas até 10 minutos de áudio para serem transcritos em uma vez, era hora de procurar em outro lugar. E em meu post anterior sobre o uso do recurso de ditado integrado do macOS para transcrição, rasmi comentou que uma nova ferramenta estava disponível, Whisper.

Então eu dei uma volta!

Eu instalei e executei em uma das faixas de áudio do meu vídeo usando os comandos no topo deste post, e fiquei agradavelmente surpreso:

Experimentando os diferentes modelos, o base.en foi muito rápido para o inglês, mas descobri que pequenos ou médios eram muito melhores para identificar nomes de produtos, termos técnicos obscuros etc. palavras como’PlinkUSA’,’Sliger’e’Raspberry Pi’-algo em que outras ferramentas de transcrição tropeçariam. Você pode até traduzir arquivos de texto (usando–translate), o que é um truque legal. Ele identificará automaticamente o idioma de origem ou você poderá especificá-lo com–language). Ainda não está perfeito-ainda preciso retocar provavelmente uma palavra a cada 10 frases. Mas é mil vezes mais fácil do que tentar transcrever as coisas manualmente! E ainda faz pontuação e gera um.srt nativamente.

Estive examinando as discussões e já existem algumas ótimas sobre recursos como diarização (ser capaz para identificar vários interlocutores em uma conversa) e benchmarking de desempenho.

Na CPU do meu Mac Studio , o processo de conversão é apenas um pouco mais lento do que em tempo real. Ainda não testei no meu PC com uma GPU mais robusta, mas pretendo testá-la em breve.

Sendo relativamente novas, UIs específicas para Whisper ainda não estão maduras… mas descobri coisas como whisper-ui, e há até um webapp Hugging Face Whisper Webui você pode usar até 10 minutos de transcrição de áudio para ter uma ideia.

E no macOS, se a linha de comando não for Para você, Jordi Bruin criou um aplicativo MacWhisper, que é gratuito para a versão padrão e inclui uma interface do usuário para editar a transcrição ao vivo:

Espero que mais interfaces de usuário sejam desenvolvidas, especialmente algo que eu possa jogar em um dos meus PCs aqui, para que eu possa lançar rapidamente um arquivo de áudio a partir de qualquer dispositivo.

Eu sou geralmente um pouco conservador quando se trata de lançar a IA em um problema, mas a fala em texto (e vice-versa) é provavelmente um dos usos mais diretos que faz sentido e não carrega uma série de footguns.

By Maxwell Gaven

Trabalho com TI há 7 anos. É divertido observar a constante mudança no setor de TI. TI é meu trabalho, hobby e vida.