No final do ano passado, a OpenAI anunciou Whisper, um novo modelo de linguagem de fala para texto que é extremamente preciso na tradução de muitos idiomas falados em texto. O repositório whisper contém instruções para instalação e uso.
tl;dr:
# Instale o sussurro e suas dependências. pip3 install git+https://github.com/openai/whisper.git # (Quando necessário) Atualizar sussurro. pip3 install–upgrade–no-deps–force-reinstall git+https://github.com/openai/whisper.git # Verifique se o ffmpeg está instalado. brew install ffmpeg # Traduzir fala em texto. sussurrar my_audio_file.mp3–language English
Uma coisa que faço regularmente no meu canal do YouTube é extrair a faixa de áudio, convertê-la em texto usando uma ferramenta online (eu costumava usar Welder até que eles fossem comprados pela Veed) e, em seguida, edite manualmente o arquivo para corrigir referências a nomes de produtos, pessoas, etc.
Em seguida, carrego um.txt ou.srt editado arquivo ao lado do meu vídeo no YouTube, e as pessoas podem usar legendas ocultas. O YouTube mostra se um vídeo tem legendas selecionadas manualmente com este pequeno ícone’CC’:
Mas como o nível gratuito de Veed permite apenas até 10 minutos de áudio para serem transcritos em uma vez, era hora de procurar em outro lugar. E em meu post anterior sobre o uso do recurso de ditado integrado do macOS para transcrição, rasmi comentou que uma nova ferramenta estava disponível, Whisper.
Então eu dei uma volta!
Eu instalei e executei em uma das faixas de áudio do meu vídeo usando os comandos no topo deste post, e fiquei agradavelmente surpreso:
Experimentando os diferentes modelos, o base.en foi muito rápido para o inglês, mas descobri que pequenos ou médios eram muito melhores para identificar nomes de produtos, termos técnicos obscuros etc. palavras como’PlinkUSA’,’Sliger’e’Raspberry Pi’-algo em que outras ferramentas de transcrição tropeçariam. Você pode até traduzir arquivos de texto (usando–translate), o que é um truque legal. Ele identificará automaticamente o idioma de origem ou você poderá especificá-lo com–language). Ainda não está perfeito-ainda preciso retocar provavelmente uma palavra a cada 10 frases. Mas é mil vezes mais fácil do que tentar transcrever as coisas manualmente! E ainda faz pontuação e gera um.srt nativamente.
Estive examinando as discussões e já existem algumas ótimas sobre recursos como diarização (ser capaz para identificar vários interlocutores em uma conversa) e benchmarking de desempenho.
Na CPU do meu Mac Studio , o processo de conversão é apenas um pouco mais lento do que em tempo real. Ainda não testei no meu PC com uma GPU mais robusta, mas pretendo testá-la em breve.
Sendo relativamente novas, UIs específicas para Whisper ainda não estão maduras… mas descobri coisas como whisper-ui, e há até um webapp Hugging Face Whisper Webui você pode usar até 10 minutos de transcrição de áudio para ter uma ideia.
E no macOS, se a linha de comando não for Para você, Jordi Bruin criou um aplicativo MacWhisper, que é gratuito para a versão padrão e inclui uma interface do usuário para editar a transcrição ao vivo:
Espero que mais interfaces de usuário sejam desenvolvidas, especialmente algo que eu possa jogar em um dos meus PCs aqui, para que eu possa lançar rapidamente um arquivo de áudio a partir de qualquer dispositivo.
Eu sou geralmente um pouco conservador quando se trata de lançar a IA em um problema, mas a fala em texto (e vice-versa) é provavelmente um dos usos mais diretos que faz sentido e não carrega uma série de footguns.