A fines del año pasado, OpenAI anunció Whisper, un nuevo modelo de lenguaje de voz a texto que es extremadamente preciso para traducir muchos lenguas habladas en texto. El repositorio whisper contiene instrucciones de instalación y uso.

tl;dr:

# Instalar susurro y sus dependencias. pip3 install git+https://github.com/openai/whisper.git # (Cuando sea necesario) Actualizar susurro. pip3 install–upgrade–no-deps–force-reinstall git+https://github.com/openai/whisper.git # Asegúrese de que ffmpeg esté instalado. brew install ffmpeg # Traduce voz a texto. susurro my_audio_file.mp3–language English

Algo que hago con bastante frecuencia para mi canal de YouTube es extraer la pista de audio, convertirla en texto usando una herramienta en línea (solía usar Welder hasta que Veed los compró), y luego edite manualmente el archivo para corregir las referencias a nombres de productos, personas, etc.

Luego subo un archivo.txt o.srt editado archivo junto con mi video en YouTube, y las personas pueden usar subtítulos. YouTube muestra si un video tiene subtítulos seleccionados manualmente con este pequeño ícono’CC’:

Pero como el nivel gratuito de Veed solo permite transcribir hasta 10 minutos de audio en un tiempo, era hora de buscar en otra parte. Y en mi publicación de blog anterior sobre el uso de la función de dictado integrada de macOS para la transcripción, rasmi comentó que había una nueva herramienta disponible, Whisper.

¡Así que lo probé!

Lo instalé y lo ejecuté en una de las pistas de audio de mi video usando los comandos en la parte superior de esta publicación, y me sorprendió gratamente.:

Experimentando con los diferentes modelos, base.en fue muy rápido para el inglés, pero descubrí que los pequeños o medianos eran mucho mejores para identificar nombres de productos, términos técnicos oscuros, etc. palabras como’PlinkUSA’,’Sliger’y’Raspberry Pi’, algo con lo que otras herramientas de transcripción se tropezarían. Incluso puedes traducir archivos de texto (usando–translate), lo cual es un buen truco. Identificará automáticamente el idioma de origen, o puede especificarlo con–language). Todavía no es perfecto, todavía necesito retocar probablemente una palabra cada 10 oraciones. ¡Pero es mil veces más fácil que intentar transcribir cosas manualmente! E incluso hace puntuación y genera un.srt de forma nativa.

He estado examinando debates y ya hay algunos muy buenos sobre características como diarización (poder para identificar a varios oradores en una conversación) y evaluaciones comparativas de rendimiento.

En la CPU de mi Mac Studio , el proceso de conversión es solo un poco más lento que en tiempo real. Todavía no lo he probado en mi PC con una GPU más robusta, pero planeo probarlo pronto.

Al ser bastante nuevo, las interfaces de usuario específicas para Whisper aún no están maduras… pero encontré cosas como whisper-ui, e incluso hay una aplicación web Hugging Face Whisper Webui puede usar hasta 10 minutos de transcripción de audio para tener una idea.

Y en macOS, si la línea de comando no está En lo tuyo, Jordi Bruin creó una aplicación MacWhisper, que es gratuita para la versión estándar e incluye una interfaz de usuario para editar la transcripción en vivo:

Ojalá se desarrollen más interfaces de usuario, especialmente algo que podría lanzar en una de mis PC aquí, para poder enviarle rápidamente un archivo de audio desde cualquier dispositivo.

En general, soy un poco conservador cuando se trata de lanzar IA a un problema, pero la voz a texto (y viceversa) es probablemente uno de los usos más sencillos que tiene sentido y no lleva una cantidad de pistolas.

By Maisy Hall

Trabajo como escritora independiente. También soy vegana y ecologista. Siempre que tengo tiempo, me centro en la meditación.