Alla fine dell’anno scorso, OpenAI ha annunciato Whisper, un nuovo modello di linguaggio vocale che è estremamente accurato nella traduzione di molti lingue parlate nel testo. Il repository whisper contiene le istruzioni per l’installazione e l’uso.
tl;dr:
# Installa whisper e le sue dipendenze. pip3 install git+https://github.com/openai/whisper.git # (Se necessario) Aggiorna whisper. pip3 install–upgrade–no-deps–force-reinstall git+https://github.com/openai/whisper.git # Assicurati che ffmpeg sia installato. brew install ffmpeg # Traduce il parlato in testo. whisper my_audio_file.mp3–language English
Una cosa che faccio abbastanza regolarmente per il mio canale YouTube è estrarre la traccia audio, convertirla in testo usando uno strumento online (usavo Saldatore fino a quando non sono stati acquistati da Veed), quindi modifica manualmente il file per correggere i riferimenti a nomi di prodotti, persone, ecc.
Poi carico un file.txt o.srt modificato file accanto al mio video su YouTube e le persone possono utilizzare i sottotitoli. YouTube mostra se un video ha sottotitoli curati manualmente con questa pratica piccola icona”CC”:
Ma poiché il livello gratuito di Veed consente di trascrivere solo fino a 10 minuti di audio a un tempo, era tempo di guardare altrove. E nel mio precedente post sul blog sull’utilizzo della funzionalità di dettatura integrata di macOS per la trascrizione, rasmi ha commentato che era disponibile un nuovo strumento, Whisper.
Così l’ho preso per un giro!
L’ho installato e l’ho eseguito su una delle tracce audio del mio video usando i comandi all’inizio di questo post, e sono rimasto piacevolmente sorpreso:
Sperimentando con i diversi modelli, base.en è stato molto veloce per l’inglese, ma ho scoperto che piccoli o medi erano molto più bravi nell’identificare nomi di prodotti, termini tecnici oscuri, ecc. parole come”PlinkUSA”,”Sliger”e”Raspberry Pi”, qualcosa su cui inciamperebbero altri strumenti di trascrizione. Puoi persino tradurre file di testo (usando–translate), che è un bel trucco. Identificherà automaticamente la lingua di origine, oppure puoi specificarla con–language). Non è ancora del tutto perfetto, devo ancora ritoccare probabilmente una parola ogni 10 frasi. Ma è mille volte più facile che cercare di trascrivere le cose manualmente! E fa anche la punteggiatura e produce un.srt in modo nativo.
Ho passato in rassegna le discussioni e ce ne sono già alcune fantastiche su funzionalità come la diarizzazione (essere in grado per identificare più interlocutori in una conversazione) e benchmarking delle prestazioni.
Sulla CPU del mio Mac Studio , il processo di conversione è solo leggermente più lento rispetto a quello in tempo reale. Non l’ho ancora testato sul mio PC con una GPU più potente, ma ho intenzione di testarlo presto.
Essendo abbastanza nuove, le interfacce utente specifiche per Whisper non sono ancora mature… ma ho trovato cose come whisper-ui, e c’è persino una webapp Hugging Face Whisper Webui puoi utilizzare fino a 10 minuti di trascrizione audio per farti un’idea.
E su macOS, se la riga di comando non è Per te, Jordi Bruin ha creato un’app MacWhisper, che è gratuita per la versione standard e include un’interfaccia utente per la modifica della trascrizione live:
Spero che vengano sviluppate più interfacce utente, in particolare qualcosa che potrei lanciare su uno dei miei PC qui, in modo da poter lanciare rapidamente un file audio da qualsiasi dispositivo.
In genere lo sono un po’prudente quando si tratta di affrontare un problema con l’intelligenza artificiale, ma il discorso al testo (e viceversa) è probabilmente uno degli usi più banali che ha senso e non comporta una serie di pistole.