Ende letzten Jahres kündigte OpenAI Whisper an, ein neues Speech-to-Text-Sprachmodell, das viele sehr genau übersetzt gesprochene Sprachen in Text. Das whisper-Repository enthält Anweisungen zur Installation und Verwendung.

tl;dr:

# Whisper und seine Abhängigkeiten installieren. pip3 install git+https://github.com/openai/whisper.git # (Bei Bedarf) Whisper aktualisieren. pip3 install–upgrade–no-deps–force-reinstall git+https://github.com/openai/whisper.git # Stellen Sie sicher, dass ffmpeg installiert ist. brew install ffmpeg # Sprache in Text übersetzen. Whisper my_audio_file.mp3–language English

Eine Sache, die ich ziemlich regelmäßig für meinen YouTube-Kanal mache, ist, die Audiospur zu extrahieren, sie mit einem Online-Tool in Text umzuwandeln (früher habe ich Welder, bis sie von Veed aufgekauft wurden), und dann die Datei manuell bearbeiten, um Verweise auf Produktnamen, Personen usw. zu korrigieren.

Dann lade ich entweder eine bearbeitete TXT-oder SRT-Datei hoch Datei neben meinem Video auf YouTube, und die Leute können Closed Captions verwenden. YouTube zeigt mit diesem praktischen kleinen „CC“-Symbol an, ob ein Video manuell kuratierte Untertitel hat:

Aber da die kostenlose Stufe von Veed nur die Transkription von bis zu 10 Minuten Audio erlaubt Eine Zeit, es war Zeit, sich woanders umzusehen. Und in meinem früheren Blogbeitrag über die Verwendung der integrierten Diktatfunktion von macOS für die Transkription kommentierte rasmi, dass ein neues Tool verfügbar sei, Whisper.

Also habe ich es ausprobiert!

Ich habe es installiert und mit den Befehlen oben in diesem Beitrag auf einer der Audiospuren meines Videos ausgeführt, und ich war angenehm überrascht:

Beim Experimentieren mit den verschiedenen Modellen war base.en für Englisch sehr schnell, aber ich fand heraus, dass kleine oder mittlere Produkte viel besser darin waren, Produktnamen, obskure Fachbegriffe usw. zu identifizieren. Ehrlich gesagt hat es mich umgehauen, dass es aufgegriffen wurde Wörter wie „PlinkUSA“, „Sliger“ und „Raspberry Pi“ – etwas, über das andere Transkriptionstools stolpern würden. Sie können sogar Textdateien übersetzen (mit–translate), was ein netter Trick ist. Die Ausgangssprache wird automatisch identifiziert, oder Sie können sie mit–language angeben). Es ist noch nicht ganz perfekt – ich muss wahrscheinlich noch alle 10 Sätze ein Wort nachbessern. Aber es ist tausendmal einfacher, als zu versuchen, Dinge manuell zu transkribieren! Und es macht sogar Satzzeichen und gibt nativ eine.srt aus.

Ich habe Diskussionen durchgesehen und es gibt bereits einige großartige zu Funktionen wie Diarisierung (in der Lage zu sein um mehrere Sprecher in einem Gespräch zu identifizieren) und Leistungsbenchmarking.

Auf der CPU meines Mac Studio , ist der Konvertierungsprozess nur etwas langsamer als in Echtzeit. Ich habe es noch nicht auf meinem PC mit einer kräftigeren GPU getestet, aber ich plane, das bald zu testen.

Da es ziemlich neu ist, sind bestimmte Benutzeroberflächen für Whisper noch nicht ausgereift… aber ich habe es gefunden Dinge wie whisper-ui, und es gibt sogar eine Hugging Face-Webanwendung Whisper Webui können Sie für bis zu 10 Minuten Audiotranskription verwenden, um ein Gefühl dafür zu bekommen.

Und auf macOS, wenn die Befehlszeile nicht Für Ihr Ding hat Jordi Bruin eine App MacWhisper entwickelt, die in der Standardversion kostenlos ist und eine Benutzeroberfläche zum Bearbeiten der Transkription enthält live:

Hoffentlich werden mehr UIs entwickelt, besonders etwas, das ich auf einen meiner PCs hier werfen könnte, damit ich schnell eine Audiodatei von jedem Gerät aus darauf werfen könnte.

Das bin ich im Allgemeinen ein bisschen konservativ, wenn es darum geht, KI auf ein Problem zu werfen, aber Sprache zu Text (und umgekehrt) ist wahrscheinlich eine der einfachsten Anwendungen, die Sinn macht und nicht viele Fußgewehre mit sich bringt. p>

By Henry Taylor

Ich arbeite als Backend-Entwickler. Einige von Ihnen haben mich vielleicht auf der Entwicklerkonferenz gesehen. In letzter Zeit arbeite ich an einem Open-Source-Projekt.