去年年底,OpenAI 宣布了 Whisper,這是一種新的語音到文本語言模型,可以非常準確地翻譯許多內容口頭語言變成文本。 whisper 存儲庫包含安裝和使用說明。
tl;dr:
# 安裝 whisper 及其依賴項。 pip3 install git+https://github.com/openai/whisper.git #(需要時)更新耳語。 pip3 install–upgrade–no-deps–force-reinstall git+https://github.com/openai/whisper.git # 確保安裝了 ffmpeg。 brew install ffmpeg # 將語音翻譯成文本。 whisper my_audio_file.mp3–language English
我經常為我的 YouTube 頻道做的一件事是提取音軌,使用在線工具將其轉換為文本(我曾經使用 Welder 直到他們被 Veed 收購),然後手動編輯文件以修復對產品名稱、人員等的引用。
然後我上傳經過編輯的.txt 或.srt在 YouTube 上與我的視頻一起歸檔,人們可以使用隱藏式字幕。 YouTube 會顯示視頻是否具有手動策劃的字幕,帶有這個方便的小“CC”圖標:
但由於 Veed 的免費套餐最多只允許轉錄 10 分鐘的音頻有一段時間,是時候去別處看看了。在我之前關於使用 macOS 的內置聽寫功能進行轉錄的博文中,rasmi 評論說有一個新工具可用,Whisper。
所以我試了一下!
我安裝了它並使用這篇文章頂部的命令在我的一個視頻的音軌上運行它,我感到驚喜:
試驗不同的模型,base.en 對英語的速度非常快,但我發現小型或中型在識別產品名稱、晦澀的技術術語等方面要好得多。老實說,它讓我大吃一驚諸如“PlinkUSA”、“Sliger”和“Raspberry Pi”之類的詞——其他轉錄工具可能會用到這些詞。您甚至可以翻譯文本文件(使用–translate),這是一個巧妙的技巧。它會自動識別源語言,或者您可以使用–language 指定它)。這還不是很完美——我仍然需要每 10 個句子大概修改一個單詞。但這比嘗試手動轉錄要容易一千倍!它甚至會標點符號並在本地輸出.srt。
我一直在瀏覽討論,已經有一些關於diarization(能夠識別對話中的多個發言者)和性能基準測試。
在我的 Mac Studio 的 CPU 上, 轉換過程只比實時慢一點。我還沒有在我的 PC 上用更強大的 GPU 測試它,但我計劃很快測試它。
Whisper 是相當新的,特定的 UI 還不成熟……但我確實找到了諸如 whisper-ui 之類的東西,甚至還有一個 Hugging Face webapp Whisper Webui 您可以使用長達 10 分鐘的音頻轉錄來感受它。
在 macOS 上,如果命令行不可用如果你不喜歡,Jordi Bruin 創建了一個應用程序 MacWhisper,它的標準版本是免費的,並包含一個用於編輯轉錄的 UI直播:
希望開發出更多的 UI,尤其是我可以在我的一台 PC 上使用的東西,這樣我就可以從任何設備快速向它發送音頻文件。
我通常在將 AI 用於解決問題時有點保守,但語音轉文本(反之亦然)可能是最簡單明了的用途之一,它很有意義,而且不會攜帶大量的槍支。