เมื่อปลายปีที่แล้ว OpenAI ได้ประกาศ Whisper ซึ่งเป็นรูปแบบภาษาแปลงคำพูดเป็นข้อความแบบใหม่ที่มีความแม่นยำสูงมากในการแปลภาษาจำนวนมาก ภาษาพูดเป็นข้อความ ที่เก็บ กระซิบมีคำแนะนำสำหรับการติดตั้งและใช้งาน
tl;dr:
# ติดตั้งกระซิบและการอ้างอิง pip3 ติดตั้ง git+https://github.com/openai/whisper.git # (เมื่อจำเป็น) อัปเดตกระซิบ pip3 install–upgrade–no-deps–force-reinstall git+https://github.com/openai/whisper.git # ตรวจสอบให้แน่ใจว่าได้ติดตั้ง ffmpeg แล้ว ชงติดตั้ง ffmpeg # แปลคำพูดเป็นข้อความ กระซิบ my_audio_file.mp3–language ภาษาอังกฤษ
สิ่งหนึ่งที่ฉันทำเป็นประจำสำหรับช่อง YouTube ของฉันคือแยกแทร็กเสียง แปลงเป็นข้อความโดยใช้เครื่องมือออนไลน์ (ฉันเคยใช้ ช่างเชื่อมจนกระทั่ง Veed ซื้อไป) จากนั้นแก้ไขไฟล์ด้วยมือเพื่อแก้ไขการอ้างอิงถึงชื่อผลิตภัณฑ์ ผู้คน ฯลฯ
จากนั้นฉันอัปโหลดไฟล์.txt หรือ.srt ที่แก้ไขแล้ว ข้างวิดีโอของฉันบน YouTube และผู้คนสามารถใช้คำบรรยายแบบปิดได้ YouTube แสดงให้เห็นว่าวิดีโอมีคำบรรยายที่ดูแลจัดการด้วยตนเองหรือไม่ด้วยไอคอน’CC’ขนาดเล็กที่มีประโยชน์นี้:
แต่เนื่องจากระดับฟรีของ Veed อนุญาตให้ถอดเสียงได้สูงสุด 10 นาทีเท่านั้นที่ ครั้งหนึ่ง ถึงเวลาที่จะต้องมองหาที่อื่น และในบล็อกโพสต์ก่อนหน้าของฉันเกี่ยวกับการใช้ฟีเจอร์การเขียนตามคำบอกในตัวของ macOS สำหรับการถอดเสียง rasmi แสดงความคิดเห็นว่ามีเครื่องมือใหม่ให้ใช้งานแล้ว นั่นคือ กระซิบ
ฉันลองเล่นดูสิ!
ฉันติดตั้งและรันบนหนึ่งในแทร็กเสียงของวิดีโอของฉันโดยใช้คำสั่งที่ด้านบนของโพสต์นี้ และฉันรู้สึกประหลาดใจมาก:
จากการทดลองกับรุ่นต่างๆ base.en นั้นรวดเร็วมากสำหรับภาษาอังกฤษ แต่ฉันพบว่าขนาดเล็กหรือกลางนั้นดีกว่ามากในการระบุชื่อผลิตภัณฑ์ คำศัพท์ทางเทคนิคที่ไม่ชัดเจน ฯลฯ บอกตามตรงว่ามันทำให้ฉันรู้สึกทึ่งที่เลือกใช้ คำเช่น’PlinkUSA’,’Sliger’และ’Raspberry Pi’ซึ่งเป็นเครื่องมือถอดความอื่น ๆ ที่จะทำงาน คุณสามารถแปลไฟล์ข้อความ (โดยใช้–translate) ซึ่งเป็นกลอุบายที่เรียบร้อย มันจะระบุภาษาต้นทางโดยอัตโนมัติ หรือคุณสามารถระบุด้วย–language) มันยังไม่สมบูรณ์แบบนัก ฉันยังคงต้องปรับปรุงคำหนึ่งคำทุกๆ 10 ประโยค แต่มันง่ายกว่าการพยายามถอดเสียงด้วยตนเองเป็นพันเท่า! และยังใส่เครื่องหมายวรรคตอนและส่งออกเป็น.srt ได้ด้วย
ฉันได้ตรวจสอบการสนทนาต่างๆ แล้ว และมีคนที่ยอดเยี่ยมเกี่ยวกับคุณลักษณะต่างๆ เช่น การเขียนไดอารี่ (ความสามารถในการ เพื่อระบุผู้พูดหลายคนในการสนทนา) และการเปรียบเทียบประสิทธิภาพ
บน CPU ของ Mac Studio กระบวนการแปลงจะช้ากว่าเรียลไทม์เพียงเล็กน้อยเท่านั้น ฉันยังไม่ได้ทดสอบบนพีซีของฉันด้วย GPU ที่ทรงพลัง แต่ฉันวางแผนที่จะทดสอบในเร็วๆ นี้
เนื่องจากค่อนข้างใหม่ UI เฉพาะสำหรับ Whisper ยังไม่สมบูรณ์… แต่ฉันพบว่า เช่น whisper-ui และยังมีเว็บแอป Hugging Face Whisper Webui คุณสามารถใช้การถอดเสียงได้นานถึง 10 นาทีเพื่อทำความเข้าใจ
และใน macOS หากบรรทัดคำสั่งไม่ใช่’ตามที่คุณต้องการ Jordi Bruin ได้สร้างแอป MacWhisper ซึ่งฟรีสำหรับเวอร์ชันมาตรฐานและมี UI สำหรับแก้ไขการถอดเสียง สด:
หวังว่าจะมีการพัฒนา UI มากขึ้น โดยเฉพาะอย่างยิ่งบางสิ่งที่ฉันสามารถโยนลงในพีซีเครื่องใดเครื่องหนึ่งของฉันที่นี่ ดังนั้นฉันจึงสามารถโยนไฟล์เสียงจากอุปกรณ์ใดก็ได้ได้อย่างรวดเร็ว
โดยทั่วไปแล้วฉัน ค่อนข้างอนุรักษ์นิยมเล็กน้อยเมื่อต้องโยนปัญหาให้ AI แต่การแปลงคำพูดเป็นข้อความ (และในทางกลับกัน) น่าจะเป็นหนึ่งในการใช้งานที่ไม่ซับซ้อนที่สุดซึ่งสมเหตุสมผลและไม่ได้พกปืนกลจำนวนมาก พี>