Tyler Weitzman เป็นผู้ร่วมก่อตั้ง หัวหน้าฝ่ายปัญญาประดิษฐ์ และประธานของ Speechify แอปแปลงข้อความเป็นคำพูดอันดับ 1 ของโลก โดยมีบทวิจารณ์ระดับ 5 ดาวรวมกว่า 100,000 บท Weitzman สำเร็จการศึกษาจากมหาวิทยาลัยสแตนฟอร์ด ซึ่งเขาได้รับวิทยาศาสตรบัณฑิตสาขาคณิตศาสตร์และวิทยาศาสตรมหาบัณฑิตสาขาวิทยาการคอมพิวเตอร์ในสาขาปัญญาประดิษฐ์ เขาได้รับเลือกจากนิตยสาร Inc. ให้เป็นผู้ประกอบการ 50 อันดับแรก และได้รับการแนะนำใน Business Insider, TechCrunch, LifeHacker, CBS และสิ่งพิมพ์อื่นๆ การวิจัยระดับปริญญาโทของ Weitzman มุ่งเน้นไปที่ปัญญาประดิษฐ์และการแปลงข้อความเป็นคำพูด ซึ่งผลงานชิ้นสุดท้ายของเขามีชื่อว่า “CloneBot: Personalized Dialogue-Response Predictions”
คุณเริ่มเขียนโค้ดเมื่อคุณอายุเพียง 9 ขวบ ตอนอายุ 1 ขวบ อะไรดึงดูดคุณให้สนใจวิทยาการคอมพิวเตอร์ในตอนแรก
ตอนเด็กๆ ฉันค่อนข้างหมกมุ่นกับ Dragon Ball Z และอยากเรียนรู้ที่จะเคลื่อนไหวด้วยตัวเอง ฉันเรียนรู้ Adobe Flash และ Photoshop และใส่แอนิเมชั่นของ Goku ลงในเว็บเพจสำหรับแฟน ๆ ที่ฉันสร้างขึ้น ไม่นานหลังจากที่ฉันเริ่มเรียนรู้เกี่ยวกับระบบและอัลกอริธึม และเมื่อฉันเรียนรู้ว่าฉันสามารถเขียนโปรแกรมสำหรับการดำรงชีวิตได้ ซึ่งค่อนข้างน่าตื่นเต้นทีเดียว ฉันคิดว่ามันเป็นแค่งานอดิเรกอย่างการเล่นเกม
จากนั้นคุณเริ่มสร้างแอป iPhone เมื่อคุณอายุเพียง 12 ปี แอปเหล่านี้มีอะไรบ้าง
แอปหนึ่งมีชื่อว่า Black SMS ที่ช่วยให้ผู้คนสามารถส่งข้อความเข้ารหัสถึง กันและกัน. อีกแอปหนึ่งเรียกว่า Frontback ที่ช่วยให้ผู้ใช้สามารถถ่ายเซลฟี่และภาพถ่ายของสิ่งที่อยู่ตรงหน้าได้ในเวลาเดียวกัน
ช่วยพูดถึงงานวิจัยของคุณที่ Stanford University และวิธีการที่แอปนี้มุ่งเน้นไปที่ธรรมชาติ การประมวลผลภาษาและการสังเคราะห์เสียง?
งานวิจัยของฉันครอบคลุมการใช้งานหลายอย่างสำหรับเครือข่ายหม้อแปลง รวมถึงโมเดลการสร้างภาษาสำหรับการแชท การติดแท็กส่วนหนึ่งของคำพูด การคาดคะเนเครื่องหมายวรรคตอน และการแปลงข้อความเป็นคำพูด การเพิ่มประสิทธิภาพการอนุมานของโครงข่ายประสาทเทียมสำหรับ CPU บนอุปกรณ์พกพาคือจุดสนใจหลัก และแปลโดยตรงเป็นเสียงออฟไลน์ที่มีอยู่ใน Speechify ซึ่งทำงานได้แม้ในโหมดเครื่องบิน
ช่วยแชร์เรื่องราวต้นกำเนิดเบื้องหลัง Speechify ได้ไหม
ฉันตาบอดข้างหนึ่ง และคลิฟฟ์น้องชายของฉันเป็นโรคดิสเล็กเซีย เราใช้หนังสือเสียงและเทคโนโลยีเสียงอ่านออกเสียงข้อความตราบเท่าที่เราจำได้เพื่อไปโรงเรียนและเมื่อเรายังเด็กเพื่ออ่านหนังสืออย่างเช่น แฮร์รี่ พอตเตอร์ เมื่อเราอายุมากขึ้นและเริ่มใช้ผลิตภัณฑ์เทคโนโลยีมากขึ้น เราเริ่มตระหนักว่ามีโอกาสที่จะสร้างแอปข้อความเป็นคำพูดที่ดีขึ้นบนเว็บและอุปกรณ์เคลื่อนที่ด้วยเสียงที่ดีขึ้น ต้องขอบคุณความก้าวหน้าของ AI และประสบการณ์ผู้ใช้ที่ดีขึ้น ดังนั้นเราจึงตัดสินใจลองใช้ Speechify
มีอะไรบ้าง เทคโนโลยีแมชชีนเลิร์นนิงแบบต่างๆ ที่ใช้ใน Speechify เป็นอย่างไร
เราได้นำเทคนิคที่ทันสมัยมาใช้สำหรับสถาปัตยกรรมเชิงกำเนิดขั้นสูง เช่น ตัวแปลง/ตัวปรับโครงสร้าง การฝึกล่วงหน้าขนาดใหญ่ การฝึกแบบกระจาย การสะสมการไล่ระดับสี พื้นที่แฝงที่เข้ารหัสอัตโนมัติ การแพร่กระจาย เครือข่ายฝ่ายตรงข้าม และการสร้างแบบจำลองภาษา เราใช้เทคนิคสนับสนุนสำหรับการประมวลผลฟีเจอร์เกี่ยวกับการออกเสียง เสียงสูงต่ำ และอารมณ์ เพื่อสร้างแบบจำลองคำพูดที่ดีขึ้นโดยเฉพาะ
อะไรคือความท้าทายเบื้องหลังการสร้างแอปแปลงข้อความเป็นคำพูด
ความท้าทายสำคัญประการหนึ่งคือการสร้างเสียงคุณภาพสูงที่ฟังเหมือนมนุษย์จริงๆ ไม่ใช่เสียงหุ่นยนต์ เป้าหมายของเราคือให้ผู้คนไม่สามารถบอกความแตกต่างระหว่างเสียงของเราและเสียงของมนุษย์ เพื่อให้ผู้ใช้ของเราสบายใจในการฟังเนื้อหาบน Speechify เป็นเวลานาน ความท้าทายประการที่สองคือการกระจายโมเดล AI ของเราไปยังผู้ใช้หลายล้านคน การสร้างเสียง AI คุณภาพสูงเป็นสิ่งหนึ่ง และอีกประการหนึ่งเพื่อให้แน่ใจว่าผู้ใช้หลายล้านคนทั่วโลกค้นพบและใช้งานจริง
Speechify เป็นแอปอันดับ 1 ในหมวดหมู่นี้ใน app store ความสำเร็จนี้เกิดจากอะไร
เราเชื่อว่าเราได้สร้างผลิตภัณฑ์ที่ดีที่สุดในตลาดสำหรับผู้ที่ต้องการฟังการอ่านที่พวกเขาต้องการบริโภค ไม่ว่าจะเป็น นักเรียนที่มีการบ้าน มืออาชีพที่กำลังอ่านหนังสือเพื่อทำงาน หรือนักอ่านยามว่างที่ต้องการความบันเทิง เรามีตัวเลือกเสียงที่ดีที่สุด รวมถึงคนดังอย่าง Snoop Dogg และส่วนต่อประสานผู้ใช้ที่ดีที่สุดเพื่อให้ผู้คนอัปโหลดและเข้าถึงเนื้อหาที่ต้องการบริโภคได้อย่างง่ายดาย และประสบการณ์ของผู้ใช้ของเรานั้นราบรื่นทั่วทั้งระบบนิเวศของ Speechify คุณสามารถเริ่มฟังบทความบนคอมพิวเตอร์ของคุณและ จากนั้นก็เปิดฟังได้อย่างง่ายดายเพื่อให้
กรณีการใช้งานที่ใหญ่ที่สุดสำหรับแอปนี้มีอะไรบ้าง
generative AI แก้ปัญหาจริงสำหรับนักเรียนที่ต้องการทำการบ้านจำนวนมากให้เสร็จเร็วขึ้น คนจริงๆ ที่เป็นโรคดิสเล็กเซียและสมาธิสั้นที่มีปัญหาในการอ่านหนังสือ ผู้สูงอายุที่มีสายตาเลือนราง มืออาชีพที่ต้องการอ่านหนังสือมากขึ้นและเป็น มีประสิทธิผลมากขึ้น นักเขียนที่ต้องการฟังงานของพวกเขา ผู้เรียนที่ได้ยิน และคนอื่นๆ อีกนับไม่ถ้วน
วิสัยทัศน์ของคุณเกี่ยวกับอนาคตของ AI คืออะไร
เราต้องการให้ AI และข้อความเป็นเสียงพูดของ AI โดยเฉพาะ เพื่อขจัดอุปสรรคในการเรียนรู้โดยไม่คำนึงถึงระดับรายได้ของคุณ การเรียนรู้ ความแตกต่าง ภูมิศาสตร์ หรือภาษา เรามองว่า AI เป็นเครื่องมือที่ดีต่อสังคมในการยกระดับคุณภาพชีวิตที่มนุษย์สามารถดำรงชีวิตได้ผ่านการพัฒนาการศึกษา
ขอขอบคุณสำหรับบทสัมภาษณ์ดีๆ ผู้อ่านที่ต้องการเรียนรู้เพิ่มเติมควรไปที่ Speechify