Tyler Weitzman เป็นผู้ร่วมก่อตั้ง หัวหน้าฝ่ายปัญญาประดิษฐ์ และประธานของ Speechify แอปแปลงข้อความเป็นคำพูดอันดับ 1 ของโลก โดยมีบทวิจารณ์ระดับ 5 ดาวรวมกว่า 100,000 บท Weitzman สำเร็จการศึกษาจากมหาวิทยาลัยสแตนฟอร์ด ซึ่งเขาได้รับวิทยาศาสตรบัณฑิตสาขาคณิตศาสตร์และวิทยาศาสตรมหาบัณฑิตสาขาวิทยาการคอมพิวเตอร์ในสาขาปัญญาประดิษฐ์ เขาได้รับเลือกจากนิตยสาร Inc. ให้เป็นผู้ประกอบการ 50 อันดับแรก และได้รับการแนะนำใน Business Insider, TechCrunch, LifeHacker, CBS และสิ่งพิมพ์อื่นๆ การวิจัยระดับปริญญาโทของ Weitzman มุ่งเน้นไปที่ปัญญาประดิษฐ์และการแปลงข้อความเป็นคำพูด ซึ่งผลงานชิ้นสุดท้ายของเขามีชื่อว่า “CloneBot: Personalized Dialogue-Response Predictions”

คุณเริ่มเขียนโค้ดเมื่อคุณอายุเพียง 9 ขวบ ตอนอายุ 1 ขวบ อะไรดึงดูดคุณให้สนใจวิทยาการคอมพิวเตอร์ในตอนแรก

ตอนเด็กๆ ฉันค่อนข้างหมกมุ่นกับ Dragon Ball Z และอยากเรียนรู้ที่จะเคลื่อนไหวด้วยตัวเอง ฉันเรียนรู้ Adobe Flash และ Photoshop และใส่แอนิเมชั่นของ Goku ลงในเว็บเพจสำหรับแฟน ๆ ที่ฉันสร้างขึ้น ไม่นานหลังจากที่ฉันเริ่มเรียนรู้เกี่ยวกับระบบและอัลกอริธึม และเมื่อฉันเรียนรู้ว่าฉันสามารถเขียนโปรแกรมสำหรับการดำรงชีวิตได้ ซึ่งค่อนข้างน่าตื่นเต้นทีเดียว ฉันคิดว่ามันเป็นแค่งานอดิเรกอย่างการเล่นเกม

จากนั้นคุณเริ่มสร้างแอป iPhone เมื่อคุณอายุเพียง 12 ปี แอปเหล่านี้มีอะไรบ้าง

แอปหนึ่งมีชื่อว่า Black SMS ที่ช่วยให้ผู้คนสามารถส่งข้อความเข้ารหัสถึง กันและกัน. อีกแอปหนึ่งเรียกว่า Frontback ที่ช่วยให้ผู้ใช้สามารถถ่ายเซลฟี่และภาพถ่ายของสิ่งที่อยู่ตรงหน้าได้ในเวลาเดียวกัน

ช่วยพูดถึงงานวิจัยของคุณที่ Stanford University และวิธีการที่แอปนี้มุ่งเน้นไปที่ธรรมชาติ การประมวลผลภาษาและการสังเคราะห์เสียง?

งานวิจัยของฉันครอบคลุมการใช้งานหลายอย่างสำหรับเครือข่ายหม้อแปลง รวมถึงโมเดลการสร้างภาษาสำหรับการแชท การติดแท็กส่วนหนึ่งของคำพูด การคาดคะเนเครื่องหมายวรรคตอน และการแปลงข้อความเป็นคำพูด การเพิ่มประสิทธิภาพการอนุมานของโครงข่ายประสาทเทียมสำหรับ CPU บนอุปกรณ์พกพาคือจุดสนใจหลัก และแปลโดยตรงเป็นเสียงออฟไลน์ที่มีอยู่ใน Speechify ซึ่งทำงานได้แม้ในโหมดเครื่องบิน

ช่วยแชร์เรื่องราวต้นกำเนิดเบื้องหลัง Speechify ได้ไหม

ฉันตาบอดข้างหนึ่ง และคลิฟฟ์น้องชายของฉันเป็นโรคดิสเล็กเซีย เราใช้หนังสือเสียงและเทคโนโลยีเสียงอ่านออกเสียงข้อความตราบเท่าที่เราจำได้เพื่อไปโรงเรียนและเมื่อเรายังเด็กเพื่ออ่านหนังสืออย่างเช่น แฮร์รี่ พอตเตอร์ เมื่อเราอายุมากขึ้นและเริ่มใช้ผลิตภัณฑ์เทคโนโลยีมากขึ้น เราเริ่มตระหนักว่ามีโอกาสที่จะสร้างแอปข้อความเป็นคำพูดที่ดีขึ้นบนเว็บและอุปกรณ์เคลื่อนที่ด้วยเสียงที่ดีขึ้น ต้องขอบคุณความก้าวหน้าของ AI และประสบการณ์ผู้ใช้ที่ดีขึ้น ดังนั้นเราจึงตัดสินใจลองใช้ Speechify

มีอะไรบ้าง เทคโนโลยีแมชชีนเลิร์นนิงแบบต่างๆ ที่ใช้ใน Speechify เป็นอย่างไร

เราได้นำเทคนิคที่ทันสมัยมาใช้สำหรับสถาปัตยกรรมเชิงกำเนิดขั้นสูง เช่น ตัวแปลง/ตัวปรับโครงสร้าง การฝึกล่วงหน้าขนาดใหญ่ การฝึกแบบกระจาย การสะสมการไล่ระดับสี พื้นที่แฝงที่เข้ารหัสอัตโนมัติ การแพร่กระจาย เครือข่ายฝ่ายตรงข้าม และการสร้างแบบจำลองภาษา เราใช้เทคนิคสนับสนุนสำหรับการประมวลผลฟีเจอร์เกี่ยวกับการออกเสียง เสียงสูงต่ำ และอารมณ์ เพื่อสร้างแบบจำลองคำพูดที่ดีขึ้นโดยเฉพาะ

อะไรคือความท้าทายเบื้องหลังการสร้างแอปแปลงข้อความเป็นคำพูด

ความท้าทายสำคัญประการหนึ่งคือการสร้างเสียงคุณภาพสูงที่ฟังเหมือนมนุษย์จริงๆ ไม่ใช่เสียงหุ่นยนต์ เป้าหมายของเราคือให้ผู้คนไม่สามารถบอกความแตกต่างระหว่างเสียงของเราและเสียงของมนุษย์ เพื่อให้ผู้ใช้ของเราสบายใจในการฟังเนื้อหาบน Speechify เป็นเวลานาน ความท้าทายประการที่สองคือการกระจายโมเดล AI ของเราไปยังผู้ใช้หลายล้านคน การสร้างเสียง AI คุณภาพสูงเป็นสิ่งหนึ่ง และอีกประการหนึ่งเพื่อให้แน่ใจว่าผู้ใช้หลายล้านคนทั่วโลกค้นพบและใช้งานจริง

Speechify เป็นแอปอันดับ 1 ในหมวดหมู่นี้ใน app store ความสำเร็จนี้เกิดจากอะไร

เราเชื่อว่าเราได้สร้างผลิตภัณฑ์ที่ดีที่สุดในตลาดสำหรับผู้ที่ต้องการฟังการอ่านที่พวกเขาต้องการบริโภค ไม่ว่าจะเป็น นักเรียนที่มีการบ้าน มืออาชีพที่กำลังอ่านหนังสือเพื่อทำงาน หรือนักอ่านยามว่างที่ต้องการความบันเทิง เรามีตัวเลือกเสียงที่ดีที่สุด รวมถึงคนดังอย่าง Snoop Dogg และส่วนต่อประสานผู้ใช้ที่ดีที่สุดเพื่อให้ผู้คนอัปโหลดและเข้าถึงเนื้อหาที่ต้องการบริโภคได้อย่างง่ายดาย และประสบการณ์ของผู้ใช้ของเรานั้นราบรื่นทั่วทั้งระบบนิเวศของ Speechify คุณสามารถเริ่มฟังบทความบนคอมพิวเตอร์ของคุณและ จากนั้นก็เปิดฟังได้อย่างง่ายดายเพื่อให้

กรณีการใช้งานที่ใหญ่ที่สุดสำหรับแอปนี้มีอะไรบ้าง

generative AI แก้ปัญหาจริงสำหรับนักเรียนที่ต้องการทำการบ้านจำนวนมากให้เสร็จเร็วขึ้น คนจริงๆ ที่เป็นโรคดิสเล็กเซียและสมาธิสั้นที่มีปัญหาในการอ่านหนังสือ ผู้สูงอายุที่มีสายตาเลือนราง มืออาชีพที่ต้องการอ่านหนังสือมากขึ้นและเป็น มีประสิทธิผลมากขึ้น นักเขียนที่ต้องการฟังงานของพวกเขา ผู้เรียนที่ได้ยิน และคนอื่นๆ อีกนับไม่ถ้วน

วิสัยทัศน์ของคุณเกี่ยวกับอนาคตของ AI คืออะไร

เราต้องการให้ AI และข้อความเป็นเสียงพูดของ AI โดยเฉพาะ เพื่อขจัดอุปสรรคในการเรียนรู้โดยไม่คำนึงถึงระดับรายได้ของคุณ การเรียนรู้ ความแตกต่าง ภูมิศาสตร์ หรือภาษา เรามองว่า AI เป็นเครื่องมือที่ดีต่อสังคมในการยกระดับคุณภาพชีวิตที่มนุษย์สามารถดำรงชีวิตได้ผ่านการพัฒนาการศึกษา

ขอขอบคุณสำหรับบทสัมภาษณ์ดีๆ ผู้อ่านที่ต้องการเรียนรู้เพิ่มเติมควรไปที่ Speechify

By Henry Taylor

ฉันทำงานเป็นนักพัฒนาส่วนหลัง พวกคุณบางคนอาจเคยเห็นฉันที่การประชุมนักพัฒนาซอฟต์แวร์ เมื่อเร็ว ๆ นี้ฉันได้ทำงานในโครงการโอเพ่นซอร์ส