Tyler Weitzman 是 Speechify 的聯合創始人、人工智能負責人兼總裁,Speechify 是全球排名第一的文本轉語音應用程序,共有超過 100,000 條 5 星評論。 Weitzman 畢業於斯坦福大學,獲得數學學士學位和人工智能方向的計算機科學碩士學位。他被 Inc. Magazine 選為 50 強企業家,並且在 Business Insider、TechCrunch、LifeHacker、CBS 等出版物中都有報導。 Weitzman 的碩士學位研究側重於人工智能和文本到語音轉換,他的最終論文標題為:“CloneBot:個性化對話響應預測。”
您在 9 歲時就開始編碼歲,最初是什麼吸引了您學習計算機科學?
我小時候非常迷戀七龍珠 Z,我想學習為自己製作動畫。我學習了 Adobe Flash 和 Photoshop,並將我自己的 Goku 動畫放在我建立的粉絲網頁上。在我開始學習系統和算法後不久,當我了解到我實際上可以以編程為生時,這非常令人興奮。我以為這只是一個喜歡玩遊戲的愛好。
然後您在 12 歲時就開始開發 iphone 應用程序,其中有哪些應用程序?
一個名為 Black SMS 的應用程序允許人們向其發送加密文本消息彼此。另一個名為 Frontback 的應用程序可以讓用戶同時自拍和拍攝眼前的事物。
你能談談你在斯坦福大學的研究以及它是如何以自然為中心的嗎語言處理和語音合成?
我的研究涉及 Transformer 網絡的多種用途,包括用於聊天的語言生成模型、詞性標註、標點符號預測和文本轉語音。為移動 CPU 優化神經網絡推理是一個主要關注點,它直接轉化為 Speechify 上可用的離線語音,即使在飛行模式下也能使用。
你能分享 Speechify 背後的起源故事嗎?
我的一隻眼睛失明,而我的兄弟 Cliff 有閱讀障礙。從我們記事起就開始使用有聲讀物和文本轉語音音頻技術,在我們小時候閱讀哈利波特等書籍時也是如此。隨著年齡的增長並開始使用更多技術產品,我們開始意識到,由於人工智能的進步和更好的用戶體驗,我們有機會在網絡和移動設備上構建更好的文本到語音應用程序,並提供更好的聲音。所以我們決定在 Speechify 中實現它。
有哪些Speechify 使用的不同機器學習技術?
我們採用了先進的生成架構的尖端技術——transformers/conformers、大規模預訓練、分佈式訓練、梯度積累、自動編碼的潛在空間、擴散、對抗網絡和語言建模。我們採用圍繞音素化、音高和情感的特徵處理支持技術,以更好地專門為語音建模。
構建文本到語音應用背後有哪些挑戰?
一個關鍵挑戰是構建高質量聲音,聽起來像真人而不是機器人。我們的目標是讓人們無法分辨我們的聲音和人類的聲音之間的區別,以便我們的用戶能夠長時間舒適地聆聽 Speechify 上的內容。第二個挑戰是將我們的人工智能模型分發給數百萬用戶。構建高質量的 AI 語音是一回事,而確保全球數百萬用戶真正了解並使用它們又是另一回事。
Speechify 是同類應用中排名第一的app store,您認為這種成功歸功於什麼?
我們相信我們已經為那些想要聽他們需要閱讀的閱讀的人們打造了市場上最好的產品——無論是有家庭作業的學生、為工作而讀書的專業人士,或只想娛樂的休閒讀者。我們有最好的聲音選擇,包括像 Snoop Dogg 這樣的名人,以及最好的用戶界面,讓人們可以輕鬆上傳和訪問他們想要消費的內容。我們的用戶體驗在整個 Speechify 生態系統中是無縫的——您可以開始收聽您計算機上的文章並且然後輕鬆關閉它以保持在手機上收聽.
此應用的一些最大用例是什麼?
Speechify 的 生成式 AI 為想要更快完成大量作業的學生、閱讀困難的閱讀障礙和多動症患者、視力不佳的老年人、想要閱讀更多內容的專業人士解決實際問題更有效率的人、想傾聽自己作品的作家、聽覺學習者和無數其他人。
您對 AI 的未來有何看法?
我們希望人工智能——特別是AI 文本到語音語音——消除學習障礙,無論您的收入水平如何,學習差異、地理或語言。我們將 AI 視為一種社會公益工具,可以通過改善教育來提升人類的生活質量。
感謝您接受精彩的採訪,希望了解更多信息的讀者可以訪問 Speechify。