Tyler Weitzman è il co-fondatore, responsabile dell’intelligenza artificiale e presidente di Speechify, l’app di sintesi vocale n. 1 al mondo, con un totale di oltre 100.000 recensioni a 5 stelle. Weitzman si è laureato alla Stanford University, dove ha conseguito una laurea in matematica e un master in informatica nel percorso Intelligenza artificiale. È stato selezionato da Inc. Magazine come Top 50 Entrepreneur ed è apparso su Business Insider, TechCrunch, LifeHacker, CBS, tra le altre pubblicazioni. La ricerca di laurea magistrale di Weitzman si è concentrata sull’intelligenza artificiale e la sintesi vocale, dove il suo articolo finale era intitolato:”CloneBot: previsioni di dialogo e risposta personalizzate”.
Hai iniziato a programmare quando avevi solo 9 anni anni, cosa ti ha attratto inizialmente verso l’informatica?
Da bambino ero piuttosto ossessionato da Dragon Ball Z e volevo imparare ad animare me stesso. Ho imparato Adobe Flash e Photoshop e ho inserito le mie animazioni di Goku su una pagina web di fan che ho creato. È stato subito dopo che ho iniziato a conoscere sistemi e algoritmi, e quando ho saputo che potevo effettivamente programmare per vivere è stato piuttosto eccitante. Pensavo fosse solo un hobby come giocare.
Hai quindi iniziato a creare app per iPhone quando avevi solo 12 anni, quali erano alcune di queste app?
Un’app si chiama Black SMS che consente alle persone di inviare messaggi di testo crittografati a l’un l’altro. Un’altra app si chiamava Frontback e consente agli utenti di scattare selfie e foto di ciò che hanno davanti nello stesso momento.
Potresti parlare della tua ricerca alla Stanford University e di come fosse incentrata sul naturale elaborazione del linguaggio e sintesi vocale?
La mia ricerca ha riguardato molteplici usi per le reti di trasformazione, inclusi modelli di generazione del linguaggio per chat, tagging di parti del discorso, previsione della punteggiatura e sintesi vocale. L’ottimizzazione dell’inferenza della rete neurale per le CPU mobili era un obiettivo primario e questo si è tradotto direttamente nelle voci offline disponibili su Speechify, che funzionano anche in modalità aereo.
Potresti condividere la storia di genesi di Speechify?
Sono cieco da un occhio e mio fratello Cliff è dislessico. Abbiamo utilizzato audiolibri e tecnologia audio di sintesi vocale per tutto il tempo che possiamo ricordare per finire la scuola e quando eravamo giovani per leggere libri come Harry Potter. Quando siamo cresciuti e abbiamo iniziato a utilizzare più prodotti tecnologici, abbiamo iniziato a renderci conto che c’era l’opportunità di creare app di sintesi vocale migliori sul Web e sui dispositivi mobili con voci migliori grazie ai progressi nell’intelligenza artificiale e a una migliore esperienza utente. Quindi abbiamo deciso di farlo in Speechify.
Quali sono alcuni dei le diverse tecnologie di apprendimento automatico utilizzate in Speechify?
Abbiamo adottato tecniche all’avanguardia per architetture generative avanzate: trasformatori/conformatori, preaddestramento su larga scala, addestramento distribuito, accumulo di gradienti, spazi latenti codificati automaticamente, diffusione, reti avversarie e modellazione del linguaggio. Utilizziamo tecniche di supporto per l’elaborazione delle caratteristiche relative a fonemizzazione, tono ed emozione, per modellare meglio il parlato in modo specifico.
Quali sono alcune delle sfide alla base della creazione di un’app di sintesi vocale?
Una sfida chiave è creare voci di alta qualità che sembrino veri umani piuttosto che robot. Il nostro obiettivo è che le persone non siano in grado di distinguere tra come suonano le nostre voci e come suonano gli umani, in modo che i nostri utenti si sentano a proprio agio nell’ascoltare i contenuti su Speechify per lunghi periodi di tempo. Una seconda sfida è distribuire i nostri modelli AI a milioni di utenti. Una cosa è creare voci di IA di alta qualità e un’altra è assicurarsi che milioni di utenti in tutto il mondo le scoprano davvero e le utilizzino.
Speechify è l’app numero 1 nella sua categoria nel app store, a cosa attribuisci questo successo?
Crediamo di aver creato i migliori prodotti sul mercato per le persone che vogliono ascoltare la lettura di cui hanno bisogno, che si tratti di studenti con i compiti, professionisti che leggono per lavoro o lettori per il tempo libero che vogliono solo divertirsi. Abbiamo la migliore selezione di voci, incluse celebrità come Snoop Dogg, e la migliore interfaccia utente per consentire alle persone di caricare e accedere facilmente ai contenuti che desiderano consumare. E la nostra esperienza utente è perfetta nell’ecosistema di Speechify: puoi iniziare ad ascoltare un articolo sul tuo computer e quindi esegui facilmente lo zapping per in ascolto sul tuo telefono.
Quali sono alcuni dei principali casi d’uso di questa app?
Speechify IA generativa risolve problemi reali per studenti che vogliono completare più velocemente molti compiti, persone reali con dislessia e ADHD che hanno difficoltà a leggere, anziani ipovedenti, professionisti che vogliono leggere di più ed essere più produttivi, scrittori che vogliono ascoltare il loro lavoro, studenti uditivi e innumerevoli altri.
Qual è la tua visione per il futuro dell’IA?
Vogliamo che l’IA, e in particolare le voci di sintesi vocale AI, eliminino le barriere all’apprendimento indipendentemente dal tuo livello di reddito, apprendimento differenze, geografia o lingua. Consideriamo l’intelligenza artificiale uno strumento per il bene sociale per elevare la qualità della vita che gli esseri umani possono vivere migliorando la loro istruzione.
Grazie per l’ottima intervista, i lettori che desiderano saperne di più dovrebbero visitare Speechify.