Tyler Weitzman é co-fundador, chefe de inteligência artificial e presidente da Speechify, o aplicativo de conversão de texto em fala nº 1 do mundo, totalizando mais de 100.000 avaliações de 5 estrelas. Weitzman é formado pela Universidade de Stanford, onde recebeu um BS em matemática e um MS em Ciência da Computação na área de Inteligência Artificial. Ele foi selecionado pela Inc. Magazine como um dos 50 principais empreendedores e foi destaque no Business Insider, TechCrunch, LifeHacker, CBS, entre outras publicações. A pesquisa de mestrado de Weitzman focou em inteligência artificial e text-to-speech, onde seu trabalho final foi intitulado: “CloneBot: Personalized Dialogue-Response Predictions.”
Você começou a codificar quando tinha apenas 9 anos anos de idade, o que inicialmente atraiu você para a ciência da computação?
Eu era muito obcecado quando criança por Dragon Ball Z e queria aprender a me animar. Aprendi Adobe Flash e Photoshop e coloquei minhas próprias animações de Goku em uma página de fãs que construí. Foi logo depois que comecei a aprender sobre sistemas e algoritmos, e quando aprendi que poderia realmente programar para ganhar a vida, foi muito emocionante. Eu pensei que era apenas um hobby como jogar.
Você começou a criar aplicativos para iPhone quando tinha apenas 12 anos. Quais eram alguns desses aplicativos?
Um aplicativo chamado Black SMS permite que as pessoas enviem mensagens de texto criptografadas para uns aos outros. Outro aplicativo foi chamado Frontback, que permite aos usuários tirar selfies e fotos do que está à sua frente ao mesmo tempo.
Você poderia discutir sua pesquisa na Universidade de Stanford e como ela foi centrada em questões naturais processamento de linguagem e síntese de fala?
Minha pesquisa abrangeu vários usos para redes transformadoras, incluindo modelos de geração de linguagem para bate-papo, marcação de parte da fala, previsão de pontuação e conversão de texto em fala. A otimização da inferência de rede neural para CPUs móveis foi o foco principal e isso se traduziu diretamente nas vozes off-line disponíveis no Speechify, que funcionam até mesmo no modo avião.
Você poderia compartilhar a história da gênese por trás do Speechify?
Sou cego de um olho e meu irmão Cliff é disléxico. Usamos audiolivros e tecnologia de áudio de texto para fala desde que nos lembramos de passar pela escola e quando éramos jovens para ler livros como Harry Potter. À medida que envelhecemos e começamos a usar mais produtos de tecnologia, começamos a perceber que havia uma oportunidade de criar melhores aplicativos de conversão de texto em fala na Web e em dispositivos móveis com vozes melhores, graças aos avanços da IA e a uma melhor experiência do usuário. Então decidimos fazer isso no Speechify.
Quais são alguns dos as diferentes tecnologias de aprendizado de máquina usadas na Speechify?
Adotamos técnicas de ponta para arquiteturas generativas avançadas-transformadores/conformadores, pré-treinamento em larga escala, treinamento distribuído, acúmulo de gradiente, espaços latentes auto-codificados, difusão, redes adversárias e modelagem de linguagem. Empregamos técnicas de suporte para processamento de recursos em torno de fonemização, tom e emoção, para melhor modelar a fala especificamente.
Quais são alguns dos desafios por trás da criação de um aplicativo de conversão de texto em fala?
Um dos principais desafios é criar vozes de alta qualidade que soem como humanos reais em vez de robôs. Nosso objetivo é que as pessoas não consigam distinguir entre o som de nossas vozes e o som humano, para que nossos usuários se sintam confortáveis ouvindo conteúdo no Speechify por longos períodos de tempo. Um segundo desafio é distribuir nossos modelos de IA para milhões de usuários. Uma coisa é criar vozes de IA de alta qualidade e outra é garantir que milhões de usuários em todo o mundo realmente as descubram e as usem.
Speechify é o aplicativo nº 1 em sua categoria no app store, a que você atribui esse sucesso?
Acreditamos que construímos os melhores produtos do mercado para pessoas que querem ouvir a leitura que precisam consumir-seja estudantes com deveres de casa, profissionais que estão lendo para o trabalho ou leitores de lazer que querem apenas se divertir. Temos a melhor seleção de vozes, incluindo celebridades como Snoop Dogg, e a melhor interface de usuário para que as pessoas carreguem e acessem facilmente o conteúdo que desejam consumir. E nossa experiência de usuário é perfeita em todo o ecossistema Speechify – você pode começar a ouvir um artigo em seu computador e em seguida, facilmente zap para manter ouvir em seu telefone.
Quais são alguns dos maiores casos de uso para este aplicativo?
Speechify IA generativa resolve problemas reais para estudantes que querem fazer muitos deveres de casa mais rápido, pessoas reais com dislexia e TDAH que têm problemas de leitura, idosos com baixa visão, profissionais que querem ler mais e ser mais produtivos, escritores que querem ouvir seu trabalho, alunos auditivos e inúmeros outros.
Qual é a sua visão para o futuro da IA?
Queremos que a IA – e especificamente texto IA para vozes de fala – elimine as barreiras ao aprendizado, independentemente do seu nível de renda, aprendendo diferenças, geografia ou idioma. Vemos a IA como uma ferramenta para o bem social para elevar a qualidade de vida que os humanos podem viver melhorando sua educação.
Obrigado pela ótima entrevista, os leitores que desejam aprender mais devem visitar o Speechify.