Tyler Weitzman es cofundador, director de inteligencia artificial y presidente de Speechify, la aplicación de texto a voz n.° 1 del mundo, con un total de más de 100 000 reseñas de 5 estrellas. Weitzman se graduó de la Universidad de Stanford, donde obtuvo una licenciatura en matemáticas y una maestría en informática en la rama de inteligencia artificial. Ha sido seleccionado por Inc. Magazine como uno de los 50 mejores empresarios y ha aparecido en Business Insider, TechCrunch, LifeHacker, CBS, entre otras publicaciones. La investigación de maestría de Weitzman se centró en la inteligencia artificial y la conversión de texto a voz, donde su trabajo final se tituló:”CloneBot: Predicciones personalizadas de diálogo-respuesta”.
Empezaste a codificar cuando solo tenías 9 años. años, ¿qué te atrajo inicialmente de la informática?
De niño estaba bastante obsesionado con Dragon Ball Z y quería aprender a animarme. Aprendí Adobe Flash y Photoshop y puse mis propias animaciones de Goku en una página web de fans que construí. Fue poco después de que comencé a aprender sobre sistemas y algoritmos, y cuando aprendí que podía programar para ganarme la vida, fue bastante emocionante. Pensé que era solo un pasatiempo, como jugar juegos.
Luego, comenzaste a crear aplicaciones para iPhone cuando solo tenías 12 años, ¿cuáles eran algunas de estas aplicaciones?
Una aplicación se llama Black SMS y permite a las personas enviar mensajes de texto encriptados a entre sí. Otra aplicación se llama Frontback que permite a los usuarios tomar selfies y fotos de lo que tienen enfrente al mismo tiempo.
¿Podría hablar sobre su investigación en la Universidad de Stanford y cómo se centró en la naturaleza? procesamiento de lenguaje y síntesis de voz?
Mi investigación abarcó múltiples usos para redes de transformadores, incluidos modelos de generación de lenguaje para chat, etiquetado de partes del discurso, predicción de puntuación y texto a voz. La optimización de la inferencia de redes neuronales para CPU móviles fue un enfoque principal y eso se tradujo directamente en las voces sin conexión disponibles en Speechify, que funcionan incluso en modo avión.
¿Podría compartir la historia de génesis detrás de Speechify?
Soy ciego de un ojo y mi hermano Cliff es disléxico. Hemos usado audiolibros y tecnología de audio de texto a voz desde que tenemos memoria para ir a la escuela y cuando éramos jóvenes para leer libros como Harry Potter. A medida que crecimos y comenzamos a usar más productos tecnológicos, comenzamos a darnos cuenta de que existía la oportunidad de crear mejores aplicaciones de texto a voz en la web y en dispositivos móviles con mejores voces gracias a los avances en IA y una mejor experiencia de usuario. Así que decidimos hacerlo en Speechify.
¿Cuáles son algunas de las diferentes tecnologías de aprendizaje automático que se utilizan en Speechify?
Hemos adoptado técnicas de vanguardia para arquitecturas generativas avanzadas: transformadores/conformadores, entrenamiento previo a gran escala, entrenamiento distribuido, acumulación de gradientes, espacios latentes autocodificados, difusión, redes antagónicas y modelado del lenguaje. Empleamos técnicas de apoyo para el procesamiento de funciones relacionadas con la fonemización, el tono y la emoción, para modelar mejor el habla específicamente.
¿Cuáles son algunos de los desafíos detrás de la creación de una aplicación de texto a voz?
Un desafío clave es construir voces de alta calidad que suenen como humanos reales en lugar de robots. Nuestro objetivo es que las personas no puedan notar la diferencia entre cómo suenan nuestras voces y cómo suenan los humanos, para que nuestros usuarios se sientan cómodos escuchando contenido en Speechify durante largos períodos de tiempo. Un segundo desafío es distribuir nuestros modelos de IA a millones de usuarios. Una cosa es crear voces de IA de alta calidad y otra asegurarse de que millones de usuarios en todo el mundo realmente las conozcan y las usen.
Speechify es la aplicación número 1 en su categoría en el tienda de aplicaciones, ¿a qué atribuye este éxito?
Creemos que hemos creado los mejores productos del mercado para las personas que desean escuchar la lectura que necesitan consumir, ya sea estudiantes con deberes, profesionales que leen por trabajo o lectores de ocio que solo quieren entretenerse. Tenemos la mejor selección de voces, incluidas celebridades como Snoop Dogg, y la mejor interfaz de usuario para que las personas carguen y accedan fácilmente al contenido que desean consumir. Y nuestra experiencia de usuario es perfecta en todo el ecosistema de Speechify: puede comenzar a escuchar un artículo en su computadora y luego cámbielo fácilmente para seguir escuchando en su teléfono.
¿Cuáles son algunos de los casos de uso más importantes de esta aplicación?
IA generativa resuelve problemas reales para estudiantes que quieren hacer muchas tareas más rápido, personas reales con dislexia y TDAH que tienen problemas para leer, personas mayores con baja visión, profesionales que quieren leer más y ser más productivos, escritores que quieren escuchar su trabajo, estudiantes auditivos y muchos otros.
¿Cuál es su visión para el futuro de la IA?
Queremos que la IA, y específicamente voces de texto a voz de IA, elimine las barreras para el aprendizaje, independientemente de su nivel de ingresos, el aprendizaje las diferencias, la geografía o el idioma. Vemos a la IA como una herramienta para el bien social para elevar la calidad de vida que los humanos pueden vivir a través de la mejora de su educación.
Gracias por la excelente entrevista, los lectores que deseen obtener más información deben visitar Speechify.