Actualizado por última vez el 13 de marzo de 2023
El lanzamiento del modelo de lenguaje grande de OpenAI, GPT-4, está a la vuelta de la esquina. Si está anticipando las nuevas funciones que podría tener este modelo, es posible que se pregunte: ¿GPT-4 es multimodal?
Según varias fuentes en línea, parece que GPT-4 será multimodal. Un anuncio hecho por su gran inversor, Microsoft, potencialmente lo confirma.
Al revelar detalles sobre GPT-4 , su CTO de Alemania, Andreas Braun, declaró que la empresa”tener modelos multimodales que ofrecerán posibilidades completamente diferentes”.
Sin embargo, algunos aún afirman que GPT-4 será más similar a GPT-3 de lo que esperamos. Los gustos de Datacamp incluso afirman que GPT-4 será un modelo de solo texto.
Considerando la información directamente de Microsoft, sería seguro creer que GPT-4 tendrá la capacidad de procesar y generar diferentes medios como video, imágenes y audio. Aunque no podemos estar completamente seguros hasta el lanzamiento oficial de OpenAI esta semana.
¿Qué es un modelo multimodal?
Entonces, ¿qué es un modelo multimodal? Si un modelo es multimodal, esto se refiere a su capacidad para operar utilizando múltiples medios que pueden incluir video, imágenes o audio.
Por ejemplo, el último modelo de Microsoft, Kosmos-1, según se informa, puede realizar reconocimiento de texto visual, encontrar contenido específico de imágenes e incluso resolver acertijos visuales. El hecho de que este modelo pueda tomar información en forma de imágenes y pueda generar una respuesta en otro, es lo que lo hace multimodal.
OpenAI ya ha desarrollado su propio modelo multimodal, DALL-E. Esta revolucionaria herramienta de IA puede construir imágenes basadas en texto escrito por humanos.
DALL-E es un artista sofisticado y ha demostrado producir algunas imágenes extremadamente llamativas con solo unas pocas indicaciones.
Pensamientos finales
También lo es GPT-4 multimodal? Bueno, parece que lo será. Aunque no podemos estar completamente seguros. OpenAI ha mantenido en secreto muchos de los detalles sobre su próximo lanzamiento.
Entonces, incluso si GPT-4 resulta ser multimodal, no está completamente claro cómo se verá. Si este artículo le pareció interesante, ¿por qué no lee la fecha de lanzamiento de GPT-4: cuándo es el próximo modelo nuevo?