Última atualização em 16 de março de 2023

É oficial! O mais novo modelo GPT da OpenAI está aqui. Se você está antecipando quais novos recursos este modelo pode ter, você pode estar se perguntando – GPT-4 é multimodal?

Você ficará feliz em saber que OpenAI confirmou que GPT-4 será multimodal. Em outras palavras, ele será capaz de processar de forma inteligente imagens e textos de seus usuários, gerando uma resposta para qualquer dúvida que você possa ter.

Isso também foi confirmado pelo CTO da Microsoft na Alemanha na semana passada. Ao revelar detalhes sobre o GPT-4, Andreas Braun, expôs que o investidor de longo prazo da OpenAI em breve “terá modelos multimodais que oferecerão possibilidades completamente diferentes”.

Então, o que o GPT-4 pode realmente fazer? Bem, existem alegações online de que o novo modelo pode gerar legendas e descrições personalizadas para a imagem que você insere no modelo – o assistente perfeito para qualquer tarefa de mídia social.

Mas isso não é tudo. Alguns usuários até descobriram que o GPT-4 pode recomendar ideias de receitas com base em uma imagem de qualquer ingredientes que você deixou por aí.

GPT-4 será “mais confiável, criativo e capaz de lidar com instruções muito mais sutis do que GPT-3.5”. E você pode definitivamente ver evidências disso nas pontuações assustadoramente altas do modelo.

Surpreendentemente, o GPT-4 consegue ter um desempenho melhor do que 90 por cento dos humanos no Uniform Bar Exam. Isso é bastante impressionante, para dizer o mínimo.

No momento, o modelo está disponível apenas para membros do Chat GPT Plus e para aqueles que passaram pela lista de espera da API do OpenAI.

O que que é um modelo multimodal?

Então, o que é mesmo um modelo multimodal? Se um modelo for multimodal, isso se refere à sua capacidade de operar usando vários meios, que podem incluir vídeo, imagens ou áudio.

Por exemplo, o modelo mais recente da Microsoft, o Kosmos-1, pode realizar reconhecimento visual de texto, encontrar conteúdo específico de imagens e até resolver quebra-cabeças visuais. O fato de que esse modelo pode receber informações na forma de imagens e gerar uma resposta em outra é o que o torna multimodal.

A OpenAI já desenvolveu seu próprio modelo multimodal, o DALL-E. Esta revolucionária ferramenta de IA pode construir imagens com base em texto escrito por humanos.

DALL-E é um artista sofisticado e demonstrou produzir algumas imagens extremamente atraentes usando apenas alguns prompts.

Pensamentos finais

GPT também.-4 multimodal? É sim! A OpenAI tem trabalhado duro para desenvolver tecnologia de IA de nível superior e parece que todo o trabalho valeu a pena. Se você estiver interessado em saber mais sobre o GPT-4, definitivamente recomendamos acessar o OpenAI para ver o que esse modelo pode fazer.

Se você achou este artigo útil, por que não ler o lançamento do GPT-4 data: quando é o próximo modelo?

By Kaitlynn Clay

Eu trabalho como especialista em UX. Estou interessado em web design e análise de comportamento do usuário. Nos meus dias de folga, sempre visito o museu de arte.