Dernière mise à jour le 13 mars 2023

La sortie du grand modèle de langage d’OpenAI, GPT-4, approche à grands pas. Si vous anticipez les nouvelles fonctionnalités que ce modèle pourrait avoir, vous vous demandez peut-être : le GPT-4 est-il multimodal ?

Selon diverses sources en ligne, il semble que le GPT-4 sera multimodal. Une annonce faite par leur grand investisseur, Microsoft, le confirme potentiellement.

En révélant des détails sur GPT-4 , leur CTO allemand, Andreas Braun, a déclaré que l’entreprise”disposer de modèles multimodaux qui offriront des possibilités complètement différentes ».

Cependant, certains affirment toujours que GPT-4 sera plus similaire à GPT-3 que prévu. Les goûts de Datacamp prétendent même que GPT-4 sera un modèle de texte uniquement.

Compte tenu des informations provenant directement de Microsoft, il serait prudent de croire que GPT-4 aura la capacité de traiter et de produire différents supports tels que la vidéo, les images et l’audio. Cependant, nous ne pouvons pas être complètement certains avant la sortie officielle d’OpenAI cette semaine.

Qu’est-ce qu’un modèle multimodal ?

Alors, qu’est-ce qu’un modèle multimodal ? Si un modèle est multimodal, cela fait référence à sa capacité à fonctionner à l’aide de plusieurs supports, notamment la vidéo, les images ou l’audio.

Par exemple, le dernier modèle de Microsoft, Kosmos-1, peut effectuer une reconnaissance visuelle de texte, trouver un contenu spécifique à partir d’images et même résoudre des énigmes visuelles. Le fait que ce modèle puisse prendre des informations sous forme d’images et produire une réponse dans un autre, est ce qui le rend multimodal.

OpenAI a déjà développé son propre modèle multimodal, DALL-E. Cet outil d’IA révolutionnaire peut construire des images basées sur du texte écrit par des humains.

DALL-E est un artiste sophistiqué et a montré qu’il produisait des images extrêmement accrocheuses en utilisant simplement quelques invites.

Réflexions finales

GPT aussi-4 multimodaux ? Eh bien, il semble que ce sera le cas. Bien que nous ne puissions pas être complètement certains. OpenAI a gardé de nombreux détails sur leur prochaine version étroitement secrets.

Ainsi, même si GPT-4 s’avère être multimodal, il n’est pas tout à fait clair à quoi cela ressemblera. Si vous avez trouvé cet article intéressant, pourquoi ne pas lire Date de sortie du GPT-4 : à quand le nouveau modèle ?

By Kaitlynn Clay

Je travaille en tant qu'expert UX. Je m'intéresse à la conception de sites Web et à l'analyse du comportement des utilisateurs. Pendant mes jours de congé, je visite toujours le musée d'art.