GPT-4 是多模式的嗎?

最後更新於 2023 年 3 月 13 日

OpenAI 的大型語言模型 GPT-4 的發布指日可待。如果您期待此模型可能具有哪些新功能，您可能想知道 – GPT-4 是多模態的嗎?

根據在線的各種來源，GPT-4 似乎將是多模態的。他們的主要投資者微軟發布的公告可能證實了這一點。

透露有關 GPT-4 的詳細信息時，他們的德國首席技術官 Andreas Braun 表示，該公司將“擁有提供完全不同可能性的多模態模型”。

然而，一些人仍然聲稱 GPT-4 將比我們預期的更類似於 GPT-3。 Datacamp 之類的公司甚至聲稱 GPT-4 將是純文本模型。

考慮到直接來自微軟的信息，可以肯定地相信 GPT-4 將有能力處理和輸出不同的媒體，如視頻、圖像和音頻。不過，在本週 OpenAI 正式發布之前，我們還不能完全確定。

什麼是多模態模型?

那麼，到底什麼是多模態模型呢?如果一個模型是多模態的，這是指它使用多種媒體進行操作的能力，這些媒體可能包括視頻、圖像或音頻。

例如微軟的最新型號 Kosmos-1 據稱可以執行視覺文本識別，從圖像中找到特定內容，甚至可以解決視覺難題。該模型可以以圖像形式接收信息並可以輸出另一種形式的響應，這一事實使其成為多模態。

OpenAI 已經開發了自己的多模態模型 DALL-E。這種革命性的 AI 工具可以根據人類編寫的文本構建圖像。

DALL-E 是一位老練的藝術家，僅需一些提示即可製作出一些極其引人注目的圖像。

GPT 也是如此-4 多式聯運?好吧，看起來好像會這樣。雖然我們不能完全確定。 OpenAI 對即將發布的版本的許多細節保密。

因此，即使 GPT-4 確實是多模態的，它的外觀也不完全清楚。如果您覺得這篇文章很有趣，為什麼不閱讀 GPT-4 發布日期:下一個新模型是什麼時候?