最後更新於 2023 年 3 月 13 日

OpenAI 的大型語言模型 GPT-4 的發布指日可待。如果您期待此模型可能具有哪些新功能,您可能想知道 – GPT-4 是多模態的嗎?

根據在線的各種來源,GPT-4 似乎將是多模態的。他們的主要投資者微軟發布的公告可能證實了這一點。

透露有關 GPT-4 的詳細信息時,他們的德國首席技術官 Andreas Braun 表示,該公司將“擁有提供完全不同可能性的多模態模型”。

然而,一些人仍然聲稱 GPT-4 將比我們預期的更類似於 GPT-3。 Datacamp 之類的公司甚至聲稱 GPT-4 將是純文本模型。

考慮到直接來自微軟的信息,可以肯定地相信 GPT-4 將有能力處理和輸出不同的媒體,如視頻、圖像和音頻。不過,在本週 OpenAI 正式發布之前,我們還不能完全確定。

什麼是多模態模型?

那麼,到底什麼是多模態模型呢?如果一個模型是多模態的,這是指它使用多種媒體進行操作的能力,這些媒體可能包括視頻、圖像或音頻。

例如微軟的最新型號 Kosmos-1 據稱可以執行視覺文本識別,從圖像中找到特定內容,甚至可以解決視覺難題。該模型可以以圖像形式接收信息並可以輸出另一種形式的響應,這一事實使其成為多模態。

OpenAI 已經開發了自己的多模態​​模型 DALL-E。這種革命性的 AI 工具可以根據人類編寫的文本構建圖像。

DALL-E 是一位老練的藝術家,僅需一些提示即可製作出一些極其引人注目的圖像。

最終想法

GPT 也是如此-4 多式聯運?好吧,看起來好像會這樣。雖然我們不能完全確定。 OpenAI 對即將發布的版本的許多細節保密。

因此,即使 GPT-4 確實是多模態的,它的外觀也不完全清楚。如果您覺得這篇文章很有趣,為什麼不閱讀 GPT-4 發布日期:下一個新模型是什麼時候?

By Henry Taylor

我是後端開發人員。 你們中有些人可能在開發者大會上見過我。 最近我一直在做一個開源項目。