最後更新於 2023 年 2 月 6 日
無論您是經驗豐富的機器學習工程師還是只是好奇,您可能想知道:Chat GPT 是如何訓練的?
由 OpenAI 開發的 AI 語言模型在推出後的很短時間內就廣受歡迎。以至於該網站經常遇到服務器容量問題,阻止用戶訪問該網站。
在線模型能夠執行大量任務,對您給出的幾乎任何提示生成響應。但是,它是如何創建的?
首先,Chat GPT 是在 OpenAI 的 GPT-3.5 的基礎上構建的。另一種更高級的語言模型,它建立在海量數據集之上,通常包含來自互聯網的信息。
GPT-3.5 經過微調,因此可以以對話的形式與用戶互動。讓我們來看看這種微調是什麼樣的!
根據 OpenAI 的說法,Chat GPT 是使用“人類強化學習進行訓練的反饋”(RLHF)。最初,該模型經歷了一個稱為監督微調的過程,其中 OpenAI 培訓師扮演了人類用戶和 AI 機器人的角色。
通過這個,培訓師創建了一個對話序列以模擬人類如何交流,然後將其添加到模型的數據集中,以針對對話用途對其進行微調。
Chat GPT 後來通過創建獎勵模型得到改進,用於下一步——強化學習。這涉及 AI 培訓師與工具交互以生成響應。然後根據質量從最好到最差對它們進行分級。
有了這些信息,OpenAI 可以使用它自己的稱為 Proximal Policy Optimization 的技術進一步微調模型。如果您正在尋找有關此過程的詳細信息,OpenAI 在其博客 中對此進行了介紹。
Chat GPT 是什麼類型的機器學習?
OpenAI 的 Chat GPT 是一種大型語言模型。顧名思義,這些模型非常龐大,並且使用數十億個參數構建。它們是一種深度學習算法,可以根據訓練它的數據理解和生成文本。
這些類型的模型具有廣泛的用途,從創建聊天機器人到充當搜索引擎,並生成創意內容,例如歌詞和故事。
最後的想法
掌握 AI 語言模型(如 ChatGPT)的訓練過程可能會非常令人費解。我們希望本文能讓您深入了解 OpenAI 如何創建這個臭名昭著的語言模型。如果您對 Chat GPT 的其他功能感興趣,為什麼不閱讀 Chat GPT Plus – 您接下來需要了解的內容?