解析 ChatGPT 背後的工作原理

自 ChatGPT 發佈以來,已經吸引了無數人一探究竟。但 ChatGPT 實際上是如何工作的?儘管它內部實現的細節尚未公佈,我們卻可以從最近的研究中一窺它的基本原理。

ChatGPT 是 OpenAI 發佈的最新語言模型,比其前身 GPT-3 有顯著提升。與許多大型語言模型類似,ChatGPT 能以不同樣式、不同目的生成文本,並且在準確度、敘述細節和上下文連貫性上具有更優的表現。它代表了 OpenAI 最新一代的大型語言模型,並且在設計上非常注重交互性。

OpenAI 使用監督學習和強化學習的組合來調優 ChatGPT,其中的強化學習組件使 ChatGPT 獨一無二。OpenAI 使用了「人類反饋強化學習」(RLHF)的訓練方法,該方法在訓練中使用人類反饋,以最小化無益、失真或偏見的輸出。

本文將剖析 GPT-3 的侷限性及其從訓練過程中產生的原因,同時將解釋 RLHF 的原理和理解 ChatGPT 如何使用 RLHF 來克服 GPT-3 存在的問題,最後將探討這種方法的侷限性。

大型語言模型中的能力與一致性

「一致性 vs 能力」可以被認爲是「準確性 vs 精確性」的更抽象的類比。

在機器學習中,模型的能力是指模型執行特定任務或一組任務的能力。模型的能力通常通過它能夠優化其目標函數的程度來評估。例如,用來預測股票市場價格的模型可能有一個衡量模型預測準確性的目標函數。如果該模型能夠準確預測股票價格隨時間的變化,則認爲該模型具有很高的執行能力。

一致性關注的是實際希望模型做什麼,而不是它被訓練做什麼。它提出的問題是「目標函數是否符合預期」,根據的是模型目標和行爲在多大程度上符合人類的期望。假設要訓練一個鳥類分類器,將鳥分類爲「麻雀」或「知更鳥」,使用對數損失作爲訓練目標,而最終目標是很高的分類精度。該模型可能具有較低的對數損失,即該模型的能力較強,但在測試集上的精度較差,這就是一個不一致的例子,模型能夠優化訓練目標,但與最終目標不一致。

原始的 GPT-3 就是非一致模型。類似 GPT-3 的大型語言模型都是基於來自互聯網的大量文本數據進行訓練,能夠生成類似人類的文本,但它們可能並不總是產生符合人類期望的輸出。事實上,它們的目標函數是詞序列上的概率分佈,用來預測序列中的下一個單詞是什麼。

但在實際應用中,這些模型的目的是執行某種形式的有價值的認知工作,並且這些模型的訓練方式與期望使用它們的方式之間存在明顯的差異。儘管從數學上講,機器計算詞序列的統計分佈可能是建模語言的高效選擇,但人類其實是通過選擇最適合給定情境的文本序列來生成語言,並使用已知的背景知識和常識來輔助這一過程。當語言模型用於需要高度信任或可靠性的應用程序(如對話系統或智能個人助理)時,這可能是一個問題。

儘管這些基於大量數據訓練的大模型在過去幾年中變得極爲強大,但當用於實際以幫助人們生活更輕鬆時,它們往往無法發揮潛力。大型語言模型中的一致性問題通常表現爲:

但具體來說,一致性問題源自何處?語言模型的訓練方式本身就容易產生不一致嗎?

語言模型訓練策略如何產生不一致?

Next-token-prediction 和 masked-language-modeling 是用於訓練語言模型的核心技術。在第一種方法中,模型被給定一個詞序列作爲輸入,並被要求預測序列中的下一個詞。如果爲模型提供輸入句子:

“The cat sat on the”

它可能會將下一個單詞預測爲「mat」、「chair」或「floor」,因爲在前面的上下文中,這些單詞出現的概率很高;語言模型實際上能夠評估給定先前序列的每個可能詞的可能性。

masked-language-modeling 方法是 Next-token-prediction 的變體,其中輸入句子中的一些詞被替換爲特殊 token,例如 [MASK]。然後,模型被要求預測應該插入到 mask 位置的正確的詞。如果給模型一個句子:

“The [MASK] sat on the ”

 它可能會預測 MASK 位置應該填的詞是「cat」、「dog」。

這些目標函數的優點之一是,它允許模型學習語言的統計結構,例如常見的詞序列和詞使用模式。這通常有助於模型生成更自然、更流暢的文本,並且是每個語言模型預訓練階段的重要步驟。

然而這些目標函數也可能導致問題,這主要是因爲模型無法區分重要錯誤和不重要錯誤。一個非常簡單的例子是,如果給模型輸入句子:

"The Roman Empire [MASK] with the reign of Augustus." 

它可能會預測 MASK 位置應該填入「began」或「ended」,因爲這兩個詞的出現概率都很高。

一般來說,這些訓練策略可能會導致語言模型在一些更復雜的任務中出現不一致,因爲一個僅被訓練來預測文本序列中的下一個詞的模型可能不一定會學習其含義的某些更高級表徵。因此,該模型很難推廣到需要對語言更深入理解的任務。

研究人員正研究各種方法來解決大型語言模型中的一致性問題。ChatGPT 基於最初的 GPT-3 模型,但爲了解決模型的不一致問題,使用了人類反饋來指導學習過程,對其進行了進一步訓練。所使用的具體技術就是前面提到的 RLHF。ChatGPT 是第一個將此技術用於實際場景的模型。

那 ChatGPT 是如何利用人類反饋來解決一致性問題的呢?

從人類反饋中進行強化學習

方法總體上包括三個不同步驟:

步驟 1 只進行一次,而步驟 2 和步驟 3 可以持續重複進行:在當前最佳策略模型上收集更多的比較數據,用於訓練新的 RM 模型,然後訓練新的策略。接下來,將對每一步的細節進行詳述。

步驟 1:監督調優模型

     第一步是收集數據,以訓練有監督的策略模型。

爲了創建像 ChatGPT 這樣的通用聊天機器人,開發人員是在「代碼模型」而不是純文本模型之上進行調優。

由於此步驟的數據量有限,該過程獲得的 SFT 模型可能會輸出仍然並非用戶關注的文本,並且通常會出現不一致問題。這裏的問題是監督學習步驟具有高可擴展性成本。

爲了克服這個問題,使用的策略是讓人工標註者對 SFT 模型的不同輸出進行排序以創建 RM 模型,而不是讓人工標註者創建一個更大的精選數據集。

第二步:訓練回報模型

這一步的目標是直接從數據中學習目標函數。該函數的目的是爲 SFT 模型輸出進行打分,這代表這些輸出對於人類來說可取程度有多大。這強有力地反映了選定的人類標註者的具體偏好以及他們同意遵循的共同準則。最後,這個過程將從數據中得到模仿人類偏好的系統。

它的工作原理是:

對於標註者來說,對輸出進行排序比從頭開始打標要容易得多,這一過程可以更有效地擴展。在實踐中,所選擇的 prompt 的數量大約爲 30-40k,並且包括排序輸出的不同組合。

步驟 3:使用 PPO 模型微調 SFT 模型

這一步裏強化學習被應用於通過優化 RM 模型來調優 SFT 模型。所使用的特定算法稱爲近端策略優化(PPO),而調優模型稱爲近段策略優化模型。

什麼是 PPO?該算法的主要特點如下:

在這一步中,PPO 模型由 SFT 模型初始化,價值函數由 RM 模型初始化。該環境是一個「bandit environment」,它會產生隨機 prompt 並期望對 prompt 做出響應。對於給定的 prompt 和響應,它會產生相應的回報(由 RM 模型決定)。SFT 模型會對每個 token 添加 KL 懲罰因子,以儘量避免 RM 模型的過度優化。

性能評估

因爲模型是根據人工標註的輸入進行訓練的,所以評估的核心部分也基於人工輸入,即通過讓標註者對模型輸出的質量評分來進行。爲避免訓練階段涉及的標註者的判斷過擬合,測試集使用了來自其它 OpenAI 客戶的 prompt,這些 prompt 未出現在訓練數據中。

該模型基於三個標準進行評估:

該模型還針對傳統 NLP 任務(如解答問題、閱讀理解和摘要)的零樣本學習的性能進行了評估,開發人員發現在其中一些任務上模型的表現比 GPT-3 要差一些,這是一個「一致性稅」(alignment tax) 的例子,其中基於 人類反饋強化學習的一致性程序是以降低某些任務的性能爲代價的。

這些數據集的性能迴歸可以通過稱爲預訓練混合的技巧大大減少:在通過梯度下降訓練 PPO 模型期間,通過混合 SFT 模型和 PPO 模型的梯度來計算梯度更新。

方法的缺點

該方法的一個非常明顯的侷限性是,在將語言模型與人類意圖保持一致的過程中,用於 fine-tuning 模型的數據會受到各種錯綜複雜的主觀因素的影響,主要包括:

ChatGPT 的作者也承認一個明顯的事實,即參與訓練過程的標註人員和研究人員可能並不能完全代表語言模型的所有潛在最終用戶。

除了這一明顯的「內生」限制之外,該方法還有的一些其它缺點和需要解決的問題:

相關閱讀:

參考內容:

https://www.assemblyai.com/blog/how-chatgpt-actually-works/?continueFlag=1bafdcd5c034def869fecb4f3bdaed70

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/nCABLU5_dBH_ETtt1mt4Sg