InstructGPT 介紹

InstructGPT：Training language models to follow instructions with human feedback

1. 論文信息

1.1 prompt learning

Prompt Learning 是自然語言處理中的一種技術，它通過設計一些提示語（prompt）來指導模型在執行任務時進行學習和推理。Prompt Learning 技術的核心思想是，在模型的輸入中加入一些人工設計的提示語，這些提示語能夠幫助模型更好地理解輸入數據的含義和任務要求，從而提高模型在特定任務上的性能。通常情況下，提示語可以是一個問題、一段描述或者一個特定的標記序列。

1.2 GPT 的介紹

GPT（Generative Pre-trained Transformer）的目標是訓練出一種能夠生成自然語言文本的模型。它使用了大規模的預訓練數據和神經網絡技術來自動學習文本數據的語言規律，進而能夠生成自然流暢的文本。GPT 是一種基於 Transformer 架構的深度學習模型，可以用於自然語言生成、文本分類、語言理解等多種任務。

GPT 的目標是通過無監督學習的方式，將海量的自然語言文本轉化爲一種通用的語言表示形式，從而使得模型能夠在不同的任務中進行遷移學習，提高模型的泛化能力。爲了達到這個目標，GPT 使用了預訓練和微調兩個階段。在預訓練階段，GPT 使用大量的無標籤數據對模型進行訓練，從而學習文本的語言規律；在微調階段，GPT 使用有標籤數據對模型進行微調，以適應特定的任務。

GPT 是 “Generative Pre-trained Transformer” 的縮寫，是由 OpenAI 推出的自然語言處理模型。目前已經發布了三代版本，每一代都有其獨特的特點和應用。

以下是 GPT 一、二、三代的對比：

GPT-1

發佈於 2018 年，包含 1.17 億個參數。
使用了 12 層 transformer 結構，可以預測下一個詞。
在通用自然語言處理任務上表現出色，包括文本分類、情感分析、摘要生成等。
缺點是對於長文本生成不如人意，容易出現重複和無意義的內容。

GPT-2

發佈於 2019 年，參數量是 GPT-1 的 10 倍，達到了 1.5 億個。
使用了 24 層 transformer 結構，可以生成更長、更復雜的文本。
在多項自然語言處理任務上表現出色，並且可以生成高質量的文章、對話等。
由於生成的文本過於真實，存在濫用的風險，OpenAI 沒有將模型公開發布。

GPT-3

發佈於 2020 年，參數量是 GPT-2 的 13 倍，達到了 1.75 萬億個。
使用了 1750 億個語言模型參數，可以生成更加自然、流暢、有邏輯的文本。
在多項自然語言處理任務上表現出色，甚至可以完成類似編程的任務，例如編寫簡單的代碼。
GPT-3 也被用於自然語言生成、對話系統、問答系統等應用，具有廣泛的應用前景。

總體來說，隨着模型的迭代和參數量的增加，GPT 的性能逐漸提高，同時也具有更廣泛的應用前景。

1.3 InstructGPT

InstructGPT 是一種基於 GPT-3 的自然語言處理模型，它是由 AI2（Allen Institute for Artificial Intelligence）開發的。與 GPT-3 不同的是，InstructGPT 專注於解決指導型對話（instructional dialogue）的任務。指導型對話是指一種對話形式，其中一個人（通常是教師或者專家）向另一個人（通常是學生或者用戶）提供指導、解釋和建議。在這種對話中，用戶通常會提出一系列問題，而指導者則會針對這些問題提供詳細的答案和指導。

InstructGPT 使用了 GPT-3 的架構和預訓練技術，但是對其進行了針對性的微調，使其能夠更好地應對指導型對話任務。具體而言，InstructGPT 通過對大量的指導型對話數據進行微調，使得模型能夠更加準確地理解用戶的問題，並且能夠生成更加準確、詳細的答案和指導。此外，InstructGPT 還支持多輪對話，可以對用戶的多個問題進行連續的回答和指導。

InstructGPT 的應用場景包括在線教育、智能客服等領域，可以幫助用戶更快地獲取所需的知識和指導，並且能夠提高教育和客服的效率。

2. 方法框架

InstructGPT 是一種基於語言模型的自然語言處理技術，旨在解決指令性任務（instructional tasks），例如問答、推薦、提示、教育等領域。其技術路線主要包括以下幾個步驟：

數據收集：收集大規模的指令性文本數據，包括問答、教育、用戶指南等。
數據預處理：對收集的數據進行預處理，包括分詞、標記化、詞幹提取、停用詞過濾、詞向量化等。
模型訓練：使用預處理後的數據訓練深度學習模型，通常採用基於 Transformer 的神經網絡結構，例如 GPT（Generative Pre-trained Transformer）。
模型微調：針對具體的指令性任務，對預訓練模型進行微調，例如通過遷移學習或 fine-tuning 的方法，使得模型能夠更好地適應特定的任務和領域。
模型優化：對微調後的模型進行進一步優化，包括模型壓縮、量化、剪枝等技術，以提高模型的速度和效率。
應用部署：將優化後的模型部署到具體的應用場景中，例如問答系統、推薦系統、教育平臺等，提供高效、準確的指令性服務。

3. InstructGPT 的訓練模式

我們得想辦法怎麼讓這個過程變得更輕鬆一點：

首先利用 GPT-3 進行初始化，希望對這個比較強大的模型先進行一些 prompt learning 來進行 fine-tuning。先人工構造一批數據，讓模型學一學，獲得一個模型。
然後，我們讓模型根據一系列提示輸出來評估其效果。我們讓模型針對每個提示生成多個輸出，隨後讓人員對這些輸出進行打分排序。雖然排序過程也需要人工干預，但相較於直接讓人員編寫訓練數據，這種方法更爲便捷。因此，這一過程能夠更輕鬆地標註更多數據。然而，這些標註數據不能直接用於訓練模型，因爲它們代表了一種排序結果。但我們可以訓練一個打分模型，稱爲 “reward model”。該模型的作用在於對於每一個<prompt,output>pair 進行打分，以評估輸出結果與提示是否足夠匹配。
接下來，我們繼續訓練模型，給定一些 prompt，得到輸出之後，把 prompt 和 output 輸入給 RM，得到打分，然後藉助強化學習的方法，來訓練該模型，如此反覆迭代，最終修煉得到最終的模型，也就是最終的 InstructGPT。

可以看出 InstructGPT 的訓練模式就是先靠人類手工設計一些精華信息，然後利用模型來嘗試模仿這些信息。之後根據模仿程度進行比對和打分，根據打分進行調整。最後打分機器就可以和模型配合，自動化地進行模型的迭代。這種迭代過程就是 RLHF。

InstructGPT 論文中，給出了上述三個步驟，涉及的訓練樣本也是非常多的：

SFT 數據集：人類預設的 13k 的 prompts；
RM 數據集：用來訓練打分模型的數據，包含 33K 的 prompts；
PRO 數據集：31K 最後的數據。

前兩步的 prompts，來自於 OpenAI 的在線 API 上的用戶使用數據，以及僱傭的標註者手寫的。最後一步則全都是從 API 數據中採樣的，下表的具體數據：

4. 對 InstructGPT 的展望

作爲一個基於自然語言處理技術的 AI 語言模型，InstructGPT 可以爲用戶提供基本的對話和回答問題的服務，但它仍存在以下不足：

缺乏真實人類的情感和情緒表達能力，無法在情感和社交領域提供有意義的支持。
缺乏真實世界知識和實際經驗，對於需要領域專業知識的問題回答可能不夠準確。
可能存在一些潛在的偏見和錯誤，這取決於模型的訓練數據和算法。
隨着對話時間的增加，InstructGPT 的回答可能變得越來越冗長或者不夠精確。
語言模型的工作基於已有的數據集，如果沒有合適的數據集或者缺少某些領域的數據，模型的表現就會受到限制。

總之，InstructGPT 目前還存在一些限制，儘管我們已經取得了很大進展，但仍需要進一步的研究和發展，以實現更加高效和智能的 AI 對話系統。

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/2E1dDXVbrjVaH1rnvipaVw