長文梳理！近年來 GPT 系列模型的發展歷史：從 GPT-1 到 GPT-4o（前世、今生）

引言

隨着 ChatGPT 的發佈，大語言模型的關注度和數量都在不斷上升, 它引領了人類進入了大模型時代，並且隨着一輪一輪的迭代，最新模型已經進化到了 GPT-4o。在衆多大語言模型中，GPT 系列因其代表性而備受關注，其發展歷程和技術革新值得深入探討。那麼今天帶大家回顧一下近年來 GPT 系列模型的發展。【參考中國人民大學《大語言模型》】

GPT 系列模型的基本原理是訓練模型學習恢復預訓練文本數據，通過只包含解碼器的 Transformer 模型將廣泛的世界知識進行壓縮，使模型能夠獲得全面的能力。這一過程中，關鍵的兩個要素是訓練模型準確預測下一個詞的 Transformer 語言模型，以及擴大語言模型和預訓練數據的規模。上圖展示了 GPT 系列模型技術演進的示意圖，其中實線表示明確的進化路徑，虛線則表示較弱的進化關係。OpenAI 對大語言模型的研發歷程可以劃分爲早期探索、路線確立、能力增強和能力躍升四個階段，每個階段都標誌着該領域的進步和發展。

GPT-1

2017 年，Google 推出了 Transformer 模型，這一架構因其在性能上的顯著優勢迅速吸引了 OpenAI 團隊的注意。OpenAI 隨後將研發重點轉移到 Transformer 架構，並在 2018 年發佈了 GPT-1 模型。GPT-1 是基於生成式預訓練（Generative Pre-Training）的 Transformer 架構，採用了僅有解碼器的 Transformer 模型，專注於預測下一個詞元。儘管 GPT-1 的參數規模相對較小，它採用了無監督預訓練和有監督微調相結合的方法，以增強模型的通用任務求解能力。

同年，Google 發佈了 BERT 模型，它專注於自然語言理解任務（NLU），並只使用了 Transformer 的編碼器部分。BERT-Large 模型在多個 NLU 任務上取得了顯著的性能提升，成爲當時自然語言處理領域的明星模型，引領了一波研究熱潮。然而，GPT-1 由於規模與 BERT-Base 相當，且在公開評測數據集上的性能未能達到最優，因此沒有在學術界引起足夠的關注。GPT-1 和 BERT 雖然都採用了 Transformer 架構，但它們的應用重點和架構設計有所不同，分別代表了自然語言生成和自然語言理解兩個領域的早期探索。這些早期工作爲後續更強大的 GPT 模型，如 GPT-3 和 GPT-4，奠定了研究基礎。

GPT-2

GPT-2 繼承了 GPT-1 的架構，並將參數規模擴大到 15 億，使用大規模網頁數據集 WebText 進行預訓練。與 GPT-1 相比，GPT-2 的創新之處在於嘗試通過增加模型參數規模來提升性能，同時去除針對特定任務的微調環節，探索使用無監督預訓練的語言模型來解決多種下游任務，而無需顯式地使用標註數據進行微調。

GPT-2 的研究重點在於多任務學習，即通過一種通用的概率形式來刻畫不同任務的輸出預測，將輸入、輸出和任務信息都以自然語言的形式進行描述。這樣，後續的任務求解過程就可以視爲文本生成問題。OpenAI 團隊在 GPT-2 的論文中解釋了無監督預訓練在下游任務中取得良好效果的原因，即特定任務的有監督學習目標與無監督學習目標（語言建模）在本質上是相同的，都旨在預測下一個詞元。因此，優化無監督的全局學習目標本質上也是在優化有監督的任務學習目標。

此外，OpenAI 創始人採訪時的觀點與 GPT-2 論文中的討論非常相似。他認爲，神經網絡學到的是生成文本過程中的某種表示，這些模型的生成文本實際上是真實世界的投影。語言模型對下一個單詞的預測越準確，對世界知識的保真度就越高，在這個過程中獲得的分辨度也就越高。

綜上所述，GPT-2 模型通過擴大參數規模和使用無監督預訓練，探索了一種新的多任務學習框架，旨在提高模型的通用性和靈活性，減少對特定任務微調的依賴。同時，它也強調了語言模型在理解和生成自然語言文本方面的重要性，以及通過準確預測下一個詞元來提高對世界知識的理解。

GPT-3

OpenAI 在 2020 年推出了具有里程碑意義的 GPT-3 模型，其模型參數規模擴展到了 175B，相較於 GPT-2 提升了 100 餘倍，標誌着對模型擴展的極限嘗試。在 GPT-3 的訓練之前，OpenAI 已經進行了充分的實驗探索，包括小版本模型的嘗試、數據收集與清洗、並行訓練技巧等，這些工作爲 GPT-3 的成功奠定了基礎。

GPT-3 首次提出了 “上下文學習” 概念，允許大語言模型通過少樣本學習解決各種任務，消除了對新任務進行微調的需求。這種學習方式使得 GPT-3 的訓練和使用可以通過語言建模的形式統一描述，即預訓練階段在給定上下文條件下預測後續文本序列，使用階段則根據任務描述和示例數據推理正確的解決方案。GPT-3 在自然語言處理任務中表現出色，對於需要複雜推理或領域適配的任務也顯示出良好的解決能力。論文指出，上下文學習對於大模型的性能增益尤爲顯著，而對於小模型則收益較小。

GPT-3 的成功證明了將神經網絡擴展到超大規模可以顯著提升模型性能，並建立了基於提示學習方法的技術路線，爲大語言模型的未來發展提供了新的思路和方法。

InstructGPT

OpenAI 在 GPT-3 模型的基礎上，通過兩種主要途徑進行了改進：代碼數據訓練和人類偏好對齊。首先，爲了解決 GPT-3 在編程和數學問題求解上的不足，OpenAI 於 2021 年推出了 Codex 模型，該模型在 GitHub 代碼數據上進行了微調，顯著提升瞭解決複雜問題的能力。此外，通過開發一種對比方法訓練文本和代碼嵌入，進一步改善了相關任務的性能。這些工作促成了 GPT-3.5 模型的開發，表明在代碼數據上的訓練對提高模型的綜合性能，尤其是代碼能力具有重要作用。

其次，OpenAI 自 2017 年起就開始了人類偏好對齊的研究，通過強化學習算法從人類標註的偏好數據中學習改進模型性能。2017 年，OpenAI 提出了 PPO 算法，成爲後續人類對齊技術的標配。2022 年，OpenAI 推出了 InstructGPT，正式建立了基於人類反饋的強化學習算法 RLHF，旨在改進 GPT-3 模型與人類對齊的能力，提高指令遵循能力，並緩解有害內容的生成，這對大語言模型的安全部署至關重要。

OpenAI 在其技術博客中描述了對齊研究的技術路線，並總結了三個有前景的研究方向：使用人類反饋訓練人工智能系統、協助人類評估和進行對齊研究。通過這些增強技術，OpenAI 將改進後的 GPT 模型命名爲 GPT-3.5，它不僅展現了更強的綜合能力，也標誌着 OpenAI 在大語言模型研究方面邁出了重要一步。

ChatGPT

2022 年 11 月，OpenAI 發佈了基於 GPT 模型的人工智能對話應用服務 ChatGPT。ChatGPT 沿用了 InstructGPT 的訓練技術，並針對對話能力進行了優化。它結合了人類生成的對話數據進行訓練，展現出豐富的世界知識、複雜問題求解能力、多輪對話上下文追蹤與建模能力以及與人類價值觀對齊的能力。ChatGPT 還支持插件機制，擴展了功能，超越了以往所有人機對話系統的能力水平，引發了社會的高度關注。

GPT-4

繼 ChatGPT 後，OpenAI 於 2023 年 3 月發佈了 GPT-4 。它是 GPT 系列模型的重要升級，首次將輸入模態從單一文本擴展到圖文雙模態。GPT-4 在解決複雜任務方面的能力顯著強於 GPT-3.5，在面向人類的考試中取得了優異成績。

微軟的研究團隊對 GPT-4 進行了大規模測試，認爲其展現出通用人工智能的潛力。GPT-4 還進行了六個月的迭代對齊，增強了對惡意或挑釁性查詢的安全響應。OpenAI 在技術報告中強調了 GPT-4 的安全開發重要性，並應用了干預策略來緩解潛在問題，如幻覺、隱私泄露等。

GPT-4 引入了 "紅隊攻擊" 機制減少有害內容生成，並建立了深度學習訓練基礎架構，引入了可預測擴展的訓練機制。更重要的是，GPT-4 搭建了完備的深度學習訓練基礎架構，進一步引入了可預測擴展的訓練機制，可以在模型訓練過程中通過較少計算開銷來準確預測模型的最終性能。

GPT-4V

OpenAI 對 GPT-4 系列模型進行了重要技術升級，發佈了 GPT-4V（2023 年 9 月）和 GPT-4 Turbo（2023 年 11 月），這些升級顯著增強了模型的視覺能力和安全性。GPT-4V 專注於視覺輸入的安全部署，廣泛討論了相關風險評估和緩解策略，而 GPT-4 Turbo 則在多個方面進行了優化，包括提升模型整體能力、擴展知識來源、支持更長上下文窗口、優化性能和價格，並引入了新功能。

同年，OpenAI 推出了 Assistants API，以提升開發效率，使開發人員能夠快速創建面向特定任務的智能助手。此外，新版本的 GPT 模型通過 GPT-4 Turbo with Vision、DALL·E-3、TTS 等技術，進一步增強了多模態能力，提升了任務性能並擴展了能力範圍，加強了以 GPT 模型爲核心的大模型應用生態系統。

GPT-4o

今年 5 月 14 日，OpenAI 春季發佈會，發佈了新型旗艦模型 “GPT-4o”，GPT-4o 的“o” 代表 “omni”，源自拉丁語“omnis”。在英語中“omni” 常被用作詞根，用來表示 “全部” 或“所有”的概念。GPT-4o 是一個多模態大模型，支持文本、音頻和圖像的任意組合輸入，並能生成文本、音頻和圖像的任意組合輸出。與現有模型相比，它在視覺和音頻理解方面尤其出色。

GPT-4o 可以在音頻、視覺和文本中進行實時推理，接受文本、音頻和圖像的任何組合作爲輸入，並生成文本、音頻和圖像的任何組合進行輸出。它可以最短在 232 毫秒內響應音頻輸入，平均爲 320 毫秒，這與人類在對話中的響應時間相似。此外，GPT-4o 還可以調整說話的語氣，從誇張戲劇到冰冷機械，以適應不同的交流場景。令人興奮的是，GPT-4o 還具備唱歌的功能，增添了更多的趣味性和娛樂性。

GPT-4o 不僅在傳統的文本能力上與 GPT-4 Turbo 的性能相當，還在 API 方面更快速，價格還更便宜 50%。總結來說，與 GPT-4 Turbo 相比，GPT-4o 速度提高了 2 倍，價格減半，限制速率提高了 5 倍。GPT-4o 目前的上下文窗口爲 128k，模型知識截止日期爲 2023 年 10 月。

總結

儘管 GPT 系列模型在人工智能領域取得了顯著的科研進展，但它們仍然存在一些侷限性，比如在某些情況下可能會生成帶有事實錯誤的幻覺或具有潛在風險的迴應。面對這些挑戰，開發更智能、更安全的大語言模型被看作是一項長期的研究任務。

爲了有效降低使用這些模型的潛在風險，OpenAI 採取了迭代部署策略，通過多階段的開發和部署過程，持續對模型和產品進行改進和優化。這種策略體現了在整個生命週期中對安全性和有效性的關注，以確保大語言模型能夠穩健發展，同時應對新出現的問題和挑戰。

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/v4TVgqffLEygE24RClrz7A

引言