圖解 DeepSeek-R1 的創新訓練和推理模型實現原理

DeepSeek-R1 的發佈在 AI 發展進程中具有里程碑式的意義,尤其對機器學習研發社區而言意義重大,主要原因有二:

接下來,讓我們深入瞭解這個模型是如何構建的。


一、大語言模型的基本訓練流程

DeepSeek-R1 與其他大語言模型一樣,採用逐詞生成的方式工作。它之所以在數學和推理問題上表現出色,關鍵在於它會生成詳細的思維過程,通過更多的推理步驟來解決問題。

通用大模型訓練通常包含三個階段:

  1. 預訓練階段: 基於海量互聯網數據的 next-token 預測,形成基礎能力

  2. 監督微調階段: 指令理解與執行訓練,構建基礎對話能力(SFT 模型)

  3. 偏好對齊階段:依據人類偏好優化模型行爲,產出可用版本

二、DeepSeek-R1 的創新訓練方法

DeepSeek-R1 在遵循上述基本流程的同時,在具體實現上有很多創新:

2.1 專注於長鏈式推理的訓練數據

模型使用了 60 萬個包含詳細推理過程的訓練樣本。這種規模的高質量推理數據通過人工標註的方式獲取成本極高,因此團隊採用了特殊的數據生成方法。

2.2 構建專精推理的過渡模型

團隊首先開發了一個專注於推理能力的中間模型。這個未命名的模型雖然在其他方面表現一般,但它只需要少量標註數據就能在推理問題上表現出色。這個模型隨後被用來生成大規模的訓練數據,幫助訓練出既擅長推理又能勝任其他任務的最終版本。

2.3 基於大規模強化學習的核心技術

強化學習訓練分爲兩個關鍵階段:

2.3.1 R1-Zero:推理導向的強化學習

通過強化學習構建中間推理模型,用於生成 SFT 訓練樣本。這一突破源於早期 R1-Zero 模型的實驗成果。

DeepSeek 團隊首先開發了 R1-Zero 模型,它最特別的地方在於無需大量標註數據就能在推理任務上表現優異。它直接從預訓練模型開始,通過強化學習達到了能與 OpenAI O1 競爭的水平。

這一突破性進展揭示了兩個重要發現:

讓我們通過一個具體例子來理解推理問題的自動驗證過程:

假設向模型提供以下編程任務:



編寫Python代碼,接受一個數字列表,按排序順序返回它們,但也在開頭添加42。

這樣的問題可以通過多種方式進行自動驗證。假設我們將這個問題呈現給正在訓練的模型,它生成一個完成:

我們可以在訓練步驟中向模型呈現這樣的問題,並生成多個可能的解決方案。

在訓練過程中,模型會生成多個可能的解決方案,系統會自動評估每個方案的質量。比如:

這些都是可以直接用來改進模型的信號。當然,這是在許多示例(小批量)中完成的,並在連續的訓練步驟中進行。

這些獎勵信號和模型更新是模型在 RL 訓練過程中繼續改進任務的方式,如論文圖 2 所示。

與這種能力的提高相對應的是生成響應的長度,其中模型生成更多思考詞元來處理問題。

這個過程很有用,但 R1-Zero 模型儘管在這些推理問題上得分很高,卻面臨其他使其不如預期可用的問題。

儘管 DeepSeek-R1-Zero 表現出強大的推理能力,並自主發展出意想不到且強大的推理行爲,但它面臨幾個問題。例如,DeepSeek-R1-Zero 在可讀性差和語言混合等挑戰方面存在困難。

R1 旨在成爲一個更易用的模型。因此,它不是完全依賴 RL 過程,而是在我們之前在本節中提到的兩個地方使用它:

  1. 創建一箇中間推理模型來生成 SFT 數據點

  2. 訓練 R1 模型以改進推理和非推理問題(使用其他類型的推理器)

2.3.2 利用過渡模型生成高質量訓練數據

爲了使中間推理模型更有用,它在幾千個推理問題示例上進行監督微調(SFT)訓練步驟(其中一些是從 R1-Zero 生成和篩選的)。論文將此稱爲 "冷啓動數據":

冷啓動

與 DeepSeek-R1-Zero 不同,爲了防止從基礎模型開始的 RL 訓練早期不穩定的冷啓動階段,對於 DeepSeek-R1,我們構建和收集少量長鏈思維數據來微調模型,作爲初始 RL 參與者。爲了收集這些數據,我們探索了幾種方法:

這個初始數據集雖然只有約 5000 個樣本,但它爲後續擴展到 60 萬個高質量訓練樣本提供了基礎。這個 "數據放大" 過程正是中間推理模型的關鍵作用。

而監督微調(SFT)過程則確保了模型能夠快速準確地完成任務。每個訓練樣本都包含了詳細的問題解決過程,幫助模型形成清晰的思維鏈條。

2.3.3 全方位的強化學習優化

最終的 R1 模型採用了更全面的強化學習策略。除了繼承前面階段的推理能力,還引入了:

這使得 R1 不僅保持了強大的推理能力,還能夠勝任各種日常對話和通用任務。

架構設計

就像 GPT2 和 GPT3 初期的前代模型一樣,DeepSeek-R1 是一堆 Transformer 解碼器塊。它由 61 個塊組成。前三個是密集的,但其餘的是專家混合層。這種設計既保證了模型的性能,又提高了計算效率。

在模型維度大小和其他超參數方面,它們看起來是這樣的:

關於模型架構的更多細節在他們的兩篇早期論文中有介紹:

結論

DeepSeek-R1 的成功標誌着 AI 在推理能力方面的重要突破。它不僅展示瞭如何構建高性能的推理模型,更重要的是提供了一套可復現的技術方案,爲整個 AI 社區帶來了寶貴的經驗。

原文地址:https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1

來源:AI 進廠的 Asta

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/6zHxYtvj6IpGCQ5yvB1R2A