圖解 DeepSeek-R1 的創新訓練和推理模型實現原理

DeepSeek-R1 的發佈在 AI 發展進程中具有里程碑式的意義，尤其對機器學習研發社區而言意義重大，主要原因有二：

開源策略：提供了經過輕量化處理的蒸餾版本
技術透明：公開分享瞭如何構建類似 OpenAI O1 這樣對的推理模型的完整訓練方法

接下來，讓我們深入瞭解這個模型是如何構建的。

一、大語言模型的基本訓練流程

DeepSeek-R1 與其他大語言模型一樣，採用逐詞生成的方式工作。它之所以在數學和推理問題上表現出色，關鍵在於它會生成詳細的思維過程，通過更多的推理步驟來解決問題。

通用大模型訓練通常包含三個階段：

預訓練階段: 基於海量互聯網數據的 next-token 預測，形成基礎能力
監督微調階段: 指令理解與執行訓練，構建基礎對話能力（SFT 模型）
偏好對齊階段：依據人類偏好優化模型行爲，產出可用版本

二、DeepSeek-R1 的創新訓練方法

DeepSeek-R1 在遵循上述基本流程的同時，在具體實現上有很多創新：

2.1 專注於長鏈式推理的訓練數據

模型使用了 60 萬個包含詳細推理過程的訓練樣本。這種規模的高質量推理數據通過人工標註的方式獲取成本極高，因此團隊採用了特殊的數據生成方法。

2.2 構建專精推理的過渡模型

團隊首先開發了一個專注於推理能力的中間模型。這個未命名的模型雖然在其他方面表現一般，但它只需要少量標註數據就能在推理問題上表現出色。這個模型隨後被用來生成大規模的訓練數據，幫助訓練出既擅長推理又能勝任其他任務的最終版本。

2.3 基於大規模強化學習的核心技術

強化學習訓練分爲兩個關鍵階段：

2.3.1 R1-Zero：推理導向的強化學習

通過強化學習構建中間推理模型，用於生成 SFT 訓練樣本。這一突破源於早期 R1-Zero 模型的實驗成果。

DeepSeek 團隊首先開發了 R1-Zero 模型，它最特別的地方在於無需大量標註數據就能在推理任務上表現優異。它直接從預訓練模型開始，通過強化學習達到了能與 OpenAI O1 競爭的水平。

這一突破性進展揭示了兩個重要發現：

現代基礎模型（在 14.8 萬億高質量詞元上訓練）已經具備了強大的基礎能力
推理類問題相比一般對話更容易進行自動評估

讓我們通過一個具體例子來理解推理問題的自動驗證過程：

假設向模型提供以下編程任務：



編寫Python代碼，接受一個數字列表，按排序順序返回它們，但也在開頭添加42。

這樣的問題可以通過多種方式進行自動驗證。假設我們將這個問題呈現給正在訓練的模型，它生成一個完成：

軟件代碼檢查器可以檢查完成的內容是否是正確的 Python 代碼
我們可以執行 Python 代碼看看它是否能運行
其他現代編碼大語言模型可以創建單元測試來驗證所需的行爲（即使它們本身不是推理專家）
我們甚至可以更進一步，測量執行時間，並使訓練過程在正確解決問題的 Python 程序中偏好性能更好的解決方案。

我們可以在訓練步驟中向模型呈現這樣的問題，並生成多個可能的解決方案。

在訓練過程中，模型會生成多個可能的解決方案，系統會自動評估每個方案的質量。比如：

方案 1：可能完全不是代碼
方案 2：是代碼但不是 Python
方案 3：是 Python 但未通過測試
方案 4：完全正確的解決方案

這些都是可以直接用來改進模型的信號。當然，這是在許多示例（小批量）中完成的，並在連續的訓練步驟中進行。

這些獎勵信號和模型更新是模型在 RL 訓練過程中繼續改進任務的方式，如論文圖 2 所示。

與這種能力的提高相對應的是生成響應的長度，其中模型生成更多思考詞元來處理問題。

這個過程很有用，但 R1-Zero 模型儘管在這些推理問題上得分很高，卻面臨其他使其不如預期可用的問題。

儘管 DeepSeek-R1-Zero 表現出強大的推理能力，並自主發展出意想不到且強大的推理行爲，但它面臨幾個問題。例如，DeepSeek-R1-Zero 在可讀性差和語言混合等挑戰方面存在困難。

R1 旨在成爲一個更易用的模型。因此，它不是完全依賴 RL 過程，而是在我們之前在本節中提到的兩個地方使用它：

創建一箇中間推理模型來生成 SFT 數據點
訓練 R1 模型以改進推理和非推理問題（使用其他類型的推理器）

2.3.2 利用過渡模型生成高質量訓練數據

爲了使中間推理模型更有用，它在幾千個推理問題示例上進行監督微調（SFT）訓練步驟（其中一些是從 R1-Zero 生成和篩選的）。論文將此稱爲 "冷啓動數據"：

冷啓動

與 DeepSeek-R1-Zero 不同，爲了防止從基礎模型開始的 RL 訓練早期不穩定的冷啓動階段，對於 DeepSeek-R1，我們構建和收集少量長鏈思維數據來微調模型，作爲初始 RL 參與者。爲了收集這些數據，我們探索了幾種方法：

使用少樣本提示技術，以長鏈思維方式生成示例
直接引進模型生成包含反思和驗證的詳細答案
收集並整理 R1-Zero 的可讀輸出
通過人工標註優化輸出質量

這個初始數據集雖然只有約 5000 個樣本，但它爲後續擴展到 60 萬個高質量訓練樣本提供了基礎。這個 "數據放大" 過程正是中間推理模型的關鍵作用。

而監督微調（SFT）過程則確保了模型能夠快速準確地完成任務。每個訓練樣本都包含了詳細的問題解決過程，幫助模型形成清晰的思維鏈條。

2.3.3 全方位的強化學習優化

最終的 R1 模型採用了更全面的強化學習策略。除了繼承前面階段的推理能力，還引入了：

針對非推理任務的驗證機制
類似 Llama 模型的幫助性評估
安全性獎勵模型
更完善的用戶體驗優化

這使得 R1 不僅保持了強大的推理能力，還能夠勝任各種日常對話和通用任務。

架構設計

就像 GPT2 和 GPT3 初期的前代模型一樣，DeepSeek-R1 是一堆 Transformer 解碼器塊。它由 61 個塊組成。前三個是密集的，但其餘的是專家混合層。這種設計既保證了模型的性能，又提高了計算效率。

在模型維度大小和其他超參數方面，它們看起來是這樣的：

關於模型架構的更多細節在他們的兩篇早期論文中有介紹：

DeepSeek-V3 技術報告
DeepSeekMoE：走向專家混合語言模型中的終極專家專門化

結論

DeepSeek-R1 的成功標誌着 AI 在推理能力方面的重要突破。它不僅展示瞭如何構建高性能的推理模型，更重要的是提供了一套可復現的技術方案，爲整個 AI 社區帶來了寶貴的經驗。

原文地址：https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1

來源：AI 進廠的 Asta

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/6zHxYtvj6IpGCQ5yvB1R2A