圖解 DeepSeek-R1 的創新訓練和推理模型實現原理
DeepSeek-R1 的發佈在 AI 發展進程中具有里程碑式的意義,尤其對機器學習研發社區而言意義重大,主要原因有二:
-
開源策略:提供了經過輕量化處理的蒸餾版本
-
技術透明:公開分享瞭如何構建類似 OpenAI O1 這樣對的推理模型的完整訓練方法
接下來,讓我們深入瞭解這個模型是如何構建的。
一、大語言模型的基本訓練流程
DeepSeek-R1 與其他大語言模型一樣,採用逐詞生成的方式工作。它之所以在數學和推理問題上表現出色,關鍵在於它會生成詳細的思維過程,通過更多的推理步驟來解決問題。
通用大模型訓練通常包含三個階段:
-
預訓練階段: 基於海量互聯網數據的 next-token 預測,形成基礎能力
-
監督微調階段: 指令理解與執行訓練,構建基礎對話能力(SFT 模型)
-
偏好對齊階段:依據人類偏好優化模型行爲,產出可用版本
二、DeepSeek-R1 的創新訓練方法
DeepSeek-R1 在遵循上述基本流程的同時,在具體實現上有很多創新:
2.1 專注於長鏈式推理的訓練數據
模型使用了 60 萬個包含詳細推理過程的訓練樣本。這種規模的高質量推理數據通過人工標註的方式獲取成本極高,因此團隊採用了特殊的數據生成方法。
2.2 構建專精推理的過渡模型
團隊首先開發了一個專注於推理能力的中間模型。這個未命名的模型雖然在其他方面表現一般,但它只需要少量標註數據就能在推理問題上表現出色。這個模型隨後被用來生成大規模的訓練數據,幫助訓練出既擅長推理又能勝任其他任務的最終版本。
2.3 基於大規模強化學習的核心技術
強化學習訓練分爲兩個關鍵階段:
2.3.1 R1-Zero:推理導向的強化學習
通過強化學習構建中間推理模型,用於生成 SFT 訓練樣本。這一突破源於早期 R1-Zero 模型的實驗成果。
DeepSeek 團隊首先開發了 R1-Zero 模型,它最特別的地方在於無需大量標註數據就能在推理任務上表現優異。它直接從預訓練模型開始,通過強化學習達到了能與 OpenAI O1 競爭的水平。
這一突破性進展揭示了兩個重要發現:
-
現代基礎模型(在 14.8 萬億高質量詞元上訓練)已經具備了強大的基礎能力
-
推理類問題相比一般對話更容易進行自動評估
讓我們通過一個具體例子來理解推理問題的自動驗證過程:
假設向模型提供以下編程任務:
編寫Python代碼,接受一個數字列表,按排序順序返回它們,但也在開頭添加42。
這樣的問題可以通過多種方式進行自動驗證。假設我們將這個問題呈現給正在訓練的模型,它生成一個完成:
-
軟件代碼檢查器可以檢查完成的內容是否是正確的 Python 代碼
-
我們可以執行 Python 代碼看看它是否能運行
-
其他現代編碼大語言模型可以創建單元測試來驗證所需的行爲(即使它們本身不是推理專家)
-
我們甚至可以更進一步,測量執行時間,並使訓練過程在正確解決問題的 Python 程序中偏好性能更好的解決方案。
我們可以在訓練步驟中向模型呈現這樣的問題,並生成多個可能的解決方案。
在訓練過程中,模型會生成多個可能的解決方案,系統會自動評估每個方案的質量。比如:
-
方案 1:可能完全不是代碼
-
方案 2:是代碼但不是 Python
-
方案 3:是 Python 但未通過測試
-
方案 4:完全正確的解決方案
這些都是可以直接用來改進模型的信號。當然,這是在許多示例(小批量)中完成的,並在連續的訓練步驟中進行。
這些獎勵信號和模型更新是模型在 RL 訓練過程中繼續改進任務的方式,如論文圖 2 所示。
與這種能力的提高相對應的是生成響應的長度,其中模型生成更多思考詞元來處理問題。
這個過程很有用,但 R1-Zero 模型儘管在這些推理問題上得分很高,卻面臨其他使其不如預期可用的問題。
儘管 DeepSeek-R1-Zero 表現出強大的推理能力,並自主發展出意想不到且強大的推理行爲,但它面臨幾個問題。例如,DeepSeek-R1-Zero 在可讀性差和語言混合等挑戰方面存在困難。
R1 旨在成爲一個更易用的模型。因此,它不是完全依賴 RL 過程,而是在我們之前在本節中提到的兩個地方使用它:
-
創建一箇中間推理模型來生成 SFT 數據點
-
訓練 R1 模型以改進推理和非推理問題(使用其他類型的推理器)
2.3.2 利用過渡模型生成高質量訓練數據
爲了使中間推理模型更有用,它在幾千個推理問題示例上進行監督微調(SFT)訓練步驟(其中一些是從 R1-Zero 生成和篩選的)。論文將此稱爲 "冷啓動數據":
冷啓動
與 DeepSeek-R1-Zero 不同,爲了防止從基礎模型開始的 RL 訓練早期不穩定的冷啓動階段,對於 DeepSeek-R1,我們構建和收集少量長鏈思維數據來微調模型,作爲初始 RL 參與者。爲了收集這些數據,我們探索了幾種方法:
-
使用少樣本提示技術,以長鏈思維方式生成示例
-
直接引進模型生成包含反思和驗證的詳細答案
-
收集並整理 R1-Zero 的可讀輸出
-
通過人工標註優化輸出質量
這個初始數據集雖然只有約 5000 個樣本,但它爲後續擴展到 60 萬個高質量訓練樣本提供了基礎。這個 "數據放大" 過程正是中間推理模型的關鍵作用。
而監督微調(SFT)過程則確保了模型能夠快速準確地完成任務。每個訓練樣本都包含了詳細的問題解決過程,幫助模型形成清晰的思維鏈條。
2.3.3 全方位的強化學習優化
最終的 R1 模型採用了更全面的強化學習策略。除了繼承前面階段的推理能力,還引入了:
-
針對非推理任務的驗證機制
-
類似 Llama 模型的幫助性評估
-
安全性獎勵模型
-
更完善的用戶體驗優化
這使得 R1 不僅保持了強大的推理能力,還能夠勝任各種日常對話和通用任務。
架構設計
就像 GPT2 和 GPT3 初期的前代模型一樣,DeepSeek-R1 是一堆 Transformer 解碼器塊。它由 61 個塊組成。前三個是密集的,但其餘的是專家混合層。這種設計既保證了模型的性能,又提高了計算效率。
在模型維度大小和其他超參數方面,它們看起來是這樣的:
關於模型架構的更多細節在他們的兩篇早期論文中有介紹:
-
DeepSeek-V3 技術報告
-
DeepSeekMoE:走向專家混合語言模型中的終極專家專門化
結論
DeepSeek-R1 的成功標誌着 AI 在推理能力方面的重要突破。它不僅展示瞭如何構建高性能的推理模型,更重要的是提供了一套可復現的技術方案,爲整個 AI 社區帶來了寶貴的經驗。
原文地址:https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
來源:AI 進廠的 Asta
本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源:https://mp.weixin.qq.com/s/6zHxYtvj6IpGCQ5yvB1R2A