一篇 142 頁全面覆盤 DeepSeek R1 思考推理技術綜述
從 DeepSeek-R1 推理的基本構建模塊分類入手,深入分析探討了推理長度的影響和可控性、對長篇或令人困惑上下文的管理、文化與安全問題,以及 DeepSeek-R1 與認知現象(如類似人類的語言處理和世界建模)的相對地位。
值得注意的是,發現 DeepSeek-R1 存在一個推理的 “最佳點”,額外的推理時間可能會損害模型性能。還發現 DeepSeek-R1 傾向於持續糾結於之前探索過的問題表述,阻礙進一步探索
一、介紹與背景
大型語言模型(LLMs)的轉變:傳統的 LLMs 通常直接輸出答案,而大型推理模型(LRMs)如 DeepSeek-R1 則通過生成詳細的多步驟推理鏈條來解決問題。這種推理過程對用戶是透明的,爲研究模型的推理行爲提供了機會。
DeepSeek-R1 的出現:DeepSeek-R1 的出現標誌着 LLMs 在處理複雜問題時的一個根本性轉變。它不僅能夠生成推理鏈條,還能在推理過程中表現出類似人類的思考行爲,這爲研究模型的推理能力提供了新的視角。
比較大型語言模型(LLM,例如 GPT-4o)與大型推理模型(LRM,例如 DeepSeek-R1)對一個簡單的數學推理問題的響應。LLM 生成一條單一的思考鏈,追求一種解決方法,而不對答案進行任何驗證。相比之下,LRM 從不同角度仔細思考問題,同時持續驗證其方法。
DeepSeek-R1 的多階段訓練過程。從左到右:
-
通過 GRPO 訓練 DeepSeek-R1-Zero 模型。
-
在 DeepSeek-R1-Zero 生成的 CoT 數據和其他來源的數據上進行 SFT(冷啓動)。
-
在推理密集型數據上進行 GRPO。
-
在大約 60 萬個推理實例和 20 萬個非推理實例上進行 SFT。注意,這一階段從 DeepSeek-V3-base 模型重新開始。
-
使用 GRPO 在多樣化的提示分佈(包括安全訓練)上進行強化學習微調。
二、DeepSeek R1 推理的構建模塊
提出了一個分類體系,將 DeepSeek-R1 的推理鏈條分解爲以下幾個基本單元:
-
問題定義(Problem Definition):模型重新定義問題目標,通常以 “我需要找到……”(I need to find...)結尾。
-
分解週期(Bloom Cycle):模型首次分解問題,生成中間答案,並可能驗證其信心。
-
重構週期(Reconstruction Cycle):模型重新考慮初始假設,可能引入新的答案或驗證現有答案。
-
最終決策(Final Decision):模型得出最終答案,並表達對答案的信心。
通過分析 DeepSeek-R1 在多個任務中的推理鏈條,揭示了以下關鍵發現:
-
推理鏈條的結構一致性:DeepSeek-R1 的推理鏈條在不同任務中表現出一致的結構,通常包括問題定義、分解、多次重構和最終決策。
-
反芻行爲(Rumination):模型在重構階段會多次重新考慮問題的初始分解,這種行爲類似於人類的 “反芻”,但缺乏有效的監控機制。
-
推理鏈條的長度:推理鏈條的長度在不同任務中有所不同,但通常在分解週期最長,隨後的重構週期逐漸變短,偶爾會出現較長的重構週期。
-
推理鏈條的多樣性:在複雜的任務中,模型可能會嘗試多種不同的問題分解方式,並在後續的重構週期中驗證這些分解。
展示了一個來自 MATH-500 的更復雜的推理鏈條。用更深的紫色來突出顯示較長的推理週期,用較淺的顏色來表示較短的週期。橙色和黃色突出了模型對這一分解所做的兩次改變。
在較長的週期中,看到了一些 “re-blooms” 現象,即對問題的新穎分解。較短的週期通常會重新驗證這些先前的分解(見圖中對某一特定分解的頻繁回調),將這種行爲稱爲 “反芻”,或者它們會放棄當前的推理路徑(見第 18 週期)。
三、DeepSeek R1 推理長度的影響
通過實驗分析了推理長度對模型性能的影響,發現存在一個 “推理甜點區”,超過這個長度範圍,性能會下降。
-
對於某些問題,隨着推理長度的增加,準確率先是上升,達到一個峯值後開始下降。這表明存在一個最優的推理長度範圍(即 “推理甜點區”),在這個範圍內,模型的性能最佳。
-
例如,對於 AIME-24 中的某些問題,推理長度在 6k 到 10k tokens 之間時,準確率最高,超過這個範圍後,準確率顯著下降。
-
對於小數字乘法問題,模型幾乎總是能夠正確回答,推理長度對準確率影響不大。
-
對於中等數字乘法問題,推理長度與準確率的關係與 AIME-24 類似,存在一個最優的推理長度範圍。
-
對於大數字乘法問題,模型幾乎總是失敗,這表明推理長度的增加並不能解決所有問題,某些問題可能需要其他策略。
四、DeepSeek R1 長文本評估
DeepSeek-R1 在處理長文本時表現不如一些專門針對長文本優化的 LLMs,如 Gemini-1.5-Pro。
DeepSeek-R1 模型在長文本環境下有時會表現出混亂,生成無意義的文本。
四、DeepSeek R1 與人類句子處理的關係
-
DeepSeek-R1 在處理 Garden path sentences 時生成的推理鏈條顯著長於處理非花園路徑句時的推理鏈條。
-
這種推理鏈條長度的差異與人類處理 Garden path sentences 時的認知負荷高度相關,表明 DeepSeek-R1 在處理複雜句子時的行爲與人類有一定的相似性。
-
然而,DeepSeek-R1 在處理控制句(非 Garden path sentences)時,推理鏈條長度不合理地長,且存在重複和循環推理的現象,這與人類的處理方式有顯著差異。
-
DeepSeek-R1 在處理比較錯覺句時生成的推理鏈條顯著長於處理控制句時的推理鏈條。
-
這種推理鏈條長度的差異進一步支持了 DeepSeek-R1 在處理複雜句子時的認知負荷與人類相似的觀點。
-
然而,DeepSeek-R1 在處理控制句時仍然表現出不合理的長推理鏈條和重複推理行爲,這表明其推理過程缺乏人類的高效性和目標導向性。
DeepSeek-R1 Thoughtology:Let’s about LLM reasoning
https://arxiv.org/pdf/2504.07128
本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源:https://mp.weixin.qq.com/s/VIZL92jNMIcjtyHWEnXZag