一篇 142 頁全面覆盤 DeepSeek R1 思考推理技術綜述

從 DeepSeek-R1 推理的基本構建模塊分類入手，深入分析探討了推理長度的影響和可控性、對長篇或令人困惑上下文的管理、文化與安全問題，以及 DeepSeek-R1 與認知現象（如類似人類的語言處理和世界建模）的相對地位。

值得注意的是，發現 DeepSeek-R1 存在一個推理的 “最佳點”，額外的推理時間可能會損害模型性能。還發現 DeepSeek-R1 傾向於持續糾結於之前探索過的問題表述，阻礙進一步探索

一、介紹與背景

大型語言模型（LLMs）的轉變：傳統的 LLMs 通常直接輸出答案，而大型推理模型（LRMs）如 DeepSeek-R1 則通過生成詳細的多步驟推理鏈條來解決問題。這種推理過程對用戶是透明的，爲研究模型的推理行爲提供了機會。

DeepSeek-R1 的出現：DeepSeek-R1 的出現標誌着 LLMs 在處理複雜問題時的一個根本性轉變。它不僅能夠生成推理鏈條，還能在推理過程中表現出類似人類的思考行爲，這爲研究模型的推理能力提供了新的視角。

比較大型語言模型（LLM，例如 GPT-4o）與大型推理模型（LRM，例如 DeepSeek-R1）對一個簡單的數學推理問題的響應。LLM 生成一條單一的思考鏈，追求一種解決方法，而不對答案進行任何驗證。相比之下，LRM 從不同角度仔細思考問題，同時持續驗證其方法。

DeepSeek-R1 的多階段訓練過程。從左到右：

二、DeepSeek R1 推理的構建模塊

提出了一個分類體系，將 DeepSeek-R1 的推理鏈條分解爲以下幾個基本單元：

通過分析 DeepSeek-R1 在多個任務中的推理鏈條，揭示了以下關鍵發現：

展示了一個來自 MATH-500 的更復雜的推理鏈條。用更深的紫色來突出顯示較長的推理週期，用較淺的顏色來表示較短的週期。橙色和黃色突出了模型對這一分解所做的兩次改變。

在較長的週期中，看到了一些 “re-blooms” 現象，即對問題的新穎分解。較短的週期通常會重新驗證這些先前的分解（見圖中對某一特定分解的頻繁回調），將這種行爲稱爲 “反芻”，或者它們會放棄當前的推理路徑（見第 18 週期）。

三、DeepSeek R1 推理長度的影響

通過實驗分析了推理長度對模型性能的影響，發現存在一個 “推理甜點區”，超過這個長度範圍，性能會下降。

對於某些問題，隨着推理長度的增加，準確率先是上升，達到一個峯值後開始下降。這表明存在一個最優的推理長度範圍（即 “推理甜點區”），在這個範圍內，模型的性能最佳。
例如，對於 AIME-24 中的某些問題，推理長度在 6k 到 10k tokens 之間時，準確率最高，超過這個範圍後，準確率顯著下降。

四、DeepSeek R1 長文本評估

DeepSeek-R1 在處理長文本時表現不如一些專門針對長文本優化的 LLMs，如 Gemini-1.5-Pro。

DeepSeek-R1 模型在長文本環境下有時會表現出混亂，生成無意義的文本。

四、DeepSeek R1 與人類句子處理的關係

DeepSeek-R1 在處理 Garden path sentences 時生成的推理鏈條顯著長於處理非花園路徑句時的推理鏈條。
這種推理鏈條長度的差異與人類處理 Garden path sentences 時的認知負荷高度相關，表明 DeepSeek-R1 在處理複雜句子時的行爲與人類有一定的相似性。
然而，DeepSeek-R1 在處理控制句（非 Garden path sentences）時，推理鏈條長度不合理地長，且存在重複和循環推理的現象，這與人類的處理方式有顯著差異。

DeepSeek-R1 Thoughtology:Let’s about LLM reasoning
https://arxiv.org/pdf/2504.07128

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/VIZL92jNMIcjtyHWEnXZag