一篇 142 頁全面覆盤 DeepSeek R1 思考推理技術綜述

從 DeepSeek-R1 推理的基本構建模塊分類入手,深入分析探討了推理長度的影響和可控性、對長篇或令人困惑上下文的管理、文化與安全問題,以及 DeepSeek-R1 與認知現象(如類似人類的語言處理和世界建模)的相對地位。

值得注意的是,發現 DeepSeek-R1 存在一個推理的 “最佳點”,額外的推理時間可能會損害模型性能。還發現 DeepSeek-R1 傾向於持續糾結於之前探索過的問題表述,阻礙進一步探索

一、介紹與背景

大型語言模型(LLMs)的轉變:傳統的 LLMs 通常直接輸出答案,而大型推理模型(LRMs)如 DeepSeek-R1 則通過生成詳細的多步驟推理鏈條來解決問題。這種推理過程對用戶是透明的,爲研究模型的推理行爲提供了機會。

DeepSeek-R1 的出現:DeepSeek-R1 的出現標誌着 LLMs 在處理複雜問題時的一個根本性轉變。它不僅能夠生成推理鏈條,還能在推理過程中表現出類似人類的思考行爲,這爲研究模型的推理能力提供了新的視角。

比較大型語言模型(LLM,例如 GPT-4o)與大型推理模型(LRM,例如 DeepSeek-R1)對一個簡單的數學推理問題的響應。LLM 生成一條單一的思考鏈,追求一種解決方法,而不對答案進行任何驗證。相比之下,LRM 從不同角度仔細思考問題,同時持續驗證其方法。

DeepSeek-R1 的多階段訓練過程。從左到右:

二、DeepSeek R1 推理的構建模塊

提出了一個分類體系,將 DeepSeek-R1 的推理鏈條分解爲以下幾個基本單元:

  1. 問題定義(Problem Definition):模型重新定義問題目標,通常以 “我需要找到……”(I need to find...)結尾。

  2. 分解週期(Bloom Cycle):模型首次分解問題,生成中間答案,並可能驗證其信心。

  3. 重構週期(Reconstruction Cycle):模型重新考慮初始假設,可能引入新的答案或驗證現有答案。

  4. 最終決策(Final Decision):模型得出最終答案,並表達對答案的信心。

通過分析 DeepSeek-R1 在多個任務中的推理鏈條,揭示了以下關鍵發現:

展示了一個來自 MATH-500 的更復雜的推理鏈條。用更深的紫色來突出顯示較長的推理週期,用較淺的顏色來表示較短的週期。橙色和黃色突出了模型對這一分解所做的兩次改變。

在較長的週期中,看到了一些 “re-blooms” 現象,即對問題的新穎分解。較短的週期通常會重新驗證這些先前的分解(見圖中對某一特定分解的頻繁回調),將這種行爲稱爲 “反芻”,或者它們會放棄當前的推理路徑(見第 18 週期)。

三、DeepSeek R1 推理長度的影響

通過實驗分析了推理長度對模型性能的影響,發現存在一個 “推理甜點區”,超過這個長度範圍,性能會下降。

四、DeepSeek R1 長文本評估

DeepSeek-R1 在處理長文本時表現不如一些專門針對長文本優化的 LLMs,如 Gemini-1.5-Pro。

DeepSeek-R1 模型在長文本環境下有時會表現出混亂,生成無意義的文本。

四、DeepSeek R1 與人類句子處理的關係

DeepSeek-R1 Thoughtology:Let’s about LLM reasoning
https://arxiv.org/pdf/2504.07128

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/VIZL92jNMIcjtyHWEnXZag