思維鏈大模型可視化指南

DeepSeek-R1[1]、OpenAI o3-mini[2] 和 Google Gemini 2.0 Flash Thinking[3] 完美展示了 LLM 如何通過 “推理 “框架突破性能極限。

這標誌着一個重大轉變：從擴展訓練時算力到擴展推理時算力。

本文包含 40 多張獨特的可視化圖表，帶你深入探索推理型大語言模型、測試時計算，以及 DeepSeek-R1 的技術細節。我們將逐一剖析相關概念，幫助你理解這個範式轉變。

歡迎查看我們編寫的大語言模型專著，瞭解更多 LLM 相關的可視化內容，同時支持這份週報！

另外，如果你讀過這本書，能在 * 亞馬遜 [4]* _留下簡短評價就再好不過了 — 這對我們作者來說意義重大！_

與傳統大語言模型相比，推理型 LLM 在回答問題前，往往會將問題分解成若干個小步驟（通常稱爲推理步驟或思維過程）。

那麼 “思維過程 “、“推理步驟 “或 “思維鏈 “到底是什麼意思？

雖然我們可以對 LLM 是否真的能像人類一樣思考進行哲學探討 1[5]，但這些推理步驟實際上是將整個過程分解成更小的、結構化的推理單元。

換句話說，LLM 不再是學習 “該回答什麼 “，而是學習 “如何去回答 “！

要理解推理型 LLM 是如何構建的，我們首先要探討從注重訓練（訓練階段計算）到推理（測試階段計算）的範式轉變。

到 2024 年上半年爲止，開發者爲了提升 LLM 在預訓練階段的性能，通常會增加以下要素的規模：

模型（參數數量）
數據集（token 數量）
算力（FLOPs 數量）

這些要素統稱爲訓練階段計算，體現了預訓練數據是 “AI 的化石燃料 “這一理念。簡而言之，預訓練預算越大，最終得到的模型就會越好。

訓練階段的計算量包括模型訓練期間和微調過程中所需的全部計算資源。

它們一直是提升 LLM 性能的主要研究方向。

通過各種擴展定律，研究人員探索了模型規模（包括算力、數據集大小和模型參數量）與模型性能之間的關聯性。

這些被稱爲 “冪律 “，即一個變量（如算力）的增加會導致另一個變量（如性能）產生相應的比例變化。

這些關係通常以對數 - 對數座標展示（呈現爲一條直線），以便更直觀地展示算力的巨大增長。

最廣爲人知的是 “Kaplan“2[6] 和 “Chinchilla“3[7] 縮放定律。這些定律基本表明，模型性能會隨着計算量、token 數量和參數量的增加而提升。

“神經語言模型的縮放規律 [8]“論文的註釋圖。該圖展示了性能如何隨不同計算因素（更長訓練時間、數據集規模和參數規模）的增加而提升。

研究表明，要獲得最佳性能，這三個因素必須協同擴展。

Kaplan 縮放定律指出，在計算資源固定的情況下，擴大模型規模通常比擴大數據規模更有效。相比之下，Chinchilla 縮放定律則認爲模型規模和數據規模同等重要。

然而，縱觀 2024 年，儘管計算資源、數據集規模和模型參數持續增長，但收益增長卻呈現邊際遞減趨勢。

就像這些冪律一樣，規模擴大時會遇到收益遞減。

這就引出了一個問題：

“我們是否已經觸及天花板？”

由於增加訓練時計算成本高昂，研究人員開始將注意力轉向另一個方向：推理時計算。

與不斷增加預訓練預算不同，推理時計算允許模型在推理階段進行 “更長時間的思考 “。

對於非推理型模型，它通常只會直接輸出答案，跳過所有 “推理 “步驟：

而推理型模型則會使用更多 token 來通過系統化的 “思考 “過程得出答案：

LLM 需要消耗資源（如顯存和算力）來生成答案。但如果所有算力都用在生成最終答案上，這種方式其實並不高效！

相反，通過預先生成更多包含額外信息、關聯性和新思路的 token，模型可以將更多算力投入到最終答案的生成中。

相比訓練時的計算量規模法則，推理時的計算量規模法則研究相對較新。值得注意的是，有兩個重要來源揭示了推理計算量與訓練計算量之間的關係。

首先是 OpenAI 的一篇文章 [9]，展示了推理時的計算量可能實際上遵循與訓練計算量相同的發展趨勢。

摘自 “Learning to reason with LLMs[9]“的註釋圖。添加的紅色虛線用於展示 OpenAI 提出的新範式可能是測試時計算。

據此，他們認爲，由於這仍是一個新興領域，可能會出現向擴展測試時計算的範式轉變。

其次，一篇名爲 “Scaling Scaling Laws with Board Games“4[10] 的有趣論文探討了 AlphaZero 在不同計算資源下學習六邊棋的表現。

研究結果表明，訓練時計算和測試時計算之間存在緊密關聯。每條虛線都標示出達到特定 ELO 分數所需的最低計算量。

測試時計算與訓練時計算呈現相似的擴展特性，這標誌着 “推理 “模型正在向更多測試時計算的方向發生範式轉變。

在這一範式轉變中，這些 “推理型 “模型不再僅僅關注訓練時計算（預訓練和微調），而是在訓練和推理之間取得平衡。

測試時的計算量甚至可以隨長度擴展：

深入探討 DeepSeek-R1 時，我們還會研究長度擴展這個課題！

DeepSeek R-1 和 OpenAI o1 等推理模型的巨大成功表明，除了簡單地 “思考更久 “之外，還有更多技術可以探索。

正如我們將要探討的，測試時計算可以包含多種形式，包括思維鏈、答案修正、回溯、採樣等等。

這些技術大致可以分爲兩類 5[11]：

驗證器搜索（生成多個採樣並選擇最佳答案）
修改提議分佈（經過訓練的 “思考 “過程）

因此，對驗證器的搜索是以_輸出_爲導向的，而修改提議分佈則是以_輸入_爲導向的。

我們將探討兩種驗證器：

結果獎勵模型（ORM）
過程獎勵模型（PRM）

顧名思義，ORM 只關注最終結果，不考慮背後的過程：

相比之下，PRM 不僅評判結果，還會考察達成結果的過程（即 “推理過程 “）：

讓我們來更清晰地說明這些推理步驟：

注意第 2 步是個質量較差的推理步驟，因此在 PRM 評分中得分較低！

現在你已經很好地理解了 ORM 和 PRM 的區別，讓我們來探索一下如何在各種驗證技術中應用它們！

第一個主要的測試時計算類別是針對驗證器進行搜索。這通常包含兩個步驟。

首先，生成多個推理過程和答案樣本。
其次，由驗證器（獎勵模型）對生成的輸出進行評分

驗證器通常是一個經過微調的 LLM，可以用來評判結果 (ORM) 或過程(PRM)。

使用驗證器的一大優勢在於，無需重新訓練或微調用於回答問題的 LLM。

實際上最直接的方法並不是使用獎勵模型或驗證器，而是採用多數投票制。

我們讓模型生成多個答案，最常生成的答案將作爲最終答案。

這種方法也被稱爲_自洽性_ 6[12]，用於強調生成多個答案和推理步驟的必要性。

第一種涉及驗證器的方法叫做最優 N 樣本。這種技術會生成 N 個樣本，然後使用驗證器（結果獎勵模型）來評判每個答案：

首先，LLM（通常被稱爲生成器）會通過設置高溫度或變化的溫度來生成多個答案。

接着，每個答案都會通過輸出獎勵模型（ORM）進行評分，以衡量答案的質量。最終會選擇得分最高的答案：

與其直接評判答案，我們也可以通過推理過程獎勵模型（Process Reward Model，PRM）來評估每個推理步驟的質量。該模型會選擇總權重最高的候選項。

這兩種驗證器類型都可以用 RM 對每個候選答案進行加權, 並選擇總分最高的答案。這種方法被稱爲加權 N 選最優採樣:

生成答案和中間步驟的過程還可以通過束搜索進一步擴展。在束搜索中, 系統會採樣多個推理步驟, 並由 PRM 對每一步進行評判 (類似於思維樹 7[13])。整個過程中會持續跟蹤得分最高的 3 條 “路徑 “。

這種方法能夠快速終止那些不太有價值的 “推理 “路徑（即被 PRM 評分較低的路徑）。

最終的答案會通過我們之前探討過的 Best-of-N 方法進行加權處理。

蒙特卡洛樹搜索（Monte Carlo Tree Search）是一種讓樹搜索更高效的絕佳技術。它包含四個步驟：

選擇（根據預設公式選擇特定葉節點）
擴展（生成額外節點）
模擬（隨機創建新節點直至達到終點）
反向傳播（根據輸出更新父節點得分）

這些步驟的主要目標是在擴展最佳推理路徑的同時，也要探索其他可能的方向。

這實際上是在探索和利用之間尋找平衡。以下是節點評分和選擇的示例：

因此，在選擇新的推理步驟時，我們並不一定要選擇當前表現最好的路徑。

採用這種公式，我們首先選擇一個節點（推理步驟），然後通過生成新的推理步驟來擴展它。和之前一樣，這可以通過設置較高且多變的 temperature 值來實現：

從擴展的推理步驟中選擇一個, 並多次展開直至得出多個答案。

這些展開結果可以基於推理步驟 (PRM)、獎勵值(ORM) 或兩者的組合來評判。

父節點的分數會被更新 (反向傳播), 然後我們可以從選擇步驟重新開始這個過程。

第二類提升 LLM 推理能力的方法稱爲 “修改提議分佈 “。與使用驗證器搜索正確推理步驟（以_輸出_爲中心）不同，這種方法通過訓練模型來生成更優質的推理步驟（以_輸入_爲中心）。

換句話說，這種方法修改了用於採樣補全內容 / 思考過程 / 詞元的概率分佈。

設想我們有一個問題和一個可以用來採樣詞元的分佈。常見的策略是選擇得分最高的詞元：

不過，請注意上圖中某些標記呈現紅色。這些標記更有可能引導出推理過程：

雖然選擇貪婪標記並非完全錯誤，但選擇那些能夠引導推理過程的標記往往能產生更優質的答案。

當我們修改候選分佈（詞元概率分佈）時，實際上是在讓模型重新排序，使 “推理 “類詞元被更頻繁地選中：

修改候選分佈的方法多種多樣，但總的來說可以分爲兩大類：

通過提示工程來優化提示詞
通過訓練讓模型更關注推理類詞元 / 過程

通過提示詞工程，我們試圖通過更新提示來改進輸出。這個過程也可能促使模型展示我們之前看到的一些推理過程。

爲了通過提示來改變建議分佈，我們可以向模型提供必須遵循的示例（上下文學習），以生成類似推理的行爲：

這個過程可以通過簡單地說 “讓我們一步一步思考 “來進一步簡化 8[14]。同樣，這種方式改變了概率分佈，使得 LLM 傾向於在給出答案之前先分解解題過程：

不過，模型並未從根本上學會遵循這個流程。而且，這是一個靜態且線性的過程，限制了自我修正的能力。如果模型一開始採用了錯誤的推理路徑，往往會沿着這個方向繼續，而不是及時糾正。

除了提示詞之外，我們還可以通過訓練模型進行 “推理 “，讓它在生成這些推理步驟時得到獎勵。這通常需要大量的推理數據和強化學習來獎勵特定行爲。

一個備受爭議的技術是 STaR（自我教學推理器）9[15]。STaR 是一種利用 LLM 生成自己的推理數據作爲模型微調輸入的方法。

在第一步（1）中，它會生成推理步驟和答案。如果答案正確（2a），則將推理和答案添加到三元組訓練數據集中（3b）。這些數據用於對模型進行監督式微調（5）：

如果模型給出了錯誤答案（2b），我們就會提供一個 “提示 “（正確答案），並要求模型推理爲什麼這個答案是正確的（4b）。最後一步是將這些數據添加到用於模型監督微調的三元組訓練數據中（5）：

這裏的一個關鍵要素（與其他多種修改提議分佈的技術一樣）在於我們明確地訓練模型去遵循我們展示給它的推理過程。

換句話說，我們通過有監督微調來決定推理過程應該如何進行。

整個流程非常有趣，因爲它本質上是在生成合成訓練樣本。使用合成訓練樣本（正如我們將在 DeepSeek R-1 中探討的）也是將這種推理過程蒸餾到其他模型中的一種強大方法。

在推理模型領域中的一個重大突破是 DeepSeek-R1，這是一個開源模型，其權重是公開可用的 10[16]。作爲 OpenAI o1 推理模型的直接競爭對手，DeepSeek-R1 在這個領域產生了重大影響。

DeepSeek 通過多種技巧，成功地將推理能力優雅地融入其基礎模型 (DeepSeek-V3-Base) 中。

有趣的是，他們沒有使用驗證器，也沒有通過監督式微調來灌輸推理行爲，而是將重點放在了強化學習上。

讓我們一起來看看他們是如何訓練模型的推理行爲的！

DeepSeek-R1 Zero 這個實驗性模型是通向 DeepSeek-R1 的重大突破。

從 DeepSeek-V3-Base 開始，他們沒有在大量推理數據上進行監督式微調，而是僅僅使用強化學習（RL）來實現推理行爲。

爲此，他們在流程中使用了一個非常直接的提示語（類似系統提示）：

請注意, 他們明確要求推理過程應放在標籤中, 但並未規定推理過程應當如何展開。

在強化學習過程中, 開發了兩種特定的規則獎勵機制:

準確度獎勵 - 通過測試來獎勵答案的正確性。
格式獎勵 - 獎勵使用和標籤。

這個過程中使用的強化學習算法被稱爲羣組相對策略優化 (GRPO)11[17]。該算法的核心思想是調整導致正確或錯誤答案的所有選擇的概率。這些選擇既包括詞組 token 的選擇, 也包括推理步驟。

有趣的是，關於過程應該是什麼樣子，並沒有給出任何示例。它僅僅說明了應該使用標籤，僅此而已！

通過提供這些與思維鏈相關的間接獎勵，模型自行學習到：推理過程越長、越複雜，答案就越可能正確。

這張圖特別重要，因爲它強調了從訓練期計算向推理期計算的範式轉變。隨着這些模型生成更長的思維序列，它們將重點放在了推理期計算上。

通過這個訓練流程，研究人員發現模型能夠自主發現最佳的思維鏈式行爲，包括自我反思和自我驗證等高級推理能力。

但這仍然存在一個顯著的缺陷。它的可讀性較差，且常常混雜不同語言。因此，他們探索了另一種方案，也就是現在廣爲人知的 DeepSeek R1。

讓我們來看看他們是如何穩定推理過程的！

創建 DeepSeek-R1 時，研究團隊遵循了五個步驟：

冷啓動
面向推理的強化學習
拒絕採樣
有監督微調
全場景強化學習

在第一步中，研究人員使用一個小規模的高質量推理數據集（約 5,000 個 token）對 DeepSeek-V3-Base 進行微調。這樣做是爲了避免冷啓動問題導致的可讀性差的情況。

在第二步中，採用了類似訓練 DeepSeek-R1-Zero 的強化學習過程來訓練模型。不過，爲了確保目標語言保持一致性，還額外增加了一個獎勵度量指標。

在第 3 步中，研發團隊利用經過 RL 訓練的模型生成了用於後期監督微調的推理數據。通過拒絕採樣（基於規則的獎勵）和獎勵模型（DeepSeek-V3-Base）的雙重把關，最終篩選出 60 萬條高質量的推理樣本。

此外，他們還藉助 DeepSeek-V3 及其部分訓練數據，生成了 20 萬條非推理樣本。

在第 4 步中，研發團隊利用這 80 萬條樣本數據集對 DeepSeek-V3-Base 模型進行了有監督微調。

在第 5 步中，團隊採用了類似 DeepSeek-R1-Zero 的方法對模型進行強化學習訓練。不過，爲了更好地對齊人類偏好，他們額外引入了着重於助人性和無害性的獎勵信號。

就是這樣！這說明 DeepSeek-R1 實際上是通過監督微調和強化學習在 DeepSeek-V3-Base 基礎上訓練而成的。

最關鍵的工作就在於確保生成高質量的樣本！

DeepSeek-R1 是一個擁有 6710 億參數的龐大模型。遺憾的是，這意味着在消費級硬件上運行如此規模的模型將會非常困難。

幸運的是，研究團隊探索瞭如何將 DeepSeek-R1 的推理能力提煉到其他模型中，比如可以在消費級硬件上運行的 Qwen-32B！

在這個過程中，他們將 DeepSeek-R1 作爲教師模型，將較小的模型作爲學生模型。兩個模型都會接收相同的提示，並生成 token 概率分佈。在訓練過程中，學生模型會努力模仿教師模型的分佈。

這個提煉過程使用了我們之前看到的全部 80 萬個高質量樣本：

這些經過提煉的模型表現相當出色，因爲它們不僅從 80 萬個樣本中學習，還學習了老師模型（DeepSeek-R1）的回答方式！

還記得我們之前討論過的過程獎勵模型（Process Reward Models，PRMs）和蒙特卡洛樹搜索（Monte Carlo Tree Search，MCTS）嗎？事實證明，DeepSeek 團隊也嘗試過用這些技術來培養模型的推理能力，但最終並未成功。

在使用 MCTS 時，他們遇到了搜索空間過大的問題，不得不限制節點擴展。此外，訓練一個精細的獎勵模型本身就充滿挑戰。

在使用 Best-of-N 技術的 PRM 時，他們遇到了計算開銷的問題，因爲需要不斷重新訓練獎勵模型以防止獎勵欺騙。

這並不意味着這些技術無效，而是讓我們深入瞭解了這些技術的侷限性！

至此，我們關於推理型大語言模型的探索告一段落。希望這篇文章能讓你更好地理解擴展測試時計算能力的潛力。

想要查看更多有關大語言模型的可視化內容，歡迎閱讀我寫的 LLM 技術書籍！

這算是對推理型大語言模型的入門介紹。如果你想深入學習，推薦以下學習資源：

Jay Alammar 撰寫的 DeepSeek-R1 圖解指南 [18] 堪稱精品之作。
這篇 Hugging Face 博文 [19] 通過一系列有趣實驗，深入探討了測試時計算規模化的問題。
推理時擴展技術探討 [20] 這個視頻詳盡解析了常見測試時計算技術的技術細節。

#大語言模型 #推理能力 #強化學習 #測試時計算 #深度學習

及時掌握技術脈搏，深度解析行業動態，我們致力於爲您提供最前沿的技術見解和實戰經驗。關注公衆號，與技術一同成長，讓我們攜手探索創新的無限可能！每週精選高質量內容，用通俗易懂的方式，爲您揭示技術背後的精彩故事。

引用鏈接

https://github.com/deepseek-ai/DeepSeek-R1
https://openai.com/index/openai-o3-mini/
https://deepmind.google/technologies/gemini/flash-thinking/
https://www.amazon.com/Hands-Large-Language-Models-Understanding/dp/1098150961
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-reasoning-llms#footnote-1-153314921
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-reasoning-llms#footnote-2-153314921
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-reasoning-llms#footnote-3-153314921
https://arxiv.org/abs/2001.08361
https://openai.com/index/learning-to-reason-with-llms/
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-reasoning-llms#footnote-4-153314921
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-reasoning-llms#footnote-5-153314921
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-reasoning-llms#footnote-6-153314921
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-reasoning-llms#footnote-7-153314921
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-reasoning-llms#footnote-8-153314921
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-reasoning-llms#footnote-9-153314921
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-reasoning-llms#footnote-10-153314921
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-reasoning-llms#footnote-11-153314921
https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute
https://www.youtube.com/watch?v=6PEJ96k1kiw

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/V_77D0w6w63vKbpgHqDM-w

引用鏈接

猜你喜歡