Claude“大腦” 被 Anthropic 扒開了: 讓我們一起看看 TA 是如何思考的~~

隨着大語言模型（LLM）在各行各業的應用不斷加深，人們對於它們是如何 “思考” 的興趣也與日俱增。Anthropic 最新發布的兩篇論文，爲我們提供了一把近似 “顯微鏡” 的工具，幫助我們真正“窺探”Claude 在內部如何運轉、規劃和推理。對從事技術架構、工程實現的專業人員而言，理解這些發現不僅能帶來理論層面的啓示，也能爲構建更可靠、更透明的 AI 系統提供思路。

一、模型思維的 “顯微鏡”：爲什麼要看 Claude 的內部？

在傳統的使用場景中，我們往往只能 “問答” 語言模型，卻難以直接瞭解它是如何在內部做出決策的。這就像我們和一位複雜的軟件系統交互，只能觀察它的輸入輸出，而難以追蹤關鍵的中間過程。

Anthropic 的研究團隊通過在模型內部插入、提取和修改 “概念特徵（features）” 的方式，類似於神經科學家探查大腦內部神經元活動，成功在一定程度上揭示了 Claude 的內部計算路徑。這種方法不僅能幫助我們回答 “Claude 到底是怎麼得出這個答案的？” 這類問題，甚至還能在模型思考過程中做干預（例如抑制或注入概念），從而觀察模型會如何 “改口” 輸出。

二、Claude 是如何實現多語言的？

Anthropic 團隊關注的第一個問題是：“Claude 能夠流利使用幾十種語言，是如何做到的？”

跨語言的核心表示
研究顯示，Claude 的多語言能力並非簡單地在內部劃分成 “英文 Claude”、“法文 Claude”、“中文 Claude” 等獨立模塊；相反，它在內部擁有可供多語言共享的概念特徵，類似於一個 “通用思維語言”。當用戶請求小的反義詞時，Claude 都會在內部激活表示“小” 和“反義”的核心特徵，然後將 “大的概念” 翻譯成相應語言輸出。隨着模型規模的增長，這種跨語言的共享特徵會變得更普遍、更強大。
啓示：跨領域的知識遷移
對工程師而言，這意味着只要在某一語言或領域中學到的概念，也能被 Claude 用在其他語言或場景中——即知識遷移的潛力非常可觀。這種跨語言共享機制可能在國際化應用、跨語言信息檢索、甚至多模態融合（語言與圖像、語音等）領域大有用武之地。

三、Claude 的押韻詩：模型會提前 “謀篇佈局”

1. 原本猜想：逐詞輸出、最後一秒才押韻

在語言模型生成詩歌時，很多人直覺上會認爲模型是 “走一步看一步”，直到行尾才考慮壓上恰當的韻腳。但 Anthropic 的研究發現，Claude 的實際做法遠比想象中更復雜。

2. 實際發現：模型預先規劃

在寫出第一句後，Claude 會 “提前思考” 與第一句能押韻的候選詞彙，並在內部特徵上提前做出選擇，再圍繞這個候選韻腳生成之後的整行詩句。從工程角度講，這體現了模型的長程依賴能力：它不只是關注下一個詞，而是能夠預先指定目標、然後將整個序列的生成導向該目標。

3. 實驗：抑制或注入概念，看模型如何改口

研究人員通過在 Claude 的內部抑制 “rabbit（兔子）” 概念後，Claude 會改用另一個能押韻的 “habit” 等詞結尾；如果注入一個並不押韻的 “green” 概念，Claude 又會自然地調整結果，讓詩句以 “green” 結尾。
這種靈活性對於生成式任務（如詩歌、腳本、文案等）十分關鍵，也展現出 LLM 在內容創作層面的適應度。

[圖片：Claude 押韻詩的內部規劃示意]

四、Claude 的心算策略：並行計算路徑與 “無意識” 算法

1. 多條計算路徑並行

在原文的案例中，研究人員讓 Claude 計算 36+59 之類的加法。結果發現，它在內部並不是採用我們熟悉的 “進位加法” 手動算式，而是出現了多條並行計算路徑：

一條路徑負責大致估算；
另一條路徑關注精確的數值，例如最後一位該是多少；
最終通過結合這些路徑輸出正確結果。

2. “不知其所以然” 的內部策略

值得注意的是，Claude 並沒有顯式地知道自己在使用哪種算法：當你詢問它是如何得出答案時，它往往給出一個表面上看似 “標準算法” 的解釋，但從它的內部特徵上並未出現真正的 “手動進位加法” 痕跡。
這對開發者的啓示在於，模型可以用一種對人類而言 “非直覺” 的方式完成計算或推理。如果我們僅僅看它的回答過程描述，很容易被誤導；但通過 interpretability 工具，我們才能察覺到真實的計算路徑。

[圖片：Claude 並行心算路徑示意]

五、Claude 的多步推理：不是純 “記憶” 而是連接概念

1. 從 “州府問題” 說起

一個常見的測試題是 “達拉斯所在州的首府是什麼？”。如果模型只是簡單地通過記憶匹配，“見到達拉斯就輸出奧斯汀”，那麼它的回答實際上並不具備推理深度。

2. 研究結論：激活並連接概念

在對 Claude 的內部特徵進行追蹤後，研究人員發現它會先喚起 “達拉斯位於德克薩斯州” 的概念特徵，然後再接續到 “德克薩斯州的首府是奧斯汀” 這一概念——在內部連接了兩個獨立事實，最後輸出“奧斯汀”。
更有趣的是，當在模型中途對概念做干預，把 “德克薩斯州” 替換成 “加利福尼亞州” 時，Claude 的輸出會變成“薩克拉門託”，這說明模型確實使用了中間推理步驟，而非純粹依賴 “問題 - 答案” 的簡單映射。

[圖片：Claude 多步推理的概念連接示意]

六、Claude 的幻覺：爲何會 “編造”？

1. 默認拒絕 vs. 已知實體激活

Anthropic 還研究了模型 “幻覺” 現象（即它在缺乏真實信息時胡亂捏造回答）的成因。出乎意料的是，Claude 的默認反應竟是 “拒絕回答”。當它識別到用戶詢問的事物是 “已知實體” 時，會激活 “已知答案” 特徵，從而抑制默認拒絕電路並給出回答；否則，它通常會選擇拒絕。

2. 如何導致 “幻覺”

當 Claude 錯誤地激活了 “已知實體” 特徵，卻其實並不知道答案時，就會開始胡編亂造，給出 “表面合理、實則錯誤” 的信息。科研人員甚至可以通過刻意干預，讓 Claude 產生一致性的“幻覺”，如聲稱某個不存在的人物是個國際象棋選手等等。

[圖片：Claude 對已知實體和未知實體的不同回答，可通過干預觸發幻覺]

七、Jailbreak 與安全機制：當語法完整性與安全衝突時

研究團隊還探討了讓模型 “越獄”（jailbreak）的場景。例如，利用巧妙提示讓 Claude 逐字拼出 “BOMB”（炸彈）並隨後提供製造炸彈的指令。在這個過程中，Claude 內部多個機制出現了衝突：

一方面，安全策略希望拒絕輸出違禁信息；
另一方面，語言模型自帶的語義、語法連貫性特徵強烈 “推動” 它把已寫到一半的句子補完。

這就像有一羣不同的 “專家” 在 Claude 體內博弈：一個強調安全，一個強調語法完整性。結果是，Claude 先在一句話的結尾 “無奈” 地輸出了部分不安全信息，隨後才意識到要拒絕，迅速在下一句給出一個安全合規的答覆：“However, I cannot provide detailed instructions...”

[圖片：典型 Jailbreak 場景下 Claude 的輸出過程示意]

八、對架構與工程的思考：可解釋性與系統設計

可解釋性是 AI 安全與信任的基礎
在系統的實際部署中，如何實時監控模型內部的思維過程、如何及時發現潛在的 “虛假推理”“越獄衝動” 以及 “有害偏見” 將是關鍵。對工程師而言，這意味着我們需要在系統架構中加入類似 “AI 顯微鏡” 的模塊，與其他防禦機制（如實時監控、模型特徵審查、外部審計工具等）相結合。
並行推理與 “深度特徵” 整合
Claude 多條計算路徑並行的事實告訴我們，LLM 的推理並非單線程的 “自頂向下” 過程，而是混合了多重部分策略。對於開發者來說，如果要定製或微調模型，也許需要考慮在內部特徵層面做適配，而不僅是修改輸出或提示。
未來：AI 輔助的自我剖析
Anthropic 也提到：當前的可解釋性方法仍有侷限，且花費極大（對於幾十字的簡單 Prompt 都要耗費數小時分析）。未來要想擴展到數千字乃至萬字級別的推理鏈，需要進一步提高方法與工具的自動化程度，甚至需要藉助 AI 輔助分析模型自身。

九、總結與展望

Anthropic 對 Claude 的 “生物學” 研究，爲我們揭示了當代大模型內部複雜又微妙的運行機制：它會預先規劃押韻、在多語言間共享概念、用並行路徑進行心算、結合多個事實來完成推理，並且在某些情形下會 “僞造” 鏈式思維。

對於以架構師、工程師爲代表的技術從業者而言，這些發現帶來的啓示包括：

模型在內部極具創造性與多樣性，不應以人類常規思維方式套用；
可解釋性技術將越來越重要，是確保安全、合規與可靠性的關鍵；
** 模型思維的 “顯微鏡”** 還需要進一步演進，才能匹配更大規模、更深層次的應用場景。

Anthropic 團隊在論文《Circuit tracing: Revealing computational graphs in language models》和《On the biology of a large language model》中，詳細介紹瞭如何構建這一 “AI 顯微鏡” 以及他們在 Claude 3.5 Haiku 等版本上進行的深度實證研究。

面對快速演化的 AI 技術，我們也需要更多類似的 “透明化” 研究，以確保模型的行爲對人類而言可控、可理解、值得信賴。這既是一個極具挑戰的前沿課題，也可能孕育未來的關鍵突破。

作者：anthropic

來源：https://www.anthropic.com/research/tracing-thoughts-language-model

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/MRBjALhjYlxporlua1ptkQ