Claude“大腦” 被 Anthropic 扒開了: 讓我們一起看看 TA 是如何思考的~~
隨着大語言模型(LLM)在各行各業的應用不斷加深,人們對於它們是如何 “思考” 的興趣也與日俱增。Anthropic 最新發布的兩篇論文,爲我們提供了一把近似 “顯微鏡” 的工具,幫助我們真正“窺探”Claude 在內部如何運轉、規劃和推理。對從事技術架構、工程實現的專業人員而言,理解這些發現不僅能帶來理論層面的啓示,也能爲構建更可靠、更透明的 AI 系統提供思路。
一、模型思維的 “顯微鏡”:爲什麼要看 Claude 的內部?
在傳統的使用場景中,我們往往只能 “問答” 語言模型,卻難以直接瞭解它是如何在內部做出決策的。這就像我們和一位複雜的軟件系統交互,只能觀察它的輸入輸出,而難以追蹤關鍵的中間過程。
二、Claude 是如何實現多語言的?
Anthropic 團隊關注的第一個問題是:“Claude 能夠流利使用幾十種語言,是如何做到的?”
-
跨語言的核心表示
研究顯示,Claude 的多語言能力並非簡單地在內部劃分成 “英文 Claude”、“法文 Claude”、“中文 Claude” 等獨立模塊;相反,它在內部擁有可供多語言共享的概念特徵,類似於一個 “通用思維語言”。當用戶請求小的反義詞時,Claude 都會在內部激活表示“小” 和“反義”的核心特徵,然後將 “大的概念” 翻譯成相應語言輸出。隨着模型規模的增長,這種跨語言的共享特徵會變得更普遍、更強大。 -
啓示:跨領域的知識遷移
對工程師而言,這意味着只要在某一語言或領域中學到的概念,也能被 Claude 用在其他語言或場景中——即知識遷移的潛力非常可觀。這種跨語言共享機制可能在國際化應用、跨語言信息檢索、甚至多模態融合(語言與圖像、語音等)領域大有用武之地。
三、Claude 的押韻詩:模型會提前 “謀篇佈局”
1. 原本猜想:逐詞輸出、最後一秒才押韻
在語言模型生成詩歌時,很多人直覺上會認爲模型是 “走一步看一步”,直到行尾才考慮壓上恰當的韻腳。但 Anthropic 的研究發現,Claude 的實際做法遠比想象中更復雜。
2. 實際發現:模型預先規劃
在寫出第一句後,Claude 會 “提前思考” 與第一句能押韻的候選詞彙,並在內部特徵上提前做出選擇,再圍繞這個候選韻腳生成之後的整行詩句。從工程角度講,這體現了模型的長程依賴能力:它不只是關注下一個詞,而是能夠預先指定目標、然後將整個序列的生成導向該目標。
3. 實驗:抑制或注入概念,看模型如何改口
研究人員通過在 Claude 的內部抑制 “rabbit(兔子)” 概念後,Claude 會改用另一個能押韻的 “habit” 等詞結尾;如果注入一個並不押韻的 “green” 概念,Claude 又會自然地調整結果,讓詩句以 “green” 結尾。
這種靈活性對於生成式任務(如詩歌、腳本、文案等)十分關鍵,也展現出 LLM 在內容創作層面的適應度。
[圖片:Claude 押韻詩的內部規劃示意]
四、Claude 的心算策略:並行計算路徑與 “無意識” 算法
1. 多條計算路徑並行
在原文的案例中,研究人員讓 Claude 計算 36+59 之類的加法。結果發現,它在內部並不是採用我們熟悉的 “進位加法” 手動算式,而是出現了多條並行計算路徑:
-
一條路徑負責大致估算;
-
另一條路徑關注精確的數值,例如最後一位該是多少;
-
最終通過結合這些路徑輸出正確結果。
2. “不知其所以然” 的內部策略
值得注意的是,Claude 並沒有顯式地知道自己在使用哪種算法:當你詢問它是如何得出答案時,它往往給出一個表面上看似 “標準算法” 的解釋,但從它的內部特徵上並未出現真正的 “手動進位加法” 痕跡。
這對開發者的啓示在於,模型可以用一種對人類而言 “非直覺” 的方式完成計算或推理。如果我們僅僅看它的回答過程描述,很容易被誤導;但通過 interpretability 工具,我們才能察覺到真實的計算路徑。
[圖片:Claude 並行心算路徑示意]
五、Claude 的多步推理:不是純 “記憶” 而是連接概念
1. 從 “州府問題” 說起
一個常見的測試題是 “達拉斯所在州的首府是什麼?”。如果模型只是簡單地通過記憶匹配,“見到達拉斯就輸出奧斯汀”,那麼它的回答實際上並不具備推理深度。
2. 研究結論:激活並連接概念
在對 Claude 的內部特徵進行追蹤後,研究人員發現它會先喚起 “達拉斯位於德克薩斯州” 的概念特徵,然後再接續到 “德克薩斯州的首府是奧斯汀” 這一概念——在內部連接了兩個獨立事實,最後輸出“奧斯汀”。
更有趣的是,當在模型中途對概念做干預,把 “德克薩斯州” 替換成 “加利福尼亞州” 時,Claude 的輸出會變成“薩克拉門託”,這說明模型確實使用了中間推理步驟,而非純粹依賴 “問題 - 答案” 的簡單映射。
[圖片:Claude 多步推理的概念連接示意]
六、Claude 的幻覺:爲何會 “編造”?
1. 默認拒絕 vs. 已知實體激活
Anthropic 還研究了模型 “幻覺” 現象(即它在缺乏真實信息時胡亂捏造回答)的成因。出乎意料的是,Claude 的默認反應竟是 “拒絕回答”。當它識別到用戶詢問的事物是 “已知實體” 時,會激活 “已知答案” 特徵,從而抑制默認拒絕電路並給出回答;否則,它通常會選擇拒絕。
2. 如何導致 “幻覺”
當 Claude 錯誤地激活了 “已知實體” 特徵,卻其實並不知道答案時,就會開始胡編亂造,給出 “表面合理、實則錯誤” 的信息。科研人員甚至可以通過刻意干預,讓 Claude 產生一致性的“幻覺”,如聲稱某個不存在的人物是個國際象棋選手等等。
[圖片:Claude 對已知實體和未知實體的不同回答,可通過干預觸發幻覺]
七、Jailbreak 與安全機制:當語法完整性與安全衝突時
研究團隊還探討了讓模型 “越獄”(jailbreak)的場景。例如,利用巧妙提示讓 Claude 逐字拼出 “BOMB”(炸彈)並隨後提供製造炸彈的指令。在這個過程中,Claude 內部多個機制出現了衝突:
-
一方面,安全策略希望拒絕輸出違禁信息;
-
另一方面,語言模型自帶的語義、語法連貫性特徵強烈 “推動” 它把已寫到一半的句子補完。
這就像有一羣不同的 “專家” 在 Claude 體內博弈:一個強調安全,一個強調語法完整性。結果是,Claude 先在一句話的結尾 “無奈” 地輸出了部分不安全信息,隨後才意識到要拒絕,迅速在下一句給出一個安全合規的答覆:“However, I cannot provide detailed instructions...”
[圖片:典型 Jailbreak 場景下 Claude 的輸出過程示意]
八、對架構與工程的思考:可解釋性與系統設計
-
可解釋性是 AI 安全與信任的基礎
在系統的實際部署中,如何實時監控模型內部的思維過程、如何及時發現潛在的 “虛假推理”“越獄衝動” 以及 “有害偏見” 將是關鍵。對工程師而言,這意味着我們需要在系統架構中加入類似 “AI 顯微鏡” 的模塊,與其他防禦機制(如實時監控、模型特徵審查、外部審計工具等)相結合。 -
並行推理與 “深度特徵” 整合
Claude 多條計算路徑並行的事實告訴我們,LLM 的推理並非單線程的 “自頂向下” 過程,而是混合了多重部分策略。對於開發者來說,如果要定製或微調模型,也許需要考慮在內部特徵層面做適配,而不僅是修改輸出或提示。 -
未來:AI 輔助的自我剖析
Anthropic 也提到:當前的可解釋性方法仍有侷限,且花費極大(對於幾十字的簡單 Prompt 都要耗費數小時分析)。未來要想擴展到數千字乃至萬字級別的推理鏈,需要進一步提高方法與工具的自動化程度,甚至需要藉助 AI 輔助分析模型自身。
九、總結與展望
Anthropic 對 Claude 的 “生物學” 研究,爲我們揭示了當代大模型內部複雜又微妙的運行機制:它會預先規劃押韻、在多語言間共享概念、用並行路徑進行心算、結合多個事實來完成推理,並且在某些情形下會 “僞造” 鏈式思維。
對於以架構師、工程師爲代表的技術從業者而言,這些發現帶來的啓示包括:
-
模型在內部極具創造性與多樣性,不應以人類常規思維方式套用;
-
可解釋性技術將越來越重要,是確保安全、合規與可靠性的關鍵;
-
** 模型思維的 “顯微鏡”** 還需要進一步演進,才能匹配更大規模、更深層次的應用場景。
Anthropic 團隊在論文《Circuit tracing: Revealing computational graphs in language models》和《On the biology of a large language model》中,詳細介紹瞭如何構建這一 “AI 顯微鏡” 以及他們在 Claude 3.5 Haiku 等版本上進行的深度實證研究。
面對快速演化的 AI 技術,我們也需要更多類似的 “透明化” 研究,以確保模型的行爲對人類而言可控、可理解、值得信賴。這既是一個極具挑戰的前沿課題,也可能孕育未來的關鍵突破。
作者:anthropic
來源:https://www.anthropic.com/research/tracing-thoughts-language-model
本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源:https://mp.weixin.qq.com/s/MRBjALhjYlxporlua1ptkQ