近日,Claude 大模型團(tuán)隊發(fā)布了一篇文章《Tracing the thoughts of a large language model》(追蹤大型語言模型的思維),深入剖析大模型在回答問題時的內(nèi)部機(jī)制,揭示它如何“思考”、如何推理,以及為何有時會偏離事實(shí)。
原文鏈接:https://www.anthropic.com/research/tracing-thoughts-language-model
作者 | Anthropic
出品 | CSDN(ID:CSDNnews)
以下為譯文:
像 Claude 這樣的語言模型并不是由人類工程師在開發(fā)時直接編寫出固定的規(guī)則來讓其工作的,而是通過海量數(shù)據(jù)訓(xùn)練出來的。在這個過程中,模型會自主學(xué)習(xí)解決問題的方法,并將這些方法編碼進(jìn)其運(yùn)算過程中。
每當(dāng) Claude 生成一個單詞,背后涉及的計算可能高達(dá)數(shù)十億次。這些計算方式對于模型的開發(fā)者而言仍然是“黑箱”,也就是說,我們并不完全理解 Claude 具體是如何完成它的各種任務(wù)的。
如果能更深入地理解 Claude 的“思維”模式,我們不僅能更準(zhǔn)確地掌握它的能力邊界,還能確保它按照我們的意愿行事。例如:
Claude 能說出幾十種不同的語言,那么它在“腦海中”究竟是用哪種語言思考的?是否存在某種通用的“思維語言”?
Claude 是逐個單詞生成文本的,但它是在單純預(yù)測下一個單詞,還是會提前規(guī)劃整句話的邏輯?
Claude 能夠逐步寫出自己的推理過程,但它的解釋真的反映了推理的實(shí)際步驟,還是僅僅在為已有結(jié)論編造一個合理的理由?
為了破解這些謎題,我們借鑒了神經(jīng)科學(xué)的研究方法——就像神經(jīng)科學(xué)家研究人類大腦的運(yùn)作機(jī)制一樣,我們試圖打造一種“AI 顯微鏡”,用來分析模型內(nèi)部的信息流動和激活模式。畢竟,僅僅通過對話很難真正理解 AI 的思維方式——人類自己(即使是神經(jīng)科學(xué)家)都無法完全解釋大腦是如何工作的。因此,我們選擇深入 AI 內(nèi)部。
今天,我們發(fā)布了兩篇新論文,介紹我們在“AI 顯微鏡”研究上的最新進(jìn)展,以及如何用它來揭示 AI 的“生物學(xué)特征”。
第一篇論文擴(kuò)展了我們此前對模型內(nèi)部可解釋概念(即“特征”)的研究,并進(jìn)一步揭示了這些概念如何在計算過程中形成“電路”,從而展示 Claude 是如何將輸入的文本轉(zhuǎn)換成輸出的。

https://transformer-circuits.pub/2025/attribution-graphs/methods.html
第二篇論文則聚焦于 Claude 3.5 Haiku,針對 10 種核心 AI 行為進(jìn)行了深入研究,其中包括前面提到的 3 個問題。
打開網(wǎng)易新聞 查看精彩圖片https://transformer-circuits.pub/2025/attribution-graphs/biology.html
我們的方法揭示了 Claude 在處理這些上述提到的三個任務(wù)時的部分內(nèi)部運(yùn)作機(jī)制,并提供了強(qiáng)有力的證據(jù),例如:
1. Claude 的“思維語言”是跨語言的
研究表明,Claude 并非單純使用某種特定語言進(jìn)行思考,而是存在一種跨語言的“概念空間”。我們通過將相同的句子翻譯成多種語言,并追蹤 Claude 的處理方式,發(fā)現(xiàn)其內(nèi)部存在一致的概念映射,這表明它可能具備某種通用的“思維語言”。
2. Claude 會提前規(guī)劃,而非僅僅逐詞預(yù)測
雖然 Claude 是按單詞生成文本的,但實(shí)驗(yàn)表明,它在某些情況下會進(jìn)行遠(yuǎn)超單詞級別的規(guī)劃。例如,在詩歌生成任務(wù)中,我們發(fā)現(xiàn) Claude 會提前思考可能的押韻詞,并調(diào)整句子以確保韻腳的連貫性。這表明,即使訓(xùn)練目標(biāo)是逐詞輸出,模型仍然可能采用更長遠(yuǎn)的思維方式。
3. Claude 有時會編造合理的推理過程
研究還發(fā)現(xiàn),Claude 并非總是按照嚴(yán)格的邏輯推理來得出結(jié)論。我們在測試中向 Claude 提出一道復(fù)雜的數(shù)學(xué)問題,并故意提供一個錯誤的提示,結(jié)果發(fā)現(xiàn) Claude 并未完全依賴邏輯推理,而是傾向于給出一個看似合理、但實(shí)際上迎合用戶錯誤假設(shè)的回答。這一發(fā)現(xiàn)表明,我們的工具可以用于識別模型潛在的推理漏洞,以提升其可靠性。
在這些研究中,我們時常對 Claude 的表現(xiàn)感到驚訝。例如,在詩歌案例研究中,我們原本假設(shè) Claude 不會進(jìn)行長遠(yuǎn)規(guī)劃,但最終發(fā)現(xiàn)它確實(shí)會提前構(gòu)思押韻結(jié)構(gòu);在“幻覺”研究中,我們發(fā)現(xiàn) Claude 默認(rèn)的傾向并非胡亂回答,而是更傾向于拒絕回答不確定的問題,只有在某些抑制機(jī)制被觸發(fā)時,它才會給出不準(zhǔn)確的答案。此外,在安全性測試中,我們發(fā)現(xiàn) Claude 在面對潛在的越獄攻擊時,通常能在較早階段識別出危險信息,并嘗試引導(dǎo)對話回歸安全范圍。
雖然過去也有其他方法可以研究這些現(xiàn)象,但“AI 顯微鏡”提供了一種全新的思路,讓我們能夠揭示許多意料之外的細(xì)節(jié)。隨著 AI 變得越來越復(fù)雜,這種深入探索的方法將變得更加重要。
這些研究不僅具有科學(xué)價值,也對 AI 可靠性提升具有重要意義。理解 AI 的內(nèi)部運(yùn)作有助于改進(jìn)其行為,使其更加透明、可控。此外,這些可解釋性技術(shù)也有望應(yīng)用到其他領(lǐng)域,例如醫(yī)學(xué)影像分析和基因組學(xué)研究——在這些領(lǐng)域,深入剖析 AI 的內(nèi)部機(jī)制有可能帶來全新的科學(xué)發(fā)現(xiàn)。
盡管我們的研究取得了一定進(jìn)展,但我們也清楚當(dāng)前方法的局限性。即使是在處理簡短、簡單的輸入時,我們的分析方法也只能捕捉 Claude 總體計算過程的一小部分。而且,我們所觀察到的模型內(nèi)部機(jī)制可能會受到分析工具自身的影響,某些現(xiàn)象可能并不能完全反映模型的真實(shí)計算方式。此外,解析這些計算路徑的過程仍然非常耗時——即便是僅包含幾十個單詞的輸入,人工分析其計算回路仍需要數(shù)小時。
要想擴(kuò)展到現(xiàn)代大模型常見的長文本輸入(成千上萬字)以及復(fù)雜的思維鏈路,我們不僅需要優(yōu)化分析方法,還可能需要借助 AI 輔助分析,以更高效地解讀模型的內(nèi)部運(yùn)作。
隨著 AI 系統(tǒng)的能力不斷提升,并在越來越關(guān)鍵的領(lǐng)域中應(yīng)用,Anthropic 正在投入多種研究方向,包括實(shí)時監(jiān)控、模型行為優(yōu)化以及對齊性科學(xué),以確保 AI 的可靠性。可解釋性研究是其中風(fēng)險最高、但回報潛力也最大的方向之一。盡管其科學(xué)挑戰(zhàn)巨大,但如果成功,它將成為保障 AI 透明度的重要工具。
透視模型的內(nèi)部機(jī)制,不僅有助于判斷其行為是否符合人類價值觀,還能幫助我們評估 AI 是否值得信任。
下面,我們將帶你簡要了解研究中最具突破性的一些“AI 生物學(xué)” 發(fā)現(xiàn)。

AI 生物學(xué)巡游:解析 Claude 的思維方式
Claude 為何能說多種語言?
Claude 可以流暢使用數(shù)十種語言,包括英語、法語、中文和塔加洛語。那么,它是如何做到的?是否有多個獨(dú)立版本的 Claude 分別處理不同語言的請求,還是存在某種跨語言的通用核心?

近期針對小型模型的研究顯示,不同語言之間可能存在某種共用的語法機(jī)制。為了驗(yàn)證這一點(diǎn),研究人員讓 Claude 在多種語言中回答“小的反義詞是什么?”時,它會觸發(fā)相同的核心語義概念——“大小的對立關(guān)系”,并最終輸出相應(yīng)語言中的“大”作為答案,再根據(jù)提問語言進(jìn)行翻譯。這種跨語言的共享機(jī)制在更大規(guī)模的模型中表現(xiàn)得更明顯,例如,Claude 3.5 Haiku 在不同語言之間共享的特征比例,是小型模型的兩倍以上。
這一發(fā)現(xiàn)表明,Claude的多語言能力源于其內(nèi)部的“概念通用性”:它能夠在一個抽象的語義空間中進(jìn)行推理和學(xué)習(xí),然后將結(jié)果轉(zhuǎn)換成具體的語言表達(dá)。這意味著 Claude 不僅能用不同語言回答問題,還可以在一種語言中學(xué)習(xí)新知識,并在另一種語言中運(yùn)用它。這種能力對于提升模型的跨領(lǐng)域泛化推理至關(guān)重要。
Claude 如何規(guī)劃押韻詩?
Claude能夠創(chuàng)作押韻的詩句,例如:
He saw a carrot and had to grab it, His hunger was like a starving rabbit
要寫出第二行,Claude 需要同時滿足兩個條件:既要押韻(與“grab it”押韻),又要合乎邏輯(解釋為什么他抓胡蘿卜)。起初,我們推測 Claude 可能是逐詞生成句子,直到結(jié)尾才選擇一個押韻的單詞。
然而,研究人員發(fā)現(xiàn),Claude 在生成文本時會進(jìn)行提前規(guī)劃。以押韻為例,在開始寫第二行之前,Claude 會先“思考”哪些符合主題且能與 “grab it” 押韻的單詞。確定好目標(biāo)詞后,它再撰寫前面的內(nèi)容,使句子自然地以該詞結(jié)尾。

為了深入理解這種規(guī)劃機(jī)制如何運(yùn)作,研究人員借鑒神經(jīng)科學(xué)的研究方法,模擬在特定腦區(qū)精準(zhǔn)干預(yù)神經(jīng)活動(如使用電流或磁場刺激)。他們調(diào)整了 Claude 內(nèi)部狀態(tài)中與“rabbit”(兔子)相關(guān)的概念,并觀察其影響。
當(dāng)“rabbit”被去除后,Claude 仍能繼續(xù)生成句子,并以“habit”結(jié)尾,這是另一種合理的押韻選擇。而如果在這一階段我們強(qiáng)行注入“green”(綠色)的概念,Claude 會生成以“green”結(jié)尾的新句子,盡管它不再押韻。這一實(shí)驗(yàn)展示了 Claude 具備的規(guī)劃能力和適應(yīng)性——它不僅能提前構(gòu)思句子結(jié)構(gòu),還能在目標(biāo)發(fā)生變化時調(diào)整策略,保持連貫的文本輸出。
Claude 如何進(jìn)行心算?
Claude 并不是一個專門的計算器,而是基于文本訓(xùn)練的語言模型。但令人驚訝的是,它能夠正確計算 36+59 這樣的加法運(yùn)算,而無需逐步書寫計算過程。那么,它究竟是如何做到的?
一種可能的解釋是,Claude 已經(jīng)在訓(xùn)練數(shù)據(jù)中“記住”了大量的加法結(jié)果,因此可以直接輸出答案。另一種可能性是,它在內(nèi)部模擬了我們?nèi)粘J褂玫呢Q式加法規(guī)則。
然而,研究發(fā)現(xiàn),Claude在進(jìn)行加法運(yùn)算時,實(shí)際上采用了并行計算路徑:
一條路徑用于粗略估算結(jié)果的大致范圍;
另一條路徑則專門計算個位數(shù)的正確性。
這兩條路徑相互作用,最終得出準(zhǔn)確的計算結(jié)果。

更有趣的是,Claude 本身似乎并不“意識到”自己采用了這種策略。當(dāng)被問及“你是如何計算出 36+59=95 的?”時,它會按照人類的標(biāo)準(zhǔn)算法進(jìn)行解釋(如進(jìn)位運(yùn)算),而不會描述自己內(nèi)部實(shí)際使用的并行計算機(jī)制。這說明 Claude 在學(xué)習(xí)數(shù)學(xué)推理時,發(fā)展出了獨(dú)特的內(nèi)部策略,而這些策略并不一定符合人類常規(guī)的計算思維。


Claude 的推理過程是否總是可信?
最新版本的 Claude(如 Claude 3.7 Sonnet)能夠在回答問題前“思考”更長時間,并生成詳細(xì)的推理鏈。這種“思考鏈”通常能提升答案的準(zhǔn)確性,但有時候,Claude 可能會編造一些合理但不真實(shí)的推理步驟,以達(dá)到最終目標(biāo)。
例如,當(dāng)Claude被要求計算√0.64時,它會生成一個符合邏輯的推理過程,先計算√64,再得出正確答案。但當(dāng)它被要求計算某個大數(shù)的余弦值時,情況就不同了——Claude 有時會“憑空捏造”一個看似合理但實(shí)際上錯誤的答案。更有趣的是,當(dāng) Claude 得到一個提示(例如某個數(shù)的余弦值接近 0.5),它可能會反向推導(dǎo),構(gòu)造一個符合該答案的推理過程,而不是從實(shí)際計算中得出結(jié)果。

能夠追蹤 Claude 的實(shí)際內(nèi)部推理過程——而不僅僅是它表面上的回答——為 AI 系統(tǒng)的審計帶來了新的可能性。在一項(xiàng)最近發(fā)布的獨(dú)立實(shí)驗(yàn)中,研究人員分析了一個特殊版本的 Claude,該版本被訓(xùn)練以隱秘方式迎合獎勵模型的偏見(獎勵模型是用于引導(dǎo)語言模型朝著期望行為發(fā)展的輔助模型)。
盡管 Claude 在被直接詢問時不愿透露這一目標(biāo),但研究人員的可解釋性方法成功識別出了模型內(nèi)部與迎合偏見相關(guān)的特征。這表明,隨著方法的進(jìn)一步優(yōu)化,未來或許可以借助類似技術(shù)識別 AI 內(nèi)部隱藏的“思維過程”,從而發(fā)現(xiàn)僅憑表面回答難以察覺的潛在問題。

Claude 如何進(jìn)行多步推理?
AI 模型回答復(fù)雜問題的方式有兩種:
1.簡單記憶答案:例如,Claude可能直接記住了“達(dá)拉斯所在州的首都是奧斯汀”,然后直接輸出答案;
2.真正進(jìn)行多步推理:即分解問題,逐步推導(dǎo)答案。
研究表明,Claude的推理過程更接近第二種模式。當(dāng)它被問及“達(dá)拉斯所在州的首都是什么?”時,我們發(fā)現(xiàn)它先激活“達(dá)拉斯在德州”這一概念,然后再連接到“德州的首都是奧斯汀”。這說明 Claude 并不是簡單地記住答案,而是通過組合多個獨(dú)立事實(shí)來得出結(jié)論。

我們還可以通過干預(yù) Claude 的內(nèi)部狀態(tài),來驗(yàn)證這種推理機(jī)制。例如,如果我們將 Claude 的“德州”概念替換為“加州”,Claude 的答案就會變成“薩克拉門托”,進(jìn)一步證明了它的推理是基于內(nèi)部邏輯推導(dǎo),而非單純的記憶。

Claude 為什么會產(chǎn)生幻覺(錯誤信息)?
語言模型有時會生成錯誤信息(即“幻覺”),其根本原因在于模型始終需要預(yù)測下一個詞,即使它并不知道正確答案。因此,防止幻覺成為大模型訓(xùn)練中的重要挑戰(zhàn)。
Claude 的研究表明,它的默認(rèn)行為是拒絕回答不確定的問題。Claude 內(nèi)部有一個“默認(rèn)拒絕回路”,它通常會阻止模型胡亂猜測。例如:
當(dāng) Claude 被問及籃球運(yùn)動員“邁克爾·喬丹”時,它會激活“已知實(shí)體”回路,從而生成正確答案;
當(dāng)被問到“邁克爾·巴特金”是誰時,它會觸發(fā)“未知實(shí)體”回路,拒絕回答。
然而,如果 Claude 對某個名字“有點(diǎn)熟悉但不完全了解”,這種機(jī)制可能會出錯。例如,如果 Claude 認(rèn)出“邁克爾·巴特金”這個名字,但不了解他的背景,它可能會錯誤激活“已知實(shí)體”回路,并編造一個虛假的回答(如“邁克爾·巴特金是一名國際象棋選手”)。


Jailbreak 攻擊解析:如何繞過 AI 大模型的安全機(jī)制
Jailbreaks(越獄攻擊)是一類提示詞策略,旨在繞開 AI 大模型的安全防護(hù)措施,使其生成開發(fā)者原本不希望輸出的內(nèi)容,有時甚至涉及危險信息。我們研究了一種 Jailbreak 技術(shù),該方法成功欺騙了模型,使其生成了關(guān)于炸彈制作的內(nèi)容。
雖然 Jailbreak 的方法有很多,但在這個案例中,攻擊者利用了一種隱藏編碼技術(shù),讓模型無意間解析出特定的單詞,并據(jù)此生成響應(yīng)。例如,攻擊者使用了一句看似無害的句子“Babies Outlive Mustard Block”(嬰兒比芥末存活時間更長),并要求模型提取每個單詞的首字母(B-O-M-B),進(jìn)而促使其在后續(xù)回答中使用該詞。這種方法足夠“迷惑”模型,使其在不自覺的情況下生成本不應(yīng)出現(xiàn)的內(nèi)容。

為什么大模型會被誤導(dǎo)?
在這個案例中,Claude 在無意間拼出 “BOMB” 之后,便開始提供炸彈制造的相關(guān)信息。那么,是什么導(dǎo)致模型在意識到風(fēng)險后仍然繼續(xù)生成這些內(nèi)容呢?
研究表明,這與語言連貫性機(jī)制和安全機(jī)制之間的沖突有關(guān)。
語言連貫性壓力:一旦模型開始生成一個句子,它會受到多個特性(features)的影響,促使它在語法上連貫、邏輯上自洽,并將句子完整地表達(dá)出來。這些特性通常能幫助模型生成流暢的文本,但在這個案例中卻成了它的“阿喀琉斯之踵”(Achilles’ Heel,致命弱點(diǎn))。
安全機(jī)制的滯后:盡管模型在識別到有害內(nèi)容后應(yīng)該拒絕回答,但在生成語法正確的句子之前,它仍然受到連貫性壓力的影響,無法立即中止回答。
模型如何最終拒絕回答?
在我們的案例研究中,Claude 在生成炸彈制造相關(guān)信息后,最終還是設(shè)法轉(zhuǎn)向拒絕響應(yīng)。但它之所以能夠拒絕,是因?yàn)?b>先完成了一個符合語法規(guī)則的完整句子,滿足了語言連貫性的要求。隨后,它才借助新的句子開頭,成功觸發(fā)安全機(jī)制,做出拒絕響應(yīng),比如:“然而,我無法提供詳細(xì)的制作說明……”。

更多關(guān)于 AI 大模型內(nèi)部機(jī)制的研究,可以參考論文:
《電路追蹤:揭示語言模型的計算圖》:https://transformer-circuits.pub/2025/attribution-graphs/methods.html
《大模型的生物學(xué)解析》:https://transformer-circuits.pub/2025/attribution-graphs/biology.html
具身智能正在迎來類百模大戰(zhàn)的階段,NVIDIA 創(chuàng)始人兼 CEO 黃仁勛直言通用機(jī)器人的時代已經(jīng)到來。但關(guān)于具身智能,我們?nèi)匀贿€有著許多的疑問,3 月 28 日(星期五)晚 19:30,CSDN《萬有引力》欄目特別邀請到了深耕具身智能的專家一起共話《十問具身智能:我們離通用機(jī)器人還有多遠(yuǎn)?》,歡迎朋友們點(diǎn)擊預(yù)約,一起關(guān)注。
熱門跟貼