打開網(wǎng)易新聞 查看精彩圖片

揭示語言模型行為潛在機(jī)制的方法。

作者丨梁丙鑒、洪雨欣

編輯丨陳彩嫻

語言模型怎么“知道”喬丹是籃球運(yùn)動員的?

近日,Anthropic 通過構(gòu)建歸因圖呈現(xiàn)了語言模型處理這一問題時的底層機(jī)制。由下圖可以看到,對于"Fact: Michael Jordan plays the sport of __"的輸入,模型輸出的第一條路徑源自"plays"和"sport"詞元,它們激活了"sport"與"輸出運(yùn)動項目"特征,進(jìn)而提升了籃球、足球等運(yùn)動項目的邏輯輸出值。第二條路徑源自"Michael Jordan及其他名人"特征,這些特征與籃球邏輯輸出呈正相關(guān),與足球邏輯輸出呈負(fù)相關(guān)。除序列路徑外,"Michael Jordan"和"sport/game of"等特征組還通過直接邊連接至籃球邏輯輸出,三條路徑的共同作用使模型最終在劃線處填上了"basketball"。

打開網(wǎng)易新聞 查看精彩圖片

上述成果出自Anthropic團(tuán)隊于3月27日發(fā)布的一種揭示語言模型行為底層機(jī)制的研究方法。該方法包括兩步,首先,將特征作為識別模型計算中使用的可解釋基礎(chǔ)單元。其次,描述這些特征如何通過過程或回路相互作用以產(chǎn)生模型輸出。有別于此前的研究方案,Anthropic基于稀疏編碼特征構(gòu)建

深度學(xué)習(xí)模型通過分布在眾多人工"神經(jīng)元"上的一系列變換來生成輸出,此前的研究思路是在第一步中直接使用模型的原始神經(jīng)元作為基礎(chǔ)單元。然而,由于模型需要表征的概念數(shù)量超過其神經(jīng)元數(shù)量,導(dǎo)致模型神經(jīng)元往往具有多義性,同時表征多個不相關(guān)概念的混合。由此,神經(jīng)元作為基礎(chǔ)計算單元與有意義概念之間的不匹配,成為機(jī)制解釋性研究的主要障礙。

Anthropic這一全新的研究方法將有助于用人類可理解的語言描述發(fā)生在語言模型內(nèi)部的變換過程,提高模型輸出的可解釋性。Anthropic開發(fā)了配套的可視化和驗(yàn)證工具集,成功解析了18層語言模型簡單行為的"歸因圖譜",并為應(yīng)用該方法研究前沿模型Claude 3.5 Haiku奠定了基礎(chǔ)。

1

建立可解釋的替換模型

替換模型的核心架構(gòu)是跨層轉(zhuǎn)碼器(cross-layer transcoder ),由作為神經(jīng)元的“特征”組成。這些神經(jīng)元被分為L層,與底層模型的層數(shù)相同,此舉目標(biāo)在于使用稀疏激活的特征來重建底層模型的MLP輸出。換言之,每一層的 MLP 輸出被其對應(yīng)的 CLT 重建結(jié)果所替換。這些特征從模型殘差流的關(guān)聯(lián)層接收輸入,但可以向所有后續(xù)層提供輸出,因而有“跨層”之稱。

打開網(wǎng)易新聞 查看精彩圖片

據(jù)Anthropic評估,替換模型與底層模型在標(biāo)記輸出上的匹配程度隨模型規(guī)模的增加而提高,且與每層單獨(dú)訓(xùn)練標(biāo)準(zhǔn)單層轉(zhuǎn)碼器的逐層轉(zhuǎn)碼器基線相比,CLT方法表現(xiàn)更佳。同時Anthropic通過調(diào)整神經(jīng)元激活閾值發(fā)現(xiàn),實(shí)證中神經(jīng)元激活值越高,其可解釋性越強(qiáng)。Anthropic最大的18層CLT模型在開源數(shù)據(jù)集提供的多樣化預(yù)訓(xùn)練風(fēng)格提示樣本中,在50%的情況下能復(fù)現(xiàn)基礎(chǔ)模型的next-token補(bǔ)全結(jié)果。

雖然運(yùn)行替換模型有時可以重現(xiàn)與底層模型相同的輸出,但仍然存在很大差距,并且重構(gòu)誤差可能會跨層疊加。由于我們最終有興趣了解底層模型,因此我們希望盡可能接近它。為此,在研究固定提示時,我們構(gòu)建了一個局部替換模型,

  • 用 CLT 替代 MLP 層(如在替換模型中)

  • 使用底層模型前向傳遞中的注意模式和規(guī)范化分母

  • 在每個(token 位置,層)對的 CLT 輸出中添加一個誤差調(diào)整,該誤差調(diào)整等于 并且 CLT 輸出

在進(jìn)行誤差調(diào)整、注意力和規(guī)范化非線性凍結(jié)之后,我們有效地重寫了提示中底層模型的計算就不同的基本單位而言;所有經(jīng)過誤差修正的替代模型的激活和邏輯輸出都與底層模型的激活和邏輯輸出完全匹配。

局部替換模型可以看作是一個非常大的全連接神經(jīng)網(wǎng)絡(luò),跨越多個 token,我們可以在其上進(jìn)行經(jīng)典的電路分析:

  • 它的輸入是提示中每個標(biāo)記的連接在一起的獨(dú)熱向量集。

  • 它的神經(jīng)元是每個標(biāo)記位置上活躍的 CLT 特征的聯(lián)合。

  • 其權(quán)重是從一個特征到另一個特征的所有線性路徑上的交互總和,包括通過殘差流和注意,但不通過 MLP 或 CLT 層。由于注意模式和規(guī)范化分母是固定的,因此源特征的激活對目標(biāo)特征通過每條路徑的預(yù)激活的影響在源特征的激活中是線性的。我們有時將它們稱為“虛擬權(quán)重”,因?yàn)樗鼈兾丛诘讓幽P椭袑?shí)例化。

  • 此外,它具有與誤差項相對應(yīng)的偏差類節(jié)點(diǎn),每個偏差都與模型中的每個下游神經(jīng)元相連。

局部替換模型中唯一的非線性是應(yīng)用于特征預(yù)激活的非線性。

局部替換模型是我們的歸因圖的基礎(chǔ),我們在其中研究局部替換模型在其所針對的提示上的特征-特征交互。

2

構(gòu)建歸因圖

我們將通過一個關(guān)于模型生成任意標(biāo)題首字母縮寫的案例研究,介紹構(gòu)建歸因圖的方法。在此示例中,模型成功補(bǔ)全了一個虛構(gòu)的首

我們通過構(gòu)建歸因圖解釋模型輸出"DAG"詞元的計算過程。該圖展示了信息從提示語經(jīng)過中間特征流向輸出的路徑。下方展示了完整歸因圖的簡化示意圖:提示語位于底部,模型補(bǔ)全結(jié)果位于頂部。方框表示相似特征的組合,懸??刹榭锤魈卣鞯目梢暬<^表示特征組或詞元對其他特征及輸出邏輯值的直接影響。

打開網(wǎng)易新聞 查看精彩圖片

縮寫的提示詞圖展示了三條主要路徑,分別從組成目標(biāo)縮寫的每個標(biāo)記開始。這些路徑從特定單詞的特征出發(fā),促進(jìn)“在正確位置說出該單詞首字母”的特征。除了這些順序路徑外,像“Michael Jordan”和“sport/game of”這樣的特征組還有直接連接到籃球?qū)?shù)幾率的邊,這代表僅通過注意力頭OVs介導(dǎo)的效果,與Batson等人的發(fā)現(xiàn)一致。

為了輸出“DAG”,模型還需要決定輸出一個縮寫,并考慮到提示詞中已經(jīng)包含N,我們確實(shí)看到了“在縮寫中”和“在縮寫開頭的N”特征對對數(shù)幾率有正向影響。National一詞對對數(shù)幾率的影響很小。我們推測這是由于其主要貢獻(xiàn)是通過影響注意力模式,而我們的方法并未解釋這一點(diǎn)。

針對提示構(gòu)建歸因圖

為解釋局部替換模型的計算過程,我們構(gòu)建了因果圖以描述其在特定提示下的計算步驟序列。構(gòu)建邏輯與Dunefsky等人的方法基本一致,但擴(kuò)展支持跨層轉(zhuǎn)碼器。圖中包含四類節(jié)點(diǎn):

實(shí)踐中,我們使用反向Jacobian矩陣高效計算這些權(quán)重。

需注意:

  1. 圖中不包含節(jié)點(diǎn)通過影響注意力模式對其他節(jié)點(diǎn)的作用,但包含通過凍結(jié)注意力輸出產(chǎn)生的節(jié)點(diǎn)間影響。

  2. 跨層特征的輸出邊聚合了其在所有寫入層對下游特征的解碼效應(yīng)。

盡管替換模型特征稀疏激活(每個詞元位置約百個活躍特征),歸因圖仍過于龐大(短提示下邊數(shù)可達(dá)百萬級)。但關(guān)鍵路徑通常集中于小子圖。為此,我們采用剪枝算法保留對邏輯節(jié)點(diǎn)有顯著直接/間接影響的節(jié)點(diǎn)和邊。默認(rèn)參數(shù)下,節(jié)點(diǎn)數(shù)減少10倍時,僅損失20%的行為解釋力。

從歸因圖中學(xué)習(xí)

即使在剪枝之后,歸因圖仍然包含大量的信息。一個剪枝后的圖通常包含數(shù)百個節(jié)點(diǎn)和數(shù)萬條邊——信息量太大,無法一次性解讀。為了幫助我們應(yīng)對這種復(fù)雜性,我們開發(fā)了一個交互式歸因圖可視化界面。該界面旨在實(shí)現(xiàn)“追蹤”圖中的關(guān)鍵路徑,保留重新訪問之前探索過的節(jié)點(diǎn)和路徑的能力,并根據(jù)需要提供解釋特征所需的信息。

打開網(wǎng)易新聞 查看精彩圖片

該界面是交互式的。可以將鼠標(biāo)懸停在節(jié)點(diǎn)上并點(diǎn)擊以顯示附加信息。還可以通過使用命令/控制鍵+點(diǎn)擊來選擇一組節(jié)點(diǎn),從而構(gòu)建子圖。在子圖中,特征可以被聚合到我們稱之為超節(jié)點(diǎn)的組中。

打開網(wǎng)易新聞 查看精彩圖片

特征理解與標(biāo)注

我們采用與前期工作規(guī)?;瘑瘟x性(Scaling Monosemanticity)相似的特征可視化方法,對圖中各特征進(jìn)行人工解釋與標(biāo)注。

最易標(biāo)注的特征包括兩類:

  1. 輸入特征:常見于模型淺層,在特定詞元或緊密相關(guān)詞元類別上激活;

  2. 輸出特征:常見于模型深層,通過促進(jìn)特定詞元或相關(guān)詞元類別的延續(xù)來引導(dǎo)響應(yīng)生成。

模型中間層則普遍存在抽象特征,其標(biāo)注難度較高。對此類特征,我們綜合以下維度進(jìn)行推斷:

研究發(fā)現(xiàn),即使特征標(biāo)注存在不完美之處,仍能有效揭示歸因圖中的顯著結(jié)構(gòu)。

在進(jìn)行誤差調(diào)整并凍結(jié)注意力機(jī)制與歸一化非線性操作后,Anthropic以不同的基礎(chǔ)計算單元重構(gòu)了底層模型在固定prompt p上的計算過程。此時的替換模型經(jīng)過誤差校正,所有激活值和邏輯輸出均與底層模型完全一致。Anthropic指出,本地替換模型可以被視作一個非常大的全連接神經(jīng)網(wǎng)絡(luò),并在其上進(jìn)行經(jīng)典的回路分析。

Anthropic針對本地替換模型構(gòu)建時所依據(jù)的特定提示,研究其特征間的交互作用,在此基礎(chǔ)上構(gòu)建了解釋語言模型行為底層機(jī)制的歸因圖。

以模型為任意標(biāo)題生成縮寫的任務(wù)為例,在Anthropic展示的案例中,研究人員向模型提供提示詞“The National Digital Analytics Group (N”,并采樣其完成的輸出“DAG”。Anthropic通過構(gòu)建一個歸因圖來解釋模型如何輸出“DAG”標(biāo)記,下圖是完整歸因圖的簡化版。圖中底部是提示詞,頂部是模型的完成輸出。方框代表一組相似的特征,箭頭表示一組特征或標(biāo)記對其他特征和輸出對數(shù)幾率的直接影響。

打開網(wǎng)易新聞 查看精彩圖片

可以看到,針對首字母縮寫提示生成的歸因圖顯示出三條主要路徑,每條路徑均源自構(gòu)成目標(biāo)縮寫"DAG"的各詞元。這些路徑從特定單詞對應(yīng)的特征出發(fā),激活了"在正確位置說出該單詞首字母"相關(guān)特征,這些特征又通過正向邊連接至"輸出DAG"特征及最終邏輯輸出。

為實(shí)現(xiàn)"DAG"的輸出,模型需要首先決定輸出一個首字母縮寫,并考慮提示中已包含字母"N"的事實(shí)。圖中可見,屬于首字母縮寫且位于首字母縮寫起始處的N通過正向邊影響邏輯輸出,而"National"一詞對邏輯輸出的影響微弱。Anthropic推測這主要源于其通過影響注意力模式發(fā)揮作用,但當(dāng)前解釋方法尚未涵蓋這一機(jī)制。

由于歸因圖具有極高的信息密度,Anthropic還開發(fā)了交互式歸因圖可視化界面。該界面支持用戶"追蹤"圖中的關(guān)鍵路徑,保留重新檢視已探索節(jié)點(diǎn)與路徑的功能,并能按需動態(tài)呈現(xiàn)解釋特征所需的相關(guān)信息。

將特征分組到超級節(jié)點(diǎn)

歸因圖通常包含特征組,這些特征共享與其在提示中的角色相關(guān)的方面。例如,我們的提示中有三個特征 在“數(shù)字”上處于活動狀態(tài),每個特征在不同的情況和上下文中響應(yīng)單詞“數(shù)字”。對于此提示,唯一重要的方面是單詞“數(shù)字”以“D”開頭;所有三個特征都具有與同一組下游節(jié)點(diǎn)相關(guān)的正邊緣。因此,為了分析此提示,將這些特征組合在一起并將它們視為一個單元是有意義的。為了便于可視化和分析,我們發(fā)現(xiàn)將多個節(jié)點(diǎn)(對應(yīng)于(特征、上下文位置)對)分組為“超節(jié)點(diǎn)”很方便。這些超節(jié)點(diǎn)對應(yīng)于我們上面展示的簡化示意圖中的框,為方便起見,下面進(jìn)行了復(fù)制。

打開網(wǎng)易新聞 查看精彩圖片

我們用來對節(jié)點(diǎn)進(jìn)行分組的策略取決于手頭的分析,以及特征在給定提示中的作用。我們有時會將在相似上下文中激活、具有相似嵌入或邏輯效應(yīng)或具有相似輸入/輸出邊緣的特征分組,具體取決于對于我們對機(jī)制提出的主張重要的方面。我們通常希望超節(jié)點(diǎn)內(nèi)的節(jié)點(diǎn)相互促進(jìn),并且它們對下游節(jié)點(diǎn)的影響具有相同的符號。雖然我們嘗試了自動化策略,例如基于解碼器向量或圖鄰接矩陣的聚類,但沒有一種自動化方法足以涵蓋說明某些機(jī)制主張所需的特征分組范圍。我們將在類似特征和超節(jié)點(diǎn)中進(jìn)一步討論超節(jié)點(diǎn)及其需要它們的潛在原因。

通過干預(yù)措施驗(yàn)證歸因圖假設(shè)

在歸因圖中,節(jié)點(diǎn)表示哪些特征對模型的輸出很重要,邊表示這些特征的重要性。我們可以通過在底層模型中執(zhí)行特征擾動來驗(yàn)證歸因圖的聲明,并檢查對下游特征或模型輸出的影響是否符合我們基于圖的預(yù)測??梢酝ㄟ^修改特征的計算激活并注入其修改后的解碼來代替原始重構(gòu)來干預(yù)特征。

跨層轉(zhuǎn)碼器中的特征會寫入多個輸出層,因此我們需要決定在哪些層上執(zhí)行干預(yù)。我們該怎么做呢?我們可以像對每層轉(zhuǎn)碼器一樣在單個層上干預(yù)特征的解碼,但歸因圖中的邊表示多個層解碼的累積效應(yīng),因此在單個層上進(jìn)行干預(yù)只會針對給定邊的子集。此外,我們經(jīng)常希望一次干預(yù)多個特征,并且超節(jié)點(diǎn)中的不同特征將解碼到不同的層。

為了對層范圍進(jìn)行干預(yù),我們會修改給定范圍內(nèi)每一層的特征解碼,并從范圍中的最后一層開始運(yùn)行前向傳遞。由于我們不會根據(jù)范圍早期干預(yù)的結(jié)果重新計算層的 MLP 輸出,因此對模型的 MLP 輸出的唯一更改就是我們的干預(yù)。我們將這種方法稱為“約束修補(bǔ)”,因?yàn)樗辉试S干預(yù)在其修補(bǔ)范圍內(nèi)產(chǎn)生二階效應(yīng)。

下面,我們演示了約束修補(bǔ)的乘法版本,其中我們將目標(biāo)特征的激活乘以在 層范圍。請注意,后續(xù)層的 MLP 輸出不會直接受到補(bǔ)丁的影響。

打開網(wǎng)易新聞 查看精彩圖片

歸因圖是使用底層模型的注意力模式構(gòu)建的,因此圖中的邊不考慮通過 QK 電路介導(dǎo)的影響。同樣,在我們的擾動實(shí)驗(yàn)中,我們將注意力模式固定在未受干擾的前向傳遞過程中觀察到的值。這種方法選擇意味著我們的結(jié)果不考慮擾動如何改變注意力模式本身。

現(xiàn)在,我們展示抑制某些超節(jié)點(diǎn)對其他超節(jié)點(diǎn)的聚合激活和對邏輯的影響。對于每個補(bǔ)丁,我們將節(jié)點(diǎn)激活中的每個特征設(shè)置為其原始值的相反值(或者,我們以 -1 的因子進(jìn)行乘法引導(dǎo))。 然后,我們將每個節(jié)點(diǎn)的總激活量繪制為其原始值的一部分。

我們看到,每個單詞的抑制特征都會依次抑制相關(guān)的初始特征。此外,“say DA_” 的特征超節(jié)點(diǎn)受到 “Digital” 和 “Analytics” 超節(jié)點(diǎn) 抑制的影響。

定位重要層

歸因圖還允許我們確定特征解碼在哪些層中對邏輯的下游影響最大。例如,“分析”超節(jié)點(diǎn)特征主要通過位于第 13 層及以后的中間特征組“say _A”、“say DA_”和“say DAG”間接地對“dag”邏輯做出貢獻(xiàn) 。

因此,我們預(yù)計對“分析”特征進(jìn)行負(fù)面引導(dǎo)會對dag logit產(chǎn)生影響,該影響在第 13 層之前達(dá)到穩(wěn)定狀態(tài),然后在接近最后一層時幅度減小。這種減少是由我們干預(yù)的限制性質(zhì)造成的。如果修補(bǔ)范圍包括所有“說一個首字母縮略詞”特征,它將不會改變它們的激活,因?yàn)槭芟扌扪a(bǔ)不允許連鎖反應(yīng)。下面,我們展示了使用每個分析特征進(jìn)行引導(dǎo)的效果,將起始層設(shè)置為 1 并掃描修補(bǔ)結(jié)束層。

打開網(wǎng)易新聞 查看精彩圖片

加法案例研究

我們現(xiàn)在考慮簡單的加法提示計算:36+59= ?與前面的部分不同,我們展示了 Haiku 3.5 的結(jié)果,因?yàn)槟J礁逦?,并且顯示相同的結(jié)構(gòu)。我們研究小數(shù)加法,因?yàn)樗谴蠖鄶?shù) LLM 和人類成年人能夠熟練表現(xiàn)的最簡單的行為之一。

我們用一個明確涵蓋兩位數(shù)加法問題集的可視化來補(bǔ)充通用特征可視化(在任意數(shù)據(jù)集示例上),這使我們能夠清晰地了解每個特征的作用。繼 Nikankin等人之后分析了神經(jīng)元,我們用三個圖來可視化=標(biāo)記上活躍的每個特征:

  • 操作數(shù)圖,在 100 × 100 的潛在輸入網(wǎng)格上顯示其活動。

  • 輸出權(quán)重圖,顯示其在 [0, 99] 輸出上的直接權(quán)重。

  • 嵌入權(quán)重圖

下面我們展示了這三種類型針對不同特征的示例圖。在這個受限域中,操作數(shù)圖是對 CLT 特征作為函數(shù)的完整描述。這些圖中的條紋和網(wǎng)格表示不同類型的結(jié)構(gòu)(例如,對角線表示對總和的約束,而網(wǎng)格表示對輸入的模塊化約束)。

打開網(wǎng)易新聞 查看精彩圖片

我們可以看到來自輸入特征的信息流,它將最后一位數(shù)字、數(shù)字和操作數(shù)的大小分成三條主要路徑:最后一位數(shù)字路徑、中等精度路徑和低精度路徑。它們共同產(chǎn)生一個中等精度的總和值以及總和的最后一位數(shù)字;它們最終相互影響,給出模 100 版本的總和以及最終輸出。

這些發(fā)現(xiàn)與其他機(jī)械研究大體一致,這些研究表明,在自然語言語料庫上訓(xùn)練的語言模型使用涉及量級和模數(shù)的并行啟發(fā)式方法執(zhí)行加法,這些量級和模數(shù)相互干擾以產(chǎn)生正確答案。Nikankin 提出了一種“啟發(fā)式包”解釋,識別一組“操作數(shù)”特征(相當(dāng)于我們的“添加 X”特征)和“結(jié)果”特征(相當(dāng)于我們的“總和”特征),在感知輸入和產(chǎn)生輸出時表現(xiàn)出高精度和低精度以及不同的模塊性。

3

全局權(quán)重

我們構(gòu)建的歸因圖顯示了特征如何在特定提示上相互作用以產(chǎn)生模型的輸出,但我們也對特征如何在所有上下文中相互作用的更全局圖景感興趣。在經(jīng)典的多層感知器中,全局相互作用由模型的權(quán)重提供:如果神經(jīng)元位于連續(xù)的層中,則一個神經(jīng)元對另一個神經(jīng)元的直接影響僅僅是它們之間的權(quán)重;如果神經(jīng)元相距較遠(yuǎn),則一個神經(jīng)元對另一個神經(jīng)元的影響會通過中間層影響。在我們的設(shè)置中,特征之間的相互作用具有上下文獨(dú)立 成分和上下文相關(guān) 成分。理想情況下,我們希望同時捕獲這兩者:我們想要一組 與上下文無關(guān)的全局權(quán) 重, 但也能捕獲所有可能上下文中的網(wǎng)絡(luò)行為。在本節(jié)中,我們將分析上下文獨(dú)立成分(一種“虛擬權(quán)重”)、它們的一個問題(大的“干擾”項對分布沒有因果影響)以及一種使用共激活統(tǒng)計數(shù)據(jù)來處理干擾的方法。

在特定提示下,源 CLT 特征 (ss)影響目標(biāo)()有三種路徑:

  1. 殘差直接:ss的解碼器寫入殘差流,然后在后面的層中讀取的編碼器。

  2. 注意直接:ss的解碼器寫入殘差流,通過一定數(shù)量的注意頭 OV 步驟進(jìn)行傳輸,然后由的編碼器。

  3. 間接:來自的路徑ss到由其他 CLT 特征介導(dǎo)。

我們注意到,殘差直接影響僅僅是該提示上第一個特征的激活乘以 在輸入之間一致的虛擬權(quán)重的乘積。 由于這種一致的關(guān)系,這些虛擬權(quán)重是全局權(quán)重的簡單形式。虛擬權(quán)重是在神經(jīng)網(wǎng)絡(luò)的許多不同組件之間得出的,包括注意力頭和SAE 特征。對于 CLT 來說,兩個特征之間的虛擬權(quán)重是下游特征的編碼器與這兩個特征之間的解碼器之和的內(nèi)積。

解釋虛擬權(quán)重存在一個主要問題:干擾。

由于數(shù)百萬個特征通過殘差流進(jìn)行交互,它們都將連接在一起,并且從未在分布中一起激活的特征之間仍可能具有(可能很大的)虛擬權(quán)重。當(dāng)發(fā)生這種情況時,虛擬權(quán)重不適合作為全局權(quán)重,因?yàn)檫@些連接永遠(yuǎn)不會影響網(wǎng)絡(luò)功能。

這個問題有兩個基本解決方案:一個是將要研究的特征集限制為在小范圍內(nèi)活躍的特征,另一個是引入有關(guān)數(shù)據(jù)分布上特征-特征共激活的信息。

例如,讓激活該功能我們可以通過乘以虛擬權(quán)重來計算預(yù)期殘差歸因值,這代表了我們分析過的所有提示的殘差直接路徑的平均強(qiáng)度,類似于計算跨許多標(biāo)記的上下文位置內(nèi)的所有歸因圖的平均值。此表達(dá)式中的指示函數(shù)捕獲了當(dāng)目標(biāo)特征處于活動狀態(tài)時歸因如何僅是積極的,由于小特征激活通常是多語義的,因此我們使用目標(biāo)激活值來加權(quán)歸因。

我們將最后一種類型的權(quán)重稱為目標(biāo)加權(quán)預(yù)期殘差歸因 (TWERA)。如方程式所示,這兩個值都可以通過將原始虛擬權(quán)重乘以激活的(“分布”)統(tǒng)計數(shù)據(jù)來計算。

現(xiàn)在,我們重新回顧之前的示例游戲特征,但連接按 TWERA 排序。我們還繪制了每個連接的“原始”虛擬權(quán)重以供比較。這些連接中有很多是可解釋的,這表明虛擬權(quán)重提取了有用的信號,但我們需要消除干擾才能看到它們。上面的虛擬權(quán)重圖中最具解釋性的特征(另一個“說出游戲名稱”和“極限飛盤”特征)被保留,而許多不相關(guān)的概念被過濾掉。

TWERA 并非解決干擾問題的完美方案。將 TWERA 值與原始虛擬權(quán)重進(jìn)行比較,可以發(fā)現(xiàn)許多極小的虛擬權(quán)重具有很強(qiáng)的 TWERA 值。 這表明 TWERA 嚴(yán)重依賴于共激活統(tǒng)計數(shù)據(jù),并且除了簡單地移除較大的干擾權(quán)重之外,還會強(qiáng)烈改變哪些連接是重要的。TWERA 也不能很好地處理抑制(就像歸因一樣)。我們將在未來的工作中進(jìn)一步探討這些問題。

盡管如此,我們發(fā)現(xiàn)全局權(quán)重為我們提供了一個有用的窗口,讓我們了解特征在比歸因圖更廣泛的背景下的表現(xiàn)。

4

面紗尚存

盡管在揭示語言模型底層行為機(jī)制上取得了進(jìn)展,這套基于本地替換模型構(gòu)建歸因圖的思路仍然存在重大局限。生成的歸因圖表本身可能非常復(fù)雜導(dǎo)致難以理解、特征分割和特征吸收等問題都是仍然掩蓋著模型行為底層機(jī)制的重重面紗。

在諸多局限中,Anthropic將注意力回路的缺失列為首要,指出現(xiàn)有的研究方法沒有解釋QK-circuits如何計算注意力模式。在固定注意力模式下,歸因成為一個定義明確且規(guī)范的操作,但也意味著構(gòu)建的歸因圖不會試圖解釋模型的注意力模式如何形成,以及這些模式如何通過注意力頭的輸出值矩陣(OV矩陣)中介特征間的交互作用。Anthropic指出,在注意力計算等場景下,這種歸因圖“基本上毫無用處”。

跨層轉(zhuǎn)碼器的忠實(shí)度同樣存疑。經(jīng)過訓(xùn)練的CLT可以模擬底層模型在每一層的激活,但即使它準(zhǔn)確地進(jìn)行了重建,也不能保證這一過程通過和底層模型相同的機(jī)制實(shí)現(xiàn)。

例如,即使跨層轉(zhuǎn)碼器在訓(xùn)練分布上實(shí)現(xiàn)了 0 MSE,它也可能學(xué)習(xí)了與底層模型根本不同的輸入/輸出函數(shù),因此在分布外輸入上存在很大的重建誤差。截至目前,Anthropic并未找到解決這一問題的方法,僅能通過擾動實(shí)驗(yàn)進(jìn)行事后驗(yàn)證。

值得注意的是,該方法還存在一個兩難困境。Anthropic指出,跨層轉(zhuǎn)碼器的稀疏性使替換模型得以在數(shù)千萬個特征中專注于給定提示的相對較小的特征集,是歸因圖成功構(gòu)建的關(guān)鍵。這種便利性建立在“只有活動特征才涉及模型響應(yīng)”的假設(shè)之上,但事實(shí)并非如此。在某些情況下,由于被其他特征抑制而缺乏活動的特征可能才是影響模型輸出結(jié)果的關(guān)鍵。

事先假設(shè)部分非活動特征可能與模型的輸出相關(guān),則抑制了歸因圖進(jìn)行探索性、無假設(shè)分析的可能。忽視非活動特征更與揭示語言模型行為底層機(jī)制的研究目的南轅北轍。Anthropic稱,進(jìn)一步的研究將圍繞通過無監(jiān)督方法識別關(guān)鍵抑制特征展開,現(xiàn)有思路包括進(jìn)行特征消融實(shí)驗(yàn),并考慮距離活動狀態(tài)僅“一次消融”的非活動特征集。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

更多內(nèi)容,點(diǎn)擊下方關(guān)注:

未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

打開網(wǎng)易新聞 查看精彩圖片

UCL強(qiáng)化學(xué)習(xí)派:汪軍與他的學(xué)生們

打開網(wǎng)易新聞 查看精彩圖片

為什么中國只有一個 DeepSeek?

打開網(wǎng)易新聞 查看精彩圖片

英偉達(dá)團(tuán)隊發(fā)布最新具身模型 Cosmos-Reason1,在物理世界推理中碾壓 Qwen、GPT-4o 等多個 VLM 模型

打開網(wǎng)易新聞 查看精彩圖片