打開網(wǎng)易新聞 查看精彩圖片

大型語言模型(LLMs)在上下文知識理解方面取得了令人矚目的成功。

近日,一項來自 ICML 2025 的新研究《Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding》揭示了大型語言模型中一個重要現(xiàn)象:在注意力機制的查詢 (Q) 和鍵 (K) 表示中存在非常集中的極大值,而在值 (V) 表示中卻沒有這種模式。這一現(xiàn)象在使用旋轉(zhuǎn)位置編碼 (RoPE) 的現(xiàn)代 Transformer 模型中普遍存在,對我們理解 LLM 內(nèi)部工作機制具有重要意義。

本研究由羅格斯大學(xué)張永鋒教授的團隊完成,一作為金明宇,羅格斯大學(xué)博士生,在 ACL、ICML、AAAI、NAACL、COLM、ICLR、EMNLP、COLING 等頂級會議上發(fā)表過論文。

打開網(wǎng)易新聞 查看精彩圖片

  • 論文標(biāo)題:Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding
  • arXiv 鏈接:https://arxiv.org/pdf/2502.01563
  • 代碼鏈接:https://github.com/MingyuJ666/Rope_with_LLM

研究亮點

極大值如何影響模型性能

當(dāng)我們談?wù)摯笮驼Z言模型的理解能力時,通常將其知識分為兩類:參數(shù)知識(存儲在模型權(quán)重中的事實和信息)和上下文知識(從當(dāng)前輸入文本中獲取的信息)。本研究通過一系列精心設(shè)計的實驗,揭示了自注意力模塊中極大值的存在與上下文知識理解之間的關(guān)鍵聯(lián)系。

四大核心發(fā)現(xiàn)

1. 極大值在 Q 和 K 中高度集中分布

研究發(fā)現(xiàn),這些極大值在每個注意力頭的特定區(qū)域高度集中。這一現(xiàn)象非常反常識,因為 LLM 內(nèi)部每個注意力頭的運算理論上應(yīng)該是獨立的,但這些極大值的分布卻顯示出驚人的一致性。研究團隊通過可視化方法清晰地展示了這一分布特征,橫跨多個層和頭,這種規(guī)律性模式與傳統(tǒng)認知形成鮮明對比。

打開網(wǎng)易新聞 查看精彩圖片

更引人注目的是,這一極大值現(xiàn)象僅存在于使用 RoPE(旋轉(zhuǎn)位置編碼)的模型中,如 LLaMA、Qwen 和 Gemma 等主流模型。而在未使用 RoPE 的模型(如 GPT-2 和 OPT)中不存在這種模式。這一發(fā)現(xiàn)將極大值現(xiàn)象直接與位置編碼機制建立了聯(lián)系。

2. Q 和 K 中的極大值對理解上下文知識至關(guān)重要

打開網(wǎng)易新聞 查看精彩圖片

通過設(shè)計「破壞性實驗」,研究團隊將極大值重置為平均值,觀察模型性能變化。結(jié)果表明,這些極大值主要影響模型處理當(dāng)前上下文窗口中的信息的能力,而非影響從參數(shù)中提取的知識。在需要上下文理解的任務(wù)上,破壞極大值會導(dǎo)致性能的災(zāi)難性下降。

例如,在「大海撈針」類型的任務(wù)中,模型需要從大量文本中檢索特定信息。當(dāng)極大值被破壞時,模型在此類任務(wù)上的表現(xiàn)幾乎完全崩潰。這直接說明了極大值對上下文理解的關(guān)鍵作用。

相比之下,對于只需要參數(shù)知識的任務(wù)(如「中國首都是哪里」),破壞極大值對性能影響有限。這種對比鮮明的結(jié)果表明,極大值特別與上下文信息處理相關(guān),而非參數(shù)知識檢索。

3. 特定量化技術(shù)能更好地保存上下文知識理解能力

打開網(wǎng)易新聞 查看精彩圖片

隨著大型語言模型的普及,量化技術(shù)成為降低計算和存儲需求的關(guān)鍵手段。然而,不同的量化方法對模型性能的影響各異。研究發(fā)現(xiàn),專門處理極大值的量化方法(如 AWQ 和 SmoothQuant)能有效維持模型的上下文理解能力,而未特別處理極大值的方法則會導(dǎo)致性能明顯下降(GMS8K 和 AQUA 數(shù)據(jù)集)。

這一發(fā)現(xiàn)為量化技術(shù)的設(shè)計和選擇提供了重要指導(dǎo),特別是對保留模型的上下文理解能力至關(guān)重要的應(yīng)用場景。設(shè)計新的量化方法時應(yīng)重點考慮保護 Q 和 K 中的大值,對于優(yōu)先保持上下文理解能力的應(yīng)用場景,AWQ 和 SmoothQuant 等方法更為合適。

4. 極大值集中現(xiàn)象由 RoPE 引起,并在早期層就已出現(xiàn)

研究通過深入分析發(fā)現(xiàn),RoPE 位置編碼使 Q 和 K 中的低頻區(qū)域受位置信息影響較小,從而導(dǎo)致極大值集中現(xiàn)象。這種現(xiàn)象從模型的最初層就開始顯現(xiàn),并隨著層數(shù)增加而變得更加明顯。

由于 RoPE 只作用于 QK,而不作用于 V,這也解釋了為什么只有 QK 存在極大值集中現(xiàn)象。這一發(fā)現(xiàn)不僅解釋了極大值的來源,也揭示了 RoPE 在大型語言模型中的工作機制。并且我們檢查了有 rope 的模型和沒有 rope 的模型,結(jié)果如圖所示,llama,qwen 都有集中的極大值;相反 gpt-2,jamba,opt 就沒有。

打開網(wǎng)易新聞 查看精彩圖片

實驗結(jié)果

極大值對不同知識任務(wù)的差異化影響

研究團隊設(shè)計了一系列實驗,系統(tǒng)評估極大值對不同類型知識任務(wù)的影響。結(jié)果顯示出明顯的差異化效應(yīng):

A. 參數(shù)知識檢索任務(wù)的韌性

當(dāng)大值被破壞時:

  1. 城市類任務(wù)仍然保持 76%-88% 的準(zhǔn)確率,僅下降 15-20%
  2. 體育、藝術(shù)和技術(shù)類別任務(wù)保持在 65%-75% 的表現(xiàn)
  3. 名人類別表現(xiàn)尤其穩(wěn)定,各模型均保持 70% 以上的準(zhǔn)確率

這些結(jié)果表明,參數(shù)知識檢索主要依賴于模型權(quán)重中存儲的知識,受極大值破壞的影響相對較小。

B. 上下文知識理解任務(wù)的災(zāi)難性下降

相比之下,依賴上下文理解的任務(wù)在極大值被破壞后表現(xiàn)災(zāi)難性下降:

1. 數(shù)學(xué)推理任務(wù)出現(xiàn)嚴重退化

  • GSM8K: 從 81.30% 降至 15.10%
  • Llama3-8B: 從 76.90% 降至 4.00%
  • Qwen2.5-7B: 從 86.60% 降至 16.10%

2. 密鑰檢索任務(wù) (Passkey Retrieval) 準(zhǔn)確率從 100% 直接崩潰至接近 0%

3. IMDB 情感分析從 94% 以上下降至個位數(shù)

這些對比鮮明的結(jié)果強有力地證明了極大值在上下文知識理解中的關(guān)鍵作用。

C. 非大值破壞的對照實驗

為驗證研究發(fā)現(xiàn)的可靠性,研究團隊還設(shè)計了對照實驗:當(dāng)僅破壞非極大值部分時,所有任務(wù)的表現(xiàn)保持穩(wěn)定,變化通常小于 ±1%。這進一步確認了極大值在上下文知識理解中的特殊重要性。

研究意義與影響

這項研究首次揭示了大型語言模型內(nèi)部自注意力機制中極大值的存在及其功能,為理解模型如何處理上下文信息提供了新視角。研究結(jié)果對 LLM 的設(shè)計、優(yōu)化和量化都具有重要啟示:

  1. 模型設(shè)計方面:突顯了位置編碼機制(尤其是 RoPE)對模型理解上下文能力的影響,為未來模型架構(gòu)設(shè)計提供了新思路。
  2. 模型優(yōu)化方面:識別出極大值是上下文理解的關(guān)鍵組件,為針對性地提升模型上下文理解能力提供了可能路徑。
  3. 模型量化方面:強調(diào)了保護極大值在模型壓縮過程中的重要性,為開發(fā)更高效的量化方法提供了方向。

未來方向

該研究打開了多個值得進一步探索的方向:

  1. 探索是否可以通過特殊設(shè)計增強或調(diào)整極大值分布,從而提升模型的上下文理解能力。
  2. 研究極大值現(xiàn)象在不同架構(gòu)、不同規(guī)模模型中的普遍性和特異性。
  3. 設(shè)計更有針對性的量化方法,專門保護與上下文理解相關(guān)的極大值。
  4. 探索極大值與模型其他特性(如對抗穩(wěn)健性、推理能力等)之間的潛在聯(lián)系。

這項研究不僅加深了我們對大型語言模型內(nèi)部工作機制的理解,也為未來更高效、更強大的模型開發(fā)鋪平了道路。通過揭示極大值的關(guān)鍵作用,研究者們?yōu)槲覀兲峁┝私怄i大語言模型上下文理解能力的一把新鑰匙。