打開網(wǎng)易新聞 查看精彩圖片

長文本能力對語言模型(LM,Language Model)尤為重要,試想,如果 LM 可以處理無限長度的輸入文本,我們可以預(yù)先把所有參考資料都喂給 LM,或許 LM 在應(yīng)對人類的提問時就會變得無所不能。

但是,LM 通常只在較短窗長下進行訓(xùn)練,可能產(chǎn)生過擬合,只學(xué)習(xí)到指定范圍內(nèi)的位置關(guān)系,但是無法理解沒學(xué)習(xí)過的位置關(guān)系。為了緩解這個問題,當(dāng)下最流行的便是引入具有周期性的旋轉(zhuǎn)位置編碼(Rotary Position Embedding,RoPE)。由于周期性編碼每間隔一定距離就會出現(xiàn)數(shù)值重復(fù),所以 LM 可以使用在少數(shù)幾個周期內(nèi)學(xué)習(xí)到的經(jīng)驗泛化到更多的周期當(dāng)中。

但奇怪的是,使用 RoPE 的 LM 依然難以直接在訓(xùn)練長度之外起效,必須依靠其他算法(如 YARN)來輔助其進行外推。 那么,到底是什么限制了 RoPE 的周期延拓,進而限制了 LM 的長度外推呢?

于是,清華大學(xué)講席教授、上海AI Lab主任/首席科學(xué)家周伯文教授的團隊對這一問題進行了深入探索,使用傅里葉分析工具解讀了使用 RoPE 的 Transformer 模型長文本泛化能力不足的原因之一是 RoPE 帶來的周期性延拓受到了頻譜破壞的影響。進一步地,該文章提出的傅里葉位置編碼(Fourier Position Embedding,F(xiàn)oPE)大幅提升了Transformer的長文本泛化能力。

打開網(wǎng)易新聞 查看精彩圖片

  • 論文標題:Fourier Position Embedding: Enhancing Attention’s Periodic Extension for Length Generalization
  • arXiv 鏈接:https://arxiv.org/pdf/2412.17739
  • 代碼鏈接:https://github.com/TsinghuaC3I/Fourier-Position-Embedding

研究亮點

發(fā)現(xiàn) —— 頻譜損壞限制周期延拓

作者們通過觀察 RoPE 的公式可以發(fā)現(xiàn),它為 Hidden States 的每一維都指定了單一的頻率,并假設(shè)這一維度的語義信息按照這個波長影響其他位置的語義。所以,RoPE 周期延拓性的起效前提是 “Hidden States 的每一維只存在單一頻率的語義”。如果每一維明明存在不同頻率的語義,卻仍然按照單一頻率的波長來估計這部分語義的傳遞規(guī)律,RoPE 所帶來的周期延拓將產(chǎn)生混亂,進而無法實現(xiàn)長文本泛化。

打開網(wǎng)易新聞 查看精彩圖片

遺憾的是,在使用 RoPE 的 LM 中,這個假設(shè)只在 LM 的第一層中成立,但在后面的所有層中都不成立。因為后面的所有層中,每一維中都摻雜了除主頻之外的其他頻率分量,這個現(xiàn)象可以被稱作頻譜損壞(Spectrum Damage)。頻譜損壞主要有三個來源:① 線性函數(shù);②激活函數(shù);③時域截斷。

線性函數(shù)

打開網(wǎng)易新聞 查看精彩圖片

激活函數(shù)

打開網(wǎng)易新聞 查看精彩圖片

這個結(jié)論可以通過泰勒展開進行簡單證明,也可以任意地推廣到存在更多頻率的情況??梢钥吹?,經(jīng)過線性層之后,每一維本就摻雜了多種頻率。在經(jīng)過激活函數(shù)之后,這種摻雜會變得更加嚴重。

時域截斷

給定一個被截斷為長度N的單頻率函數(shù)

打開網(wǎng)易新聞 查看精彩圖片

通過傅里葉變換可以得到(詳見文末)這個函數(shù)的頻譜是:

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

算法 —— 頻域魯棒性是長文本泛化關(guān)鍵

在以往的研究中,大家普遍認為只有 Attention 才會影響長度外推。但從上面的分析可以看出,整個模型中的線性層、激活函數(shù)和時域截斷也都會對長度外推產(chǎn)生影響,并且是不利影響(也就是上文提到的頻譜損壞)。為了改善頻譜損壞對長文本泛化的不利影響,這篇論文提出了傅里葉位置編碼(FoPE,F(xiàn)ourier Position Embedding)來提升模型的頻域魯棒性和周期延拓性,進而提升長文本泛化。

FoPE 的核心思想是 “打不過就加入”??紤]到線性層和激活函數(shù)可以帶來更強的表征能力,時域截斷又是受到硬件限制無法改變,F(xiàn)oPE 索性就仍然保留了各層中的頻譜損壞,轉(zhuǎn)而提出了對于頻譜損壞更加魯棒的位置編碼。魯棒性的提升主要源于兩方面:① 既然每一維中不可避免的混雜其他頻率的分量,那就干脆在一開始就把每一維都建模成一個傅里葉級數(shù)(Fourier Series)。即使這樣的建模不會避免頻譜破壞,F(xiàn)oPE 卻可以在每一維中解碼出更多頻率的信息(利用三角函數(shù)的正交性);② 既然極低頻的分量周期過長,會導(dǎo)致這些頻率分量的周期特性無法被學(xué)習(xí)到,那就將他們裁剪成頻率為 0 的直流分量。考慮到直流分量的良好性質(zhì)(既可以看作周期無限短,又可以看作周期無限長),這個新加入的頻率既保證了周期性,又可以讓每個詞匯的信息向無限遠的詞匯傳遞;

綜上,F(xiàn)oPE 的公式可以寫作:

打開網(wǎng)易新聞 查看精彩圖片

實驗

進一步地,文章在困惑度、大海撈針準確率以及很多下游任務(wù) Benchmark 對不同方法進行了對比,實驗發(fā)現(xiàn) FoPE 在這些任務(wù)上都有穩(wěn)定的表現(xiàn),在絕大多數(shù)遠超過使用 RoPE 的模型。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

潛在影響

論文中使用傅里葉工具得到的分析結(jié)論和算法可能存在更廣泛的潛在價值,有潛力應(yīng)用在更多的領(lǐng)域和任務(wù):① AI 領(lǐng)域內(nèi):長視頻生成、kv-cache 壓縮、多模型協(xié)同等;② AI 領(lǐng)域外:語義通信、光計算和腦機接口。

作者簡介:華爾默,清華大學(xué)博士生,研究方向是基礎(chǔ)模型的架構(gòu)設(shè)計與訓(xùn)練算法設(shè)計,在 ICML、ICLR、NeurIPS、ACL、EMNLP、COLM、AAAI 等頂級會議上發(fā)表過論文。

打開網(wǎng)易新聞 查看精彩圖片