“大模型設(shè)計(jì)迎來伽利略時(shí)刻。正如比薩斜塔實(shí)驗(yàn)推動(dòng)了現(xiàn)代物理學(xué)的發(fā)展,我們開發(fā)的受控合成預(yù)訓(xùn)練平臺(tái)揭示了大模型架構(gòu)的真正極限。這可能是一個(gè)轉(zhuǎn)折點(diǎn),將大模型的研究劃分為‘之前’和‘之后’?!?清華本科校友、美國麻省理工學(xué)院博士畢業(yè)生、Meta 研究員朱澤園在 X 上寫道。

這則推文介紹了一個(gè)名為“語言模型物理學(xué)”的長期項(xiàng)目。在這則推文發(fā)布之前,當(dāng)?shù)貢r(shí)間 5 月 2 日關(guān)于這一長期項(xiàng)目的一篇論文上線 [1]。

在這篇論文中,朱澤園和同事提出一種名為“Canon 層”的輕量級(jí)結(jié)構(gòu)。
“Canon”原本是一個(gè)音樂術(shù)語,它指的是一種復(fù)調(diào)音樂的作曲技法,其特點(diǎn)是讓多個(gè)聲部以相同的旋律和不同時(shí)間進(jìn)入,從而形成層疊交錯(cuò)的效果。
而本次提出的“Canon 層”和上述音樂技法有著異曲同工之妙,它能促進(jìn)相鄰 tokens 之間的水平信息流動(dòng),提升推理深度、推理廣度、知識(shí)容量和操控能力,并能在跨多種架構(gòu)的層次結(jié)構(gòu)學(xué)習(xí)上實(shí)現(xiàn)突破。
通過開展這些合成任務(wù),研究團(tuán)隊(duì)實(shí)現(xiàn)了架構(gòu)性能的嚴(yán)格分離,讓有著 13 億參數(shù)和 1000 億 tokens 數(shù)據(jù)量的學(xué)術(shù)級(jí)預(yù)訓(xùn)練實(shí)驗(yàn)中的噪聲與隨機(jī)干擾因素,得到了有效消除。

研究人員在論文中表示,Canon 層能夠顯著提升傳統(tǒng)弱勢架構(gòu)的性能,例如它能將無位置編碼(NoPE,No Positional Encoding)的 Transformer 提升至旋轉(zhuǎn)位置編碼(RoPE,Rotary Positional Encoding)水平,使線性注意力(GLA,Generalized Linear Attention)達(dá)到 Mamba 級(jí)表現(xiàn),同時(shí)大幅降低對(duì)旋轉(zhuǎn)位置編碼的依賴,從而有效改善長程泛化能力。(注:Mamba,是此前由其他研究團(tuán)隊(duì)提出的一種高效序列建模架構(gòu),下文的 Mamba2 是 Mamba 的升級(jí)版。)
據(jù)介紹,Canon 層能夠計(jì)算附近 tokens 表示的加權(quán)組合,并能無縫集成到 Transformer、線性注意力、狀態(tài)空間架構(gòu)或任何通用序列模型中。
本次研究還表明,線性模型推理深度不足的原因在于 tokens 的壓縮過程和檢索過程效率低下。同時(shí),本次研究中的合成任務(wù)也驗(yàn)證了受控可預(yù)測基準(zhǔn)在架構(gòu)評(píng)估中的核心價(jià)值。
與此前經(jīng)典的學(xué)術(shù)級(jí)別實(shí)驗(yàn)場景相比,本次研究中的合成實(shí)驗(yàn)平臺(tái)能夠更清晰地揭示模型的真實(shí)能力和擴(kuò)展行為。
憑借無限高質(zhì)量的數(shù)據(jù),研究團(tuán)隊(duì)希望該框架能夠預(yù)測架構(gòu)如何隨著訓(xùn)練流程的改進(jìn)而演變。例如,預(yù)測該如何通過更好的數(shù)據(jù)整理或基于強(qiáng)化學(xué)習(xí)的后訓(xùn)練,解鎖更深層次的推理能力和層次化推理能力。
研究團(tuán)隊(duì)在論文中表示,他們更建議將智能分解為原子級(jí)組件,比如分為推理深度和推理廣度,并通過構(gòu)建高度可控的合成預(yù)訓(xùn)練任務(wù),來獨(dú)立地分離和評(píng)估這些能力。
這樣一來,在理想化的實(shí)驗(yàn)環(huán)境之下,就能清晰地界定不同架構(gòu)的性能優(yōu)勢與擴(kuò)展?jié)摿Α?/p>
據(jù)研究人員介紹,本次方法通過實(shí)現(xiàn)單一技能的評(píng)估,消除了真實(shí)世界預(yù)訓(xùn)練數(shù)據(jù)中的混雜因素。例如,本次方法既可以針對(duì)架構(gòu) A 在推理深度上是否優(yōu)于架構(gòu) B 開展嚴(yán)謹(jǐn)對(duì)比,還能確保修改不會(huì)降低其他能力。
通過隔離固有的架構(gòu)偏差,他們?cè)诤铣深A(yù)訓(xùn)練任務(wù)中揭示了那些在傳統(tǒng)設(shè)置中往往會(huì)被噪聲掩蓋的特性。
研究中該團(tuán)隊(duì)打造了一個(gè)合成訓(xùn)練環(huán)境,并引入了五項(xiàng)合成預(yù)訓(xùn)練任務(wù),以便系統(tǒng)地評(píng)估語言模型中的關(guān)鍵認(rèn)知能力。
通過這一實(shí)驗(yàn)平臺(tái)研究人員揭示了在小規(guī)模場景下的架構(gòu)趨勢:其一,線性注意力模型在各類任務(wù)中表現(xiàn)持續(xù)滯后;其二,Mamba2 這樣的遞歸架構(gòu)在依賴記憶的任務(wù)中優(yōu)勢顯著;其三,標(biāo)準(zhǔn) Transformer 在復(fù)雜推理任務(wù)中占據(jù)主導(dǎo)型的優(yōu)秀表現(xiàn)。
對(duì)于分析不同架構(gòu)下的固有偏差和可擴(kuò)展性來說,這些受控基準(zhǔn)測試能為其提供一個(gè)較為嚴(yán)謹(jǐn)?shù)目蚣?。研究人員指出,Transformer 在層內(nèi)缺乏水平信息流,即使在關(guān)聯(lián)回憶這樣的簡單任務(wù)上也會(huì)出現(xiàn)效率低下的情況。
另據(jù)研究人員在論文中表示,Canon 層可以靈活地嵌入網(wǎng)絡(luò)的不同位置,其中:
- Canon-A:插入注意力機(jī)制之前;
- Canon-B:嵌入注意力機(jī)制內(nèi)部;
- Canon-C:置于多層感知機(jī)(MLP,Multilayer Perceptron)之前;
- Canon-D:整合至多層感知機(jī)內(nèi)部。
雖然 Canon 層的實(shí)現(xiàn)方式有很多種,即便使用簡單的隨機(jī)平均操作也能取得顯著效果。但是,本次研究聚焦于采用可訓(xùn)練的一維線性卷積核(核大小為 4),這種方法只需使用輕量計(jì)算、而且易于集成,只需少量代碼即可適配任意架構(gòu)。
在研究團(tuán)隊(duì)的實(shí)驗(yàn)平臺(tái)中,Canon 層分別能將推理深度提升 200%-400%、將推理廣度提升 30%、將知識(shí)操作長度提升 30%,并且只需要極小的計(jì)算開銷能夠?qū)崿F(xiàn)這些提升,而這主要依賴于更優(yōu)的層次化學(xué)習(xí)動(dòng)態(tài)。
將 Canon 層集成到模型中,能夠提高無位置編碼模型的性能,其性能與“旋轉(zhuǎn)位置編碼模型+Canon 層”的組合相當(dāng),甚至更勝一籌。在性能上,Canon 層優(yōu)于像線性偏置注意力(ALiBi,Attention with Linear Biases)或混合線性偏置注意力(H - Alibi,Hybrid Attention with Linear Biases)這樣的位置修正方法,并且能夠降低或消除旋轉(zhuǎn)位置編碼的使用,從而顯著提升模型的長程泛化能力。
研究人員在論文中表示,Canon 層通過不同子層位置的累積式作用機(jī)制來實(shí)現(xiàn)性能提升,其效果獨(dú)立于注意力或多層感知機(jī)組件。殘差連接提高了訓(xùn)練效率,在不影響穩(wěn)定性的前提下,幾乎不需要進(jìn)行參數(shù)調(diào)整。
通過提高訓(xùn)練效率和穩(wěn)定性,Canon 層還能恢復(fù)在門控多層感知機(jī)或混合專家架構(gòu)中損失的部分知識(shí)承載能力。
研究中,該團(tuán)隊(duì)還將線性注意力與 Canon 加以結(jié)合。通過此,Canon 層能夠顯著提升門控線性注意力的推理能力。其中,推理深度能從單跳(1-hop)被擴(kuò)展至四跳(4-hop),推理廣度與知識(shí)操作長度能夠?qū)崿F(xiàn)雙倍增長。最終可以使門控線性注意力達(dá)到與狀態(tài)空間模型架構(gòu) Mamba2 相當(dāng)?shù)男阅?,并能?Brevo 等任務(wù)中實(shí)現(xiàn)反超。

據(jù)介紹,Mamba2 的性能得益于其內(nèi)置的一維卷積(conv1d)機(jī)制,該機(jī)制相當(dāng)于一個(gè)應(yīng)用于選定坐標(biāo)的非線性 CanonB 層。移除一維卷積機(jī)制之后,其性能下降到與門控線性注意力模型相當(dāng)?shù)乃?。而使用完整?Canon 層替代它則能進(jìn)一步提升效果,這凸顯了在結(jié)構(gòu)化狀態(tài)空間模型設(shè)計(jì)中水平信息流的重要性。
通過消融研究,該團(tuán)隊(duì)發(fā)現(xiàn) Canon 層在集成點(diǎn)和殘差鏈接上的選擇會(huì)影響到 Mamba2 的性能。作為一種使用學(xué)習(xí)線索來初始化 Transformer 自注意力權(quán)重的方法,模仿初始化(Mimetic initialization)雖然能在長度泛化上實(shí)現(xiàn)優(yōu)化,但卻會(huì)給短上下文任務(wù)造成損害,而這恰恰凸顯多樣化預(yù)訓(xùn)練環(huán)境的必要性。
研究中,該團(tuán)隊(duì)還開展了架構(gòu)比較。他們分別在旋轉(zhuǎn)位置編碼、無位置編碼、Mamba2 和門控線性注意力中同時(shí)使用完整的 Canon 層。結(jié)果表明,在層次推理任務(wù)中,完整 Transformer 的表現(xiàn)優(yōu)于線性模型,其推理深度達(dá)到了線性模型的兩倍。
研究人員指出,線性模型在推理深度方面存在一定的局限性,這種局限性源于壓縮與檢索過程中累積的誤差,而非記憶容量的不足。而將滑動(dòng)窗口 Transformer 與線性模型相結(jié)合的混合架構(gòu),則能為深度推理任務(wù)提供可擴(kuò)展的解決方案。
與此同時(shí),他們還開展了學(xué)術(shù)級(jí)別的真實(shí)預(yù)訓(xùn)練。具體來說,他們?cè)?1000 億個(gè) tokens 上訓(xùn)練具有 4096 個(gè)上下文長度的 13 億參數(shù)模型,結(jié)果顯示噪聲較大且分辨率有限,這使得大多數(shù)架構(gòu)差異在統(tǒng)計(jì)上并不顯著。

盡管如此,課題組也收獲了一些發(fā)現(xiàn):
首先,在檢索任務(wù)繁重的任務(wù)上,線性架構(gòu)即使配備了 Canon 層,也始終落后于完整的 Transformer 架構(gòu)。
其次,Canon 層能夠顯著提升門控線性注意力和無位置編碼,使門控線性注意力能夠達(dá)到與 Mamba2 相當(dāng)?shù)乃?,以及使無位置編碼能夠達(dá)到與旋轉(zhuǎn)位置編碼相當(dāng)?shù)乃?。然而,移?conv1d 會(huì)使 Mamba2 性能下降到與門控線性注意力相當(dāng)。
再次,即使在只有 100 個(gè) tokens 的短文本中,所有模型在處理兩跳推理任務(wù)時(shí)都面臨一定的困難,這凸顯了學(xué)術(shù)級(jí)別預(yù)訓(xùn)練的局限性。
最后,通過減少或去除旋轉(zhuǎn)位置編碼這一做法,尤其是在添加了 Canon 層的情況下使用這一做法,能在不影響整體性能的前提下,提升長上下文的泛化能力。
總之,Canon 層從根本上改善了跨不同架構(gòu)的水平信息流,從而實(shí)現(xiàn)了更深入的推理和高效的可擴(kuò)展性。未來,該團(tuán)隊(duì)希望借助無限高質(zhì)量的數(shù)據(jù),通過本次成果來預(yù)測未來架構(gòu)的演進(jìn)方向,例如通過更完善的數(shù)據(jù)策展或基于強(qiáng)化學(xué)習(xí)的訓(xùn)練后優(yōu)化,從而釋放更深層次的推理與分層推斷能力,進(jìn)而推動(dòng)大模型訓(xùn)練流程的持續(xù)進(jìn)步。
參考資料:
1.論文地址:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5240330
https://www.linkedin.com/in/zeyuan-allen-zhu/details/education/
https://x.com/ZeyuanAllenZhu
http://zeyuan.allen-zhu.com/index.php
運(yùn)營/排版:何晨龍
熱門跟貼