英國愛丁堡大學(xué)博士畢業(yè)生、沙特阿卜杜拉國王科技大學(xué)博士后研究員李南伯一直在研究世界模型,這種模型能夠根據(jù)事物的狀態(tài)和背后規(guī)律預(yù)測未來,這一顯著特征讓李南伯深深著迷。

圖 | 李南伯(來源:李南伯)
打開網(wǎng)易新聞 查看精彩圖片
圖 | 李南伯(來源:李南伯)

李南伯將預(yù)測理解為在時序上根據(jù)“背后規(guī)律”延展事物的“空間狀態(tài)”。從這個角度來看,時空建模確實是世界模型面臨的核心技術(shù)挑戰(zhàn)之一。尤其在復(fù)雜“狀態(tài)”描述(如通用高維向量表示)的場景下,研究其“時空規(guī)律”尤為復(fù)雜。這與傳統(tǒng)學(xué)科研究非常相似,只不過各學(xué)科關(guān)注的是它們獨(dú)有的“世界”。

在 AI 或機(jī)器學(xué)習(xí)領(lǐng)域,人們更關(guān)注如何讓模型高效學(xué)習(xí)這些“時空規(guī)律”,而非規(guī)律本身。這本質(zhì)上是一個計算問題。然而,現(xiàn)有的通用架構(gòu)如 Transformers 和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,Recurrent Neural Network)在計算上都有局限性。

Transformers 支持并行計算,但因其二次方復(fù)雜度問題難以擴(kuò)展到無限長序列;而 RNNs 雖然可以用恒定內(nèi)存擴(kuò)展無限長序列,但并行能力不足(如訓(xùn)練時需串行計算)且存在長距離遺忘問題。近期廣受關(guān)注的狀態(tài)空間模型 Mamba 架構(gòu)通過線性遞歸在 Transformers 和 RNNs 之間取得了一種折衷:它在時間/順序軸上實現(xiàn)了高效壓縮,因此更適合“時空學(xué)習(xí)”。但由于缺乏對輸入數(shù)據(jù)的空間軸高效壓縮和狀態(tài)空間的充分利用,其時空學(xué)習(xí)潛力尚未完全釋放。

為此,李南伯和所在團(tuán)隊提出一種簡稱為 FACTS 的新技術(shù),針對這一問題重構(gòu)了 Mamba 或通用結(jié)構(gòu)狀態(tài)空間模型的狀態(tài)空間,將其結(jié)構(gòu)化為一個圖表征。該文章已被機(jī)器學(xué)習(xí)頂會 ICLR2025 接收。

(來源:arXiv)
打開網(wǎng)易新聞 查看精彩圖片
(來源:arXiv)

換言之,F(xiàn)ACTS 可以看作一個“圖表征狀態(tài)空間”的結(jié)構(gòu)化狀態(tài)空間模型,或一個“圖表征狀態(tài)空間”的 RNN。這種設(shè)計不僅顯著提升了時空學(xué)習(xí)性能,還引入了處理圖輸入及建模因果關(guān)系(因果圖)的能力。為了保留 Mamba 的并行計算特性,研究人員還提出了一種線性化的圖狀態(tài)機(jī)制。

(來源:arXiv)
打開網(wǎng)易新聞 查看精彩圖片
(來源:arXiv)

對于相關(guān)論文審稿人表示:“本次論文提出了一種引入可置換內(nèi)存結(jié)構(gòu)的架構(gòu),能夠靈活處理無序或動態(tài)變化的輸入,同時通過高效壓縮歷史記錄捕獲長期依賴,從而在基線模型上實現(xiàn)了性能提升。這種架構(gòu)采用內(nèi)存輸入路由機(jī)制,動態(tài)分配輸入特征至潛在狀態(tài)空間因子,解決了輸入特征方差和動態(tài)關(guān)系建模的關(guān)鍵挑戰(zhàn)。其設(shè)計既簡單又高效,能夠穩(wěn)健處理輸入順序變化,同時簡化高維數(shù)據(jù)的處理,并增強(qiáng)時空依賴的捕獲能力,適用于實際應(yīng)用場景?!?/p>

還有審稿人表示:“本次論文在多變量時間序列預(yù)測、時空圖預(yù)測,以及以對象為中心的世界建模等任務(wù)中進(jìn)行了廣泛實驗,結(jié)果表明 FACTS 在多項指標(biāo)上始終優(yōu)于或匹配當(dāng)前最先進(jìn)的模型。實驗不僅驗證了該方法在捕捉復(fù)雜時空動態(tài)方面的穩(wěn)健性,還展示了其在不同數(shù)據(jù)集上的多功能性,進(jìn)一步證明了其在現(xiàn)實世界中的應(yīng)用潛力?!?/p>

作為一個通用時空模型的架構(gòu),除了傳統(tǒng)時序預(yù)測應(yīng)用領(lǐng)域,如金融、能源、交通、醫(yī)療等領(lǐng)域外,在多媒體領(lǐng)域,如視頻,動畫生成應(yīng)該也有著很好的前景。FACTS 作為世界模型架構(gòu),李南伯也很期待看到其在其他學(xué)科研究中的應(yīng)用,如物理、化學(xué)、生物以及相關(guān)社會科學(xué)。

正如之前提到的,李南伯對世界模型有著深深的執(zhí)著,而 FACTS 是他在這一領(lǐng)域探索中的一項重要工作。李南伯在時空建模方面的思考,深受其導(dǎo)師“遞歸神經(jīng)網(wǎng)絡(luò)之父”、阿卜杜拉國王科技大學(xué)尤爾根·施密德胡伯(Jürgen Schmidhuber)教授提出的兩個關(guān)鍵原則的影響:歷史壓縮(history compression)和可預(yù)測性最小化(predictability minimisation)。

基于這兩條原則,李南伯對比了 LSTM、Transformers 和 Mamba 的優(yōu)劣,并從中獲得了 FACTS 的靈感。這個階段的關(guān)鍵在于理論上的啟發(fā)和明確方向。

2024 年 5 月,李南伯首次通過實驗觀察到重構(gòu)“狀態(tài)空間”后的“beta 版本”FACTS 在時間序列預(yù)測任務(wù)上的優(yōu)越表現(xiàn)。不僅能夠與當(dāng)時最強(qiáng)基準(zhǔn)模型匹敵,甚至在部分實驗中有所超越。這一結(jié)果極大地增強(qiáng)了李南伯的信心,讓他確信自己的思路是正確的,剩下的工作就是將想法付諸實踐并優(yōu)化模型。

模型迭代階段是一個不斷反思和完善的過程。從理論模型到實驗實現(xiàn),李南伯反復(fù)修改了大約 8 個版本的理論模型,實驗實現(xiàn)更是多次推翻重來。汗水和咖啡因成為這段時間的主旋律,但因為方向明確,這段經(jīng)歷更多是令人愉快的挑戰(zhàn)。這一階段最大的難點(diǎn)在于設(shè)計可并行的內(nèi)存更新機(jī)制。盡管 2024 年 5 月末的 beta 模型已經(jīng)在時間序列預(yù)測上表現(xiàn)出很高的精度,但他希望在計算效率上不做過多妥協(xié),時間復(fù)雜度至少要與 Mamba 同量級。這一目標(biāo)推動他和所在團(tuán)隊最終開發(fā)出現(xiàn)有的可線性化的 FACTS,在性能與效率之間取得了平衡。

在這項研究的期間,李南伯收獲了愛情與友情。雖然這看似與研究本身并沒有直接的因果關(guān)系。但考慮到李南伯于 2024 年 3 月才剛剛加入施密德胡伯教授的實驗室,一切都是全新的——新的環(huán)境、新的同事、新的研究。在短時間內(nèi)結(jié)識志同道合的新朋友和研究伙伴,還幸運(yùn)地收獲了愛情,為李南伯能展開 FACTS 研究提供了堅實保障。其表示,每次趕截稿的過程都像被“扒了一層皮”,無比痛苦,但大家一起趕,在壓力之下還能互相開玩笑,這確實是一種慰藉。

除了繼續(xù)在世界模型方向上深入探索,他還計劃對當(dāng)前的 FACTS 模型進(jìn)行擴(kuò)展(scale up),以開展基于 FACTS 的基礎(chǔ)模型(foundation model)應(yīng)用研究。

參考資料:

1.https://arxiv.org/pdf/2410.20922

運(yùn)營/排版:何晨龍