打開網(wǎng)易新聞 查看精彩圖片

本文由 NUS ShowLab 主導(dǎo)完成。第一作者顧宇超為新加坡國(guó)立大學(xué) ShowLab@NUS 在讀博士生,研究方向是視覺生成,在 CVPR、ICCV、NeurIPS 等國(guó)際頂級(jí)會(huì)議與期刊上發(fā)表多篇研究成果。第二作者毛維嘉為新加坡國(guó)立大學(xué) ShowLab@NUS 二博士生,研究方向是多模態(tài)理解和生成,項(xiàng)目負(fù)責(zé)作者為該校校長(zhǎng)青年教授壽政。

打開網(wǎng)易新聞 查看精彩圖片

  • 論文標(biāo)題:Long-Context Autoregressive Video Modeling with Next-Frame Prediction
  • 論文鏈接:https://arxiv.org/abs/2503.19325
  • 項(xiàng)目主頁:https://farlongctx.github.io/
  • 開源代碼:https://github.com/showlab/FAR

背景:長(zhǎng)上下文視頻生成的挑戰(zhàn)

目前的視頻生成技術(shù)大多是在短視頻數(shù)據(jù)上訓(xùn)練,推理時(shí)則通過滑動(dòng)窗口等策略,逐步擴(kuò)展生成的視頻長(zhǎng)度。然而,這種方式無法充分利用視頻的長(zhǎng)時(shí)上下文信息,容易導(dǎo)致生成內(nèi)容在時(shí)序上出現(xiàn)潛在的不一致性。

解決這一問題的關(guān)鍵在于:高效地對(duì)長(zhǎng)視頻進(jìn)行訓(xùn)練。但傳統(tǒng)的自回歸視頻建模面臨嚴(yán)重的計(jì)算挑戰(zhàn) —— 隨著視頻長(zhǎng)度的增加,token 數(shù)量呈爆炸式增長(zhǎng)。 視覺 token 相較于語言 token 更為冗余,使得長(zhǎng)下文視頻生成比長(zhǎng)上下文語言生成更為困難。

本文針對(duì)這一核心挑戰(zhàn),首次系統(tǒng)性地研究了如何高效建模長(zhǎng)上下文視頻生成,并提出了相應(yīng)的解決方案。

我們特別區(qū)分了兩個(gè)關(guān)鍵概念:

  • 長(zhǎng)視頻生成:目標(biāo)是生成較長(zhǎng)的視頻,但不一定要求模型持續(xù)利用已生成的內(nèi)容,因此缺乏長(zhǎng)時(shí)序的一致性。這類方法通常仍在短視頻上訓(xùn)練,通過滑動(dòng)窗口等方式延長(zhǎng)生成長(zhǎng)度。
  • 長(zhǎng)上下文視頻生成:不僅要求視頻更長(zhǎng),還要持續(xù)利用歷史上下文信息,確保長(zhǎng)時(shí)序一致性。這類方法需要在長(zhǎng)視頻數(shù)據(jù)上進(jìn)行訓(xùn)練,對(duì)視頻生成建模能力提出更高要求。

長(zhǎng)上下文視頻生成的重要性:

最近的工作 Genie2 [1] 將視頻生成用于 world modeling /game simulation 的場(chǎng)景中,展現(xiàn)出非常令人驚艷的潛力。然而,現(xiàn)有基于滑窗的生成方法通常缺乏記憶機(jī)制,無法有效理解、記住并重用在 3D 環(huán)境中探索過的信息,比如 OASIS [2]。這種缺乏記憶性的建模方式,不僅影響生成效果,還可能導(dǎo)致對(duì)物理規(guī)律建模能力的缺失。這可能正是當(dāng)前長(zhǎng)視頻生成中常出現(xiàn)非物理現(xiàn)象的原因之一:模型本身并未在大量長(zhǎng)視頻上訓(xùn)練,i2v(image-to-video)+ 滑動(dòng)窗口的方式難以確保全局合理性。

FAR 的創(chuàng)新設(shè)計(jì)與分析

1)幀自回歸模型(FAR)

FAR 將視頻生成任務(wù)重新定義為基于已有上下文逐幀(圖像)生成的過程。為解決混合自回歸與擴(kuò)散模型在訓(xùn)練與測(cè)試階段存在的上下文不一致問題,我們?cè)谟?xùn)練過程中隨機(jī)引入干凈的上下文信息,從而提升模型測(cè)試時(shí)對(duì)利用干凈上下文的穩(wěn)定性。

打開網(wǎng)易新聞 查看精彩圖片

FAR 的訓(xùn)練測(cè)試流程;測(cè)試時(shí)對(duì)干凈上下文的生成結(jié)果。

2) 長(zhǎng)短時(shí)上下文建模

我們觀察到,隨著上下文幀數(shù)量的增加,視頻生成中會(huì)出現(xiàn)視覺 token 數(shù)量急劇增長(zhǎng)的問題。然而,視覺 token 在時(shí)序上具有局部性:對(duì)于當(dāng)前解碼幀,其鄰近幀需要更細(xì)粒度的時(shí)序交互,而遠(yuǎn)離的幀通常僅需作為記憶存在,無需深入的時(shí)序交互?;谶@一觀察,我們提出了 長(zhǎng)短時(shí)上下文建模。該機(jī)制采用非對(duì)稱的 patchify 策略:短時(shí)上下文保留原有的 patchify 策略,以保證細(xì)粒度交互;而長(zhǎng)時(shí)上下文則進(jìn)行更為激進(jìn)的 patchify,減少 token 數(shù)量,從而在保證計(jì)算效率的同時(shí),維持時(shí)序模擬的質(zhì)量。

打開網(wǎng)易新聞 查看精彩圖片

FAR 的長(zhǎng)視頻訓(xùn)練測(cè)試流程

打開網(wǎng)易新聞 查看精彩圖片

長(zhǎng)短時(shí)上下文的非對(duì)稱 patchify 帶來的 token 減少以及訓(xùn)練效率提升

3) 用于長(zhǎng)上下文視頻生成的多層 KV Cache 機(jī)制

針對(duì)長(zhǎng)短時(shí)上下文的非對(duì)稱 patchify 策略,我們提出了相應(yīng)的多層 KV-Cache 機(jī)制。在自回歸解碼過程中,當(dāng)某一幀剛離開短時(shí)上下文窗口時(shí),我們將其編碼為低粒度的 L2 Cache(少量 token);同時(shí),更新仍處于短時(shí)窗口內(nèi)幀的 L1 Cache(常規(guī) token)。最終,我們結(jié)合這兩級(jí) KV Cache,用于當(dāng)前幀的生成過程。

值得強(qiáng)調(diào)的是,多層 KV Cache 與擴(kuò)散模型中常用的 Timestep Cache 是互補(bǔ)的:前者沿時(shí)間序列方向緩存 KV 信息,后者則在擴(kuò)散時(shí)間步維度上進(jìn)行緩存,共同提升生成效率。

打開網(wǎng)易新聞 查看精彩圖片

針對(duì)長(zhǎng)短時(shí)上下文策略的多層 KV Cache

打開網(wǎng)易新聞 查看精彩圖片

長(zhǎng)視頻生成的效率提升

FAR 相對(duì)于 SORA 類 VideoDiT 的潛在優(yōu)勢(shì)

1)收斂效率:在相同的連續(xù)潛空間上進(jìn)行實(shí)驗(yàn)時(shí),我們發(fā)現(xiàn) FAR 相較于 Video DiT 展現(xiàn)出更快的收斂速度以及更優(yōu)的短視頻生成性能。

打開網(wǎng)易新聞 查看精彩圖片

FAR 與 Video DiT 的收斂對(duì)比

2)無需額外的 I2V 微調(diào):FAR 無需針對(duì)圖像到視頻(I2V)任務(wù)進(jìn)行額外微調(diào),即可同時(shí)建模視頻生成與圖像到視頻的預(yù)測(cè)任務(wù),并在兩者上均達(dá)到 SOTA 水平。

打開網(wǎng)易新聞 查看精彩圖片

條件 / 非條件視頻生成的評(píng)測(cè)結(jié)果

打開網(wǎng)易新聞 查看精彩圖片

基于條件幀的視頻預(yù)測(cè)的評(píng)測(cè)結(jié)果

3)高效的長(zhǎng)視頻訓(xùn)練與長(zhǎng)上下文建模能力:FAR 支持高效的長(zhǎng)視頻訓(xùn)練以及對(duì)長(zhǎng)上下文建模。在基于 DMLab 的受控環(huán)境中進(jìn)行實(shí)驗(yàn)時(shí),我們觀察到模型對(duì)已觀測(cè)的 3D 環(huán)境具有出色的記憶能力,在后續(xù)幀預(yù)測(cè)任務(wù)中首次實(shí)現(xiàn)了近乎完美的長(zhǎng)期記憶效果。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

總結(jié)

我們首次系統(tǒng)性地驗(yàn)證了長(zhǎng)上下文建模在視頻生成中的重要性,并提出了一個(gè)基于長(zhǎng)短時(shí)上下文的幀自回歸模型 ——FAR。FAR 不僅在短視頻生成任務(wù)中,相較于 Video DiT 展現(xiàn)出更快的收斂速度與更優(yōu)性能,同時(shí)也在長(zhǎng)視頻的 world modeling 場(chǎng)景中,首次實(shí)現(xiàn)了顯著的長(zhǎng)時(shí)序一致性。此外,F(xiàn)AR 有效降低了長(zhǎng)視頻生成的訓(xùn)練成本。在當(dāng)前文本數(shù)據(jù)趨于枯竭的背景下,F(xiàn)AR 為高效利用現(xiàn)有海量長(zhǎng)視頻數(shù)據(jù)進(jìn)行生成式建模,提供了一條具有潛力的全新路徑。

參考文獻(xiàn):

【1】Genie 2: https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

【2】Oasis: https://oasis-model.github.io/