
自 OpenAI 發(fā)布 Sora 以來,AI 視頻生成技術(shù)進(jìn)入快速爆發(fā)階段。憑借擴(kuò)散模型強(qiáng)大的生成能力,我們已經(jīng)可以看到接近現(xiàn)實(shí)的視頻生成效果。但在模型逼真度不斷提升的同時(shí),速度瓶頸卻成為橫亙在大規(guī)模應(yīng)用道路上的最大障礙。
當(dāng)前最好的視頻生成模型 Wan 2.1、HunyuanVideo 等,在單張 H100 GPU 上生成一個(gè) 5 秒的 720p 視頻往往需要耗時(shí) 30 分鐘以上。主要瓶頸出現(xiàn)在 3D Full Attention 模塊,約占總推理時(shí)間的 80% 以上。
為了解決這個(gè)問題,來自加州伯克利和 MIT 的研究者們提出了聯(lián)合提出了一種新穎的解決方案:Sparse VideoGen。

- 論文標(biāo)題:Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity
- 論文鏈接:https://arxiv.org/abs/2502.01776
- 代碼:https://github.com/svg-project/Sparse-VideoGenn
- 網(wǎng)頁:https://svg-project.github.io/
這是一種完全無需重新訓(xùn)練模型的視頻生成加速方法。通過挖掘注意力機(jī)制中的空間與時(shí)間稀疏性,配合自適應(yīng)稀疏選擇與算子優(yōu)化,成功將推理時(shí)間減半。令人驚訝的是,它生成的視頻與 Dense Attention 方法相比,幾乎沒有肉眼可見的差別,保持極高的像素保真度 (PSNR = 29)。Sparse VideoGen 也是第一個(gè)能夠達(dá)到這種級別的像素保真度的方法。
目前,Sparse VideoGen 已經(jīng)支持了 Wan 2.1, HunyuanVideo, CogVideoX 等多種 SOTA 開源模型,并且 T2V(文生視頻),I2V(圖生視頻)都可以加速。他們的所有代碼均已開源。該工作已經(jīng)被 ICML 2025 錄取。
擴(kuò)散式視頻生成的性能瓶頸
擴(kuò)散模型(Diffusion Models)已經(jīng)成為圖像與視頻生成的主流方案。特別是基于 Transformer 架構(gòu)的 Video Diffusion Transformers(DiTs),在建模長時(shí)空依賴與視覺細(xì)節(jié)方面具有顯著優(yōu)勢。然而,DiTs 模型的一大特征 ——3D Full Attention—— 也帶來了巨大的計(jì)算負(fù)擔(dān)。每個(gè) token 不僅要考慮當(dāng)前幀的空間上下文,還要參與跨幀的時(shí)間建模。隨著分辨率和幀數(shù)的提升,Attention 的計(jì)算復(fù)雜度以二次增長,遠(yuǎn)高于普通圖像生成模型。
例如,HunyuanVideo 和 Wan 2.1 在 1×H100 上生成 5 秒 720p 視頻需要 29 分鐘,其中Attention 計(jì)算占據(jù)超過 80% 的時(shí)間。如此高昂的代價(jià),大大限制了擴(kuò)散視頻模型在真實(shí)世界中的部署能力。

Sparse VideoGen 的核心設(shè)計(jì)
抓住 Attention 中的稀疏性
在 Video Diffusion Transformer 的 Attention Map 中存在兩種獨(dú)特的稀疏模式:空間稀疏性 (Spatial sparsity) 和時(shí)間稀疏性 (Temporal sparsity)。大多數(shù) Attention Head 都可以歸類為其中之一,并可以相應(yīng)地定義兩類 Attention Head:Spatial Head 和 Temporal Head。
Spatial Head - 關(guān)注空間鄰近的 Token
Spatial Head 主要關(guān)注相同幀及相鄰幀中的 Token,其 Attention Map 呈塊狀布局,集中于主對角線附近。它負(fù)責(zé)建模局部空間一致性,使得圖像生成在幀內(nèi)連貫。
Temporal Head - 關(guān)注不同幀中的相同 Token
Temporal Head 主要用于捕捉幀間的 Token 關(guān)系。其 Attention Map 呈斜線式布局,并具有恒定步長。這種機(jī)制確保了時(shí)間一致性,即同一物體在多個(gè)幀中保持連貫。
這種 Attention 模式的解構(gòu),幫助模型在計(jì)算過程中識別哪些 token 是「重要的」,哪些可以忽略,從而構(gòu)建稀疏注意力策略。

實(shí)現(xiàn)無損像素保真度的關(guān)鍵
動態(tài)自適應(yīng)的稀疏策略
盡管 Spatial Head 和 Temporal Head 分別解決了空間和時(shí)間一致性問題,但真正實(shí)現(xiàn)無損像素保真度的關(guān)鍵在于最優(yōu)地組合它們。
在不同的去噪步驟(denoising steps)以及不同的生成提示(prompts)下,最優(yōu)的稀疏策略可能會發(fā)生顯著變化。因此,靜態(tài)的稀疏模式無法保證最佳效果,必須采用動態(tài)、自適應(yīng)的策略。
為此,Sparse VideoGen 采用了一種在線稀疏模式優(yōu)化方法(Online Profiling),通過動態(tài)的決定 Attention Mask,用于動態(tài)決定每個(gè)注意力頭所采用的稀疏策略。
其方法如下:
1. 每一步推理過程中,隨機(jī)采樣極少量(僅 0.05%,約 64 個(gè))的 Query Token;
2. 分別使用 Spatial 和 Temporal 兩種稀疏模式計(jì)算其注意力結(jié)果,并與 Dense Attention 對比誤差;
3. 為每個(gè) Attention Head 選擇誤差最小的稀疏模式。
僅使用 64 個(gè) Query Token(占全部 token 總數(shù)的 0.1%),即可準(zhǔn)確預(yù)測最優(yōu)的稀疏模式。這種輕量級探索 + 局部誤差擬合的策略,幾乎不增加額外計(jì)算開銷(<3%),但可在不同步驟下精準(zhǔn)選取最優(yōu)稀疏模式,從而最大限度保證畫質(zhì)(PSNR > 29)且實(shí)現(xiàn)有效加速。

從算子層優(yōu)化稀疏計(jì)算
Layout Transformation + Kernel 加速
盡管利用稀疏性能夠顯著提升 Attention 速度,但如何達(dá)到最優(yōu)的加速效果仍然是一大問題。尤其是Temporal Head 的非連續(xù)內(nèi)存訪問模式仍然對 GPU 的性能構(gòu)成挑戰(zhàn)。
Temporal Head(時(shí)間注意力頭)需要跨多個(gè)幀訪問相同空間位置的 token。然而,傳統(tǒng)的張量布局通常是以幀為主(frame-major)的順序存儲數(shù)據(jù),即同一幀的所有 token 連續(xù)存儲,而不同幀的相同位置的 token 則分散開來。
為了解決這一問題,Sparse VideoGen 引入了一種硬件友好的布局轉(zhuǎn)換方法。該方法通過將張量從幀為主的布局轉(zhuǎn)換為 token 為主(token-major)的布局,使得 Temporal Head 所需的 token 在內(nèi)存中呈現(xiàn)連續(xù)排列,從而優(yōu)化了內(nèi)存訪問模式。具體而言,這種轉(zhuǎn)換通過轉(zhuǎn)置操作實(shí)現(xiàn),將原本分散的 token 重組為連續(xù)的內(nèi)存塊,符合 GPU 的內(nèi)存訪問特性。

這種布局轉(zhuǎn)換不僅提高了內(nèi)存訪問效率,還使得稀疏注意力計(jì)算能夠更好地利用 GPU 的并行計(jì)算能力。實(shí)驗(yàn)結(jié)果表明,經(jīng)過布局轉(zhuǎn)換后,Sparse VideoGen 在 Temporal Head 上實(shí)現(xiàn)了接近理論極限的加速效果,顯著提升了整體推理速度。

除了注意力機(jī)制的優(yōu)化,Sparse VideoGen 還對 Query-Key Normalization(QK-Norm)和 Rotary Position Embedding(RoPE)進(jìn)行了定制化優(yōu)化,以進(jìn)一步提升推理效率。在標(biāo)準(zhǔn)實(shí)現(xiàn)中,QK-Norm 和 RoPE 的計(jì)算開銷較大,成為推理過程中的性能瓶頸之一。為此,研究者對這兩個(gè)模塊進(jìn)行了算子優(yōu)化,QK-Norm 的吞吐量在所有場景下均優(yōu)于 PyTorch 的標(biāo)準(zhǔn)實(shí)現(xiàn),平均加速比為 7.4 倍,。同樣地,定制化的 RoPE 實(shí)現(xiàn)也在所有幀數(shù)下表現(xiàn)出更高的吞吐量,平均加速比為 14.5 倍。
實(shí)驗(yàn)成果
媲美原模型的畫質(zhì),顯著的推理速度提升
在 Wan2.1、HunyuanVideo 和 CogVideoX 上,Sparse VideoGen 展現(xiàn)出強(qiáng)大性能:
1. 在 H100 上將 HunyuanVideo 的推理時(shí)間從約 30 分鐘降至 15 分鐘以內(nèi);將 Wan 2.1 的推理時(shí)間從 30 分鐘將至 20 分鐘;
2. 保持 PSNR 穩(wěn)定在 29dB 以上,接近 Dense Attention 輸出畫質(zhì);
3. 可無縫接入多種現(xiàn)有 SOTA 視頻生成模型(Wan 2.1、CogVideoX、HunyuanVideo);
4. 同時(shí)支持 T2V(文本生成視頻)和 I2V(圖像生成視頻)任務(wù)。
在未來,隨著視頻擴(kuò)散模型的復(fù)雜度進(jìn)一步上升,如何在不損失視覺質(zhì)量的前提下提升效率,將是核心問題之一。SVG 的工作展示了一條重要方向:結(jié)構(gòu)理解 + 自適應(yīng)稀疏性可能成為視頻生成推理優(yōu)化的黃金組合。
這一研究也在提示我們:視頻生成模型不必一味追求更大,理解其內(nèi)部結(jié)構(gòu)規(guī)律,或許能帶來比擴(kuò)容更可持續(xù)的性能突破。
熱門跟貼