如今的 Transformer 仍難以生成一分鐘的視頻,原因在于自注意力機(jī)制在處理長上下文時(shí)效率低下。替代方法如 Mamba 層在生成復(fù)雜多場景故事方面也存在困難,因?yàn)樗鼈兊碾[藏狀態(tài)表達(dá)能力較弱。英偉達(dá)提出了一種新方法TTT-MLP,嘗試引入測試時(shí)訓(xùn)練(Test-Time Training, TTT)層,其隱藏狀態(tài)本身可以是神經(jīng)網(wǎng)絡(luò),因此具有更強(qiáng)的表達(dá)能力。將 TTT 層加入預(yù)訓(xùn)練的 Transformer 中,使其能夠根據(jù)文本故事板生成一分鐘的視頻。(鏈接在文章底部)

作為概念驗(yàn)證,基于《貓和老鼠》卡通片構(gòu)建了一個(gè)數(shù)據(jù)集。與 Mamba 2、Gated DeltaNet 和滑動(dòng)窗口注意力等基線方法相比,TTT 層生成的視頻在講述復(fù)雜故事方面更加連貫,盡管結(jié)果令人興奮,但仍存在一些偽影,可能是由于預(yù)訓(xùn)練的 50 億參數(shù)模型能力有限。

01 技術(shù)原理

左圖:在每個(gè)注意力層之后添加了一個(gè)帶有可學(xué)習(xí)門控機(jī)制的 TTT 層,從而修改了原始架構(gòu)。右圖:整體流程將輸入序列劃分為由多個(gè) 3 秒片段組成的結(jié)構(gòu)。這種結(jié)構(gòu)使能夠在局部片段上應(yīng)用自注意力層,同時(shí)在整個(gè)序列范圍內(nèi)全局應(yīng)用 TTT 層。

打開網(wǎng)易新聞 查看精彩圖片

左圖:為減少每個(gè) SM(流處理器)在 TTT-MLP 中所需的內(nèi)存,將隱藏狀態(tài)中的權(quán)重矩陣 W(1) 和 W(2) 在多個(gè) SM 之間進(jìn)行分片,僅在初始加載和最終輸出時(shí)在 HBM(高帶寬內(nèi)存)與 SMEM(共享內(nèi)存)之間傳輸。右圖:在片上完整地更新隱藏狀態(tài),并利用 NVIDIA Hopper GPU 架構(gòu)中的 DSMEM(分布式共享內(nèi)存)功能,在多個(gè) SM 之間對(duì)中間激活值執(zhí)行 AllReduce 操作。

TTT 層使預(yù)訓(xùn)練的擴(kuò)散式 Transformer 能夠根據(jù)文本故事板生成一分鐘的視頻。以《貓和老鼠》卡通片作為概念驗(yàn)證。這些視頻講述了由動(dòng)態(tài)動(dòng)作組成的連貫場景中的復(fù)雜故事。每個(gè)視頻均由模型一次性直接生成,未經(jīng)過任何剪輯、拼接或后期處理。每個(gè)故事都是全新創(chuàng)作的。

02 演示效果與對(duì)比

局部注意力在保持湯姆的顏色一致性、杰瑞的老鼠洞位置以及湯姆身體形態(tài)方面表現(xiàn)不佳,容易出現(xiàn)失真。但TTT-MLP在整個(gè)視頻過程中展現(xiàn)出出色的人物一致性和時(shí)間一致性。

TTT-MLP在時(shí)間一致性、運(yùn)動(dòng)平滑性和整體美學(xué)方面優(yōu)于所有其他基準(zhǔn)模型,且在人類評(píng)估的Elo評(píng)分中表現(xiàn)最佳。(Mamba 2 在湯姆咆哮和追趕杰瑞時(shí)扭曲了湯姆的外貌;Gated DeltaNet 在湯姆的不同角度之間缺乏時(shí)間一致性;滑動(dòng)窗口注意力改變了廚房環(huán)境,并且重復(fù)了杰瑞偷派的場景。)

局限性:生成的一分鐘視頻展示了作為概念驗(yàn)證的明顯潛力,但仍然包含明顯的偽影。(時(shí)間一致性:盒子在相同場景的3秒段落之間發(fā)生形變;運(yùn)動(dòng)自然性:奶酪懸浮在空中,而不是自然地落到地面;美學(xué):當(dāng)湯姆轉(zhuǎn)身時(shí),廚房的光線變得異常明亮。)

https://test-time-training.github.io/video-dit/assets/ttt_cvpr_2025.pdf
https://github.com/test-time-training/ttt-video-dit

歡迎交流~,帶你學(xué)習(xí)AI,了解AI