AI 也能生成逼真的《貓和老鼠》動畫片了!長度可以達(dá)到 63 秒,劇情也可以重新生成。

(來源:資料圖)
打開網(wǎng)易新聞 查看精彩圖片
(來源:資料圖)

當(dāng)?shù)貢r間 4 月 8 日,來自英偉達(dá)、美國斯坦福大學(xué)、加州大學(xué)圣地亞哥分校、加州大學(xué)伯克利分校、得克薩斯大學(xué)奧斯汀分校的研究人員,基于測試時訓(xùn)練(TTT,Test-Time Training)生成了多個《貓和老鼠》的動畫視頻。

他們在預(yù)訓(xùn)練的 Transformer 模型中添加了測試時訓(xùn)練層并對其進(jìn)行微調(diào),借此生成了具有強(qiáng)時間一致性的《貓和老鼠》一分鐘動畫片。

研究人員表示,每個視頻都是由模型一次性直接生成的,沒有經(jīng)過編輯、拼接或后處理,每個故事也都是全新創(chuàng)作的。

那么,上述視頻到底是怎么生成的?研究人員表示,如今的 Transformer 模型在生成一分鐘視頻方面仍然面臨挑戰(zhàn),因為自注意力層在處理長上下文時效率低下。諸如 Mamba 層之類的替代方案在處理復(fù)雜的多場景故事時表現(xiàn)不佳,因為它們的隱藏狀態(tài)表現(xiàn)力較弱。

為此,他們使用了測試時訓(xùn)練層,其隱藏狀態(tài)本身可以是神經(jīng)網(wǎng)絡(luò),從而具備更強(qiáng)的表達(dá)能力。當(dāng)在預(yù)訓(xùn)練的 Transformer 中加入測試時訓(xùn)練層,使其能夠根據(jù)文本分鏡腳本生成一分鐘的視頻。

研究中,他們從一個預(yù)訓(xùn)練的擴(kuò)散 Transformer(CogVideo-X 5B)開始,原本其只能以 16 幀每秒的速度生成 3 秒的短片段,或以 8 幀每秒的速度生成 6 秒的短片段。

但是,研究人員添加了從頭初始化的測試時訓(xùn)練層,并對該模型進(jìn)行微調(diào),以便根據(jù)文本分鏡腳本生成一分鐘的視頻。

他們將自注意力層限制在 3 秒的片段內(nèi),以便將研究成本保持在可控范圍內(nèi)。整個訓(xùn)練過程運行在 256 個英偉達(dá) H100 上,相當(dāng)于消耗了 50 小時的訓(xùn)練時長。

為了快速進(jìn)行迭代,研究人員基于約 7 小時的《貓和老鼠》動畫片,并輔以人工標(biāo)注的分鏡腳本,整理了一個文本到視頻的數(shù)據(jù)集。

作為概念驗證,本次研究中的數(shù)據(jù)集側(cè)重于復(fù)雜、多場景、長鏡頭且充滿動態(tài)動作的敘事。而對于視覺和物理真實感方面,此前人們已經(jīng)取得顯著進(jìn)展,所以本次研究未作重點強(qiáng)調(diào)。

(來源:資料圖)
打開網(wǎng)易新聞 查看精彩圖片
(來源:資料圖)

從宏觀層面來看,本次方法只是在預(yù)訓(xùn)練的擴(kuò)散 Transformer(Diffusion Transformer)上添加了測試時訓(xùn)練層,并在帶有文本注釋的長視頻上進(jìn)行微調(diào)。

他們采用了預(yù)先添加測試時訓(xùn)練層、然后再進(jìn)行微調(diào)的方法,這種方法原則上適用于任何主干架構(gòu)。

研究中,他們選擇擴(kuò)散 Transformer 作為初步演示,因為它是視頻生成中最流行的架構(gòu)。由于在視頻上預(yù)訓(xùn)練擴(kuò)散 Transformer 的成本過高,所以研究人員從 CogVideo-X 5B 的預(yù)訓(xùn)練檢查點開始。

他們將視頻設(shè)計為包含多個場景,每個場景包含一個或多個 3 秒的片段,并采用 3 秒片段作為文本與視頻配對的最小單位,之所以這樣做的原因有三個:

第一,原始預(yù)訓(xùn)練的 CogVideo-X 的最大生成長度為 3 秒。第二,在《貓和老鼠》的劇集中,大多數(shù)場景的時長至少為 3 秒。第三,以 3 秒為一段構(gòu)建多階段數(shù)據(jù)集最為方便。

在推理階段,研究人員按照以下三種格式中的任何一種,以詳細(xì)程度遞增的順序來編寫長視頻的文本提示。

? 格式 1:用 5-8 句話簡短概述情節(jié)。

? 格式 2:用大約 20 句話詳細(xì)描述情節(jié),每句話大致對應(yīng) 3 秒的片段。

? 格式 3:分鏡腳本。每一個 3 秒鐘的片段都由一段 3 到 5 句話來描述,內(nèi)容包含背景顏色和鏡頭移動等細(xì)節(jié)。一個或多個段落組成的腳本組,會被嚴(yán)格地界定為屬于某些場景,并且要使用關(guān)鍵詞“<場景開始>”和“< 場景結(jié)束 >”。

在微調(diào)和推理中,文本分詞器的實際輸入始終采用格式 3,格式之間的轉(zhuǎn)換由 Claude 3.7 Sonnet 按 1→2→3 的順序執(zhí)行。

為了生成時間較長的視頻,研究人員針對每個 3 秒的片段都獨立使用相同的程序。

具體而言,給定一個包含 n 段落的格式 3 的分鏡腳本,首先生成 n 個序列片段,每個片段都包含從相應(yīng)段落提取的文本標(biāo)記以及后續(xù)的視頻標(biāo)記。

然后,將所有 n 個序列片段連接在一起,從而形成輸入序列,這時序列中包含交錯排列的文本 tokens 和視頻 tokens。

對于 CogVideo-X 來說,它采用自注意力層來針對每段最長 3 秒的視頻進(jìn)行全局序列處理。但是,面對長視頻時,其所采用的全局注意力機(jī)制會顯著降低效率。

為了避免增加自注意力層的上下文長度,研究人員將其處理范圍限定在每個 3 秒片段內(nèi),使各 n 個序列片段能夠獨立進(jìn)行注意力計算。

由于測試時訓(xùn)練層能夠高效地處理長上下文序列,因此他們采用全局方式來處理整個輸入序列。

遵循大語言模型的標(biāo)準(zhǔn)做法,研究人員將改進(jìn)架構(gòu)的上下文長度分為五個階段,并將其擴(kuò)展至一分鐘。

具體來說,他們先在《貓和老鼠》的 3 秒片段上針對整個預(yù)訓(xùn)練模型進(jìn)行微調(diào)。

在此階段,新的參數(shù)特別是測試時訓(xùn)練層和門控機(jī)制中的的參數(shù),會被賦予更高的學(xué)習(xí)率。

接下來,研究人員分別對 9 秒、18 秒、30 秒以及最終的 63 秒的視頻進(jìn)行微調(diào)。

為了避免模型在預(yù)訓(xùn)練過程中遺忘過多的世界知識,研究人員僅對測試時訓(xùn)練層、門控層和自注意力層進(jìn)行微調(diào),且在這四個階段中使用較低的學(xué)習(xí)率。

在原始視頻的選取上,他們選擇了從 1940 年至 1948 年間發(fā)行的 81 集《貓和老鼠》,每集時長約 5 分鐘,所有集數(shù)加起來時長約 7 小時。

然后,研究人員在原始視頻上運行一個視頻超分辨率模型,從而為數(shù)據(jù)集生成視覺效果更強(qiáng)的視頻,這些視頻的分辨率均為 720×480。

接著,他們讓人工標(biāo)注員將每個片段分解為場景,然后從每個場景中提取 3 秒長的片段。

接下來,研究人員讓人工標(biāo)注員為每個 3 秒的片段撰寫一段詳細(xì)的描述,然后直接針對這些片段進(jìn)行微調(diào)。

為了創(chuàng)建數(shù)據(jù),研究人員將連續(xù)的 3 秒片段拼接成 9 秒、18 秒、30 秒和 63 秒的視頻,并附上相應(yīng)的文本注釋,所有訓(xùn)練視頻的標(biāo)注均采用上文的格式 3。

(來源:資料圖)
打開網(wǎng)易新聞 查看精彩圖片
(來源:資料圖)

對于 GPU 而言,要想高效地實現(xiàn)測試訓(xùn)練層-多層感知器(TTT-MLP,Test-Time Training-Multi-Layer Perceptron),就需要進(jìn)行特殊設(shè)計,以便利用其內(nèi)存層次結(jié)構(gòu)。

英偉達(dá) GPU 架構(gòu)中的核心計算單元是流式多處理器(SMs,Streaming Multiprocessors),其功能類比于 CPU 中的單個核心。

GPU 上的所有流式多處理器共享一個相對較慢但容量較大的全局內(nèi)存(即 HBM,High Bandwidth Memory),然后每個流式多處理器都有一個快速但容量較小的片上內(nèi)存(即 SMEM,Shared Memory)。

GPU 上 SMEM 與 HBM 之間的頻繁數(shù)據(jù)傳輸會顯著降低整體效率。而 Mamba 和自注意力層通過利用內(nèi)核融合技術(shù),可以減少這類數(shù)據(jù)的傳輸。

其核心思想是將輸入和初始狀態(tài)加載到每個 SMEM 中,完全在片上進(jìn)行計算,并且只將最終輸出寫回 HBM。

然而,TTT-MLP 的隱藏狀態(tài)即雙層 MLP 函數(shù) f 的權(quán)重矩陣 W(1) 和 W(2),由于體積過大無法存儲于單個流式多處理器的共享內(nèi)存中。

為了減少每個流式多處理器所需的內(nèi)存,研究人員使用張量并行機(jī)制,將 W(1) 和 W(2) 在流式多處理器之間進(jìn)行分片。

(來源:資料圖)
打開網(wǎng)易新聞 查看精彩圖片
(來源:資料圖)

由于大型多層感知器層可以被分片并跨多個 GPU 的高帶寬存儲器上進(jìn)行訓(xùn)練,因此研究人員將同樣的思路用于多個流式多處理器的共享內(nèi)存中,將每個流式多處理器視為一個 GPU 的類比。

研究人員利用英偉達(dá) Hopper GPU 架構(gòu)的分布式共享內(nèi)存特性,實現(xiàn)了流式多處理器間的全局歸約操作,進(jìn)而顯著提升了效率。

作為一種通用原則,如果一個模型架構(gòu) f 可以通過標(biāo)準(zhǔn)張量并行機(jī)制在 GPU 之間進(jìn)行分片,那么當(dāng) f 用作隱藏狀態(tài)時,同樣的分片策略也可以用于流式多處理器之間。

(來源:資料圖)
打開網(wǎng)易新聞 查看精彩圖片
(來源:資料圖)

不過,本次研究的 TTT-MLP 內(nèi)核受限于寄存器溢出和異步指令的次優(yōu)排序。未來,通過降低寄存器壓力以及開發(fā)編譯器感知更強(qiáng)的異步操作方案,其執(zhí)行效率或能得到進(jìn)一步提升。總的來說,本次方法有望用于生成更長、更復(fù)雜視頻,也許下一代兒童將能看上由 AI 生成的動畫連續(xù)劇?目前看來,這一設(shè)想并非沒有實現(xiàn)的可能。

參考資料:

https://test-time-training.github.io/video-dit/

https://x.com/arankomatsuzaki/status/1909336661743550555

運營/排版:何晨龍