打開網(wǎng)易新聞 查看精彩圖片

新智元報(bào)道

編輯:編輯部 HZN

【新智元導(dǎo)讀】最近英偉達(dá)等機(jī)構(gòu)爆火全網(wǎng)的《貓和老鼠》,背后模型被扒出來了——竟是來自智譜國產(chǎn)大模型CogVideoX-5B!原來,這個(gè)模型憑驚人的效果,早已在開源社區(qū)開發(fā)者中掀起一股全球的二創(chuàng)風(fēng)暴。

最近,英偉達(dá)重現(xiàn)《貓和老鼠》的視頻,在全網(wǎng)掀起一股風(fēng)暴。

只需要一個(gè)提示,不用任何剪輯,AI就可以幫我們?nèi)我鈩?chuàng)作這個(gè)童年經(jīng)典動(dòng)畫,一次60s,童年回憶無限續(xù)杯!

打開網(wǎng)易新聞 查看精彩圖片

這個(gè)神奇的「一分鐘視頻」生成器,由英偉達(dá)、斯坦福、UCSD等機(jī)構(gòu)的研究者構(gòu)建。

而且原理極其簡單——只需在預(yù)訓(xùn)練Transformer中嵌入TTT層,就能讓一個(gè)5B的小模型理解復(fù)雜提示,生成長達(dá)1分鐘的視頻了!

打開網(wǎng)易新聞 查看精彩圖片

論文地址:https://test-time-training.github.io/video-dit/

前方高能,準(zhǔn)備好,無限精彩的童年經(jīng)典全新故事來了!

湯姆正在廚房的桌子旁高興地吃著蘋果派,不料趁它去開門時(shí),蘋果派被杰瑞偷走了。兩人上演追趕大法,最終杰瑞成功逃脫,湯姆撞到墻上。

 爆火全網(wǎng)《貓和老鼠》背后模型竟是這家國產(chǎn)AI!掀二創(chuàng)風(fēng)暴GitHub破萬星
打開網(wǎng)易新聞 查看更多視頻
爆火全網(wǎng)《貓和老鼠》背后模型竟是這家國產(chǎn)AI!掀二創(chuàng)風(fēng)暴GitHub破萬星

杰瑞在水下找到了藏寶圖,成功躲避湯姆后,它在沉船中發(fā)現(xiàn)了寶藏。然而正在慶祝時(shí),湯姆的追逐卻讓它遇到一條饑餓的鯊魚,陷入了大麻煩。

 爆火全網(wǎng)《貓和老鼠》背后模型竟是這家國產(chǎn)AI!掀二創(chuàng)風(fēng)暴GitHub破萬星
打開網(wǎng)易新聞 查看更多視頻
爆火全網(wǎng)《貓和老鼠》背后模型竟是這家國產(chǎn)AI!掀二創(chuàng)風(fēng)暴GitHub破萬星

如此生動(dòng)精妙的效果,簡直如同一枚炸彈,在AI創(chuàng)作圈炸出了驚人的沖擊波。

有意思的是,當(dāng)我們?nèi)ド钊胝{(diào)查背后技術(shù)時(shí),發(fā)現(xiàn)這個(gè)爆火全網(wǎng)的研究,竟然是建立在一個(gè)來自智譜AI的國產(chǎn)大模型的基礎(chǔ)上。

具體來說,研究者們用了預(yù)訓(xùn)練的CogVideo-X 5B作為基礎(chǔ)模型,在這個(gè)模型里加上TTT層,再進(jìn)行微調(diào)。

隨后,就出來了上面那一幕幕驚人的效果。

CogVideoX-5B亮相即爆火

而這個(gè)傳說中的CogVideo-X系列圖生視頻模型,早在去年8月開源時(shí),就在AI圈內(nèi)引起了不小的轟動(dòng)。

它是一個(gè)簡單且可擴(kuò)展的結(jié)構(gòu),包含一個(gè)3D因果VAE和一個(gè)專家Transformer,可以生成連貫、長時(shí)長、動(dòng)作豐富的視頻:

·支持多種寬高比,分辨率高達(dá)768×1360,長度為10秒,幀率為16fps

·是首批商業(yè)級(jí)開源視頻生成模型,有5B和2B兩種規(guī)模,包括文本到視頻和圖像到視頻版本

在CogVideoX-5B中,只要輸入「一張圖像」+「提示詞」,就能生成視頻了。

比如輸入狗狗圖片,配文「開心狗狗」,一只張嘴微笑的開心狗狗視頻就生成了。

打開網(wǎng)易新聞 查看精彩圖片

而且,CogVideoX-5B的視頻生成效果,在當(dāng)時(shí)開源界就已經(jīng)足夠驚艷。

一只狗在雨中奔跑,還戴著墨鏡,尤其是地面中的倒影更顯真實(shí)。還有外星人與宇航員握手這種未來科幻的場景,以及滿是蝴蝶及噴泉的夢想中的精美畫面,都能實(shí)現(xiàn)。

打開網(wǎng)易新聞 查看精彩圖片

打開網(wǎng)易新聞 查看精彩圖片

打開網(wǎng)易新聞 查看精彩圖片

左右滑動(dòng)查看

這個(gè)模型在工程優(yōu)化上也保持了一定的高標(biāo)準(zhǔn)——

支持多種推理精度,推理顯存需求最低僅為11.4GB,單張3060顯卡即可完成推理;

LoRA微調(diào)顯存需求為63GB,SFT微調(diào)為75GB,單卡A100(80GB)同樣可以完成微調(diào)任務(wù)。

后來,智譜團(tuán)隊(duì)又在11月開源了能力更強(qiáng)的CogVideoX v1.5,包括 CogVideoX v1.5-5B、CogVideoX v1.5-5B-I2V兩個(gè)版本。

相比于CogVideoX-5B,CogVideoX v1.5包含5/10秒、768P、16幀的視頻生成能力,I2V模型支持任意尺寸比例,大幅提升了圖生視頻質(zhì)量及復(fù)雜語義理解。

打開網(wǎng)易新聞 查看精彩圖片

目前,CogVideo & CogVideoX系列模型已在GitHub上斬獲了11.2k star。

打開網(wǎng)易新聞 查看精彩圖片

開源項(xiàng)目:https://github.com/THUDM/CogVideo

創(chuàng)新架構(gòu),刷新SOTA

一直以來,視頻生成模型都存在著運(yùn)動(dòng)幅度有限、持續(xù)時(shí)間較短的問題。其中,基于文本生成具有連貫敘事性的視頻尤為困難。

為解決這些挑戰(zhàn),智譜團(tuán)隊(duì)提出了諸多創(chuàng)新性的設(shè)計(jì)。

打開網(wǎng)易新聞 查看精彩圖片

論文地址:https://arxiv.org/pdf/2408.06072

首先,團(tuán)隊(duì)設(shè)計(jì)并訓(xùn)練了一個(gè)3D因果VAE,在空間和時(shí)間維度上對(duì)視頻進(jìn)行壓縮,從而實(shí)現(xiàn)了高維視頻數(shù)據(jù)的高效處理。

與先前微調(diào)2D VAE的方法相比,這種策略不僅有助于顯著減少序列長度和相關(guān)訓(xùn)練計(jì)算量,還能有效防止生成視頻中的閃爍,從而確保幀間的連續(xù)性。

打開網(wǎng)易新聞 查看精彩圖片

其次,為改善視頻與文本間的對(duì)齊效果,團(tuán)隊(duì)提出了一種帶有專家自適應(yīng)LayerNorm的專家Transformer,用來促進(jìn)兩種模態(tài)的融合。

為確保視頻生成中的時(shí)序一致性并捕捉大范圍運(yùn)動(dòng),建議使用3D全注意力機(jī)制,從而在時(shí)間和空間維度上對(duì)視頻進(jìn)行全面建模。

打開網(wǎng)易新聞 查看精彩圖片

第三,鑒于在線可用的大多數(shù)視頻數(shù)據(jù)缺乏準(zhǔn)確的文本描述,團(tuán)隊(duì)開發(fā)了一個(gè)能夠準(zhǔn)確描述視頻內(nèi)容的視頻描述生成流程。

通過為所有視頻訓(xùn)練數(shù)據(jù)生成了新的文本描述,CogVideoX精確理解語義的能力得到了顯著的增強(qiáng)。

此外,團(tuán)隊(duì)還設(shè)計(jì)了漸進(jìn)式訓(xùn)練技術(shù),包括多分辨率幀打包和分辨率漸進(jìn)式訓(xùn)練,用以進(jìn)一步提升CogVideoX的生成性能和穩(wěn)定性。

以及,提出了顯式均勻采樣(Explicit Uniform Sampling)方法——通過在每個(gè)數(shù)據(jù)并行單元上設(shè)置不同的時(shí)間步采樣間隔,穩(wěn)定了訓(xùn)練損失曲線并加速了收斂。

打開網(wǎng)易新聞 查看精彩圖片

對(duì)于生成時(shí)間較長的視頻,一些模型可能會(huì)為了獲得更高分?jǐn)?shù)而產(chǎn)生幀間變化極小的視頻,但這類視頻缺乏豐富的內(nèi)容。

為解決此問題,團(tuán)隊(duì)使用了兩種視頻評(píng)估工具:動(dòng)態(tài)質(zhì)量(Dynamic Quality)和GPT4o-MTScore。

前者通過結(jié)合多種質(zhì)量指標(biāo)與動(dòng)態(tài)得分,減輕了由視頻動(dòng)態(tài)性與視頻質(zhì)量之間負(fù)相關(guān)所帶來的偏差;后者則是通過GPT-4o來測量視頻內(nèi)容的變化程度。

結(jié)果顯示,CogVideoX-5B不僅在視頻生成質(zhì)量方面表現(xiàn)出色,而且在處理各種復(fù)雜動(dòng)態(tài)場景方面也優(yōu)于先前的模型。

打開網(wǎng)易新聞 查看精彩圖片

其中,CogVideoX-5B在7項(xiàng)指標(biāo)中有5項(xiàng)取得了最佳性能,并在其余2項(xiàng)指標(biāo)上也名列前茅。

打開網(wǎng)易新聞 查看精彩圖片

在VAE重建效果方面, CogVideoX-5B取得了最高的PSNR值和最低的抖動(dòng)。

打開網(wǎng)易新聞 查看精彩圖片

開源社區(qū),全是「二創(chuàng)」

由于出色性能,現(xiàn)在不少項(xiàng)目上都已經(jīng)適配了CogVideoX。

在官方的Github頁面上展示了十幾個(gè)使用CogVideoX的開源項(xiàng)目鏈接,其中不乏一些實(shí)用、知名的項(xiàng)目。

打開網(wǎng)易新聞 查看精彩圖片

比如下面這個(gè)DiffSynth-Studio開源項(xiàng)目,已經(jīng)獲得8.3k個(gè)星了。

打開網(wǎng)易新聞 查看精彩圖片

項(xiàng)目地址:https://github.com/modelscope/DiffSynth-Studio?tab=readme-ov-file

該項(xiàng)目在CogVideoX-5B生成的視頻基礎(chǔ)上進(jìn)行編輯和幀插值操作,以達(dá)到更好的效果。

打開網(wǎng)易新聞 查看精彩圖片

打開網(wǎng)易新聞 查看精彩圖片

左側(cè)為原始文本生視頻,右側(cè)是編輯和幀插值后的結(jié)果

而KoolCogVideoX是一個(gè)基于CogVideoX的微調(diào)模型,專為室內(nèi)設(shè)計(jì)而設(shè)計(jì)。

打開網(wǎng)易新聞 查看精彩圖片

被CVPR 2025錄用為Highlight的ConsisID,是一種身份保持的文本到視頻生成模型,基于CogVideoX-5B,通過頻率分解在生成的視頻中保持面部一致性。

打開網(wǎng)易新聞 查看精彩圖片

VideoX-Fun基于CogVideoX的框架,支持靈活的分辨率(從512到1024)和多種啟動(dòng)方法(包括ComfyUI、WebUI以及Python)。

打開網(wǎng)易新聞 查看精彩圖片

打開網(wǎng)易新聞 查看精彩圖片

顯然,在未來我們還將見證更多基于CogVideoX-5B微調(diào)的項(xiàng)目如火如荼地上線,充分發(fā)揮CogVideoX系列開源模型的力量。

據(jù)說,3天后智譜的全新開源模型也要上線,包括基座模型、推理模型、沉思模型,實(shí)在是把期待值給拉滿了。

參考資料:

https://github.com/THUDM/CogVideo

https://test-time-training.github.io/video-dit/