最后,模型在物理模擬與真實(shí)感表現(xiàn)方面也實(shí)現(xiàn)了顯著提升。傳統(tǒng) AI 視頻模型在處理旋轉(zhuǎn)、舞蹈、滑冰等復(fù)雜動(dòng)態(tài)時(shí)常顯生硬,而 Seaweed-7B 的表現(xiàn)更為自然流暢,雖然仍有提升空間,但已明顯優(yōu)于過去幾個(gè)月業(yè)內(nèi)常見的模型效果。
打開網(wǎng)易新聞 查看精彩圖片
這些視頻效果讓很多人覺得驚艷,不少網(wǎng)友感嘆其在實(shí)時(shí)攝像機(jī)控制、長時(shí)高清視頻生成和多鏡頭流暢切換方面的突破,直呼“太瘋狂了”、“再次驚艷中國”,尤其“實(shí)時(shí)視頻生成”的概念讓人聯(lián)想到未來 AI 在游戲等領(lǐng)域的可能性。
憑借這一基礎(chǔ)架構(gòu),讓 Seed 團(tuán)隊(duì)每天能夠處理超過 50 萬小時(shí)的視頻數(shù)據(jù),足以用于訓(xùn)練,因此可以將精力集中在有效地挖掘高質(zhì)量視頻片段上。為了優(yōu)化視頻片段處理時(shí)的吞吐量,他們使用了兩個(gè)現(xiàn)代框架:BMF 以及 Ray 。
在 Infra 層面,字節(jié)跳動(dòng)圍繞“高效訓(xùn)練”進(jìn)行了系統(tǒng)性的基礎(chǔ)設(shè)施優(yōu)化,顯著提升了模型的算力利用率與資源效率。具體而言,團(tuán)隊(duì)采用三維并行策略(數(shù)據(jù)并行、上下文并行、模型切分)來應(yīng)對(duì)長上下文視頻訓(xùn)練的挑戰(zhàn),并引入“運(yùn)行時(shí)負(fù)載均衡”機(jī)制,動(dòng)態(tài)調(diào)配圖像與視頻樣本在不同 GPU 間的分布,緩解聯(lián)合訓(xùn)練時(shí)的負(fù)載不均問題。
此外,Seaweed-7B 還創(chuàng)新性地設(shè)計(jì)了多級(jí)激活檢查點(diǎn)(MLAC)機(jī)制,支持將中間激活存儲(chǔ)在 GPU、CPU 或磁盤等多層級(jí)介質(zhì)中,不僅大幅降低了顯存占用,還減少了重計(jì)算帶來的性能損耗。為進(jìn)一步提升訓(xùn)練吞吐,團(tuán)隊(duì)還通過 kernel 融合手段,將多個(gè)內(nèi)存訪問密集的操作整合到單個(gè) CUDA kernel,顯著提升了運(yùn)算強(qiáng)度與 GPU 利用率。
打開網(wǎng)易新聞 查看精彩圖片
字節(jié)在論文中表示,得益于這些系統(tǒng)級(jí)優(yōu)化,Seaweed-7B 在大規(guī)模分布式訓(xùn)練中實(shí)現(xiàn)了 38% 的 FLOPs 利用率,成為當(dāng)前 AI 視頻生成領(lǐng)域中兼顧性能與效率的代表性模型之一。
熱門跟貼