白交 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

字節(jié)Seed團(tuán)隊(duì)視頻生成基礎(chǔ)模型,來(lái)了。

Seaweed海藻,“Seed-Video”的縮寫(真是好一個(gè)諧音梗?。?/em>。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

首發(fā)僅70億參數(shù),卻能實(shí)現(xiàn)超越同類140億參數(shù)視頻模型的效果——

它能根據(jù)文本描述創(chuàng)建各種分辨率(原生支持1280x720分辨率)、任意寬高比和時(shí)長(zhǎng)的視頻。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

它是使用665000 H100 GPU小時(shí)完成訓(xùn)練,而同類模型通常需要超百萬(wàn)GPU小時(shí),其相當(dāng)于是1000個(gè)H100訓(xùn)練27.7天完成。

而且中小團(tuán)隊(duì)可部署,僅需40GB顯存單GPU就可生成分辨率達(dá)1280x720的視頻。

字節(jié)最新視頻生成模型

作為基礎(chǔ)模型,其標(biāo)志性功能一定得具備。

比如像開(kāi)頭小短片這種人/動(dòng)物、景觀生成已經(jīng)屬于是灑灑水。

它支持圖像生成模型,控制功能也增強(qiáng),并支持首尾幀調(diào)節(jié)

打開(kāi)網(wǎng)易新聞 查看精彩圖片

并且支持微調(diào),根據(jù)「參考主體」圖像生成視頻,單幅多幅都可以,將其合成為動(dòng)態(tài)視頻序列。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

而結(jié)合字節(jié)多模態(tài)數(shù)字人方案Omnihuman——一張圖、一段音頻,就可以生成一段人物視頻。它可以創(chuàng)建人聲更為匹配人物角色,唇部、肢體動(dòng)作都跟著音頻一起同步。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

此外,它還支持用視頻生成音頻,來(lái)配合視頻的敘事場(chǎng)景、風(fēng)格。

在這些基礎(chǔ)功能之上,Seaweed還技術(shù)大放送,結(jié)合過(guò)往技術(shù)成果展現(xiàn)了新的體驗(yàn)。

長(zhǎng)篇故事敘述,用戶既可以為整體敘事提供全局文本描述,也可以為每個(gè)鏡頭提供細(xì)粒度的文本描述。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

這背后結(jié)合「長(zhǎng)上下文調(diào)優(yōu)」、面向長(zhǎng)篇敘述生成「VideoAuteur」等技術(shù)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片

  • 高分辨率
  • 除了原生支持1280x720分辨率,還支持進(jìn)一步采樣至2K(2560x1440)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

背后是基于SeedVR,基于Diffusion Transformer實(shí)現(xiàn)通用視頻修復(fù)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

  • 實(shí)時(shí)生成
  • 可實(shí)時(shí)生成分辨率為1280x720、幀率為24fps的視頻。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

此外,還支持「攝影機(jī)」控制生成、物理一致性生成,背后分別有CameraCtrl II、SimDrop技術(shù)加持。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

打開(kāi)網(wǎng)易新聞 查看精彩圖片

與其他模型對(duì)比情況。

圖像到視頻任務(wù)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

文本到視頻的任務(wù)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

在單個(gè)H100 GPU運(yùn)行中,Seaweed響應(yīng)速度是Wan-2.1(參數(shù)量是前者兩倍)的62分之一。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

技術(shù)報(bào)告:三大技術(shù)創(chuàng)新

不過(guò)更詳細(xì)的技術(shù)細(xì)節(jié),還是集中在技術(shù)報(bào)告里。

整篇技術(shù)報(bào)告核心討論的就是一個(gè)問(wèn)題:在視頻生成基礎(chǔ)模型的訓(xùn)練上,如何實(shí)現(xiàn)低成本高效益。

他們選擇訓(xùn)練一個(gè)中等規(guī)模的模型——約70億個(gè)參數(shù)的DiT模型,使用665000個(gè)H100 GPU Hours從頭開(kāi)始訓(xùn)練該模型,相當(dāng)于在1000個(gè)H100 GPU上訓(xùn)練27.7天。

具體在數(shù)據(jù)處理、模型架構(gòu)設(shè)計(jì)、以及訓(xùn)練策略和優(yōu)化方面三個(gè)方面的技術(shù)創(chuàng)新。

首先是數(shù)據(jù)這塊。

他們有一套全面的數(shù)據(jù)處理管道,其中包括但不限于時(shí)間分割、空間裁剪、質(zhì)量過(guò)濾、多視角數(shù)據(jù)平衡、重復(fù)數(shù)據(jù)刪除和視頻字幕。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

每一個(gè)步驟都有他們?cè)敿?xì)的處理細(xì)節(jié)。

以字幕任務(wù)為例,他們發(fā)現(xiàn)使用更大的72B LLM可以減少幻覺(jué)。但是,使用72B模型為數(shù)百萬(wàn)個(gè)視頻生成視頻字幕的計(jì)算成本要高得多。

于是他們選擇將72B作為教師模型然后蒸餾出7B的學(xué)生模型,節(jié)約成本的同時(shí)還提高了準(zhǔn)確率。此外他們還將詳細(xì)字幕「推導(dǎo)」成簡(jiǎn)短字幕,類似于思維鏈過(guò)程,結(jié)果進(jìn)一步提高簡(jiǎn)短字幕的準(zhǔn)確率——從84.81%到90.84%。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

利用這一基礎(chǔ)設(shè)施,他們每天可以處理超過(guò)500000小時(shí)的視頻數(shù)據(jù)。

然后再是模型架構(gòu)設(shè)計(jì)上面,由64x壓縮比 VAE與Diffusion Transformer結(jié)合組成 Seaweed 。

VAE這邊,由一個(gè)編碼器和一個(gè)解碼器組成,編碼器將原始像素?cái)?shù)據(jù)壓縮到一個(gè)緊湊的潛在空間,解碼器則根據(jù)這些潛在特征重建原始輸入像素。理想的VAE應(yīng)在保持較高重建質(zhì)量的同時(shí)實(shí)現(xiàn)較高的壓縮比。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

這種設(shè)計(jì)為視頻生成提供了兩個(gè)優(yōu)勢(shì),首先,它統(tǒng)一了圖像和視頻編碼,使第一幀條件圖像視頻生成任務(wù)變得自然。其次,它消除了兩個(gè)推斷片段之間邊界的閃爍,并允許編碼和解碼任意長(zhǎng)的視頻,而無(wú)需人工拼接。

而在Diffusion Transformer這邊,他們用圖像和視頻的原始分辨率和持續(xù)時(shí)間對(duì)它們進(jìn)行混合訓(xùn)練。為了平衡運(yùn)行時(shí)間的計(jì)算,較短的序列被打包在一起。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

最后就是多階段多任務(wù)學(xué)習(xí)訓(xùn)練策略。

他們采用了從低分辨率到高分辨率的多階段漸進(jìn)式的訓(xùn)練策略。這一設(shè)計(jì)側(cè)重于在訓(xùn)練過(guò)程中戰(zhàn)略性地分配 GPU 資源,以提高整體質(zhì)量。

Pre-Training階段,他們只通過(guò)低分辨率圖像對(duì)模型進(jìn)行預(yù)訓(xùn)練,這樣就能建立文本摘要與常見(jiàn)視覺(jué)概念之間的對(duì)齊關(guān)系。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

Post-training階段。我們會(huì)應(yīng)用監(jiān)督微調(diào)(SFT),然后是人類反饋強(qiáng)化學(xué)習(xí)(RLHF),以進(jìn)一步提高輸出結(jié)果的美學(xué)質(zhì)量、動(dòng)作一致性和結(jié)構(gòu)連貫性。

Just Like This~

打開(kāi)網(wǎng)易新聞 查看精彩圖片

這一階段分別針對(duì)文本到視頻和圖像到視頻任務(wù)進(jìn)行。

而在更具體Infra層面的優(yōu)化,他們還做了這些方面的措施。

比如采用并行策略在長(zhǎng)語(yǔ)境視頻中訓(xùn)練7B模型;引入了運(yùn)行時(shí)平衡(Runtime Balance)策略,以減輕圖像和視頻聯(lián)合訓(xùn)練過(guò)程中的負(fù)載不平衡;還設(shè)計(jì)了多級(jí)激活檢查點(diǎn)(MLAC),以減少GPU內(nèi)存使用量和重新計(jì)算開(kāi)銷。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

最后,還通過(guò)實(shí)施融合的CUDA內(nèi)核來(lái)簡(jiǎn)化零散的I/O操作,從而優(yōu)化GPU利用率。

因此,在大規(guī)模分布式訓(xùn)練中,Seaweed-7B的模型FLOPs利用率(MFU)達(dá)到了38%。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

Seed研究團(tuán)隊(duì)大曝光

而在官網(wǎng)最后,背后研究團(tuán)隊(duì)也都全部曝光。

由蔣路、馮佳時(shí)、楊振恒、楊建超帶領(lǐng)的研究團(tuán)隊(duì)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

其中蔣路正是去年加盟字節(jié)的前谷歌高級(jí)科學(xué)家,曾負(fù)責(zé)谷歌視頻生成工作,在多個(gè)谷歌產(chǎn)品(如YouTube、云服務(wù)、AutoML、廣告、Waymo和翻譯)中做出了重要貢獻(xiàn),同時(shí)也是CMU兼職教授。

馮佳時(shí)則是首次曝光的「關(guān)鍵8人」之一,大模型視覺(jué)基礎(chǔ)研究團(tuán)隊(duì)負(fù)責(zé)人,專注于計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)領(lǐng)域的相關(guān)研究及其在多媒體中的應(yīng)用。

具體研究團(tuán)隊(duì)成員如下:

打開(kāi)網(wǎng)易新聞 查看精彩圖片

基礎(chǔ)設(shè)施以及貢獻(xiàn)者還有這些:

打開(kāi)網(wǎng)易新聞 查看精彩圖片

參考鏈接:
[1]https://seaweed.video/
[2]https://arxiv.org/abs/2504.08685
[3]https://x.com/CeyuanY/status/1911618555210334350