打開網(wǎng)易新聞 查看精彩圖片

整理 | Tina

這是全球首個(gè)由 AI 生成的 25 秒視頻,由字節(jié)跳動(dòng)發(fā)布的 Seaweed-7B 模型生成。

 “字節(jié)暗示我太窮”:Seed團(tuán)隊(duì)1000張H100訓(xùn)練7B模型,發(fā)布全球首個(gè)25秒AI視頻,驗(yàn)證視覺生成Scaling Law?
打開網(wǎng)易新聞 查看更多視頻
“字節(jié)暗示我太窮”:Seed團(tuán)隊(duì)1000張H100訓(xùn)練7B模型,發(fā)布全球首個(gè)25秒AI視頻,驗(yàn)證視覺生成Scaling Law?

字節(jié)跳動(dòng)近日宣布在視頻生成領(lǐng)域取得重大突破——Seaweed-7B。這是一個(gè)參數(shù)量僅為 70 億的視頻生成基礎(chǔ)模型,該模型在核心任務(wù)上的表現(xiàn)超越了參數(shù)量為其兩倍的主流模型,而訓(xùn)練成本僅為其約三分之一。

字節(jié)跳動(dòng)早在去年就開始預(yù)熱 Seaweed 項(xiàng)目,如今,字節(jié) Seed 團(tuán)隊(duì)終于放出了技術(shù)報(bào)告,詳細(xì)介紹了其技術(shù)架構(gòu)和應(yīng)用案例,并強(qiáng)調(diào)了其在成本效益方面的突破。

這也是 Seed 團(tuán)隊(duì)成員的一次曝光。

Seaweed-7B 項(xiàng)目由多個(gè)團(tuán)隊(duì)共同研發(fā)。核心研發(fā)團(tuán)隊(duì)包括由蔣路、馮佳時(shí)等領(lǐng)導(dǎo)的研究團(tuán)隊(duì),下設(shè)模型、數(shù)據(jù)方向和基礎(chǔ)設(shè)施團(tuán)隊(duì)。此外,項(xiàng)目得到了朱文佳和吳永輝的支持。今年 2 月下旬,原 Google DeepMind 副總裁吳永輝正式加入字節(jié)跳動(dòng),出任 Seed 基礎(chǔ)研究負(fù)責(zé)人。蔣路則早在去年就已加盟字節(jié),作為前谷歌高級(jí)科學(xué)家,他曾主導(dǎo)谷歌的視頻生成相關(guān)工作,并在多個(gè)核心產(chǎn)品中發(fā)揮了關(guān)鍵作用,包括 YouTube、云服務(wù)、AutoML、廣告、Waymo 和翻譯等。同時(shí),蔣路也是卡內(nèi)基梅隆大學(xué)(CMU)的兼職教授。

打開網(wǎng)易新聞 查看精彩圖片

而他們放出來的宣傳視頻,這兩天也讓社區(qū)逐漸沸騰起來,引發(fā)了廣泛而熱烈的討論。

從 Seaweed-7B 看視頻生成的下一階段

和目前主流的 AI 視頻模型類似,Seaweed-7B 支持圖像轉(zhuǎn)視頻、基于參考圖像生成視頻、半擬真的人物形象、多鏡頭切換以及高清分辨率輸出等常規(guī)功能。

真正令人驚艷的是,它具備當(dāng)前其他 AI 視頻模型尚未實(shí)現(xiàn)的五項(xiàng)關(guān)鍵能力:

首先,它可以同步生成音頻和視頻。目前大多數(shù)模型都是先生成視頻,再單獨(dú)添加聲音。雖然已有一些“音頻驅(qū)動(dòng)視頻”的研究,但仍處于實(shí)驗(yàn)階段。Seaweed-7B 的音畫一體生成,在效率和內(nèi)容一致性方面都邁出了一大步。

 “字節(jié)暗示我太窮”:Seed團(tuán)隊(duì)1000張H100訓(xùn)練7B模型,發(fā)布全球首個(gè)25秒AI視頻,驗(yàn)證視覺生成Scaling Law?
打開網(wǎng)易新聞 查看更多視頻
“字節(jié)暗示我太窮”:Seed團(tuán)隊(duì)1000張H100訓(xùn)練7B模型,發(fā)布全球首個(gè)25秒AI視頻,驗(yàn)證視覺生成Scaling Law?

其次,它支持長鏡頭生成。OpenAI 的 Sora 雖然曾展示過分鐘級(jí)視頻,但公開可用版本的時(shí)長普遍仍在 20 秒以內(nèi)。此次字節(jié)跳動(dòng)展示的 25 秒視頻不僅拉長了時(shí)長,更是在單條提示詞下一次性生成,質(zhì)量也遠(yuǎn)超以往拼接或續(xù)寫的方式。

打開網(wǎng)易新聞 查看精彩圖片

第三,Seaweed-7B 擁有實(shí)時(shí)生成能力。據(jù)介紹,該模型能以 1280x720 分辨率、24 幀每秒的速度實(shí)時(shí)生成視頻,這在當(dāng)前 AI 視頻領(lǐng)域幾乎是革命性的突破,將極大提升互動(dòng)效率,也為實(shí)時(shí)創(chuàng)作和虛擬角色應(yīng)用場(chǎng)景提供了新的可能性。

 “字節(jié)暗示我太窮”:Seed團(tuán)隊(duì)1000張H100訓(xùn)練7B模型,發(fā)布全球首個(gè)25秒AI視頻,驗(yàn)證視覺生成Scaling Law?
打開網(wǎng)易新聞 查看更多視頻
“字節(jié)暗示我太窮”:Seed團(tuán)隊(duì)1000張H100訓(xùn)練7B模型,發(fā)布全球首個(gè)25秒AI視頻,驗(yàn)證視覺生成Scaling Law?

第四,它引入了名為CameraCtrl-II的功能,支持在三維世界中進(jìn)行鏡頭調(diào)度。研究團(tuán)隊(duì)表示,該方法可通過設(shè)定鏡頭角度,生成高度一致且動(dòng)態(tài)豐富的視頻,甚至可作為三維視圖合成器使用。

 “字節(jié)暗示我太窮”:Seed團(tuán)隊(duì)1000張H100訓(xùn)練7B模型,發(fā)布全球首個(gè)25秒AI視頻,驗(yàn)證視覺生成Scaling Law?
打開網(wǎng)易新聞 查看更多視頻
“字節(jié)暗示我太窮”:Seed團(tuán)隊(duì)1000張H100訓(xùn)練7B模型,發(fā)布全球首個(gè)25秒AI視頻,驗(yàn)證視覺生成Scaling Law?

最后,模型在物理模擬與真實(shí)感表現(xiàn)方面也實(shí)現(xiàn)了顯著提升。傳統(tǒng) AI 視頻模型在處理旋轉(zhuǎn)、舞蹈、滑冰等復(fù)雜動(dòng)態(tài)時(shí)常顯生硬,而 Seaweed-7B 的表現(xiàn)更為自然流暢,雖然仍有提升空間,但已明顯優(yōu)于過去幾個(gè)月業(yè)內(nèi)常見的模型效果。

打開網(wǎng)易新聞 查看精彩圖片

這些視頻效果讓很多人覺得驚艷,不少網(wǎng)友感嘆其在實(shí)時(shí)攝像機(jī)控制、長時(shí)高清視頻生成和多鏡頭流暢切換方面的突破,直呼“太瘋狂了”、“再次驚艷中國”,尤其“實(shí)時(shí)視頻生成”的概念讓人聯(lián)想到未來 AI 在游戲等領(lǐng)域的可能性。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

資源受限環(huán)境中,架構(gòu)設(shè)計(jì)尤其重要

雖然視頻生成的許多技術(shù)都受到圖像生成技術(shù)的啟發(fā),但視頻生成面臨著獨(dú)特的挑戰(zhàn)。與靜態(tài)圖像不同,視頻需要對(duì)運(yùn)動(dòng)動(dòng)態(tài)進(jìn)行建模,并保持長序列的時(shí)間一致性。這些要求極大地增加了訓(xùn)練和推理的計(jì)算復(fù)雜度,使得視頻生成模型成為開發(fā)和部署中最耗費(fèi)資源的基礎(chǔ)模型之一。

2024 年 Sora 的發(fā)布被視為視頻生成領(lǐng)域的重要里程碑,但訓(xùn)練這類模型往往需要極其龐大的算力,通常動(dòng)輒上千張 GPU。

Seaweed-7B 的訓(xùn)練成本則小很多,僅 66.5 萬 H100 GPU 小時(shí),相當(dāng)于在 1,000 張 H100 GPU 上連續(xù)運(yùn)行約 27.7 天。

雖然該模型僅 70 億參數(shù),但從圖像到視頻的效果能超越同類 140 億的模型。

打開網(wǎng)易新聞 查看精彩圖片

在圖像轉(zhuǎn)視頻的任務(wù)中,Seaweed-7B 在各項(xiàng)指標(biāo)上均大幅優(yōu)于 Sora。

打開網(wǎng)易新聞 查看精彩圖片

在文本轉(zhuǎn)視頻的任務(wù)中,Seaweed-7B 在 Elo 評(píng)分中位列前 2-3 名,緊隨排名第一的模型 Veo 2 之后,性能與 Wan 2.1-14B 相當(dāng)。

打開網(wǎng)易新聞 查看精彩圖片

而該模型能夠以顯著降低的計(jì)算成本實(shí)現(xiàn)極具競(jìng)爭力的性能,也跟背后的架構(gòu)設(shè)計(jì)決策密切相關(guān)。

根據(jù)公開信息,該模型采用 DiT(擴(kuò)散變換器)架構(gòu),并通過對(duì)抗性后訓(xùn)練(APT)技術(shù)優(yōu)化生成速度和質(zhì)量。它只需單次神經(jīng)函數(shù)評(píng)估即可生成 2 秒的 720p 視頻,推理速度比同類模型提升 62 倍。同時(shí)也提出了變分自編碼器(VAE)設(shè)計(jì),VAE定義了生成真實(shí)感和保真度的上限,這可能是該模型生成的視頻具有高真實(shí)感和生動(dòng)運(yùn)動(dòng)的主要因素。

打開網(wǎng)易新聞 查看精彩圖片

在數(shù)據(jù)上,該團(tuán)隊(duì)開發(fā)了一套高吞吐量且靈活的視頻管理流程,包括管理視頻編碼和解碼、執(zhí)行時(shí)間分割、空間裁剪、質(zhì)量過濾等。

打開網(wǎng)易新聞 查看精彩圖片

憑借這一基礎(chǔ)架構(gòu),讓 Seed 團(tuán)隊(duì)每天能夠處理超過 50 萬小時(shí)的視頻數(shù)據(jù),足以用于訓(xùn)練,因此可以將精力集中在有效地挖掘高質(zhì)量視頻片段上。為了優(yōu)化視頻片段處理時(shí)的吞吐量,他們使用了兩個(gè)現(xiàn)代框架:BMF 以及 Ray 。

在 Infra 層面,字節(jié)跳動(dòng)圍繞“高效訓(xùn)練”進(jìn)行了系統(tǒng)性的基礎(chǔ)設(shè)施優(yōu)化,顯著提升了模型的算力利用率與資源效率。具體而言,團(tuán)隊(duì)采用三維并行策略(數(shù)據(jù)并行、上下文并行、模型切分)來應(yīng)對(duì)長上下文視頻訓(xùn)練的挑戰(zhàn),并引入“運(yùn)行時(shí)負(fù)載均衡”機(jī)制,動(dòng)態(tài)調(diào)配圖像與視頻樣本在不同 GPU 間的分布,緩解聯(lián)合訓(xùn)練時(shí)的負(fù)載不均問題。

此外,Seaweed-7B 還創(chuàng)新性地設(shè)計(jì)了多級(jí)激活檢查點(diǎn)(MLAC)機(jī)制,支持將中間激活存儲(chǔ)在 GPU、CPU 或磁盤等多層級(jí)介質(zhì)中,不僅大幅降低了顯存占用,還減少了重計(jì)算帶來的性能損耗。為進(jìn)一步提升訓(xùn)練吞吐,團(tuán)隊(duì)還通過 kernel 融合手段,將多個(gè)內(nèi)存訪問密集的操作整合到單個(gè) CUDA kernel,顯著提升了運(yùn)算強(qiáng)度與 GPU 利用率。

打開網(wǎng)易新聞 查看精彩圖片

字節(jié)在論文中表示,得益于這些系統(tǒng)級(jí)優(yōu)化,Seaweed-7B 在大規(guī)模分布式訓(xùn)練中實(shí)現(xiàn)了 38% 的 FLOPs 利用率,成為當(dāng)前 AI 視頻生成領(lǐng)域中兼顧性能與效率的代表性模型之一。

不過,有意思的是,盡管字節(jié)跳動(dòng)認(rèn)為其資源消耗“適度”,不少網(wǎng)友卻對(duì)此持有不同看法,直呼“字節(jié)跳動(dòng)在暗示我太窮”。

他們指出,動(dòng)用上千張頂級(jí) GPU 進(jìn)行近一個(gè)月的訓(xùn)練,無論如何都絕非小數(shù)目,強(qiáng)調(diào)這依然是需要巨大算力的投入,所謂“適度的計(jì)算資源”的說法并不恰當(dāng)。

打開網(wǎng)易新聞 查看精彩圖片

“字節(jié)跳動(dòng)在暗示我‘GPU 窮人’。一個(gè)訓(xùn)練了 66.5 萬張 H100 小時(shí)的模型,卻被稱作‘成本高效’、‘計(jì)算資源適度’?!?/blockquote>

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

https://arxiv.org/html/2504.08685v1

https://www.linkedin.com/posts/eddieyoon_this-is-the-worlds-first-25-second-ai-generated-activity-7317677545821192192--o0W/

聲明:本文為 AI 前線整理,不代表平臺(tái)觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。