提到AI視頻生成,大家會(huì)想到誰…,Sora,Runway Gen-3,Veo2.0,Ray2…
在近期MagicArena平臺(tái)的萬人評(píng)測中,字節(jié)團(tuán)隊(duì)前不久推出的Seaweed-7B 以1047 ELO 的評(píng)分超越了上述知名的主流AI視頻模型,尤其是遠(yuǎn)超Sora的903 ELO評(píng)分。

除了客觀的評(píng)分之外,我們可以通過下面幾個(gè)Demo來直觀感受一下Seaweed-7B的強(qiáng)悍。
Seaweed根據(jù)提示詞生成各種類型人物角色,尤其在人物動(dòng)作,手勢,情緒方面表現(xiàn)出色。
Seaweed可以通過定義的軌跡來模擬精確的相機(jī)控制,不僅提供了增強(qiáng)的創(chuàng)意方向,還為用戶提供了探索模擬世界的互動(dòng)方式。
Seaweed能夠產(chǎn)生一致的、多鏡頭、長篇故事,保持場景和鏡頭的連續(xù)性。用戶可以為總體敘事提供全局文本描述,并為每個(gè)鏡頭提供精細(xì)的文本描述。
很難想象這樣強(qiáng)悍的一款視頻生成模型的參數(shù)只有7B。
傳統(tǒng)意義上,模型企業(yè)傾向于訓(xùn)練擁有海量參數(shù)的大模型,希望通過高昂的計(jì)算資源成本,換取在下游任務(wù)上的強(qiáng)大泛化能力。
而Seaweed-7B卻打破了這一思路的慣性思維:它以中等規(guī)模模型為基礎(chǔ),注入了高效的設(shè)計(jì)與優(yōu)化策略,并在視頻生成領(lǐng)域取得了可與大規(guī)模模型相媲美,甚至部分方面超越的效果。
字節(jié)Seed團(tuán)隊(duì)近期發(fā)布了Seaweed-7B的技術(shù)論文,揭示用相對(duì)較少的訓(xùn)練資源(約66.5萬小時(shí)H100 GPU,相當(dāng)于1000張H100并行訓(xùn)練27.7天)實(shí)現(xiàn)了與14B、13B甚至更大模型比肩的效果。
Seed團(tuán)隊(duì)通過精妙的網(wǎng)絡(luò)結(jié)構(gòu)、數(shù)據(jù)處理算法以及多階段訓(xùn)練策略,使得該模型在文本到視頻(text-to-video)和圖像到視頻(image-to-video)等關(guān)鍵方向上呈現(xiàn)出了相當(dāng)強(qiáng)勁的性能。
在訓(xùn)練成本飆升、推理效率堪憂的當(dāng)下,Seaweed-7B究竟是如何在保證生成質(zhì)量的同時(shí)有效地降低算力投入?
它在方法上做了哪些創(chuàng)新,能為研究者或產(chǎn)業(yè)工程師帶來何種啟示?
是否存在尚待優(yōu)化或突破的方面?
帶著這些疑問,我們結(jié)合潛在應(yīng)用場景,一起來探討這一成果對(duì)未來視頻生成領(lǐng)域的啟示
研究背景:字節(jié)跳動(dòng)的「種子計(jì)劃」
這項(xiàng)研究來自字節(jié)旗下的Seed團(tuán)隊(duì),該團(tuán)隊(duì)專注于多模態(tài)生成技術(shù)的前沿研究。論文于2025年4月份發(fā)布在arXiv上。
在視頻生成領(lǐng)域, 近年來涌現(xiàn)了多個(gè)重量級(jí)模型,這些模型普遍采用了"更大即更好"的發(fā)展路徑,通常需要數(shù)千臺(tái)高端GPU進(jìn)行訓(xùn)練。例如,MovieGen使用了6000多臺(tái)H100,這種巨大的計(jì)算資源需求不僅限制了研究創(chuàng)新,也使得只有少數(shù)科技巨頭能夠參與這一領(lǐng)域的競爭。
與此同時(shí),視頻生成的推理成本也遠(yuǎn)高于語言、圖像或音頻生成,這對(duì)于Instagram和YouTube Shorts等社交媒體應(yīng)用場景構(gòu)成了巨大挑戰(zhàn)。在這種背景下,Seaweed-7B團(tuán)隊(duì)提出了一個(gè)關(guān)鍵問題:是否可能通過精心設(shè)計(jì),使中等規(guī)模的模型也能達(dá)到與大型模型相媲美的性能?
核心成果:小模型的“四兩撥千斤”
在對(duì)Seaweed-7B的核心成果進(jìn)行剖析前,讓我們先概括下它的基本技術(shù)框架。
Seaweed-7B基于擴(kuò)散模型(diffusion model)與Transformer結(jié)合的思路,采用了Diffusion Transformer(DiT)這一類模型架構(gòu)。它繼承了近期視頻生成技術(shù)的主流經(jīng)驗(yàn):通過3D變分自編碼器(VAE)壓縮視頻原始像素,再在緊湊的潛變量空間中進(jìn)行生成式建模。
變分自編碼器(VAE)的優(yōu)化設(shè)計(jì)
Seaweed-7B在VAE設(shè)計(jì)上做出了多項(xiàng)創(chuàng)新,這些創(chuàng)新對(duì)模型的整體性能至關(guān)重要。
他們采用了因果3D卷積架構(gòu),這種設(shè)計(jì)能夠統(tǒng)一圖像和視頻的編碼,使得以第一幀為條件的圖像到視頻生成任務(wù)變得自然而直接。同時(shí),這種架構(gòu)還消除了兩個(gè)推理片段之間邊界的閃爍問題,允許在不進(jìn)行人工拼接的情況下編碼和解碼任意長度的視頻。
Seed團(tuán)隊(duì)還深入研究了壓縮比與重建質(zhì)量之間的關(guān)系。他們發(fā)現(xiàn),VAE的重建質(zhì)量主要取決于壓縮比,而不同下采樣率的VAE雖然最終會(huì)收斂到類似的結(jié)果,但收斂速度會(huì)因下采樣率而異,較小的下采樣率通常會(huì)導(dǎo)致更快的收斂。
一個(gè)特別值得注意的發(fā)現(xiàn)是,在VAE內(nèi)部進(jìn)行序列壓縮明顯優(yōu)于在DiT中使用分塊(patchification)。64倍壓縮的VAE不僅收斂更快,還能達(dá)到更好的穩(wěn)定點(diǎn),即使在更高的空間壓縮率下,也沒有在高分辨率視頻生成中觀察到明顯的視覺偽影。
Seed團(tuán)隊(duì)還提出了混合分辨率訓(xùn)練策略,通過使用不同分辨率、時(shí)長和幀率的圖像和視頻進(jìn)行訓(xùn)練,提高了模型在高分辨率和長時(shí)間視頻重建方面的泛化能力。這種策略首先僅使用圖像進(jìn)行訓(xùn)練以加快收斂,然后再引入視頻。在訓(xùn)練數(shù)據(jù)中包含高分辨率圖像和視頻,顯著改善了高分辨率重建質(zhì)量。

混合流結(jié)構(gòu)的擴(kuò)散變換器
在擴(kuò)散變換器(DiT)設(shè)計(jì)方面,Seaweed-7B采用了混合流(hybrid-stream)結(jié)構(gòu),這是對(duì)傳統(tǒng)雙流(dual-stream)結(jié)構(gòu)的改進(jìn)。視頻和文本標(biāo)記都通過多個(gè)自注意力層和前饋網(wǎng)絡(luò)處理,允許每種模態(tài)發(fā)展自己的表示。
Seed團(tuán)隊(duì)使用SwiGLU代替GeLU作為激活函數(shù),并通過AdaSingle進(jìn)行時(shí)間步調(diào)制,同時(shí)在更深層共享三分之二的前饋網(wǎng)絡(luò)參數(shù),以提高參數(shù)效率并減少內(nèi)存成本。
實(shí)驗(yàn)表明,在相同的訓(xùn)練計(jì)算預(yù)算下,混合流架構(gòu)始終能夠?qū)崿F(xiàn)比雙流架構(gòu)更低的損失?;谶@些設(shè)計(jì),研究團(tuán)隊(duì)構(gòu)建了隱藏大小為3584、總共32層的7B混合流模型。
在注意力機(jī)制方面,Seed團(tuán)隊(duì)比較了全注意力、空間全注意力和稀疏窗口注意力三種類型。
他們發(fā)現(xiàn),在足夠的計(jì)算預(yù)算下,普通的全注意力產(chǎn)生的損失更低,并且在訓(xùn)練可擴(kuò)展性方面表現(xiàn)更好。然而,對(duì)于高分辨率視頻訓(xùn)練,全注意力會(huì)帶來巨大的計(jì)算負(fù)擔(dān)。在預(yù)訓(xùn)練后將模型從全注意力微調(diào)為窗口注意力,可以減少注意力中的冗余,同時(shí)保持推理效率,如果設(shè)計(jì)得當(dāng),質(zhì)量下降可以忽略不計(jì)。
為了增強(qiáng)不同寬高比和時(shí)長引入的位置信息,Seed團(tuán)隊(duì)?wèi)?yīng)用了3D旋轉(zhuǎn)位置編碼(RoPE),并構(gòu)建了3D多模態(tài)RoPE(MM-ROPE),通過為文本標(biāo)記添加兼容的1D位置編碼,促進(jìn)文本和視頻之間位置信息的有效融合。

多階段訓(xùn)練策略
Seaweed-7B采用了從低分辨率到高分辨率的多階段訓(xùn)練策略。
訓(xùn)練分為四個(gè)階段,每個(gè)階段以該階段使用的主要目標(biāo)分辨率區(qū)域命名。例如,第1階段主要使用256×256和512×512的圖像,以及256×256的視頻。這里的分辨率(如256×256)指的是目標(biāo)面積,而不是確切的尺寸;圖像和視頻在保持寬高比的同時(shí)調(diào)整大小以匹配所需面積。
在視頻訓(xùn)練中,研究團(tuán)隊(duì)使用了包括文本到視頻、圖像到視頻和視頻到視頻擴(kuò)展的多任務(wù)訓(xùn)練。
文本到視頻是模型收斂最具成本效益的任務(wù)。在預(yù)訓(xùn)練期間引入少量圖像到視頻任務(wù)有利于文本到視頻和圖像到視頻的學(xué)習(xí),但過度增加比例會(huì)產(chǎn)生不利影響,不會(huì)提高圖像到視頻的性能。
因此,他們將圖像到視頻的比例設(shè)置為20%。為了增強(qiáng)圖像到視頻的性能,在預(yù)訓(xùn)練后,他們分支出一個(gè)專用的圖像到視頻模型,其中圖像到視頻任務(wù)比例增加到50-75%。
后訓(xùn)練優(yōu)化
在預(yù)訓(xùn)練階段之后,Seed團(tuán)隊(duì)?wèi)?yīng)用了監(jiān)督微調(diào)(SFT)和人類反饋強(qiáng)化學(xué)習(xí)(RLHF),以進(jìn)一步提高輸出的美學(xué)質(zhì)量、運(yùn)動(dòng)一致性和結(jié)構(gòu)連貫性。后訓(xùn)練過程分別針對(duì)文本到視頻和圖像到視頻任務(wù)獨(dú)立進(jìn)行。
SFT階段的目的是以更符合人類偏好的方式增強(qiáng)視覺質(zhì)量,包括美學(xué)和視覺風(fēng)格等因素。研究團(tuán)隊(duì)通過人工標(biāo)注策劃了一個(gè)包含70萬個(gè)高美學(xué)和視覺質(zhì)量視頻的數(shù)據(jù)集,確保分布平衡。其中,約5萬個(gè)被確定為最高質(zhì)量的視頻在SFT訓(xùn)練中被賦予更大的權(quán)重。
實(shí)驗(yàn)表明,SFT階段后,生成視頻的美學(xué)和色彩質(zhì)量顯著提高。

然而,長時(shí)間的SFT訓(xùn)練可能導(dǎo)致快速過擬合,導(dǎo)致提示跟隨能力下降和運(yùn)動(dòng)質(zhì)量降低。
為了解決這些問題,Seed團(tuán)隊(duì)開發(fā)了一種視頻生成的DPO方法,在訓(xùn)練過程中在正樣本上加入SFT損失。實(shí)驗(yàn)表明,DPO在提高結(jié)構(gòu)和運(yùn)動(dòng)質(zhì)量方面非常有效。

性能表現(xiàn)
Seaweed-7B在多項(xiàng)評(píng)測中展現(xiàn)了令人印象深刻的性能。
在圖像到視頻任務(wù)中,Seaweed-7B在MagicArena(https://aigcarena.com/) 的Elo評(píng)分系統(tǒng)中排名第二,得分為1047,僅次于Kling 1.6 HD。
值得注意的是,它超越了幾個(gè)當(dāng)代強(qiáng)大的模型,如Sora、Veo 2.0、Wan 2.1(14B)和HunyuanVideo(13B)。
這一結(jié)果尤為顯著,因?yàn)镾eaweed-7B作為一個(gè)7B模型,訓(xùn)練計(jì)算資源相當(dāng)于在1,000臺(tái)H100 GPU上訓(xùn)練27.7天,卻超越了使用更多GPU資源訓(xùn)練的更大模型的性能。
在細(xì)粒度比較中,Seaweed-7B在多個(gè)評(píng)估指標(biāo)上大幅領(lǐng)先于Sora、Wan-2.1和HunyuanVideo。
與Kling 1.6(HD)相比,Seaweed-7B在提示跟隨和運(yùn)動(dòng)質(zhì)量方面具有競爭力,但在視覺質(zhì)量方面落后,導(dǎo)致整體排名和Elo排名較低。這種視覺質(zhì)量的不足是可以預(yù)期的,因?yàn)镾eaweed-7B的輸出分辨率為480p或720p,而Kling的輸出為1080p,這在視覺保真度方面給了它明顯的優(yōu)勢。
在文本到視頻任務(wù)中,Seaweed-7B在Elo比較中排名前2-3位。它緊隨排名第一的Veo 2,與Wan 2.1-14B表現(xiàn)相當(dāng),并超過Kling 1.6(HD)。
這些結(jié)果表明,使用665,000 H100 GPU小時(shí)訓(xùn)練的Seaweed模型,與使用更多計(jì)算資源訓(xùn)練的更大模型相比,實(shí)現(xiàn)了具有競爭力的性能。

方法評(píng)析:精巧設(shè)計(jì)下的取舍之道
Seaweed-7B團(tuán)隊(duì)深刻理解到,在計(jì)算資源受限的環(huán)境中,數(shù)據(jù)質(zhì)量和多樣性比數(shù)量更為重要。
他們構(gòu)建了一套可擴(kuò)展的大規(guī)模數(shù)據(jù)處理基礎(chǔ)設(shè)施,并開發(fā)了多種數(shù)據(jù)處理器來有效篩選高質(zhì)量視頻數(shù)據(jù)。通過這套數(shù)據(jù)管道,他們收集了約1億個(gè)視頻片段,每個(gè)片段平均時(shí)長約8秒。
數(shù)據(jù)處理流程包含多個(gè)精心設(shè)計(jì)的步驟,每一步都對(duì)最終模型性能產(chǎn)生重要影響。
在VAE設(shè)計(jì)方面,他們采用了時(shí)間上因果的卷積架構(gòu),這種設(shè)計(jì)不僅統(tǒng)一了圖像和視頻的編碼,還消除了兩個(gè)推理片段之間邊界的閃爍問題。VAE的重建質(zhì)量主要取決于壓縮比,而不同下采樣率的VAE雖然最終會(huì)收斂到類似的結(jié)果,但收斂速度會(huì)因下采樣率而異。
64倍壓縮的VAE不僅收斂更快,還能達(dá)到更好的穩(wěn)定點(diǎn),即使在更高的空間壓縮率下,也沒有在高分辨率視頻生成中觀察到明顯的視覺偽影。這一發(fā)現(xiàn)對(duì)于高效訓(xùn)練和推理至關(guān)重要。
在DiT模型設(shè)計(jì)方面,Seaweed-7B采用了混合流結(jié)構(gòu),這是對(duì)傳統(tǒng)雙流結(jié)構(gòu)的改進(jìn)。在相同的訓(xùn)練計(jì)算預(yù)算下,混合流架構(gòu)始終能夠?qū)崿F(xiàn)比雙流架構(gòu)更低的損失。
研究團(tuán)隊(duì)還比較了全注意力、空間全注意力和稀疏窗口注意力三種類型,發(fā)現(xiàn)在足夠的計(jì)算預(yù)算下,普通的全注意力產(chǎn)生的損失更低,并且在訓(xùn)練可擴(kuò)展性方面表現(xiàn)更好。
為了增強(qiáng)不同寬高比和時(shí)長引入的位置信息,研究團(tuán)隊(duì)?wèi)?yīng)用了3D旋轉(zhuǎn)位置編碼(RoPE),并構(gòu)建了3D多模態(tài)RoPE(MM-ROPE),通過為文本標(biāo)記添加兼容的1D位置編碼,促進(jìn)文本和視頻之間位置信息的有效融合。
這種設(shè)計(jì)在雙流MMDiT結(jié)構(gòu)中導(dǎo)致了更低的訓(xùn)練損失。
Seaweed-7B的訓(xùn)練策略同樣體現(xiàn)了研究團(tuán)隊(duì)的創(chuàng)新思維。
他們采用了從低分辨率到高分辨率的多階段訓(xùn)練策略,并在視頻訓(xùn)練中使用了包括文本到視頻、圖像到視頻和視頻到視頻擴(kuò)展的多任務(wù)訓(xùn)練。
盡管Seaweed-7B在多項(xiàng)評(píng)測中表現(xiàn)出色,但它仍然存在一些局限性。
在視覺質(zhì)量方面,特別是在超高分辨率下,Seaweed-7B與一些專注于高分辨率輸出的模型相比仍有差距。例如,在與Kling 1.6 HD的比較中,Seaweed-7B在視覺質(zhì)量方面落后,這主要是因?yàn)镾eaweed-7B的輸出分辨率為480p或720p,而Kling的輸出為1080p。
雖然監(jiān)督微調(diào)(SFT)能有效提高美學(xué)和色彩質(zhì)量,但長時(shí)間的SFT訓(xùn)練可能導(dǎo)致快速過擬合,導(dǎo)致提示跟隨能力下降和運(yùn)動(dòng)質(zhì)量降低。這表明在訓(xùn)練過程中存在一種權(quán)衡,需要仔細(xì)平衡不同質(zhì)量維度。
重述器(Rephraser)模型雖然能顯著增強(qiáng)視頻生成,特別是在視覺美學(xué)和風(fēng)格方面,但它可能會(huì)影響提示跟隨,特別是對(duì)于超過12個(gè)單詞的較長輸入提示,在重述過程中保持確切的語義含義變得具有挑戰(zhàn)性。
Seaweed-7B的研究路徑充分印證了“巧妙結(jié)構(gòu)設(shè)計(jì)+ 多任務(wù)訓(xùn)練策略+ 后處理對(duì)齊”在資源受限下也能逼近大規(guī)模模型水準(zhǔn)。
它既為視頻生成生態(tài)提供了一個(gè)“更輕量、還能接近高質(zhì)量”的成功案例,也讓我們反思:是否只要無限增大模型與數(shù)據(jù),才是視頻生成最優(yōu)解?從方法上看,如何更進(jìn)一步在計(jì)算效率與輸出品質(zhì)間找到更佳折中,仍是后續(xù)的重要探討方向。
結(jié)論:小模型的“破局時(shí)刻”
Seaweed-7B模型的研究成果為視頻生成領(lǐng)域帶來了幾個(gè)重要的技術(shù)貢獻(xiàn)和啟示。
它挑戰(zhàn)了"更大即更好"的傳統(tǒng)范式,證明了中等規(guī)模模型在視頻生成領(lǐng)域的巨大潛力。通過精心的設(shè)計(jì)選擇和優(yōu)化策略,一個(gè)僅有7B參數(shù)的模型能夠在性能上媲美甚至超越參數(shù)量是其兩倍的模型,這一發(fā)現(xiàn)對(duì)整個(gè)領(lǐng)域具有深遠(yuǎn)的啟示意義。
Seaweed-7B降低了視頻生成技術(shù)的入門門檻,使更多的研究者和開發(fā)者能夠參與到這一領(lǐng)域的創(chuàng)新中來。通過證明中等規(guī)模模型在視頻生成領(lǐng)域的潛力,它鼓勵(lì)更多的研究關(guān)注模型效率而非簡單地增加模型規(guī)模,這可能會(huì)促進(jìn)更多創(chuàng)新解決方案的涌現(xiàn)。
Seaweed-7B提出的資源效率與性能平衡的新范式,為視頻生成技術(shù)的商業(yè)化和大規(guī)模應(yīng)用鋪平了道路。隨著視頻內(nèi)容在數(shù)字媒體中的重要性不斷提升,高效、低成本的視頻生成技術(shù)將成為內(nèi)容創(chuàng)作和分發(fā)平臺(tái)的重要競爭力。
Seaweed-7B模型的成本效益優(yōu)勢和競爭性能使其在多個(gè)應(yīng)用場景中具有巨大潛力。
在社交媒體內(nèi)容創(chuàng)作領(lǐng)域,如Instagram和YouTube Shorts,Seaweed-7B的高效推理特性使其特別適合這些對(duì)資源敏感的應(yīng)用場景。用戶可以通過簡單的文本描述或參考圖像,快速生成高質(zhì)量的短視頻內(nèi)容,大大降低內(nèi)容創(chuàng)作的門檻。
在電影和娛樂產(chǎn)業(yè),Seaweed-7B可以作為創(chuàng)意輔助工具,幫助導(dǎo)演、編劇和視覺效果藝術(shù)家快速將創(chuàng)意轉(zhuǎn)化為視覺形式。它可以用于概念驗(yàn)證、故事板創(chuàng)建、視覺效果預(yù)覽等環(huán)節(jié),加速創(chuàng)意迭代過程。雖然目前的視頻質(zhì)量和長度可能還不足以直接用于最終制作,但作為創(chuàng)意探索和初步可視化的工具,它已經(jīng)具備了實(shí)用價(jià)值。
在教育和培訓(xùn)領(lǐng)域,Seaweed-7B可以用于生成教學(xué)視頻、演示材料和交互式學(xué)習(xí)內(nèi)容。教師和培訓(xùn)師可以通過簡單的文本描述或參考圖像,快速生成符合教學(xué)需求的視頻內(nèi)容,提高教學(xué)效率和學(xué)習(xí)體驗(yàn)。特別是在遠(yuǎn)程教育和在線學(xué)習(xí)平臺(tái)中,這種能力可以大大豐富教學(xué)資源的多樣性和吸引力。
在廣告和營銷應(yīng)用中,Seaweed-7B可以幫助品牌和營銷人員快速生成產(chǎn)品演示、概念驗(yàn)證和營銷素材。它的圖像到視頻功能特別適合將產(chǎn)品靜態(tài)圖像轉(zhuǎn)化為動(dòng)態(tài)展示,增強(qiáng)產(chǎn)品的吸引力和說服力。此外,它的成本效益優(yōu)勢使得即使是小型企業(yè)和初創(chuàng)公司也能負(fù)擔(dān)得起高質(zhì)量的視頻內(nèi)容創(chuàng)作。
在創(chuàng)意和藝術(shù)領(lǐng)域,Seaweed-7B可以作為藝術(shù)家和創(chuàng)意工作者的創(chuàng)作工具,幫助他們探索新的視覺表達(dá)形式和創(chuàng)意可能性。它的文本到視頻和圖像到視頻功能可以將抽象的創(chuàng)意概念轉(zhuǎn)化為具體的視覺形式,激發(fā)創(chuàng)作靈感和拓展創(chuàng)作邊界。
至頂AI實(shí)驗(yàn)室洞見
在這個(gè)“硬件資源為王”的時(shí)代,Seaweed-7B的研究提醒我們,精心的設(shè)計(jì)選擇和優(yōu)化策略同樣重要,甚至可能比簡單地增加模型規(guī)模更為關(guān)鍵。這種思路不僅適用于視頻生成,也可能對(duì)其他AI領(lǐng)域產(chǎn)生啟發(fā)。
Seed團(tuán)隊(duì)在數(shù)據(jù)處理方面的細(xì)致工作,展現(xiàn)了他們對(duì)數(shù)據(jù)質(zhì)量和多樣性的重視,以及為此開發(fā)的一系列處理技術(shù),體現(xiàn)了對(duì)基礎(chǔ)工作的尊重和理解。在AI研究中,數(shù)據(jù)往往是被低估的關(guān)鍵因素,Seaweed-7B的成功再次證明了高質(zhì)量數(shù)據(jù)的重要性。
從更廣泛的社會(huì)影響角度看,Seaweed-7B這類中等規(guī)模但高效的模型,有望推動(dòng)視頻生成技術(shù)的民主化。它降低了入門門檻,使更多的研究者、開發(fā)者和創(chuàng)作者能夠參與到這一領(lǐng)域中來,這可能會(huì)催生更多創(chuàng)新應(yīng)用和解決方案。
未來,我們認(rèn)為視頻生成技術(shù)將沿著兩條并行的路徑發(fā)展:一條是繼續(xù)追求更大、更強(qiáng)大的模型,以實(shí)現(xiàn)最高質(zhì)量的視頻生成;另一條是優(yōu)化中等或者小規(guī)模模型的效率和性能,以滿足更廣泛的應(yīng)用需求。
Seaweed-7B在后一條路徑上邁出了重要一步,它的成功將鼓勵(lì)更多的研究關(guān)注模型效率而非簡單地增加模型規(guī)模。
本文來自至頂AI實(shí)驗(yàn)室,一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。致力于推動(dòng)生成式AI在各個(gè)領(lǐng)域的創(chuàng)新與突破,挖掘其潛在的應(yīng)用場景,為企業(yè)和個(gè)人提供切實(shí)可行的解決方案。
熱門跟貼