
作者 | 陳家陽
編輯 | 漠影
智東西4月18日消息,通義萬相首尾幀生視頻模型Wan2.1-FLF2V-14B昨日宣布開源,用戶僅需上傳兩張照片作為首幀和尾幀,就能得到一段5秒720p的高清視頻。
該模型還可以開啟靈感模式,通過AI智能擴(kuò)寫對視頻創(chuàng)意進(jìn)行描述,提升畫面豐富度與表現(xiàn)力,從而滿足用戶更可控、更個(gè)性化的視頻生成需求。
用戶當(dāng)前可以登陸通義萬相官網(wǎng)免費(fèi)體驗(yàn)新發(fā)布的首尾幀生視頻模型,也能到 Github、Hugging Face或魔搭社區(qū)(Modelscope)下載該模型進(jìn)行二次開發(fā),解鎖更多創(chuàng)意可能。
此外,憑借14B的參數(shù)量,該模型成為全球首個(gè)百億參數(shù)規(guī)模的開源首尾幀生視頻模型。
一、細(xì)節(jié)處理、情感表達(dá)、各種運(yùn)鏡,都不在話下
通義萬相在官方公眾號(hào)推文中放出了幾個(gè)新鮮的演示案例,展示出新模型出色的工作能力。

▲提示詞:“黑暗的環(huán)境,一群人站成一列,背對鏡頭,站在一束光前,鏡頭上移,俯拍出光源全貌?!?/p>
該模型可以真實(shí)地還原物理規(guī)律,在光源出現(xiàn)時(shí),地面上的人影會(huì)隨著光束移動(dòng)而發(fā)生變化。
在復(fù)雜的動(dòng)態(tài)場景中,通義萬相首尾幀生視頻模型也能做到對內(nèi)容細(xì)節(jié)進(jìn)行高精度處理。比如女孩的衣服會(huì)隨著跑步時(shí)的肢體動(dòng)作而出現(xiàn)褶皺、深褐色的頭發(fā)在光線影響下不時(shí)變換顏色等,讓視頻看上去更加逼真。

▲提示詞:“寫實(shí)風(fēng)格,一個(gè)身穿粉色運(yùn)動(dòng)服的女生在城市街道中跑步,鏡頭先特寫女生的臉部,然后記錄下女生轉(zhuǎn)過街角向前跑去的背影?!?/p>
當(dāng)生成首尾幀銜接畫面時(shí),通義萬相首尾幀生視頻模型能夠根據(jù)不同運(yùn)鏡方式對視頻場景進(jìn)行豐富和完善。

▲提示詞:“漫畫風(fēng)格,黑暗中,一個(gè)男人正在看向一束光,鏡頭逐漸拉遠(yuǎn),展現(xiàn)出四周都是樓梯的環(huán)境全貌?!?/p>
通義萬相首尾幀生視頻模型也可以滿足用戶對視頻情感表達(dá)的訴求。

▲提示詞:“卡通風(fēng)格,一個(gè)打著紅色雨傘的藍(lán)色卡通人物站在雨中。它的眼神充滿憂郁?!?/p>
此外,通義萬相首尾幀生視頻模型可以自主優(yōu)化提術(shù)語指令,幫助創(chuàng)作者快速生成創(chuàng)意視頻,降低使用門檻,使更多用戶能夠輕松生成高質(zhì)量的視頻內(nèi)容。
二、通義萬相2.1首尾幀生視頻模型是如何訓(xùn)練的
Wan2.1系列模型均采用DiT(Diffusion in Transformer)架構(gòu),將擴(kuò)散模型的生成能力與Transfomer模型的特征提取和長序列處理能力相結(jié)合,并通過VAE視頻壓縮讓視頻生成過程兼顧清晰度和工作效率。
Wan2.1還借助Full Attension機(jī)制,使得生成視頻在時(shí)間和空間上都具有很高的一致性,不會(huì)出現(xiàn)時(shí)間上動(dòng)作跳躍、不連貫,或者空間上物體異位、形態(tài)變化不合理等情況。

▲通義萬相模型結(jié)構(gòu)圖
在Wan2.1系列模型的基礎(chǔ)架構(gòu)上,通義萬相首尾幀生視頻模型新增了條件控制分支,以用戶上傳的首、尾幀照片作為控制條件,實(shí)現(xiàn)了視頻從首幀到尾幀絲滑準(zhǔn)確的過渡效果。
此外,該模型還提取了首幀和尾幀的CLIP語義特征,并將處理結(jié)果反饋到DiT的生成過程中,保證模型生成首尾幀銜接畫面時(shí)的穩(wěn)定性。

▲通義萬相首尾幀生視頻模型架構(gòu)圖
在訓(xùn)練和推理階段,通義萬相首尾幀生視頻模型采用了線性噪聲軌跡的流匹配(Flow Matching)方法,用于處理噪聲和優(yōu)化視頻生成過程,使高精度的視頻切片訓(xùn)練成為可能。
為在有限內(nèi)存下支持高清視頻推理,通義萬相首尾幀生視頻模型使用了模型切分策略和序列并行策略。通過多種優(yōu)化在保證推理效果無損的同時(shí),大幅縮短了推理時(shí)間。
通義萬相首尾幀生視頻模型的訓(xùn)練過程總共經(jīng)歷了三個(gè)階段,從480p分辨率下的混合任務(wù)訓(xùn)練,到針對首尾幀生成能力的專項(xiàng)優(yōu)化,最后在720p分辨率下完成高精度訓(xùn)練。
結(jié)語:首尾幀生視頻模型為使用者提供更多創(chuàng)作自由度
相較于文生視頻和單圖生視頻,首尾幀生視頻具有更強(qiáng)的可控性,用戶可以自主決定開頭和結(jié)尾畫面,并通過提示詞指令對生成內(nèi)容進(jìn)行描述。
但這無疑提高了訓(xùn)練首尾幀生視頻模型的難度,既要實(shí)現(xiàn)畫面從首幀到尾幀的流暢銜接,又要滿足視頻本身的質(zhì)感和自然表現(xiàn)。
通義萬相首尾幀生視頻模型不僅可以實(shí)現(xiàn)對圖像細(xì)節(jié)的高精度處理,還能生成和諧自然的動(dòng)作視頻,展現(xiàn)出了強(qiáng)大的技術(shù)優(yōu)勢和創(chuàng)新性,開源后將為圖生視頻領(lǐng)域帶來更多價(jià)值。
熱門跟貼