打開網(wǎng)易新聞 查看精彩圖片

看完《魷魚游戲》不過(guò)癮?干脆自己做個(gè)結(jié)局。

打開網(wǎng)易新聞 查看精彩圖片

打開網(wǎng)易新聞 查看精彩圖片

不想等《沙丘》第三部了?自己上手做一個(gè)。

打開網(wǎng)易新聞 查看精彩圖片

打開網(wǎng)易新聞 查看精彩圖片

放在以前,光是要讓這些演員不走形、不崩壞,都要費(fèi)半天勁?,F(xiàn)在只需要丟一張截圖給 AI,就可以開始做電影了。

這是海螺 AI 上線的「主體參考」功能,由全新的 S2V-01 模型提供底層技術(shù)支持,可以精準(zhǔn)識(shí)別所上傳圖片中的主體,并設(shè)定為所生成視頻的角色。剩下的,只需要簡(jiǎn)單的 prompt 指令,就可以隨意發(fā)揮。

打開網(wǎng)易新聞 查看精彩圖片

▲來(lái)自 X 用戶@KarolineGeorges 的創(chuàng)作,面部信息精準(zhǔn)保留

打開網(wǎng)易新聞 查看精彩圖片

▲來(lái)自 X 用戶@Apple_Dog_Sol 的創(chuàng)作,呈現(xiàn)多元主體

「主體參考」怎么就這么牛了

有一說(shuō)一,「主體參考」的功能很多廠商都在做。但并非每一家都能攻破這項(xiàng)功能所涉及的難點(diǎn):穩(wěn)定、連貫,運(yùn)動(dòng)起來(lái)依然一致。

別人可能不行,但海螺 AI 可以。只需要一張圖片,就能準(zhǔn)確理解人物特征,識(shí)別為主體,隨后讓人物出現(xiàn)在各種場(chǎng)景和環(huán)境里。

上一秒還在拯救世界的蜘蛛俠,下一秒就騎上機(jī)車了。

打開網(wǎng)易新聞 查看精彩圖片

打開網(wǎng)易新聞 查看精彩圖片

本來(lái)應(yīng)該在權(quán)游里訓(xùn)龍的龍媽,一轉(zhuǎn)眼在逗小狼。

打開網(wǎng)易新聞 查看精彩圖片

打開網(wǎng)易新聞 查看精彩圖片

「主體參考」的突破性進(jìn)展在于實(shí)現(xiàn)了創(chuàng)作自由度和還原度的完美平衡。這就像是給了創(chuàng)作者一個(gè)「萬(wàn)能演員」,這位演員的外形不會(huì)崩壞,而是能隨著動(dòng)作、姿態(tài)自然地變化,還能根據(jù)導(dǎo)演的要求,在任何場(chǎng)景中表演任何動(dòng)作

不僅是新功能,更是獨(dú)特的技術(shù)方案

實(shí)測(cè)下來(lái)的感受是:主體參考是一個(gè)截然不同的功能,跟文生、圖生所實(shí)現(xiàn)的效果并不一樣,背后所涉及的技術(shù)難點(diǎn)不同,對(duì)技術(shù)思路的要求也不同。

傳統(tǒng)的圖生視頻,只是讓靜態(tài)的圖片動(dòng)起來(lái),而且主要是局部的改動(dòng)。以這張宋慧喬的劇照為例,圖生只是把原來(lái)靜態(tài)的圖片變成了動(dòng)態(tài),而且范圍有限,不會(huì)有很大的動(dòng)作。

打開網(wǎng)易新聞 查看精彩圖片

▲ 原始劇照

打開網(wǎng)易新聞 查看精彩圖片

▲ 基于圖生視頻的成片

同一張照片,「主體參考」卻能基于 prompt 的文字,形成一個(gè)完整的片段,動(dòng)作自由的同時(shí),面部特征依舊穩(wěn)定實(shí)現(xiàn)。

打開網(wǎng)易新聞 查看精彩圖片

▲ prompt:暖調(diào)室內(nèi)打光,劇院觀眾席中,主人公身穿黑色西裝,坐在中排靠左的位置。她的表情充滿專注,時(shí)而露出輕松的微笑,雙手鼓掌,動(dòng)作自然且富有節(jié)奏感。鏡頭從主人公側(cè)面開始,捕捉她身邊其他觀眾的剪影和暗淡的座椅紋理,強(qiáng)調(diào)環(huán)境的層次感。隨著鏡頭推進(jìn),主人公站起來(lái)。

以人物為主體生成視頻,目前有兩種技術(shù)路線。一種是基于 LoRA 技術(shù),對(duì)預(yù)訓(xùn)練的大型生成模型,進(jìn)行特定微調(diào)。LoRA 在生成新視頻時(shí),需要大量計(jì)算。這就導(dǎo)致用戶必須上傳同一主體、不同角度的素材,甚至精確到單個(gè)片段需要具備哪些不同的元素,才能保證生成質(zhì)量。同時(shí)還需要消耗大量的 token,以及漫長(zhǎng)的等待時(shí)間。

基于大量的技術(shù)探索,MiniMax 選擇了基于圖片參考的技術(shù)路線:圖片包含的視覺信息最準(zhǔn)確,從圖片出發(fā),符合物理拍攝的創(chuàng)作邏輯。在這個(gè)技術(shù)路線中,畫面的主人公是所有視覺信息中,模型最優(yōu)先識(shí)別的——無(wú)論接下來(lái)出現(xiàn)什么畫面、無(wú)論什么情節(jié),主體都需要保持一致。

而其它的視覺信息則更加開放,由文字 prompt 進(jìn)行控制。這樣一來(lái),就能實(shí)現(xiàn)「精準(zhǔn)還原+高自由度」的生成目標(biāo)。

打開網(wǎng)易新聞 查看精彩圖片

打開網(wǎng)易新聞 查看精彩圖片

▲山谷的空地中,主人公站在巨龍前,長(zhǎng)發(fā)隨風(fēng)飄動(dòng)。鏡頭逐漸拉升,捕捉主人公轉(zhuǎn)身看向遠(yuǎn)方的動(dòng)作,巨龍的翅膀展開,吹動(dòng)主人公的頭發(fā)和她的裙擺,畫面最終以俯拍收尾

這段視頻里,只傳給了模型一張龍媽的圖片。最終呈現(xiàn)出來(lái)的視頻中,模型準(zhǔn)確呈現(xiàn)了 prompt 中涉及的鏡頭語(yǔ)言、畫面元素,體現(xiàn)出極強(qiáng)的理解能力。

圖片參考的技術(shù)路線,相比于 LoRA 方案,肉眼可見的減少了用戶上傳的素材,數(shù)十段視頻化為一張圖片。同時(shí)等待時(shí)間以秒計(jì)算,體感上和文字生成、圖片生成所花的時(shí)間差不了多遠(yuǎn)——既有圖生視頻的準(zhǔn)確,又有文生視頻的自由。

國(guó)產(chǎn)之光,滿足你的「既要又要」

「既要又要」并不是過(guò)分的要求。只有同時(shí)實(shí)現(xiàn)人物形象的準(zhǔn)確一致和自由活動(dòng),才能讓模型走出整活、做梗圖的范疇,在行業(yè)應(yīng)用場(chǎng)景中,具有更廣泛的使用價(jià)值。

比如在產(chǎn)品廣告中,一張模特圖,直接針對(duì)多種產(chǎn)品生成視頻,只需要改變 prompt 就能實(shí)現(xiàn)。

打開網(wǎng)易新聞 查看精彩圖片

打開網(wǎng)易新聞 查看精彩圖片

如果用圖生視頻的方式來(lái)實(shí)現(xiàn),目前的主流方案是設(shè)置首尾幀,可以實(shí)現(xiàn)的效果也被已有圖片限制住了。同時(shí)還得要反復(fù)抽卡,收集不同的角度,最后再把素材拼接在一起,才能完成一組有長(zhǎng)度的鏡頭。

結(jié)合不同技術(shù)的特點(diǎn),更加符合視頻創(chuàng)作的工作流程,正是「主體參考」的優(yōu)勢(shì)。未來(lái),超過(guò) 80% 的營(yíng)銷從業(yè)者會(huì)在不同的環(huán)節(jié)用到生成式工具,他們只需要專注在故事和情節(jié)構(gòu)思上,解放抽卡的雙手。

Statista 的統(tǒng)計(jì)顯示,2021 年時(shí)廣告營(yíng)銷的生成式 AI 產(chǎn)品市場(chǎng)規(guī)模已經(jīng)超過(guò) 150 億美元。到 2028 年時(shí)這個(gè)數(shù)字將達(dá)到 1075 億美元。以往的工作流里,純粹的文生視頻有太多不可控,適合用在創(chuàng)作初期。歐美的廣告營(yíng)銷行業(yè)里生成式 AI 已經(jīng)非常普遍,其中 52% 的用例是在初稿、策劃,48% 用于頭腦風(fēng)暴。

目前,海螺 AI 先開放的是對(duì)單個(gè)人物的參考能力,未來(lái),將會(huì)拓展到多人、物體、場(chǎng)景等更加豐富的參考能力,進(jìn)一步解放創(chuàng)造力,正如海螺的 slogan 所提出的,「每個(gè)想法都是一部大片」。

自從去年 8 月,MiniMax 發(fā)布視頻模型以來(lái),從生成畫面品質(zhì)、流暢度,到一致性和穩(wěn)定性等方面,在海外持續(xù)吸引著大量用戶的關(guān)注和體驗(yàn),其中不乏有影像創(chuàng)作經(jīng)驗(yàn)的從業(yè)者,收獲了大量正面反饋和專業(yè)認(rèn)可。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

在過(guò)去一年多的技術(shù)競(jìng)爭(zhēng)中,AI 視頻生成領(lǐng)域的競(jìng)爭(zhēng)格局初步展現(xiàn)。Sora 的實(shí)現(xiàn)效果使人們看到視頻生成這一領(lǐng)域的潛力,隨后各大科技公司,在這一領(lǐng)域紛紛投入資源,重金研發(fā)。

隨著年底 Sora 產(chǎn)品推出延遲、以及用戶試用的口碑平平,未能滿足市場(chǎng)期待。這也給了其它玩家搶占市場(chǎng)的機(jī)會(huì)。

如今,在生成式視頻即將走入下半場(chǎng)之時(shí),如今真正展現(xiàn)出技術(shù)實(shí)力和發(fā)展?jié)摿Φ闹挥腥遥篗iniMax 的海螺 AI、快手的可靈 AI、以及字節(jié)的即夢(mèng) AI 。

作為一家成立剛剛 3 年的初創(chuàng)公司,MiniMax 以精悍干練的初創(chuàng)公司體量,帶來(lái)足以躋身 T0 水準(zhǔn)的產(chǎn)品和技術(shù)。從去年 12 月的圖生視頻模型 I2V-01-Live,到現(xiàn)在的 S2V-01 新模型,都在解決以往視頻生成中的棘手難題。

隨著技術(shù)的不斷成熟和應(yīng)用場(chǎng)景的逐步擴(kuò)大,視頻生成 AI 會(huì)在內(nèi)容創(chuàng)作、影視制作、營(yíng)銷傳播等領(lǐng)域掀起新一輪革命。這幾家代表著中國(guó)視頻生成 AI 領(lǐng)域最高水平的廠商,除了繼續(xù)領(lǐng)銜國(guó)內(nèi)市場(chǎng),更有望在全球范圍內(nèi)與國(guó)際巨頭展開競(jìng)爭(zhēng)。與此同時(shí),如何在保持技術(shù)創(chuàng)新的同時(shí),確保產(chǎn)品的穩(wěn)定性和可控性,將是這些企業(yè)面臨的持續(xù)挑戰(zhàn)。