中国一区二区乱码,免费日韩av网站,大香蕉网在线视频,亚洲中文字幕精品在线视频,性色av人人爽网站av

看完《魷魚游戲》不過(guò)癮？干脆自己做個(gè)結(jié)局。

不想等《沙丘》第三部了？自己上手做一個(gè)。

放在以前，光是要讓這些演員不走形、不崩壞，都要費(fèi)半天勁?，F(xiàn)在只需要丟一張截圖給 AI，就可以開始做電影了。

這是海螺 AI 上線的「主體參考」功能，由全新的 S2V-01 模型提供底層技術(shù)支持，可以精準(zhǔn)識(shí)別所上傳圖片中的主體，并設(shè)定為所生成視頻的角色。剩下的，只需要簡(jiǎn)單的 prompt 指令，就可以隨意發(fā)揮。

▲來(lái)自 X 用戶@KarolineGeorges 的創(chuàng)作，面部信息精準(zhǔn)保留

▲來(lái)自 X 用戶@Apple_Dog_Sol 的創(chuàng)作，呈現(xiàn)多元主體

「主體參考」怎么就這么牛了

有一說(shuō)一，「主體參考」的功能很多廠商都在做。但并非每一家都能攻破這項(xiàng)功能所涉及的難點(diǎn)：穩(wěn)定、連貫，運(yùn)動(dòng)起來(lái)依然一致。

別人可能不行，但海螺 AI 可以。只需要一張圖片，就能準(zhǔn)確理解人物特征，識(shí)別為主體，隨后讓人物出現(xiàn)在各種場(chǎng)景和環(huán)境里。

上一秒還在拯救世界的蜘蛛俠，下一秒就騎上機(jī)車了。

本來(lái)應(yīng)該在權(quán)游里訓(xùn)龍的龍媽，一轉(zhuǎn)眼在逗小狼。

「主體參考」的突破性進(jìn)展在于實(shí)現(xiàn)了創(chuàng)作自由度和還原度的完美平衡。這就像是給了創(chuàng)作者一個(gè)「萬(wàn)能演員」，這位演員的外形不會(huì)崩壞，而是能隨著動(dòng)作、姿態(tài)自然地變化，還能根據(jù)導(dǎo)演的要求，在任何場(chǎng)景中表演任何動(dòng)作。

不僅是新功能，更是獨(dú)特的技術(shù)方案

實(shí)測(cè)下來(lái)的感受是：主體參考是一個(gè)截然不同的功能，跟文生、圖生所實(shí)現(xiàn)的效果并不一樣，背后所涉及的技術(shù)難點(diǎn)不同，對(duì)技術(shù)思路的要求也不同。

傳統(tǒng)的圖生視頻，只是讓靜態(tài)的圖片動(dòng)起來(lái)，而且主要是局部的改動(dòng)。以這張宋慧喬的劇照為例，圖生只是把原來(lái)靜態(tài)的圖片變成了動(dòng)態(tài)，而且范圍有限，不會(huì)有很大的動(dòng)作。

▲ 原始劇照

▲ 基于圖生視頻的成片

同一張照片，「主體參考」卻能基于 prompt 的文字，形成一個(gè)完整的片段，動(dòng)作自由的同時(shí)，面部特征依舊穩(wěn)定實(shí)現(xiàn)。

▲ prompt：暖調(diào)室內(nèi)打光，劇院觀眾席中，主人公身穿黑色西裝，坐在中排靠左的位置。她的表情充滿專注，時(shí)而露出輕松的微笑，雙手鼓掌，動(dòng)作自然且富有節(jié)奏感。鏡頭從主人公側(cè)面開始，捕捉她身邊其他觀眾的剪影和暗淡的座椅紋理，強(qiáng)調(diào)環(huán)境的層次感。隨著鏡頭推進(jìn)，主人公站起來(lái)。

以人物為主體生成視頻，目前有兩種技術(shù)路線。一種是基于 LoRA 技術(shù)，對(duì)預(yù)訓(xùn)練的大型生成模型，進(jìn)行特定微調(diào)。LoRA 在生成新視頻時(shí)，需要大量計(jì)算。這就導(dǎo)致用戶必須上傳同一主體、不同角度的素材，甚至精確到單個(gè)片段需要具備哪些不同的元素，才能保證生成質(zhì)量。同時(shí)還需要消耗大量的 token，以及漫長(zhǎng)的等待時(shí)間。

基于大量的技術(shù)探索，MiniMax 選擇了基于圖片參考的技術(shù)路線：圖片包含的視覺信息最準(zhǔn)確，從圖片出發(fā)，符合物理拍攝的創(chuàng)作邏輯。在這個(gè)技術(shù)路線中，畫面的主人公是所有視覺信息中，模型最優(yōu)先識(shí)別的——無(wú)論接下來(lái)出現(xiàn)什么畫面、無(wú)論什么情節(jié)，主體都需要保持一致。

而其它的視覺信息則更加開放，由文字 prompt 進(jìn)行控制。這樣一來(lái)，就能實(shí)現(xiàn)「精準(zhǔn)還原+高自由度」的生成目標(biāo)。

▲山谷的空地中，主人公站在巨龍前，長(zhǎng)發(fā)隨風(fēng)飄動(dòng)。鏡頭逐漸拉升，捕捉主人公轉(zhuǎn)身看向遠(yuǎn)方的動(dòng)作，巨龍的翅膀展開，吹動(dòng)主人公的頭發(fā)和她的裙擺，畫面最終以俯拍收尾

這段視頻里，只傳給了模型一張龍媽的圖片。最終呈現(xiàn)出來(lái)的視頻中，模型準(zhǔn)確呈現(xiàn)了 prompt 中涉及的鏡頭語(yǔ)言、畫面元素，體現(xiàn)出極強(qiáng)的理解能力。

圖片參考的技術(shù)路線，相比于 LoRA 方案，肉眼可見的減少了用戶上傳的素材，數(shù)十段視頻化為一張圖片。同時(shí)等待時(shí)間以秒計(jì)算，體感上和文字生成、圖片生成所花的時(shí)間差不了多遠(yuǎn)——既有圖生視頻的準(zhǔn)確，又有文生視頻的自由。

國(guó)產(chǎn)之光，滿足你的「既要又要」

「既要又要」并不是過(guò)分的要求。只有同時(shí)實(shí)現(xiàn)人物形象的準(zhǔn)確一致和自由活動(dòng)，才能讓模型走出整活、做梗圖的范疇，在行業(yè)應(yīng)用場(chǎng)景中，具有更廣泛的使用價(jià)值。

比如在產(chǎn)品廣告中，一張模特圖，直接針對(duì)多種產(chǎn)品生成視頻，只需要改變 prompt 就能實(shí)現(xiàn)。

如果用圖生視頻的方式來(lái)實(shí)現(xiàn)，目前的主流方案是設(shè)置首尾幀，可以實(shí)現(xiàn)的效果也被已有圖片限制住了。同時(shí)還得要反復(fù)抽卡，收集不同的角度，最后再把素材拼接在一起，才能完成一組有長(zhǎng)度的鏡頭。

結(jié)合不同技術(shù)的特點(diǎn)，更加符合視頻創(chuàng)作的工作流程，正是「主體參考」的優(yōu)勢(shì)。未來(lái)，超過(guò) 80% 的營(yíng)銷從業(yè)者會(huì)在不同的環(huán)節(jié)用到生成式工具，他們只需要專注在故事和情節(jié)構(gòu)思上，解放抽卡的雙手。

Statista 的統(tǒng)計(jì)顯示，2021 年時(shí)廣告營(yíng)銷的生成式 AI 產(chǎn)品市場(chǎng)規(guī)模已經(jīng)超過(guò) 150 億美元。到 2028 年時(shí)這個(gè)數(shù)字將達(dá)到 1075 億美元。以往的工作流里，純粹的文生視頻有太多不可控，適合用在創(chuàng)作初期。歐美的廣告營(yíng)銷行業(yè)里生成式 AI 已經(jīng)非常普遍，其中 52% 的用例是在初稿、策劃，48% 用于頭腦風(fēng)暴。

目前，海螺 AI 先開放的是對(duì)單個(gè)人物的參考能力，未來(lái)，將會(huì)拓展到多人、物體、場(chǎng)景等更加豐富的參考能力，進(jìn)一步解放創(chuàng)造力，正如海螺的 slogan 所提出的，「每個(gè)想法都是一部大片」。

自從去年 8 月，MiniMax 發(fā)布視頻模型以來(lái)，從生成畫面品質(zhì)、流暢度，到一致性和穩(wěn)定性等方面，在海外持續(xù)吸引著大量用戶的關(guān)注和體驗(yàn)，其中不乏有影像創(chuàng)作經(jīng)驗(yàn)的從業(yè)者，收獲了大量正面反饋和專業(yè)認(rèn)可。

在過(guò)去一年多的技術(shù)競(jìng)爭(zhēng)中，AI 視頻生成領(lǐng)域的競(jìng)爭(zhēng)格局初步展現(xiàn)。Sora 的實(shí)現(xiàn)效果使人們看到視頻生成這一領(lǐng)域的潛力，隨后各大科技公司，在這一領(lǐng)域紛紛投入資源，重金研發(fā)。

隨著年底 Sora 產(chǎn)品推出延遲、以及用戶試用的口碑平平，未能滿足市場(chǎng)期待。這也給了其它玩家搶占市場(chǎng)的機(jī)會(huì)。

如今，在生成式視頻即將走入下半場(chǎng)之時(shí)，如今真正展現(xiàn)出技術(shù)實(shí)力和發(fā)展?jié)摿Φ闹挥腥遥篗iniMax 的海螺 AI、快手的可靈 AI、以及字節(jié)的即夢(mèng) AI 。

作為一家成立剛剛 3 年的初創(chuàng)公司，MiniMax 以精悍干練的初創(chuàng)公司體量，帶來(lái)足以躋身 T0 水準(zhǔn)的產(chǎn)品和技術(shù)。從去年 12 月的圖生視頻模型 I2V-01-Live，到現(xiàn)在的 S2V-01 新模型，都在解決以往視頻生成中的棘手難題。

隨著技術(shù)的不斷成熟和應(yīng)用場(chǎng)景的逐步擴(kuò)大，視頻生成 AI 會(huì)在內(nèi)容創(chuàng)作、影視制作、營(yíng)銷傳播等領(lǐng)域掀起新一輪革命。這幾家代表著中國(guó)視頻生成 AI 領(lǐng)域最高水平的廠商，除了繼續(xù)領(lǐng)銜國(guó)內(nèi)市場(chǎng)，更有望在全球范圍內(nèi)與國(guó)際巨頭展開競(jìng)爭(zhēng)。與此同時(shí)，如何在保持技術(shù)創(chuàng)新的同時(shí)，確保產(chǎn)品的穩(wěn)定性和可控性，將是這些企業(yè)面臨的持續(xù)挑戰(zhàn)。