決定一部電影好壞的最主要因素是什么?

相信每個(gè)人都有自己不同的答案,或許是劇本,或許是導(dǎo)演,也或許是演員…

但如果說(shuō)評(píng)價(jià)一名演員的主要因素是什么,我相信所有人都是一個(gè)答案,那就是演技。

AI視頻的發(fā)展,從最初的角色換臉,到數(shù)字人生成,再到現(xiàn)在的多鏡頭角色一致性生成,雖然進(jìn)展飛速,但作品其實(shí)還很難稱(chēng)之為電影,無(wú)他,AI數(shù)字人的演技還不過(guò)關(guān)。

Meta本月發(fā)布的MoCha模型,恰恰就在“演技”上對(duì)AI數(shù)字人進(jìn)行了補(bǔ)強(qiáng),它讓AI角色第一次有了“戲感”,大有“呆頭鵝”秒變“老戲骨”的感覺(jué)

我們可以從幾個(gè)Demo感受一下。

Meta發(fā)布MoCha模型,AI角色從“呆頭鵝”秒變“老戲骨”
打開(kāi)網(wǎng)易新聞 查看更多視頻
Meta發(fā)布MoCha模型,AI角色從“呆頭鵝”秒變“老戲骨”

多鏡頭下的人物轉(zhuǎn)換

精準(zhǔn)的情緒控制

MoCha是Meta在AI視頻領(lǐng)域最新的研究成果,只需要輸入文本和聲音,就能生成電影級(jí)別的視頻。

MoCha的出現(xiàn),標(biāo)志著AI視頻正從“技術(shù)演示”向“敘事工具”轉(zhuǎn)型,未來(lái),每個(gè)人都可能成為自己故事的導(dǎo)演,用AI為自己的創(chuàng)意插上翱翔的翅膀。

目前,Meta 團(tuán)隊(duì)已經(jīng)放出了該項(xiàng)研究的paper,至頂AI實(shí)驗(yàn)室做一個(gè)簡(jiǎn)單的分析解讀,看看MoCha如何重新定義AI與創(chuàng)意產(chǎn)業(yè)的邊界。

研究背景:Meta GenAI的敘事野心

MoCha由Meta 的GenAI團(tuán)隊(duì)與滑鐵盧大學(xué)聯(lián)合完成,論文于2025年4月提交至arXiv平臺(tái)(編號(hào)2503.23307v1)。

Meta公司一直在生成式AI領(lǐng)域保持領(lǐng)先地位,從文本生成的LLaMA系列到圖像生成的Emu,再到視頻生成技術(shù),都展現(xiàn)了其在多模態(tài)AI方面的雄厚實(shí)力。MoCha項(xiàng)目可以看作是Meta在視頻生成領(lǐng)域的又一次重要突破,特別是在角色動(dòng)畫(huà)生成這一細(xì)分領(lǐng)域。

該研究的核心目標(biāo)是解決現(xiàn)有視頻生成模型在角色表現(xiàn)力方面的局限性。

盡管目前的視頻基礎(chǔ)模型如SoRA、Pika等已經(jīng)能夠生成視覺(jué)上令人印象深刻的內(nèi)容,但在生成能夠自然說(shuō)話的角色方面仍然存在明顯不足。而專(zhuān)注于語(yǔ)音生成的模型如Loopy、Hallo3等,又局限于面部區(qū)域,無(wú)法實(shí)現(xiàn)全身動(dòng)作和多角色互動(dòng)。MoCha正是為了彌補(bǔ)這一技術(shù)空白而誕生的。

核心成果:讓數(shù)字角色學(xué)會(huì)“演技”

端到端訓(xùn)練無(wú)需輔助條件

MoCha模型最大的突破在于它首次實(shí)現(xiàn)了從語(yǔ)音和文本直接生成全身角色動(dòng)畫(huà)的能力,而且不需要任何如參考圖像,關(guān)鍵幀等輔助條件。

傳統(tǒng)的說(shuō)話角色生成方法通常需要依賴外部控制信號(hào),比如參考圖像。這就像是給演員提供了詳細(xì)的動(dòng)作指導(dǎo)和表情參考,限制了其自由發(fā)揮的空間。而MoCha則完全不同,它直接從文本和語(yǔ)音學(xué)習(xí)生成視頻,無(wú)需任何輔助條件。

這種設(shè)計(jì)理念可以類(lèi)比為:傳統(tǒng)方法是在教一個(gè)演員按照詳細(xì)的分鏡頭腳本表演,而MoCha則是培養(yǎng)了一個(gè)能夠理解劇本和臺(tái)詞,自然地表演出角色的真正演員。這不僅簡(jiǎn)化了模型架構(gòu),還顯著提高了動(dòng)作的多樣性和泛化能力。

舉個(gè)例子,如果你想生成一個(gè)醫(yī)生在解釋醫(yī)療知識(shí)的視頻,傳統(tǒng)方法可能需要你提供醫(yī)生的參考圖像、詳細(xì)的面部表情指導(dǎo)等。而使用MoCha,你只需提供文字描述"一位穿著白大褂的醫(yī)生正在解釋心臟病的癥狀"和語(yǔ)音內(nèi)容,它就能生成一個(gè)自然表現(xiàn)的醫(yī)生角色,包括專(zhuān)業(yè)的手勢(shì)和面部表情。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

語(yǔ)音-視頻窗口注意力機(jī)制

為了解決語(yǔ)音與視頻同步的問(wèn)題,GenAI團(tuán)隊(duì)提出了一種創(chuàng)新的"語(yǔ)音-視頻窗口注意力"機(jī)制。這一機(jī)制確保了角色的嘴唇動(dòng)作與語(yǔ)音內(nèi)容精確同步,大大提高了生成視頻的真實(shí)感。

這個(gè)機(jī)制可以類(lèi)比為人類(lèi)觀看對(duì)話時(shí)的注意力分配:當(dāng)我們聽(tīng)一個(gè)人說(shuō)話時(shí),我們會(huì)特別關(guān)注說(shuō)話者當(dāng)前正在發(fā)出的音節(jié)對(duì)應(yīng)的嘴唇動(dòng)作,而不是隨機(jī)關(guān)注過(guò)去或未來(lái)的嘴型。

MoCha模型通過(guò)這種機(jī)制,讓每個(gè)視頻幀只關(guān)注與其時(shí)間上相關(guān)的語(yǔ)音片段,從而實(shí)現(xiàn)了精準(zhǔn)的口型同步。

比如當(dāng)角色說(shuō)"你好"這個(gè)詞時(shí),傳統(tǒng)模型可能會(huì)出現(xiàn)嘴型與音節(jié)不匹配的情況,而MoCha則能確保"你"和"好"兩個(gè)音節(jié)分別對(duì)應(yīng)正確的嘴型變化,使觀眾感受不到任何違和感。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

聯(lián)合語(yǔ)音-文本訓(xùn)練策略

大規(guī)模的帶語(yǔ)音標(biāo)注的視頻數(shù)據(jù)集相對(duì)稀缺,這一直是限制語(yǔ)音驅(qū)動(dòng)視頻生成質(zhì)量的瓶頸。

MoCha團(tuán)隊(duì)創(chuàng)新性地提出了一種聯(lián)合訓(xùn)練框架,同時(shí)利用帶語(yǔ)音標(biāo)注和僅有文本標(biāo)注的視頻數(shù)據(jù)。

這種策略就像是讓模型同時(shí)向兩類(lèi)"老師"學(xué)習(xí):一類(lèi)老師教它如何根據(jù)語(yǔ)音生成匹配的嘴型和表情,另一類(lèi)老師則教它如何理解文本描述并生成相應(yīng)的場(chǎng)景和動(dòng)作。通過(guò)這種雙軌學(xué)習(xí),MoCha能夠在保證口型同步的同時(shí),生成更加多樣化和自然的角色動(dòng)作。

舉個(gè)生活中的例子,這就像是一個(gè)演員既跟配音導(dǎo)師學(xué)習(xí)如何準(zhǔn)確對(duì)口型,又跟表演導(dǎo)師學(xué)習(xí)如何自然地表達(dá)情感和動(dòng)作,最終成為一個(gè)全面發(fā)展的優(yōu)秀演員。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

多角色對(duì)話生成

MoCha最令人驚嘆的突破之一是它首次實(shí)現(xiàn)了多角色之間的連貫對(duì)話生成。這意味著AI現(xiàn)在能夠創(chuàng)建包含多個(gè)角色的對(duì)話場(chǎng)景,每個(gè)角色都有自己的外觀、表情和動(dòng)作特征,并能進(jìn)行輪流對(duì)話。

想象一個(gè)電影場(chǎng)景:一對(duì)夫妻在廚房交談,妻子一邊準(zhǔn)備晚餐一邊說(shuō)話,丈夫則靠在廚房灶臺(tái)上回應(yīng)。傳統(tǒng)的AI視頻生成技術(shù)難以處理這種復(fù)雜場(chǎng)景,但MoCha通過(guò)創(chuàng)新的角色標(biāo)簽機(jī)制和自注意力機(jī)制,成功實(shí)現(xiàn)了這一目標(biāo)。

研究團(tuán)隊(duì)設(shè)計(jì)了一種結(jié)構(gòu)化提示模板,使用固定關(guān)鍵詞和角色標(biāo)簽機(jī)制,大大簡(jiǎn)化了多角色場(chǎng)景的描述。例如,不需要每次提到角色時(shí)都重復(fù)其詳細(xì)外觀描述,而是可以使用簡(jiǎn)單的標(biāo)簽,如"人物1"、"人物2"來(lái)引用已定義的角色。這就像是電影劇本中的角色命名,一旦定義了角色,后續(xù)只需使用角色名即可引用,大大提高了提示的清晰度和簡(jiǎn)潔性。

這一突破為AI生成敘事性內(nèi)容開(kāi)辟了新的可能性。例如,教育工作者可以創(chuàng)建包含老師和學(xué)生互動(dòng)的教學(xué)視頻,營(yíng)銷(xiāo)人員可以生成產(chǎn)品演示對(duì)話,創(chuàng)意工作者甚至可以制作簡(jiǎn)單的戲劇場(chǎng)景。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

方法評(píng)析:天才設(shè)計(jì)下的隱憂

技術(shù)架構(gòu)的創(chuàng)新與優(yōu)勢(shì)

MoCha模型的核心架構(gòu)基于擴(kuò)散變換器(Diffusion Transformer,DiT),這是一種在視頻生成領(lǐng)域表現(xiàn)出色的架構(gòu)。

與傳統(tǒng)的基于U-Net的方法不同,MoCha采用了更適合處理時(shí)序數(shù)據(jù)的變換器結(jié)構(gòu),通過(guò)自注意力和交叉注意力機(jī)制有效捕捉視頻中的時(shí)空關(guān)系。

這種架構(gòu)選擇就像是從傳統(tǒng)的"畫(huà)家"模型,從一筆一筆地繪制畫(huà)面轉(zhuǎn)向了"導(dǎo)演"模型,同時(shí)需要考慮整個(gè)場(chǎng)景的各個(gè)元素及其關(guān)系。這使得MoCha能夠生成更加連貫、自然的視頻內(nèi)容,特別是在處理復(fù)雜的人物動(dòng)作和多角色互動(dòng)時(shí)。

舉個(gè)例子來(lái)說(shuō)明這種架構(gòu)的優(yōu)勢(shì):想象一個(gè)導(dǎo)演在指導(dǎo)一群演員表演一個(gè)場(chǎng)景。傳統(tǒng)的U-Net方法就像是導(dǎo)演只能一次指導(dǎo)一個(gè)演員,而且每個(gè)演員只能看到自己前后的動(dòng)作,無(wú)法感知整個(gè)場(chǎng)景中其他演員的表現(xiàn)。而DiT架構(gòu)則允許所有"演員"同時(shí)接收指導(dǎo),并且能夠相互感知,從而創(chuàng)造出更加協(xié)調(diào)、自然的整體表演效果。

語(yǔ)音-視頻窗口注意力機(jī)制的深入分析

MoCha模型中最巧妙的設(shè)計(jì)之一是語(yǔ)音-視頻窗口注意力機(jī)制。

這一機(jī)制解決了視頻生成中的一個(gè)關(guān)鍵挑戰(zhàn):如何確保生成的嘴唇動(dòng)作與語(yǔ)音內(nèi)容精確同步。

在傳統(tǒng)的視頻生成模型中,存在兩個(gè)關(guān)鍵問(wèn)題:一是時(shí)間壓縮問(wèn)題,即視頻通常會(huì)被壓縮到較低的時(shí)間分辨率,而音頻保持原始分辨率,導(dǎo)致同步困難;二是并行生成問(wèn)題,即模型同時(shí)生成所有視頻幀,可能導(dǎo)致某一幀錯(cuò)誤地關(guān)聯(lián)到不相關(guān)時(shí)間點(diǎn)的語(yǔ)音。

MoCha的窗口注意力機(jī)制巧妙地解決了這些問(wèn)題。它限制每個(gè)視頻幀只能關(guān)注一個(gè)有限的音頻窗口,這個(gè)窗口包括該幀對(duì)應(yīng)的音頻片段及其前后的少量?jī)?nèi)容。這就像是給演員設(shè)定了精確的對(duì)口型規(guī)則:你只需要關(guān)注當(dāng)前和緊鄰的幾個(gè)音節(jié),而不是整段臺(tái)詞。

這種設(shè)計(jì)的優(yōu)勢(shì)可以通過(guò)一個(gè)簡(jiǎn)單的例子來(lái)理解:當(dāng)一個(gè)人說(shuō)"今天天氣真好"這句話時(shí),發(fā)"今"這個(gè)音時(shí)的嘴型只需要關(guān)注"今"這個(gè)音節(jié)及其前后的少量?jī)?nèi)容,而不需要考慮整句話。

MoCha的窗口注意力機(jī)制正是模擬了這種自然的注意力分配方式。

實(shí)驗(yàn)結(jié)果顯示,這一機(jī)制顯著提高了口型同步的準(zhǔn)確性。在沒(méi)有這一機(jī)制的情況下,同步相關(guān)性指標(biāo)Sync-C從6.037下降到5.103,同步距離指標(biāo)Sync-D從8.103上升到8.851,證明了該機(jī)制的有效性。

多階段訓(xùn)練策略的評(píng)估

MoCha采用了一種多階段訓(xùn)練策略,這一策略的設(shè)計(jì)基于一個(gè)重要觀察:語(yǔ)音對(duì)人類(lèi)視頻生成的影響隨著從低級(jí)到高級(jí)動(dòng)作的變化而減弱。具體來(lái)說(shuō),語(yǔ)音對(duì)嘴唇動(dòng)作和面部表情的影響最強(qiáng),對(duì)手勢(shì)的影響次之,對(duì)全身動(dòng)作的影響最弱。

基于這一觀察,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)從簡(jiǎn)單到復(fù)雜的訓(xùn)練框架:

首先在僅有文本標(biāo)注的視頻數(shù)據(jù)上預(yù)訓(xùn)練模型

然后從特寫(xiě)鏡頭(語(yǔ)音-視頻相關(guān)性最強(qiáng))開(kāi)始訓(xùn)練

逐步引入更復(fù)雜的任務(wù)(中特寫(xiě)、中景等),同時(shí)減少前一階段數(shù)據(jù)的比例

這種策略就像是教一個(gè)演員表演的過(guò)程:先學(xué)習(xí)基本的對(duì)口型技巧,然后是面部表情,接著是手勢(shì)配合,最后是全身表演。這種循序漸進(jìn)的方法使模型能夠更好地學(xué)習(xí)不同層次的動(dòng)作表現(xiàn)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

聯(lián)合訓(xùn)練策略的價(jià)值

MoCha的另一個(gè)關(guān)鍵創(chuàng)新是聯(lián)合訓(xùn)練策略,即同時(shí)使用帶語(yǔ)音標(biāo)注和僅有文本標(biāo)注的視頻數(shù)據(jù)進(jìn)行訓(xùn)練。具體來(lái)說(shuō),模型80%的時(shí)間在語(yǔ)音-文本-視頻數(shù)據(jù)上訓(xùn)練,20%的時(shí)間在文本-視頻數(shù)據(jù)上訓(xùn)練。

這種策略解決了帶語(yǔ)音標(biāo)注的視頻數(shù)據(jù)集規(guī)模有限的問(wèn)題。通過(guò)引入大量?jī)H有文本標(biāo)注的視頻數(shù)據(jù),模型能夠?qū)W習(xí)到更加多樣化的場(chǎng)景和動(dòng)作,從而提高泛化能力。

實(shí)驗(yàn)結(jié)果表明,移除這一聯(lián)合訓(xùn)練策略會(huì)導(dǎo)致同步相關(guān)性指標(biāo)Sync-C從6.037下降到5.659,同步距離指標(biāo)Sync-D從8.103上升到8.435,證明了該策略的有效性。

局限性分析

盡管MoCha在多個(gè)方面取得了突破,但它仍然存在一些局限性。

MoCha基于30B參數(shù)的DiT模型,需要大量計(jì)算資源進(jìn)行訓(xùn)練和推理,這限制了其在資源受限環(huán)境中的應(yīng)用。

當(dāng)前模型設(shè)計(jì)為生成128幀、約5.3秒的視頻片段,對(duì)于長(zhǎng)內(nèi)容生成仍有挑戰(zhàn)。

盡管采用了聯(lián)合訓(xùn)練策略,但高質(zhì)量的語(yǔ)音-視頻數(shù)據(jù)仍然是影響模型表現(xiàn)的關(guān)鍵因素。

當(dāng)前研究主要關(guān)注真實(shí)人物的生成,對(duì)于卡通、動(dòng)畫(huà)等風(fēng)格的支持可能需要額外的適配。

結(jié)論:推開(kāi)電影工業(yè)化的一扇窗

MoCha在多個(gè)評(píng)估指標(biāo)上都取得了顯著的優(yōu)勢(shì)。

人類(lèi)評(píng)估結(jié)果顯示,MoCha在口型同步質(zhì)量、面部表情自然度、動(dòng)作自然度、文本對(duì)齊度和視覺(jué)質(zhì)量五個(gè)維度上都大幅領(lǐng)先于現(xiàn)有方法。

特別值得注意的是,MoCha在動(dòng)作自然度方面的得分達(dá)到了3.82(滿分4分),比第二名高出1.69分,這表明其生成的角色動(dòng)作已經(jīng)接近真實(shí)人物或電影角色的水平。

這種高度的自然性對(duì)于用戶體驗(yàn)至關(guān)重要,因?yàn)椴蛔匀坏膭?dòng)作會(huì)打破沉浸感,降低內(nèi)容的可信度。

自動(dòng)評(píng)估指標(biāo)也證實(shí)了MoCha的優(yōu)勢(shì)。在口型同步相關(guān)性指標(biāo)Sync-C上,MoCha得分為6.037,比第二名高出1.17;在口型同步距離指標(biāo)Sync-D上,MoCha得分為8.103,比第二名低0.86(越低越好)。

這些客觀指標(biāo)進(jìn)一步驗(yàn)證了MoCha在口型同步方面的卓越表現(xiàn)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

MoCha模型的出現(xiàn)標(biāo)志著AI生成內(nèi)容領(lǐng)域的一個(gè)重要里程碑,它不僅推動(dòng)了技術(shù)邊界,更為視頻內(nèi)容創(chuàng)作開(kāi)辟了新的可能性。

這一突破性進(jìn)展將對(duì)多個(gè)行業(yè)產(chǎn)生深遠(yuǎn)影響:

電影與動(dòng)畫(huà)制作:MoCha為電影預(yù)制作階段提供了強(qiáng)大工具,可以快速生成分鏡頭和角色測(cè)試,大幅降低制作成本和時(shí)間。想象一下,導(dǎo)演可以在正式拍攝前,通過(guò)簡(jiǎn)單的文本描述和語(yǔ)音,生成場(chǎng)景預(yù)覽,測(cè)試不同的拍攝角度和對(duì)話效果。

游戲開(kāi)發(fā):游戲中的NPC(非玩家角色)對(duì)話場(chǎng)景可以更加自然流暢,開(kāi)發(fā)者只需提供對(duì)話文本和語(yǔ)音,就能生成符合角色設(shè)定的動(dòng)畫(huà)效果。例如,一個(gè)開(kāi)放世界游戲中的村民可以有更加自然的對(duì)話表現(xiàn),而不是機(jī)械重復(fù)的動(dòng)作循環(huán)。

教育培訓(xùn):定制化的教學(xué)視頻制作變得更加簡(jiǎn)單高效。教育工作者可以創(chuàng)建虛擬講師,通過(guò)自然的表情和手勢(shì)傳達(dá)知識(shí)點(diǎn),增強(qiáng)學(xué)習(xí)體驗(yàn)。比如,一位虛擬物理老師可以一邊講解牛頓定律,一邊用手勢(shì)演示力的作用,使抽象概念更加直觀。

數(shù)字人客服:企業(yè)可以創(chuàng)建更加自然、富有表現(xiàn)力的數(shù)字人客服,提升用戶體驗(yàn)。這些數(shù)字人不僅能準(zhǔn)確回答問(wèn)題,還能通過(guò)適當(dāng)?shù)拿娌勘砬楹椭w語(yǔ)言傳達(dá)情感,使交流更加人性化。

社交媒體內(nèi)容創(chuàng)作:內(nèi)容創(chuàng)作者可以更輕松地生成角色視頻,豐富創(chuàng)作形式。例如,一個(gè)單人創(chuàng)作者可以生成多角色對(duì)話的短視頻,擴(kuò)展創(chuàng)作邊界。

至頂AI實(shí)驗(yàn)室洞見(jiàn)

我們認(rèn)為MoCha的出現(xiàn),將AI視頻生成從"能用"推向了"好用"的階段,降低了高質(zhì)量?jī)?nèi)容創(chuàng)作的門(mén)檻。

在過(guò)去,制作一個(gè)專(zhuān)業(yè)的角色對(duì)話視頻需要演員、攝影師、導(dǎo)演等專(zhuān)業(yè)團(tuán)隊(duì),以及昂貴的設(shè)備和場(chǎng)地。而現(xiàn)在,一個(gè)普通創(chuàng)作者只需一臺(tái)電腦,就能生成接近專(zhuān)業(yè)水準(zhǔn)的角色視頻。

這種"創(chuàng)作全民化"將釋放巨大的創(chuàng)意潛能,特別是對(duì)于資源有限的個(gè)人、小團(tuán)隊(duì)和新興市場(chǎng)。

當(dāng)然,像所有新技術(shù)一樣,MoCha也帶來(lái)了一些需要關(guān)注的問(wèn)題。例如,如何確保生成內(nèi)容的版權(quán)歸屬、如何防止技術(shù)被濫用于制作虛假內(nèi)容等。

我們認(rèn)為,技術(shù)發(fā)展與倫理規(guī)范需要同步推進(jìn),研究機(jī)構(gòu)、企業(yè)和監(jiān)管部門(mén)應(yīng)共同建立健全的使用準(zhǔn)則和審核機(jī)制。

MoCha代表了AI生成內(nèi)容的新范式,它不僅是技術(shù)的進(jìn)步,更是創(chuàng)意表達(dá)方式的革新。我期待看到這項(xiàng)技術(shù)在未來(lái)如何演進(jìn),以及創(chuàng)作者們將如何利用它創(chuàng)造出令人驚嘆的新內(nèi)容形式。

未來(lái),電影不再是專(zhuān)業(yè)團(tuán)隊(duì)的專(zhuān)利,每個(gè)人都可以通過(guò)AI講述自己的故事,每個(gè)人都是自己故事的導(dǎo)演

論文地址:https://arxiv.org/pdf/2503.23307

項(xiàng)目地址:https://congwei1230.github.io/MoCha/

本文來(lái)自至頂AI實(shí)驗(yàn)室,一個(gè)專(zhuān)注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。致力于推動(dòng)生成式AI在各個(gè)領(lǐng)域的創(chuàng)新與突破,挖掘其潛在的應(yīng)用場(chǎng)景,為企業(yè)和個(gè)人提供切實(shí)可行的解決方案。