最近,視頻生成技術(shù)在運(yùn)動(dòng)真實(shí)感方面取得了令人印象深刻的進(jìn)展,但它們往往忽視了由角色驅(qū)動(dòng)的故事講述,這是自動(dòng)化電影和動(dòng)畫(huà)生成中的一項(xiàng)關(guān)鍵任務(wù)。因此,Meta提出了“會(huì)說(shuō)話的角色”(Talking Characters),MoCh這是首個(gè)能夠生成會(huì)說(shuō)話角色的系統(tǒng),旨在直接根據(jù)語(yǔ)音和文本生成會(huì)說(shuō)話的角色動(dòng)畫(huà)。與“會(huì)說(shuō)話的頭”(Talking Head)不同,Talking Characters的目標(biāo)是生成一個(gè)或多個(gè)角色的完整肖像,而不僅限于面部區(qū)域。

MoCha設(shè)計(jì)了帶有角色標(biāo)簽的智能提示模板,使得多個(gè)角色能夠進(jìn)行輪流對(duì)話,并且能夠理解對(duì)話的上下文。這不僅讓AI生成的角色在對(duì)話中更加自然、富有情感,而且還能保證對(duì)話的連貫性,就像電影中的角色一樣有情境意識(shí)。MoCha為AI生成的電影敘事樹(shù)立了新的標(biāo)桿,在動(dòng)畫(huà)的真實(shí)感、表現(xiàn)力、可控性和適應(yīng)性方面表現(xiàn)優(yōu)異,開(kāi)創(chuàng)了一個(gè)更高水平的生成角色動(dòng)畫(huà)技術(shù)。(鏈接在文章底部)

01 技術(shù)原理

MoCha是一種端到端的擴(kuò)散變換器(Diffusion Transformer)模型,通過(guò)聯(lián)合條件化語(yǔ)音和文本生成視頻幀,無(wú)需依賴(lài)任何輔助信號(hào)。語(yǔ)音和文本輸入都被投影為標(biāo)記表示,并通過(guò)交叉注意力與視頻標(biāo)記進(jìn)行對(duì)齊。

MoCha使用窗口交叉注意力機(jī)制并行生成所有視頻幀,在這個(gè)機(jī)制中,每個(gè)視頻標(biāo)記都會(huì)關(guān)注一小段語(yǔ)音標(biāo)記,以提高對(duì)齊精度和口型同步質(zhì)量。

MoCha設(shè)計(jì)了一個(gè)專(zhuān)門(mén)的提示模板:首先指定片段的數(shù)量,然后引入角色及其描述和相關(guān)標(biāo)簽。每個(gè)片段接下來(lái)僅通過(guò)角色標(biāo)簽進(jìn)行描述,從而簡(jiǎn)化了提示,同時(shí)保持了清晰度。MoCha通過(guò)視頻標(biāo)記之間的自注意力機(jī)制,確保角色與環(huán)境的一致性。語(yǔ)音的條件信號(hào)隱式地引導(dǎo)模型在片段之間進(jìn)行過(guò)渡。

MoCha不僅生成了與輸入語(yǔ)音緊密對(duì)齊的口型動(dòng)作,提升了發(fā)音的清晰度和自然度,還展現(xiàn)了富有表現(xiàn)力的面部動(dòng)畫(huà)和逼真的復(fù)雜動(dòng)作,能夠準(zhǔn)確地跟隨文本提示。相比之下,SadTalker和AniPortrait的頭部動(dòng)作非常有限,口型同步也很差。Hallo3雖然基本上跟隨了口型同步,但卻出現(xiàn)了發(fā)音不準(zhǔn)確、頭部動(dòng)作不穩(wěn)定以及明顯的視覺(jué)偽影等問(wèn)題。

02 演示效果

情緒控制:(看起來(lái)不是特別強(qiáng)烈)

動(dòng)作控制:

多角色(畫(huà)面多角色,但一角色說(shuō)話和動(dòng)作,非交互):

回合制多角色(多角色交互對(duì)話,但從演示看沒(méi)有看到同鏡出現(xiàn)的多角色):

肖像人物(單人演講、訪談和帶貨):

https://arxiv.org/pdf/2503.23307

歡迎交流~,帶你學(xué)習(xí)AI,了解AI