
本文由加拿大滑鐵盧大學(xué)魏聰、陳文虎教授團(tuán)隊(duì)與 Meta GenAI 共同完成。第一作者魏聰為加拿大滑鐵盧大學(xué)計(jì)算機(jī)科學(xué)系二年級博士生,導(dǎo)師為陳文虎教授,陳文虎教授為通訊作者。
近年來,視頻生成技術(shù)在動作真實(shí)性方面取得了顯著進(jìn)展,但在角色驅(qū)動的敘事生成這一關(guān)鍵任務(wù)上仍存在不足,限制了其在自動化影視制作與動畫創(chuàng)作中的應(yīng)用潛力?,F(xiàn)有方法多聚焦于Talking Head場景,僅生成面部區(qū)域,且高度依賴輔助條件(如首幀圖像或精確關(guān)鍵點(diǎn)),導(dǎo)致生成內(nèi)容在動作幅度與連貫性方面受限,難以展現(xiàn)自然流暢的全身動態(tài)與豐富的對話場景。此外,已有方法通常僅支持單角色說話,無法滿足多角色對話與交互的生成需求。
為此,研究團(tuán)隊(duì)提出了MoCha,首個面向Talking Characters任務(wù)的視頻生成方法,致力于僅基于語音(Speech)與文本 (text) 輸入,直接生成完整角色的對話視頻,無需依賴任何輔助信號,突破了現(xiàn)有技術(shù)僅限于面部區(qū)域生成(Talking Head)及動作受限的局限,為自動化敘事視頻生成提供了全新解決方案。
該方法面向角色近景至中景(close shot to medium shot)的全身區(qū)域,支持一個或多個人物在多輪對話場景中的動態(tài)交互。為實(shí)現(xiàn)語音與視頻內(nèi)容的精準(zhǔn)同步,MoCha 設(shè)計(jì)了Speech-Video Window Attention機(jī)制,有效對齊語音與視頻的時序特征,確保角色口型與身體動作的一致性。同時,針對大規(guī)模語音標(biāo)注視頻數(shù)據(jù)稀缺的問題,研究團(tuán)隊(duì)提出了聯(lián)合訓(xùn)練策略,充分利用語音標(biāo)注與文本標(biāo)注的視頻數(shù)據(jù),顯著提升了模型在多樣角色動作與對話內(nèi)容下的泛化能力。此外,團(tuán)隊(duì)創(chuàng)新性地設(shè)計(jì)了結(jié)構(gòu)化提示模板,引入角色標(biāo)簽,使 MoCha 首次實(shí)現(xiàn)了多角色、多輪對話的生成,能夠驅(qū)動 AI 角色在上下文連貫的場景中展開具備電影敘事性的對話。通過大量定性與定量實(shí)驗(yàn),包括用戶偏好調(diào)研與基準(zhǔn)對比,研究團(tuán)隊(duì)驗(yàn)證了 MoCha 在真實(shí)感、表現(xiàn)力、可控性與泛化性方面的領(lǐng)先性能,為 AI 驅(qū)動的電影敘事生成樹立了新標(biāo)桿。

- 論文鏈接:https://arxiv.org/pdf/2503.23307
- Hugging face 論文地址:https://huggingface.co/papers/2503.23307
- 項(xiàng)目地址:https://congwei1230.github.io/MoCha/
目前,該研究在 X 平臺上引起了廣泛的關(guān)注與討論,相關(guān)熱帖已經(jīng)有一百多萬的瀏覽量。

性能展示
MoCha 能夠?qū)崿F(xiàn)基于角色對話驅(qū)動的敘事視頻生成。以下為研究團(tuán)隊(duì)基于 MoCha 生成的視頻樣例,并通過簡單剪輯制作成宣傳視頻,以展示未來自動化電影生成的可行性與潛力。
MoCha 能夠生成 高度準(zhǔn)確的唇動同步效果,展現(xiàn)出精細(xì)的語音 - 視頻對齊能力。
情緒可控性:MoCha能夠根據(jù)輸入文本靈活控制角色情緒,自動生成符合語境的角色表情與情緒動作,同時保證 唇動同步 與 面部表情與上下文的一致性。
動作可控性:MoCha支持通過文本提示靈活控制角色動作,生成符合語境的動態(tài)表現(xiàn),同時確保 唇動同步 與 面部表情與上下文的協(xié)調(diào)性。
Zero-shot中文對話生成(無間道臺詞):盡管MoCha未在中文語音數(shù)據(jù)上進(jìn)行訓(xùn)練,模型仍展現(xiàn)出良好的跨語言泛化能力,能夠生成同步較為自然的中文對話視頻。
多角色對話生成:MoCha支持多角色對話生成,能夠在單角色發(fā)言時,保證所角色的動作與表現(xiàn)合理連貫,整體對話場景保持視覺一致性與敘事連貫性。
多角色多輪對話生成:MoCha支持多角色、多輪對話(Turn-based Dialog)生成,能夠?qū)崿F(xiàn)鏡頭切換與多角色動態(tài)對話的自然銜接,突破現(xiàn)有方法僅支持單角色發(fā)言的局限,生成具有鏡頭語言與劇情連貫性的復(fù)雜對話視頻。
核心方法
下圖展示了 MoCha 的整體框架。

端到端訓(xùn)練,無需輔助條件:與現(xiàn)有方法(如 EMO、OmniHuman-1、SONIC、Echomimicv2、Loopy 和 Hallo3)不同,這些方法通常依賴參考圖像、骨骼姿態(tài)或關(guān)鍵點(diǎn)等外部控制信號,MoCha實(shí)現(xiàn)了 完全基于語音與文本的端到端訓(xùn)練,無需任何輔助條件。這一設(shè)計(jì)有效簡化了模型架構(gòu),同時顯著提升了動作多樣性與泛化能力。

熱門跟貼