機(jī)器之心發(fā)布
機(jī)器之心編輯部
還記得半年前在 X 上引起熱議的肖像音頻驅(qū)動(dòng)技術(shù) Loopy 嗎?升級(jí)版技術(shù)方案來(lái)了,字節(jié)跳動(dòng)數(shù)字人團(tuán)隊(duì)推出了新的多模態(tài)數(shù)字人方案 OmniHuman, 其可以對(duì)任意尺寸和人物占比的單張圖片結(jié)合一段輸入的音頻進(jìn)行視頻生成,生成的人物視頻效果生動(dòng),具有非常高的自然度。
如對(duì)下面圖片和音頻:


音頻鏈接:
https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w?token=535033398&lang=zh_CN
OmniHuman 生成的人物可以在視頻中自然運(yùn)動(dòng):

視頻鏈接:
https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w?token=535033398&lang=zh_CN
從項(xiàng)目主頁(yè)上可以看到 OmniHuman 對(duì)肖像、半身以及全身這些不同人物占比、不同圖片尺寸的輸入都可以通過(guò)單個(gè)模型進(jìn)行支持,人物可以在視頻中生成和音頻匹配的動(dòng)作,包括演講、唱歌、樂(lè)器演奏以及移動(dòng)。對(duì)于人物視頻生成中常見(jiàn)的手勢(shì)崩壞,也相比現(xiàn)有的方法有顯著的改善。

視頻鏈接:
https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w?token=535033398&lang=zh_CN
作者也展示模型對(duì)非真人圖片輸入的支持,可以看到對(duì)動(dòng)漫、3D 卡通的支持也很不錯(cuò),能保持特定風(fēng)格原有的運(yùn)動(dòng)模式。據(jù)悉,該技術(shù)方案已落地即夢(mèng) AI,相關(guān)功能將于近期開(kāi)啟測(cè)試。

視頻鏈接:
https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w?token=535033398&lang=zh_CN
更多細(xì)節(jié)和展示效果,請(qǐng)查看:
- 論文項(xiàng)目主頁(yè):https://omnihuman-lab.github.io/
- 技術(shù)報(bào)告:https://arxiv.org/abs/2502.01061
研究問(wèn)題
基于擴(kuò)散 Transformer(DiT)的視頻生成模型通過(guò)海量視頻 - 文本數(shù)據(jù)訓(xùn)練,已能輸出逼真的通用視頻內(nèi)容。其核心優(yōu)勢(shì)在于從大規(guī)模數(shù)據(jù)中學(xué)習(xí)到的強(qiáng)大通用知識(shí),使模型在推理時(shí)展現(xiàn)出優(yōu)異的泛化能力。在細(xì)分的人像動(dòng)畫(huà)領(lǐng)域,現(xiàn)有技術(shù)主要聚焦兩類(lèi)任務(wù):音頻驅(qū)動(dòng)的面部生成(如語(yǔ)音口型同步)和姿勢(shì)驅(qū)動(dòng)的身體運(yùn)動(dòng)合成(如舞蹈動(dòng)作生成)。2023 年后端到端訓(xùn)練方案的突破,使得現(xiàn)有技術(shù)方案通常能夠?qū)哂泄潭ǔ叽绾腿讼癖壤妮斎雸D像生成動(dòng)畫(huà),實(shí)現(xiàn)精準(zhǔn)的口型同步與微表情捕捉。
然而,技術(shù)瓶頸日益凸顯:當(dāng)前模型依賴高度過(guò)濾的訓(xùn)練數(shù)據(jù)(如固定構(gòu)圖、純語(yǔ)音片段),雖保障了訓(xùn)練穩(wěn)定性,卻引發(fā) "溫室效應(yīng)"— 模型僅在受限場(chǎng)景(如固定構(gòu)圖、真人形象)中表現(xiàn)良好,難以適應(yīng)不同畫(huà)面比例、多樣化風(fēng)格等復(fù)雜輸入。更嚴(yán)重的是,現(xiàn)有數(shù)據(jù)清洗機(jī)制在排除干擾因素時(shí),往往也丟失了大量有價(jià)值的數(shù)據(jù),導(dǎo)致生成效果自然度低、質(zhì)量差。
這種困境導(dǎo)致技術(shù)路線陷入兩難:直接擴(kuò)大數(shù)據(jù)規(guī)模會(huì)因訓(xùn)練目標(biāo)模糊(如音頻信號(hào)與肢體運(yùn)動(dòng)的弱相關(guān)性)導(dǎo)致模型性能下降;而維持嚴(yán)格篩選策略又難以突破場(chǎng)景限制。如何既能保留有效運(yùn)動(dòng)模式學(xué)習(xí),又能從大數(shù)據(jù)規(guī)模學(xué)習(xí)中受益成為當(dāng)前研究重點(diǎn)。
技術(shù)方案
據(jù)技術(shù)報(bào)告,OmniHuman,面向端到端人像驅(qū)動(dòng)任務(wù)中高質(zhì)量數(shù)據(jù)稀缺的問(wèn)題,采用了一種 Omni-Conditions Training 的混合多模態(tài)訓(xùn)練策略,并相應(yīng)的設(shè)計(jì)了一個(gè) OmniHuman 模型,通過(guò)這種混合多模態(tài)訓(xùn)練的設(shè)計(jì),可以將多種模態(tài)的數(shù)據(jù)一起加入模型進(jìn)行訓(xùn)練,從而大幅度的增加了人像驅(qū)動(dòng)模型的可訓(xùn)練數(shù)據(jù),使得模型可以從大規(guī)模數(shù)據(jù)中受益,對(duì)各種類(lèi)似的輸入形式有了比較好的支持。
Omni-Conditions Training.在模型訓(xùn)練過(guò)程中,作者將多種模態(tài)按照和運(yùn)動(dòng)的相關(guān)性進(jìn)行區(qū)分,依序進(jìn)行混合條件訓(xùn)練。這個(gè)多模態(tài)訓(xùn)練遵循兩個(gè)原則:
原則 1: 較強(qiáng)條件的任務(wù)可以利用較弱條件的任務(wù)及其數(shù)據(jù)來(lái)擴(kuò)展訓(xùn)練數(shù)據(jù)規(guī)模。例如,由于口型同步準(zhǔn)確性、姿態(tài)可見(jiàn)性和穩(wěn)定性等過(guò)濾標(biāo)準(zhǔn),音頻和姿態(tài)條件任務(wù)中排除的數(shù)據(jù)可以用于文本和圖像條件任務(wù)。因此,在早期階段舍棄音頻和姿態(tài)條件,在后期逐步加入。
原則 2: 條件越強(qiáng),訓(xùn)練比例應(yīng)越低。較強(qiáng)的運(yùn)動(dòng)相關(guān)條件(如姿態(tài))由于歧義較少,訓(xùn)練效果通常優(yōu)于較弱的條件(如音頻)。當(dāng)兩種條件同時(shí)存在時(shí),模型傾向于依賴較強(qiáng)條件進(jìn)行運(yùn)動(dòng)生成,導(dǎo)致較弱條件無(wú)法有效學(xué)習(xí)。因此,需要確保較弱條件的訓(xùn)練比例高于較強(qiáng)條件。
基于以上原則設(shè)計(jì)他們構(gòu)建了多個(gè)階段的訓(xùn)練過(guò)程,依次增加文本、圖像、音頻以及姿態(tài)模態(tài)參與模型訓(xùn)練,并降低對(duì)應(yīng)的訓(xùn)練占比。


OmniHuman 技術(shù)框架圖
Omni-Conditions Model.除了 Omni-Conditions Training 訓(xùn)練策略以外,OmniHuman 采用了基于 DiT 架構(gòu)的視頻生成框架,使得模型兼容多種模態(tài)的條件注入方式,包括文本、圖像、音頻和姿態(tài),多模態(tài)的條件被區(qū)分為兩類(lèi):驅(qū)動(dòng)條件和外觀條件。
對(duì)于驅(qū)動(dòng)條件,作者對(duì)音頻特征通過(guò) cross attention 實(shí)現(xiàn)條件注入,對(duì)于姿態(tài)特征通過(guò) Heatmap 特征編碼后和 Noise 特征進(jìn)行拼接實(shí)現(xiàn)條件注入,對(duì)于文本特征,則保持了 MMDiT 的條件注入方式。
對(duì)于外觀條件,作者沒(méi)有像現(xiàn)有工作一樣采用一個(gè)單獨(dú)的參考圖網(wǎng)絡(luò) (Reference Net),而是直接利用去噪聲網(wǎng)絡(luò) (Denoising Net) 對(duì)輸入圖像進(jìn)行特征編碼,復(fù)用了 backbone 的特征提取方式,參考圖特征會(huì)和 Noise 特征進(jìn)行拼接實(shí)現(xiàn)條件注入
效果對(duì)比
作者給出了和目前行業(yè)領(lǐng)先的方案的效果對(duì)比,通過(guò)單個(gè)模型同時(shí)對(duì)比了針對(duì)不同人物占比的專有模型,仍然可以取得顯著的整體效果優(yōu)勢(shì)。

除了數(shù)值分析以外,作者也分析基于 Omni-Conditions Training 可以改善在人體手勢(shì)生成、多樣性輸入圖像上的視頻生成效果,并展示了混合多模態(tài)訓(xùn)練可以使得單個(gè)模型同時(shí)兼容多種模態(tài)驅(qū)動(dòng),生成可控的生動(dòng)人像視頻的例子。
結(jié)論
OmniHuman 是一個(gè)端到端的多模態(tài)條件人像視頻生成框架,能夠基于單張圖像和運(yùn)動(dòng)信號(hào)(如音頻、視頻或兩者)生成人像動(dòng)畫(huà)視頻。它提出了一個(gè)多模態(tài)混合訓(xùn)練的技術(shù)方案,并調(diào)研了具體的訓(xùn)練策略,設(shè)計(jì)了相應(yīng)的多模態(tài)混合控制的人像視頻生成模型,從而克服了以往方法面臨的高質(zhì)量數(shù)據(jù)稀缺問(wèn)題,從大規(guī)模數(shù)據(jù)訓(xùn)練中受益,學(xué)習(xí)自然的運(yùn)動(dòng)模式。OmniHuman 顯著優(yōu)于現(xiàn)有方法,能夠從弱信號(hào)(尤其是音頻)生成生動(dòng)的人類(lèi)視頻。它支持任意縱橫比的圖像(如肖像、半身或全身),在各種場(chǎng)景下提供生動(dòng)、高質(zhì)量的結(jié)果。
團(tuán)隊(duì)介紹
字節(jié)跳動(dòng)智能創(chuàng)作數(shù)字人團(tuán)隊(duì),智能創(chuàng)作是字節(jié)跳動(dòng) AI & 多媒體技術(shù)中臺(tái),通過(guò)建設(shè)領(lǐng)先的計(jì)算機(jī)視覺(jué)、音視頻編輯、特效處理等技術(shù),支持抖音、剪映、頭條等公司內(nèi)眾多產(chǎn)品線;同時(shí)為外部 ToB 合作伙伴提供業(yè)界最前沿的智能創(chuàng)作能力與行業(yè)解決方案。其中數(shù)字人方向?qū)W⒂诮ㄔO(shè)行業(yè)領(lǐng)先的數(shù)字人生成和驅(qū)動(dòng)技術(shù),豐富智能創(chuàng)作內(nèi)容生態(tài)。
熱門(mén)跟貼