編輯:編輯部 HYZ
【新智元導(dǎo)讀】自數(shù)字人技術(shù)Omnihuman-1引起行業(yè)關(guān)注之后,字節(jié)智能創(chuàng)作團隊再放大招。全新DreamActor-M1橫空出世,一張照片一段視頻,就能生成電影級視頻,精準(zhǔn)遷移表情動作,還支持多種畫風(fēng)。
還記得前段時間字節(jié)跳動備受關(guān)注的數(shù)字人技術(shù)Omnihuman-1嗎?
最近,這支團隊一項基于DiT架構(gòu)的可控人像視頻生成技術(shù)DreamActor-M1,一經(jīng)發(fā)布,又在推特上引起了超百萬量級的關(guān)注——
僅需一張靜態(tài)照片和一段驅(qū)動視頻,便可生成高質(zhì)量、達到電影級別的視頻,將人像視頻生成的表現(xiàn)力提升至全新水平!



左右滑動查看
項目網(wǎng)頁:
https://grisoon.github.io/DreamActor-M1/
論文地址:
https://arxiv.org/pdf/2504.01724
DreamActor-M1不僅能夠保留原圖中的身份特征,還能精準(zhǔn)捕捉并遷移驅(qū)動視頻中的動作和表情,呈現(xiàn)出高度逼真的效果,極大地簡化了現(xiàn)有的動作捕捉、角色動畫以及內(nèi)容創(chuàng)作流程。
據(jù)悉,Omnihuman-1技術(shù)已經(jīng)應(yīng)用于即夢數(shù)字人玩法的「大師模式」而DreamActor-M1模型也將于近期上線即夢AI,用戶將可以在「數(shù)字人」-「動作模仿」功能下體驗新模型。相比已有的動作模仿效果,在生成內(nèi)容逼真度、畫風(fēng)支持、畫面比例支持等多個方面將大幅優(yōu)化。

方案介紹
先一起來看看DreamActor-M1的效果:
與以往方法不同,DreamActor-M1采用多控制信號混合驅(qū)動架構(gòu),能夠精準(zhǔn)還原從眼神等細膩表情到肢體動作的各類表現(xiàn),可驅(qū)動從真人到卡通的不同形象,支持從肖像畫幅到全身畫幅的多種畫幅,顯著增強了單圖視頻驅(qū)動能力的表現(xiàn)力與易用性。
- 在表情遷移方面,該系統(tǒng)運用隱式Face Motion Tokenizer,通過對大量人像視頻進行自監(jiān)督訓(xùn)練,實現(xiàn)對表情細節(jié)的精準(zhǔn)建模。
- 在動作遷移方面,采用3D頭部球體和3D身體骨架,能夠支持各種風(fēng)格角色的肢體動作精準(zhǔn)遷移。
- 在畫幅支持方面,DreamActor-M1基于DiT架構(gòu),并通過大量數(shù)據(jù)進行多階段訓(xùn)練,可精準(zhǔn)復(fù)刻各種畫幅鏡頭,為用戶提供了更廣闊的創(chuàng)作空間。
各種畫幅高表現(xiàn)還原
各種風(fēng)格角色都支持
左右滑動查看
技術(shù)對比
相較于其他SOTA動作遷移和表情遷移工作,DreamActor-M1在人物ID保持、動作表情還原、視頻生成質(zhì)量方面都有著更好表現(xiàn),為高效完成高質(zhì)量內(nèi)容創(chuàng)作創(chuàng)造了新的可能性。
安全說明
模型上線即夢AI后,平臺將對視頻內(nèi)容進行嚴(yán)格的安全審核,并對輸出視頻添加「AI生成」水印,即夢AI現(xiàn)有的「動作模仿」功能也要求用戶上傳視頻素材需確保擁有合法授權(quán)。
團隊介紹
字節(jié)跳動智能創(chuàng)作團隊是字節(jié)跳動AI&多媒體技術(shù)中臺,通過建設(shè)領(lǐng)先的計算機視覺、音視頻編輯、特效處理等技術(shù),支持抖音、剪映、頭條等公司內(nèi)眾多產(chǎn)品線;同時為外部ToB合作伙伴提供業(yè)界最前沿的智能創(chuàng)作能力與行業(yè)解決方案。
其中數(shù)字人團隊專注于建設(shè)行業(yè)領(lǐng)先的數(shù)字人生成和驅(qū)動技術(shù),豐富智能創(chuàng)作內(nèi)容生態(tài)。該團隊的OmniHuman-1 、PersonaTalk、Loopy、CyberHost等前沿創(chuàng)新的數(shù)字人成果均已在即夢AI快速應(yīng)用,未來還將持續(xù)通過即夢AI為用戶帶來新奇和驚喜的體驗。
熱門跟貼