打開網易新聞 查看精彩圖片

機器之心報道

編輯:梓文

動作捕捉,剛剛發(fā)生了革命。

在 GPT-4o 的風到處吹時,X 平臺(原推特)上有好多帶視頻的帖子爆了。到底是什么引來了一百萬的瀏覽量?

沒錯,是瑪麗蓮?夢露「活了過來」。她不僅能夠語音 — 口型保持一致,動作也能復刻參考示例。在大幅度的手臂擺動時,也不會出現嚴重的變形或虛影。

網友瞳孔震驚,「別告訴我,這些都是 AI 生成的......」

打開網易新聞 查看精彩圖片

這兩段視頻更是 Next Level。相比夢露黑白視頻示例,他們所處的環(huán)境光影更具挑戰(zhàn)。仔細觀察,二者舉手投足都能看到光影相應正確的變化,甚至灰色衣服男子的衣服在不同幅度的動作下有對應擺動。

網友都感慨到,AI 真的很偉大,或許已經爭取到了不再用動捕的勝利。

打開網易新聞 查看精彩圖片

不僅還原度極高,它還能掌握不同風格的生成。

打開網易新聞 查看精彩圖片

本周四在網絡上爆火的 AI 視頻生成效果,都來自字節(jié)跳動提出的一個全新的框架 DreamActor-M1—— 基于擴散式 Transformer(DiT)的人體動畫生成框架,通過混合引導機制,實現對動畫的精細化整體控制、多尺度適應以及長時間一致性。

只需一張參考圖像,DreamActor-M1 就能模仿視頻中的人物行為,跨尺度生成從肖像到全身的高質量、富有表現力且真實感十足的人體動畫。最終生成的視頻不僅在時間上保持連貫性,還能準確保留人物身份特征,畫面細節(jié)也高度還原。

打開網易新聞 查看精彩圖片

  • 論文標題: DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance
  • 論文鏈接:https://arxiv.org/pdf/2504.01724
  • 項目頁面:https://grisoon.github.io/DreamActor-M1/

我們先快速梳理一下這項研究的要點:

  • 在運動引導方面,研究者設計了一套融合隱式面部特征、3D 頭部球體和 3D 身體骨架的混合控制信號,能夠穩(wěn)健地驅動面部表情與身體動作的生成,同時保證動畫的表現力與人物身份的一致性。
  • 在尺度適應方面,為了應對從特寫肖像到全身圖像等不同尺度和姿態(tài)的變化,字節(jié)跳動采用了逐步訓練策略,利用多分辨率、多比例的數據進行訓練,提升模型的泛化能力。
  • 在外觀引導方面,他們將連續(xù)幀中的運動模式與互補的視覺參考相結合,有效增強了復雜動作中未顯區(qū)域的時間一致性。實驗結果表明,該方法在肖像、半身以及全身動畫生成任務中均優(yōu)于現有先進技術,能夠持續(xù)輸出富有表現力且長期穩(wěn)定的一致性動畫。

下圖概述了 DreamActor-M1 的總體流程:

打開網易新聞 查看精彩圖片

首先,從驅動視頻的幀中提取出人體的骨架(表示姿勢)和頭部的球體(表示頭部的位置和朝向),這一步就像是先把人的動作「抽象出來」。接著,這些信息會被姿態(tài)編碼器的模塊處理,轉化為姿態(tài)潛變量。可以簡單理解為這個動作變成了數字表示。

同時,研究者還會從整個視頻中截取一小段,用 3D VAE 進行編碼,得到視頻潛變量。這個潛變量是被加了噪聲的(也就是故意讓它模糊一點,方便訓練)。然后,把視頻潛變量和先前得到的姿態(tài)潛變量融合在一起,作為輸入。

面部表情則面部動作編碼器單獨處理,把它編碼成隱式的面部信息,比如笑、皺眉這些表情特征,也用數字方式表示出來。

系統(tǒng)還可以選取輸入視頻中的一張或幾張圖像,作為參考圖像。這些圖像里包含了人物的外觀細節(jié),比如穿什么衣服、長什么樣。在訓練時,這些參考圖像會作為額外的信息輸入,幫助模型更好地保留人物的外貌。

在訓練過程中,DreamActor-M1 采用了共享權重的雙分支結構:一個處理噪聲 token,一個處理參考 token。模型通過對比生成的去噪視頻潛變量與真實視頻潛變量來進行監(jiān)督學習,從而逐步學會還原人物動作。

此外,在每個 DiT 模塊中,面部動作 token 通過跨注意力機制被融合進噪聲 token 分支,而參考 token 的外觀信息則通過連接式自注意力和后續(xù)的跨注意力機制注入到噪聲 token 中。

打開網易新聞 查看精彩圖片

在模型訓練完之后,如何用它來生成一個帶動作的動畫視頻?生動來講,就是真人帶著模型跳舞,用一張人物圖片和一段動作視頻就能讓圖片中的人物動起來。敲敲黑板,為了保持人物在不同視角的一致性,參考圖可以使一張圖,也可以是模型合成的「偽多視角」。

對比其他 SOTA 方法,不難發(fā)現,DreamActor-M1 有著更好的保真性。人物在動作過程中能更好地保留自身特征,也鮮有鬼影、變形的情況出現。

DreamActor-M1 與其他動畫方法在五項關鍵指標上的定量對比實驗中也表現優(yōu)異。

打開網易新聞 查看精彩圖片

不過在一些案例里,我們還是可以發(fā)現某些局限性。例如這個說唱的示例,由于視角問題,生成畫面中的嘴部動作沒法兒跟上示例。

不過,再給這些技術一段時間,可能不僅動捕慢慢會被取代,電影里的危險特技也能有方法代替了