
第一作者、第二作者分別為復(fù)旦大學(xué)研究生涂樹源、邢楨,通訊作者為復(fù)旦大學(xué)吳祖煊副教授。
近年來,擴(kuò)散模型在圖像與視頻合成領(lǐng)域展現(xiàn)出強(qiáng)大能力,為圖像動畫技術(shù)的發(fā)展帶來了新的契機(jī)。特別是在人物圖像動畫方面,該技術(shù)能夠基于一系列預(yù)設(shè)姿態(tài)驅(qū)動參考圖像,使其動態(tài)化,從而生成高度可控的人體動畫視頻。此類技術(shù)在多個(gè)應(yīng)用場景中展現(xiàn)出巨大潛力,包括:(1)影視行業(yè):為動畫制作提供高效解決方案,使虛擬角色的動畫生成更加精細(xì)與便捷。(2)游戲行業(yè):賦予游戲角色和虛擬人物自然流暢的動作表現(xiàn),增強(qiáng)交互體驗(yàn),使虛擬世界更加真實(shí)。(3)自媒體內(nèi)容創(chuàng)作:助力短視頻創(chuàng)作者與數(shù)字藝術(shù)家拓展創(chuàng)意邊界,實(shí)現(xiàn)高度定制化的動態(tài)形象設(shè)計(jì)。
人像動畫生成的關(guān)鍵在于:基于參考圖像和輸入的動作序列合成動態(tài)視頻,同時(shí)確保人物身份特征(尤其是面部信息)的一致性。然而,現(xiàn)有方法在處理復(fù)雜動作變化時(shí)仍然面臨諸多挑戰(zhàn):(1)身份一致性受損,面部區(qū)域在劇烈動作下易產(chǎn)生形變和失真,難以保持穩(wěn)定的個(gè)體特征。(2)視頻質(zhì)量下降,當(dāng)前最先進(jìn)的人像動畫生成模型(如 MimicMotion 和 ControlneXt)依賴外部換臉工具(FaceFusion)進(jìn)行后處理,這種方式雖能改善局部細(xì)節(jié),但往往降低整體視頻的視覺質(zhì)量。(3)空間與時(shí)間建模的矛盾,即便已有眾多專注于身份一致性的圖像生成模型,直接將其嵌入視頻擴(kuò)散模型卻常導(dǎo)致建模沖突。其根本原因在于,視頻擴(kuò)散模型引入時(shí)間建模層后,原本穩(wěn)定的空間特征分布被擾動,而基于圖像 的 ID 保護(hù)方法通常依賴于靜態(tài)的空間特征分布,這種失衡導(dǎo)致身份保持能力下降,并在 ID 還原與視頻流時(shí)序暢度之間產(chǎn)生難以調(diào)和的矛盾。
為了解決上述問題,我們提出了 StableAnimator 框架,以實(shí)現(xiàn)高質(zhì)量和高保真的 ID 一致性人類視頻生成,目前代碼已開源,包括推理代碼和訓(xùn)練代碼。

- 論文地址:https://arxiv.org/abs/2411.17697
- 項(xiàng)目主頁:https://francis-rings.github.io/StableAnimator/
- 項(xiàng)目代碼:https://github.com/Francis-Rings/StableAnimator
- 項(xiàng)目 Demo: https://www.bilibili.com/video/BV1X5zyYUEuD
方法簡介
如圖所示,StableAnimator 在 Stable Video Diffusion (SVD) 這一常用骨干模型的基礎(chǔ)上進(jìn)行構(gòu)建,以高效處理用戶輸入的參考圖像,生成符合輸入姿態(tài)序列的視頻。其關(guān)鍵流程包括三條并行的特征提取與融合路徑:(1)參考圖像首先通過凍結(jié)的 VAE 編碼器轉(zhuǎn)換為潛變量特征,這些特征被復(fù)制以匹配視頻幀數(shù),并與主要潛變量拼接,以確保時(shí)序一致性。(2)圖像同時(shí)經(jīng)過 CLIP 圖像編碼器,提取全局外觀嵌入,這些嵌入分別輸入至去噪 U-Net 的每個(gè)交叉注意力層以及 StableAnimator 專門設(shè)計(jì)的面部編碼器,以增強(qiáng)生成圖像的外觀一致性。(3)此外,圖像還經(jīng)過 ArcFace 進(jìn)行面部特征提取,生成的面部嵌入進(jìn)一步由 StableAnimator 的面部編碼器優(yōu)化,以提升面部對齊度和身份一致性,優(yōu)化后的嵌入最終輸入至去噪 U-Net 以指導(dǎo)生成過程。同時(shí),PoseNet 結(jié)構(gòu)(類似于 AnimateAnyone)負(fù)責(zé)提取輸入姿態(tài)序列的運(yùn)動特征,并將其添加至噪聲潛變量特征中,以確保生成視頻的姿態(tài)精準(zhǔn)匹配輸入序列。
在推理階段,StableAnimator 采用去噪生成策略,將原始輸入視頻幀替換為隨機(jī)噪聲,同時(shí)保持其他輸入信息不變,以確保生成過程的靈活性和泛化能力。其核心創(chuàng)新在于引入了一種基于 Hamilton-Jacobi-Bellman(HJB)方程的面部優(yōu)化方法,以提升身份一致性并徹底擺脫對外部換臉工具的依賴。具體而言,該方法將 HJB 方程的求解過程嵌入到去噪步驟中,通過計(jì)算 HJB 方程的最優(yōu)解,引導(dǎo) U-Net 在潛變量特征的分布調(diào)整上朝向更高的身份一致性方向收斂。這樣一來,去噪過程不僅僅是對隨機(jī)噪聲的純粹去除,更是一個(gè)動態(tài)優(yōu)化過程,使生成的視頻在保持高質(zhì)量的同時(shí),實(shí)現(xiàn)面部特征的精準(zhǔn)保留,從而在身份一致性與視頻保真度之間達(dá)到更優(yōu)的平衡。
StableAnimator 的核心技術(shù)點(diǎn)包括以下三個(gè)方面:
(1)全局內(nèi)容感知面部編碼器(Global Content-aware Face Encoder):該編碼器創(chuàng)新性地將面部特征與全局圖像布局深度融合,利用多層交叉注意力機(jī)制,使面部嵌入特征精準(zhǔn)對齊參考圖像的整體上下文。通過這種方式,它有效過濾掉與身份無關(guān)的背景噪聲,確保面部建模更加穩(wěn)定,從而提高面部特征的一致性和清晰度。
(2)分布感知的身份適配器(Distribution-aware ID Adapter):針對擴(kuò)散模型中時(shí)序?qū)訉臻g特征分布的干擾問題,該適配器引入了一種分布對齊策略。具體而言,它通過計(jì)算面部特征和全局圖像特征的均值與方差,確保二者在整個(gè)去噪過程中保持一致性,避免特征偏移和失真。該適配器的設(shè)計(jì)使得面部特征能夠無縫適配時(shí)序建模層,同時(shí)維持視頻整體的空間一致性和視覺質(zhì)量。
(3)基于 Hamilton-Jacobi-Bellman (HJB) 方程的面部優(yōu)化:此優(yōu)化過程僅在推理階段激活,并不會影響 U-Net 的參數(shù)更新。StableAnimator 通過在擴(kuò)散推理過程中引入 HJB 方程優(yōu)化,使面部特征的調(diào)整遵循最優(yōu)路徑選擇原則。HJB 優(yōu)化過程與去噪步驟并行進(jìn)行,使優(yōu)化后的變量對去噪路徑施加約束,從而促使模型在生成過程中保留更高的身份一致性,同時(shí)顯著減少面部區(qū)域的細(xì)節(jié)損失,確保視頻的高質(zhì)量輸出。
生成結(jié)果示例




請點(diǎn)擊訪問項(xiàng)目主頁(https://francis-rings.github.io/StableAnimator/)獲取以上示例的高清原視頻。
實(shí)驗(yàn)對比分析
1. 與 SOTA 方法的定性對比實(shí)驗(yàn)

現(xiàn)有方法在處理面部和身體變形以及服裝變化方面存在明顯局限。例如,Disco、MagicAnimate、AnimateAnyone 和 Champ 在姿態(tài)轉(zhuǎn)換過程中容易導(dǎo)致面部特征扭曲或服裝結(jié)構(gòu)丟失,而 Unianimate 在動作匹配方面表現(xiàn)良好,能夠精準(zhǔn)調(diào)整參考圖像的姿態(tài),但仍難以保證身份一致性。同時(shí),MimicMotion 和 ControlNeXt 在保留服裝細(xì)節(jié)方面具有優(yōu)勢,但在身份特征一致性上仍然存在缺陷。相比之下,StableAnimator 通過精確建模姿勢序列驅(qū)動圖像動畫化,在動態(tài)生成過程中不僅保持了參考圖像的身份特征完整性,而且確保了生成結(jié)果的細(xì)節(jié)準(zhǔn)確性和生動性,充分展現(xiàn)了在身份一致性和高質(zhì)量動畫生成方面的顯著優(yōu)勢。
2. 與 SOTA 方法的定量對比實(shí)驗(yàn)

StableAnimator 在 TikTok 數(shù)據(jù)集和 Unseen100 數(shù)據(jù)集上與當(dāng)前最先進(jìn)(SOTA)的人像圖像動畫模型進(jìn)行了定量對比。其中,Unseen100 數(shù)據(jù)集從主流視頻網(wǎng)站額外收集的 100 個(gè)視頻組成,相較于 TikTok 數(shù)據(jù)集,Unseen100 具有更復(fù)雜的動作信息和更精細(xì)的主體外觀,尤其是包含位置變化和面部表情動態(tài)變化(如搖頭動作),使得保持身份一致性更具挑戰(zhàn)性。為了確保公平性,所有模型均在 StableAnimator 的訓(xùn)練集上進(jìn)行訓(xùn)練后,再在 Unseen100 上進(jìn)行評估。對比實(shí)驗(yàn)結(jié)果表明,StableAnimator 在面部質(zhì)量(CSIM)和視頻保真度(FVD)方面均超越所有對比模型,同時(shí)保持了較高的單幀質(zhì)量。特別是,相較于當(dāng)前最優(yōu)的 Unianimate,StableAnimator 在 TikTok 和 Unseen100 數(shù)據(jù)集上的 CSIM 分別提升了 36.9% 和 45.8%,而這一顯著的身份一致性提升并未以犧牲視頻保真度和單幀質(zhì)量為代價(jià),充分驗(yàn)證了其在高質(zhì)量人像動畫生成中的卓越性能。
3. 與 SOTA 方法在長視頻生成的對比實(shí)驗(yàn)



視頻鏈接:https://mp.weixin.qq.com/s/qK3s-us2XeDv7phW83W5BQ
熱門跟貼