始智AI wisemodel.cn開(kāi)源社區(qū)

始智AI wisemodel.cn社區(qū)是源自中國(guó)的中立開(kāi)放的AI開(kāi)源社區(qū)。正在,歡迎加入共同成長(zhǎng)。wisemodel社區(qū)上線,最新上線4090資源不限量,價(jià)格實(shí)惠,靈活方便,支持在線微調(diào)訓(xùn)練模型,及和,并。

擴(kuò)散模型近年來(lái)在圖像和視頻生成方面取得了顯著成功,極大地激發(fā)了圖像動(dòng)畫(huà)領(lǐng)域的研究。尤其是人像圖像動(dòng)畫(huà)利用生成模型根據(jù)一系列姿態(tài)序列動(dòng)畫(huà)化參考圖像,從而合成可控的人體動(dòng)畫(huà)視頻,這在娛樂(lè)內(nèi)容創(chuàng)作和虛擬現(xiàn)實(shí)體驗(yàn)等應(yīng)用中具有廣泛前景,具體應(yīng)用場(chǎng)景包括:

(1)娛樂(lè)與影視:幫助動(dòng)畫(huà)師輕松制作高質(zhì)量虛擬角色動(dòng)畫(huà),顯著提升工作效率。

(2)游戲與元宇宙:為游戲角色和虛擬形象提供逼真的動(dòng)作生成,讓玩家體驗(yàn)更沉浸。

(3)個(gè)性化內(nèi)容創(chuàng)作:為短視頻創(chuàng)作者、數(shù)字藝術(shù)家提供新的創(chuàng)意工具,實(shí)現(xiàn)精準(zhǔn)的動(dòng)態(tài)形象設(shè)計(jì)。

人像動(dòng)畫(huà)生成的核心在于:在參考圖像的基礎(chǔ)上,根據(jù)輸入的動(dòng)作序列生成動(dòng)態(tài)視頻,同時(shí)保持人物的身份信息(尤其是面部特征)。然而,現(xiàn)有方法在復(fù)雜動(dòng)作變化場(chǎng)景下,常出現(xiàn)以下問(wèn)題:

(1)身份(ID)一致性差。面部區(qū)域容易因動(dòng)作變化出現(xiàn)失真。

(2)視頻質(zhì)量下降。最新的人像圖像動(dòng)畫(huà)生成模型(MimicMotion和ControlneXt)依賴(lài)于第三方換臉工具(FaceFusion)對(duì)生成的視頻進(jìn)行后處理,導(dǎo)致視頻整體質(zhì)量下降。

(3)空間與時(shí)序建模沖突。即使當(dāng)前有很多針對(duì)ID一致性的圖片生成模型,但是將這些來(lái)自圖像生成的模型直接插入到視頻生成模型中容易導(dǎo)致空間與時(shí)序建模沖突。

根本原因是現(xiàn)有視頻擴(kuò)散模型在加入時(shí)間建模層后,空間特征的分布發(fā)生變化,而這些ID一致性的圖片生成模型依賴(lài)于穩(wěn)定的空間特征分布,時(shí)序建模導(dǎo)致的空間特征分布擾動(dòng)會(huì)影響圖片生成模型的性能急劇下降,從而造成ID保留與視頻保真度之間的沖突。

研究團(tuán)隊(duì)提出StableAnimator框架 解決上述問(wèn)題, 以實(shí)現(xiàn)高質(zhì)量和高保真的ID一致性人類(lèi)視頻生成,目前 已 上線始智AI-wisemodel開(kāi)源社區(qū),歡迎體驗(yàn)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

模型地址

https://wisemodel.cn/models/StableAnimator/StableAnimator

01.

核心技術(shù)點(diǎn)簡(jiǎn)介

StableAnimator 基于先前工作的常用骨干模型 Stable Video Diffusion (SVD) 構(gòu)建。用戶(hù)輸入的參考圖像通過(guò)擴(kuò)散模型經(jīng)過(guò)三條路徑處理:

(1)通過(guò)凍結(jié)的VAE編碼器轉(zhuǎn)換為潛變量特征,潛變量特征被復(fù)制以匹配視頻幀數(shù),并與主要潛變量進(jìn)行拼接。

(2)通過(guò)CLIP圖像編碼器編碼以獲得圖像嵌入,這些嵌入分別輸入到去噪 U-Net 的每個(gè)交叉注意力塊和StableAnimator的面部編碼器中,用于調(diào)控生成的外觀。

(3)輸入到ArcFace以獲得面部嵌入,ArcFace是一種人臉特征提取模型,這些嵌入隨后通過(guò)StableAnimator的面部編碼器進(jìn)一步優(yōu)化以實(shí)現(xiàn)更高的對(duì)齊度。優(yōu)化后的面部嵌入隨后被輸入到去噪 U-Net 中。PoseNet 類(lèi)似于AnimateAnyone中的結(jié)構(gòu),負(fù)責(zé)提取姿態(tài)序列的特征,這些特征隨后被添加到噪聲潛變量特征中。

在推理階段,StableAnimator將原始輸入視頻幀替換為隨機(jī)噪聲,同時(shí)保持其他輸入不變。StableAnimator引入了一種新穎的基于 Hamilton-Jacobi-Bellman(HJB)方程的面部?jī)?yōu)化方法,用于提升身份一致性并徹底擺脫對(duì)第三方后處理工具的依賴(lài)。

該方法將 HJB 方程的求解過(guò)程整合到去噪過(guò)程中,HJB 方程的最優(yōu)解會(huì)更新U-Net中的潛變量特征,迫使它在去噪過(guò)程中往能實(shí)現(xiàn)更高的ID一致性的方向進(jìn)行分布移動(dòng)。

StableAnimator具有三個(gè)核心技術(shù)點(diǎn):

(1)全局內(nèi)容感知面部編碼(Global Content-aware Face Encoder):引入一種新型的面部編碼器,使面部嵌入特征與圖像整體布局進(jìn)行深度交互,面部特征通過(guò)多層交叉注意力模塊,與參考圖像的全局上下文特征對(duì)齊,有效減少與身份無(wú)關(guān)的背景噪聲,提升面部建模質(zhì)量。

(2)分布感知的身份適配器(Distribution-aware ID Adapter):針對(duì)擴(kuò)散模型時(shí)序?qū)訉?duì)空間特征分布的擾動(dòng),提出一種分布對(duì)齊策略。

通過(guò)計(jì)算面部特征和圖像特征的均值與方差,確保兩者在每個(gè)去噪步驟中逐步對(duì)齊,從而避免特征失真,適配器的設(shè)計(jì)允許面部特征與時(shí)序?qū)拥臒o(wú)縫結(jié)合,同時(shí)不損失視頻的整體保真度。

(3)基于Hamilton-Jacobi-Bellman (HJB) 方程的面部?jī)?yōu)化:該優(yōu)化過(guò)程只在模型推理階段觸發(fā),并且不會(huì)訓(xùn)練更新U-Net的任何模塊。

StableAnimator將HJB優(yōu)化方程引入擴(kuò)散模型的推理過(guò)程中,以增強(qiáng)面部質(zhì)量,HJB方程通過(guò)動(dòng)態(tài)系統(tǒng)中的最優(yōu)變量選擇原則,將面部特征優(yōu)化與去噪過(guò)程并行進(jìn)行,優(yōu)化后的變量能夠約束去噪路徑,引導(dǎo)模型生成與參考圖像一致的身份特征,顯著減少細(xì)節(jié)失真。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

生成結(jié)果示例:

 StableAnimator開(kāi)源!人像動(dòng)畫(huà)生成神器,徹底告別面部失真
打開(kāi)網(wǎng)易新聞 查看更多視頻
StableAnimator開(kāi)源!人像動(dòng)畫(huà)生成神器,徹底告別面部失真

打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片

02.

實(shí)驗(yàn)對(duì)比分析

1、與SOTA方法的定性對(duì)比實(shí)驗(yàn)

Disco、MagicAnimate、AnimateAnyone和Champ在面部/身體變形以及服裝變化方面存在明顯問(wèn)題,而Unianimate準(zhǔn)確地修改了參考圖像的動(dòng)作,MimicMotion和ControlNeXt有效保留了服裝細(xì)節(jié)。然而,所有對(duì)比的模型均難以保持參考圖像的身份一致性。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

相比之下,我們的StableAnimator能夠基于給定的姿勢(shì)序列精確地動(dòng)畫(huà)化圖像,同時(shí)保持參考身份信息的完整性,突顯了我們模型在身份保持和生成精確、生動(dòng)動(dòng)畫(huà)方面的優(yōu)勢(shì)。

2、與SOTA方法的定量對(duì)比實(shí)驗(yàn)

StableAnimator與當(dāng)前的SOTA人像圖像動(dòng)畫(huà)模型在TikTok數(shù)據(jù)集和Unseen100數(shù)據(jù)集進(jìn)行定量對(duì)比,其中Unseen100數(shù)據(jù)集是作者額外在主流視頻網(wǎng)站收集的100個(gè)視頻,相比于以前的主流數(shù)據(jù)集TikTok數(shù)據(jù)集,Unseen100數(shù)據(jù)集含相對(duì)復(fù)雜的動(dòng)作信息以及精細(xì)的主體外觀。

此外,Unseen100 數(shù)據(jù)集中的一些視頻中,位置和面部表情動(dòng)態(tài)變化,例如搖頭動(dòng)作,使得保持身份一致性更具挑戰(zhàn)性。值得注意的是所有模型均在StableAnimator的訓(xùn)練集上訓(xùn)練后再對(duì)Unseen100進(jìn)行評(píng)估,以確保公平性。

對(duì)比實(shí)驗(yàn)結(jié)果如上表所示,CSIM衡量?jī)蓚€(gè)圖像的面部嵌入的余弦相似度,可以發(fā)現(xiàn)StableAnimator在面部質(zhì)量(CSIM)和視頻保真度(FVD)方面均超過(guò)了所有對(duì)比模型,同時(shí)保持了較高的單幀質(zhì)量。

具體而言,StableAnimator相比于最領(lǐng)先的對(duì)比模型Unianimate,在兩個(gè)數(shù)據(jù)集上的CSIM分別提高了36.9%和45.8%,而未犧牲視頻保真度和單幀質(zhì)量。

3、與SOTA方法在長(zhǎng)視頻生成的對(duì)比實(shí)驗(yàn)

基于上述對(duì)比實(shí)驗(yàn)結(jié)果,StableAnimator相比于以前的SOTA方法可以生成更加高質(zhì)量逼真的ID一致視頻,StableAnimator在娛樂(lè)內(nèi)容創(chuàng)作和虛擬現(xiàn)實(shí)體驗(yàn)方面可以給用戶(hù)帶來(lái)全新的高保真的人類(lèi)形象動(dòng)畫(huà)體驗(yàn)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片

編輯丨趙雅鑫

----- END -----

wisemodel相關(guān):

系統(tǒng)升級(jí):

大賽報(bào)名:

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開(kāi)源社區(qū)建設(shè)需要長(zhǎng)期堅(jiān)持和投入,更需要廣大用戶(hù)的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開(kāi)源社區(qū)的志愿者計(jì)劃和開(kāi)源共創(chuàng)計(jì)劃。期待更多開(kāi)發(fā)者將開(kāi)源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開(kāi)放的AI開(kāi)源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請(qǐng)加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開(kāi)源社區(qū)動(dòng)態(tài)。

2

歡迎加盟wisemodel開(kāi)源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來(lái),逐漸成為影響力日益擴(kuò)大的中立開(kāi)放的AI開(kāi)源社區(qū),為了加快公司發(fā)展,我們長(zhǎng)期需要技術(shù)、運(yùn)營(yíng)等人才加盟,技術(shù)側(cè)重在AI infra、后端開(kāi)發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開(kāi)發(fā)者生態(tài)運(yùn)營(yíng)的成員,歡迎感興趣的朋友加盟,可以通過(guò)添加wisemodel微信,或者將簡(jiǎn)歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺(tái)上分享各類(lèi)優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開(kāi)源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以?huà)叽a添加wisemodel微信。

4

關(guān)于wisemodel開(kāi)源社區(qū)

始智AI wisemodel.cn開(kāi)源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專(zhuān)委會(huì)副秘書(shū)長(zhǎng)劉道全創(chuàng)立,旨在打造和建設(shè)中立開(kāi)放的AI開(kāi)源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開(kāi)源社區(qū),匯聚主要AI開(kāi)源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核?、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開(kāi)發(fā)者,以及政府部門(mén)、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開(kāi)源創(chuàng)新生態(tài)。

向上滑動(dòng)查看