從單一靜態(tài)肖像創(chuàng)建逼真的可動畫化頭像仍然具有挑戰(zhàn)性。現(xiàn)有方法常常難以捕捉微妙的面部表情、相關(guān)的全身運動和動態(tài)背景。為了應(yīng)對這些局限性,阿里提出了一種新穎的框架FantasyTalking,給定一張肖像圖像、語音和文本,F(xiàn)antasyTalking可以生成富有表情、自然身體動作和身份特征的動畫肖像。此外,F(xiàn)antasyTalking 還可以控制動畫肖像的運動強度。(鏈接在文章底部)

盡管FantasyTalking在生成戶外對話頭像視頻的應(yīng)用場景中取得了顯著的進展,展現(xiàn)了更高的真實感和連貫性,但由于其依賴擴散模型的推理過程,該過程需要通過迭代采樣來逐步優(yōu)化結(jié)果,因此整體的計算時間較長,導(dǎo)致在實時應(yīng)用中的效率較低。這一瓶頸限制了其在一些需要快速響應(yīng)的場景中的應(yīng)用,如直播和互動實時應(yīng)用等。

01 技術(shù)原理

FantasyTalking 方法基于Wan2.1 視頻擴散變換器模型,采用雙階段視聽對齊策略,能夠生成高度逼真且視覺連貫的對話肖像。第一階段通過片段級訓(xùn)練對齊音頻驅(qū)動的動態(tài),建立一致的全局運動;第二階段通過唇部追蹤掩膜精細化唇部動作,確保與音頻信號同步。為保持面部一致性,用面部聚焦的跨注意力模塊替代傳統(tǒng)參考網(wǎng)絡(luò),并集成了運動強度調(diào)節(jié)模塊,控制表情和身體動作的幅度,增強肖像的自然性和可控性。

片段級訓(xùn)練:如圖(a)所示,第一階段的訓(xùn)練計算了全長音視頻標記序列中的3D全注意力關(guān)聯(lián),在片段級別建立了全局視聽依賴關(guān)系,同時實現(xiàn)了整體特征融合。盡管這一階段使得模型能夠聯(lián)合學(xué)習弱音頻相關(guān)的非語言線索(例如眉毛運動、肩膀動作)和強音頻同步的唇部動態(tài),但模型仍然難以精確學(xué)習唇部運動。這是因為唇部在整個視覺場景中所占的比例較小,而每一幀的視頻序列與音頻高度相關(guān)。

幀級訓(xùn)練:在第二階段的訓(xùn)練中,如圖3(b)所示,專注于通過幀級精確的視聽對齊來優(yōu)化唇部的動作。根據(jù)一對一的映射關(guān)系對音頻和視頻進行分段,將視頻標記重塑為形狀為 × (? × ) × 的矩陣,將音頻標記重塑為形狀為 × ′ × 的矩陣,其中表示通道數(shù)。接著,計算這些標記之間的3D全注意力,確保視覺特征僅關(guān)注它們對應(yīng)的音頻特征。

02 演示效果

視頻生成: FantasyTalking 可以生成高度逼真的唇部同步,確保角色的口型與音頻匹配。支持多種風格的頭像,無論是現(xiàn)實風格還是卡通風格,并且能夠生成高質(zhì)量的對話視頻。

逼真的對話視頻: FantasyTalking 支持生成具有多種身體范圍和姿勢的逼真對話視頻,包括特寫肖像、半身、全身以及正面和側(cè)面姿勢。

多樣化角色風格:FantasyTalking 可以將角色和動物以各種風格進行動畫化,生成動態(tài)、富有表現(xiàn)力且自然逼真的風格化視頻。

與封閉源方法的比較:FantasyTalking模型的表現(xiàn)與當前多模態(tài)條件下人類視頻生成的最先進方法OmniHuman-1進行了比較。

https://arxiv.org/abs/2504.04842
https://github.com/Fantasy-AMAP/fantasy-talking

歡迎交流~,帶你學(xué)習AI,了解AI