實(shí)時(shí)交互式視頻聊天肖像已被廣泛認(rèn)為是未來(lái)的發(fā)展趨勢(shì),特別是由于文本和語(yǔ)音聊天技術(shù)的顯著進(jìn)步。然而,現(xiàn)有方法主要集中于實(shí)時(shí)生成頭部運(yùn)動(dòng),但在生成與頭部動(dòng)作匹配的同步身體運(yùn)動(dòng)方面存在困難。此外,實(shí)現(xiàn)對(duì)說(shuō)話風(fēng)格和面部表情細(xì)微差別的精細(xì)控制仍然是一個(gè)挑戰(zhàn)。

為了解決這些限制,阿里通義實(shí)驗(yàn)室提出了一種新穎的風(fēng)格化實(shí)時(shí)肖像視頻生成框架ChatAnyone,使視頻聊天從“會(huì)說(shuō)話的頭像”拓展到包含上半身交互的更具表現(xiàn)力和靈活性的形式。ChatAnyone方法支持高效、連續(xù)地生成分辨率最高可達(dá) 512 × 768、幀率最高可達(dá) 30fps 的上半身肖像視頻,并可在 4090 GPU 上實(shí)現(xiàn)實(shí)時(shí)交互式視頻聊天。(鏈接在文章底部)

01 技術(shù)原理

提出高效分層運(yùn)動(dòng)擴(kuò)散模型(Hierarchical Motion Diffusion Model),用于音頻驅(qū)動(dòng)的面部與身體控制信號(hào)生成,同時(shí)結(jié)合顯式與隱式運(yùn)動(dòng)信號(hào),實(shí)現(xiàn)精準(zhǔn)表情控制。支持細(xì)粒度表情調(diào)節(jié)及風(fēng)格遷移,打造個(gè)性化表現(xiàn)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

混合控制生成模型(Hybrid Control Fusion Model)結(jié)合顯式關(guān)鍵點(diǎn)與隱式偏移,適配多種頭像風(fēng)格,并引入手部控制,提升手勢(shì)精度與真實(shí)感。面部細(xì)化模塊增強(qiáng)整體逼真度,使肖像視頻更具表現(xiàn)力。

構(gòu)建可擴(kuò)展的實(shí)時(shí)生成框架,支持從頭部驅(qū)動(dòng)到全身互動(dòng)的多種場(chǎng)景。高效流式推理管道在4090 GPU上可實(shí)現(xiàn)512×768分辨率、30fps實(shí)時(shí)生成,確保流暢、沉浸式視頻聊天體驗(yàn)。

02 示例演示

音頻驅(qū)動(dòng)的上半身動(dòng)畫(huà):可生成高度表現(xiàn)力的音頻驅(qū)動(dòng)上半身數(shù)字人視頻,支持包含或不包含手部的不同場(chǎng)景。

音頻驅(qū)動(dòng)的會(huì)話頭像動(dòng)畫(huà)可實(shí)現(xiàn)高精度唇同步,并生成富有表現(xiàn)力的面部表情和自然的頭部姿態(tài)。

音頻驅(qū)動(dòng)的風(fēng)格化動(dòng)畫(huà):可以為風(fēng)格化角色生成音頻驅(qū)動(dòng)的動(dòng)畫(huà),同時(shí)支持創(chuàng)作高度表現(xiàn)力的歌唱視頻。

雙主持人AI播客示范:還可以生成雙主持人播客,實(shí)現(xiàn)AI驅(qū)動(dòng)的對(duì)話。

https://arxiv.org/pdf/2503.21144

歡迎交流~,帶你學(xué)AI,了解AI