近年來,隨著其有潛力將人機交互從文本界面轉(zhuǎn)變?yōu)檎鎸嵉囊曨l聊天,談話頭像生成(THG)取得了顯著的進展。然而,基于文本驅(qū)動的談話頭像研究仍然較為薄弱,現(xiàn)有的方法大多采用級聯(lián)管道,將文本到語音(TTS)系統(tǒng)與音頻驅(qū)動的談話頭像模型結(jié)合起來。這種傳統(tǒng)的管道不僅增加了系統(tǒng)的復雜性和延遲開銷,而且在生成的語音和視覺表情之間存在異步的視聽輸出,并且存在風格差異。
為了解決這些問題,阿里通義實驗室提出了OmniTalker,一個端到端的統(tǒng)一框架,能夠在實時zero-shot場景下從文本和參考視頻中同時生成同步的語音和談話頭像視頻,同時保持語音風格和面部風格。OmniTalker是第一個在zero-shot設(shè)置中聯(lián)合建模語音風格和面部風格的框架,具有25 FPS的實時推理速度。(鏈接在文章底部)
01 技術(shù)原理
OmniTalker模型框架:(a) 上下文嵌入模塊采用特定模態(tài)的編碼器提取文本、音頻和動作嵌入。音頻和動作嵌入隨后根據(jù)目標序列長度進行填充,該長度由額外的時長預測模塊估計。(b) 音頻和視覺特征在視聽融合模塊中共同交互。然后,音頻和視覺特征分別輸入多個DiT塊進行處理。

統(tǒng)一的多模態(tài)框架:OmniTalker將文本到音頻和文本到視頻的生成集成在一個模型中,通過跨模態(tài)融合實現(xiàn)同步輸出。上下文多模態(tài)風格復制:基于參考的機制捕捉語音和面部風格,用于零-shot復制。實時效率:通過集成流匹配并保持較小的模型規(guī)模(0.8B),OmniTalker在保持高保真輸出的同時,實現(xiàn)了實時推理。
OmniTalker是一個統(tǒng)一框架,用于從文本中共同生成語音和談話視頻,旨在緩解現(xiàn)有方法中冗余計算、誤差積累和視聽風格不匹配的問題。
02 演示效果
跨語種生成:(英文原視頻,生成中文結(jié)果)
情感表達生成:基于不同情感的提示視頻,OmniTalker能夠生成與給定情感相對應(yīng)的結(jié)果,具有富有表現(xiàn)力的面部表情和自然的頭部姿勢。
長視頻保持:OmniTalker可以在保持一致的語氣和說話風格的同時生成長期視頻。
互動演示:OmniTalker方法支持實時生成,達到25幀每秒(FPS),為互動視頻聊天應(yīng)用提供了實際支持。
OmniTalker方法在生成質(zhì)量上超越了現(xiàn)有方法,特別是在風格保持和音視頻同步方面表現(xiàn)優(yōu)異,同時保持了實時預測效率。(暫時為非開源方法)
https://arxiv.org/pdf/2504.02433v1
歡迎交流~,帶你學習AI,了解AI
熱門跟貼