作者|子川
來(lái)源|AI先鋒官
最近,阿里推出了一項(xiàng)黑科技——OmniTalke,只需給它一段參考視頻,它就能學(xué)會(huì)視頻里人物的表情以及克隆其聲音,甚至還能模仿說話風(fēng)格。
就像下面這樣——
比如我們先給OmniTalke一段羅翔老師早期在B站的視頻,讓它學(xué)羅老師是怎么說話、什么表情”。
隨后給它一段文字,它就能生成相應(yīng)的數(shù)字人視頻。
提示詞:聽說現(xiàn)在有人拿AI復(fù)刻我的聲音和形象,搞的大家分不出來(lái)真假,啊,你們這個(gè)被抓起來(lái),是要判三年的。
除了說中文外,還能讓羅翔老師實(shí)現(xiàn)出海,生成他講英文的視頻。
文本:我試試說幾句英文,啊,I've heard that nowadays, some people are using AI to replicate my voice and appearance, making it hard for everyone to tell the difference between real and fake. Yet, if they get caught, they could be sentenced to three years in prison.
這效果,簡(jiǎn)直了?。?!
無(wú)論是聲音還是表情都模仿得惟妙惟肖,簡(jiǎn)直就跟羅翔老師本人,而且無(wú)論是英文還是中文,口型和聲音保持高度的統(tǒng)一。
再來(lái)一段視頻,比如上傳一段大家非常喜歡的博主@小Lin說的視頻。
輸入文本:想象一下,你面前站著的是一個(gè)完全由代碼構(gòu)建卻仿佛真人般鮮活的2D數(shù)字人。它不僅有著細(xì)膩入微的表情變化,每一個(gè)眼神、每一次微笑都能準(zhǔn)確傳達(dá)出參考人物的情感特質(zhì)。
還有雷軍的數(shù)字人視頻,上傳雷軍入駐B站時(shí)的視頻。
輸入文本:喜歡小米的小朋友們你們好,我是雷軍,今天我當(dāng)了一個(gè)小時(shí)的中國(guó)首富,感謝大家捧場(chǎng)。
就像視頻中所展示的那樣,OmniTalker除了可以復(fù)制表情和聲音外,還能復(fù)制該人物說話的風(fēng)格。
像以往,我們想要生成一個(gè)類似的數(shù)字人視頻,首先需要準(zhǔn)備一張人物的大頭照,并獲取一段該人物的聲音去進(jìn)行克隆,最后再是輸入提示詞生成相應(yīng)的數(shù)字人視頻。
關(guān)鍵是市面上很多數(shù)字人產(chǎn)品,生成的數(shù)字人視頻機(jī)械感賊重,并且聲音和口型高度不統(tǒng)一。
而如今,OmniTalker徹底改變了以往數(shù)字人的交互方式,只需提供一段視頻,就能讓它完美復(fù)制視頻中人物的表情、聲音。
目前OmniTalker還沒有成熟產(chǎn)品,不過大家可以期待一下。
論文:https://arxiv.org/html/2504.02433
下面是小編簡(jiǎn)單總結(jié)了一下OmniTalker的核心技術(shù)。
OmniTalker 的核心技術(shù)
雙分支擴(kuò)散變換器架構(gòu):OmniTalker 采用了獨(dú)特的雙分支擴(kuò)散變換器(DiT)架構(gòu)。它包含兩個(gè)主要分支:音頻分支和視覺分支。
音頻分支負(fù)責(zé)從文本中合成高質(zhì)量的語(yǔ)音,而視覺分支則專注于預(yù)測(cè)頭部姿勢(shì)和面部動(dòng)態(tài)。
這兩個(gè)分支通過一個(gè)新穎的音頻-視覺融合模塊緊密相連,確保音頻和視頻輸出在時(shí)間上的同步性和風(fēng)格上的一致性。
上下文參考學(xué)習(xí)模塊:OmniTalker 能從一個(gè)參考視頻里“偷學(xué)”說話人的風(fēng)格,比如語(yǔ)音的音色、語(yǔ)調(diào),還有面部的表情、動(dòng)作,然后把它應(yīng)用到生成的視頻里。
流匹配技術(shù):這是一種高效訓(xùn)練方法,能讓模型更快地學(xué)習(xí)和生成內(nèi)容,就像給汽車裝上了渦輪增壓,讓整個(gè)系統(tǒng)跑得更快。
OmniTalker 的優(yōu)勢(shì)
實(shí)時(shí)交互:它反應(yīng)超快,能達(dá)到每秒25幀的實(shí)時(shí)推理速度,滿足直播和實(shí)時(shí)交互的需求。
多模態(tài)融合:支持文本、圖像、音頻和視頻等多種輸入方式,無(wú)縫整合多模態(tài)信息,生成高質(zhì)量的語(yǔ)音和視頻。
風(fēng)格保留:它能把參考視頻里的風(fēng)格學(xué)得惟妙惟肖,生成的視頻就像原版的“克隆”。
計(jì)算效率:通過流匹配技術(shù)和緊湊的模型架構(gòu)(0.8B參數(shù)),在保持高質(zhì)量輸出的同時(shí)實(shí)現(xiàn)實(shí)時(shí)推理。
OmniTalker 的創(chuàng)新點(diǎn)
統(tǒng)一多模態(tài)框架:首次將文本到音頻和文本到視頻生成集成在一個(gè)模型中,通過跨模態(tài)融合實(shí)現(xiàn)同步輸出。
簡(jiǎn)單來(lái)說就是以前生成語(yǔ)音和視頻需要分開做,現(xiàn)在OmniTalker 把它們合在一起,一步到位。
上下文多模態(tài)風(fēng)格復(fù)制:不需要額外的訓(xùn)練數(shù)據(jù),只要一個(gè)參考視頻,就能實(shí)時(shí)生成風(fēng)格一致的說話頭像。
實(shí)時(shí)效率:通過技術(shù)創(chuàng)新實(shí)現(xiàn)高質(zhì)量輸出的同時(shí)保持實(shí)時(shí)推理能力。
可擴(kuò)展的數(shù)據(jù)管道和多模態(tài)訓(xùn)練:自動(dòng)化預(yù)處理系統(tǒng)和高效的多階段訓(xùn)練方法,支持大規(guī)模多模態(tài)數(shù)據(jù)的處理和訓(xùn)練。
掃碼邀請(qǐng)進(jìn)群,我們帶你一起來(lái)玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。
往期文章回顧
熱門跟貼