叨樂 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

字節(jié)和浙大聯(lián)合研發(fā)的項(xiàng)目Loopy火了!

只需一幀圖像,一段音頻,就能生成一段非常自然的視頻!

研究團(tuán)隊(duì)還放出了Loopy和同類應(yīng)用的對(duì)比視頻:

網(wǎng)友下場齊夸夸:

  • Loopy背后的技術(shù)有點(diǎn)牛哦!感覺互動(dòng)媒體有新未來了!

  • 前途無量奧!

真這么牛?咱們一起來看一下!

Loopy的生成效果

Loopy的生成效果

研究團(tuán)隊(duì)放出了一些DEMO視頻,內(nèi)容腦洞跨度有點(diǎn)大!

比如讓小李子唱《黑神話》靈吉菩薩的陜北說書(高音時(shí)還會(huì)皺眉):

讓兵馬俑滿口英倫腔:

蒙娜麗莎張口說話:

梅梅自帶Bgm說古裝臺(tái)詞(甚至還有挑眉的小動(dòng)作):

狼叔的側(cè)顏照也難不倒它:

嘆息聲的細(xì)節(jié)也能處理得很好:

Loopy如何“告別割裂感”?

Loopy如何“告別割裂感”?

看完這些毫無違和感DEMO視頻,咱們來研究一下Loopy是如何生成這類視頻的:

總的來說,Loopy是一個(gè)端到端的音頻驅(qū)動(dòng)視頻生成模型。

它的框架可以由四部分構(gòu)成,分別是:

ReferenceNet:一個(gè)額外的網(wǎng)絡(luò)模塊,它復(fù)制了原始SD U-Net的結(jié)構(gòu),以參考圖像的潛在表示作為輸入,來提取參考圖像的特征。

DenoisingNet:一個(gè)去噪的U-Net,負(fù)責(zé)從噪聲輸入生成最終的視頻幀。

在DenoisingNet的空間注意力層中,ReferenceNet提取的參考圖像特征會(huì)與DenoisingNet的特征在token維度上進(jìn)行拼接。

這樣做是為了讓DenoisingNet能夠選擇性地吸收ReferenceNet中與當(dāng)前特征相關(guān)的圖像信息,從而在生成過程中保持圖像的視覺一致性。

簡單來說,通過結(jié)合這兩個(gè)網(wǎng)絡(luò)的特征,DenoisingNet能夠更好地利用參考圖像的細(xì)節(jié),提升生成結(jié)果的質(zhì)量和連貫性。

Apperance:Loopy的外觀模塊,主要接收參考圖像和運(yùn)動(dòng)幀圖像,然后將它們壓縮成特殊的數(shù)字編碼(潛在向量)。

運(yùn)動(dòng)幀的潛在向量經(jīng)過“時(shí)間序列模塊”處理,與參考圖像的潛在向量拼在一起。這樣就融合了參考信息和動(dòng)作信息。

然后將拼接后的潛在向量輸入ReferenceNet模塊中,生成一張?zhí)卣鲌D,標(biāo)注著重要的視覺信息,方便供后續(xù)去噪模塊使用。

Audio:Loopy的音頻模塊。模型先是使用Wav2Vec網(wǎng)絡(luò)提取音頻特征,并將每層的特征連接起來,形成多尺度音頻特征。

然后對(duì)于每一幀視頻,將前兩幀和后兩幀的音頻特征連接,形成一個(gè)包含5幀音頻特征的序列,作為當(dāng)前幀的音頻信息。

最后在每個(gè)殘差塊中,使用“交叉注意力”機(jī)制,將音頻特征與視覺特征結(jié)合,計(jì)算出一個(gè)關(guān)注的音頻特征,并將其與視覺特征相加,生成新的特征。

值得一提的是,模型中也涉及到了一個(gè)Audio2Latent模塊,這個(gè)模塊可以將音頻信息映射到共享的運(yùn)動(dòng)潛在空間,進(jìn)一步幫助模型理解音頻與視頻中人物動(dòng)作之間的關(guān)系。

研究團(tuán)隊(duì)的實(shí)驗(yàn)結(jié)果如下

One more thing

One more thing

值得一提的是,在Loopy之前,字節(jié)和浙大就已經(jīng)聯(lián)合研發(fā)出了一款類似的項(xiàng)目CyberHost。

但與Loopy不同的是,CyberHost是一個(gè)端到端音頻驅(qū)動(dòng)的人類動(dòng)畫模型。

團(tuán)隊(duì)同樣也放出了DEMO視頻: