SkyReels-A2是一個(gè)可控的視頻生成框架,能夠根據(jù)文本提示,將任意視覺元素(如角色、物體、背景)組合成合成視頻,并嚴(yán)格保持每個(gè)元素與其參考圖像的一致性。將這一任務(wù)稱為elements-to-video(E2V)。其主要挑戰(zhàn)包括:保持每個(gè)元素對(duì)參考圖像的高度還原、確保場(chǎng)景組成的連貫性,以及生成自然流暢的輸出。

為了解決這些挑戰(zhàn),昆侖萬(wàn)維開源了SkyReels-A2,其能夠生成多樣、高質(zhì)量的視頻,且在元素控制上表現(xiàn)精準(zhǔn)。它是首個(gè)用于 E2V 生成的商業(yè)級(jí)開源模型,整體性能優(yōu)于多個(gè)先進(jìn)的商業(yè)閉源模型。推動(dòng)可控視頻生成在戲劇創(chuàng)作、虛擬電商等創(chuàng)意應(yīng)用中的發(fā)展,進(jìn)一步拓展該領(lǐng)域的邊界。其實(shí)類似的字節(jié)和阿里也發(fā)過,但是閉源的活著效果不同。(鏈接在文章底部)

01 技術(shù)原理

SkyReels-A2 框架概覽。首先通過兩條獨(dú)立的分支對(duì)所有參考圖像進(jìn)行編碼:

  • 第一條分支稱為空間特征分支(圖中以紅色表示,上方路徑),使用細(xì)粒度的 VAE 編碼器對(duì)每個(gè)組成圖像進(jìn)行處理,提取其空間細(xì)節(jié)信息;

  • 第二條分支稱為語(yǔ)義特征分支(圖中以紅色表示,下方路徑),則采用 CLIP 的視覺編碼器,并通過一個(gè) MLP 投影層對(duì)語(yǔ)義參考圖進(jìn)行編碼,提取其高層語(yǔ)義信息。

打開網(wǎng)易新聞 查看精彩圖片

隨后,空間特征會(huì)與加入噪聲的視頻 token 在通道維度上進(jìn)行拼接,并傳入擴(kuò)散模型的 transformer 模塊中。而從參考圖中提取出的語(yǔ)義特征,則通過額外的交叉注意力層(cross-attention layers)融入擴(kuò)散過程,確保語(yǔ)義上下文在視頻生成中被有效整合。該設(shè)計(jì)使得 SkyReels-A2 能夠同時(shí)保持視頻中每個(gè)元素的視覺一致性和整體語(yǔ)義協(xié)調(diào)性。

打開網(wǎng)易新聞 查看精彩圖片

數(shù)據(jù)構(gòu)建:SkyReels-A2 的數(shù)據(jù)處理流程從原始視頻的篩選與關(guān)鍵幀劃分開始,隨后利用多專家字幕模型生成視頻片段的整體描述與結(jié)構(gòu)化注釋。通過檢測(cè)與分割模型提取出人物、物體和環(huán)境等視覺元素,并基于相似度檢索參考圖像以去重。進(jìn)一步結(jié)合人臉檢測(cè)與人體解析獲取面部與服飾信息,最終將提取的視覺元素與文本描述匹配,構(gòu)建“視覺元素-視頻片段-文本”三元組用于模型訓(xùn)練。

02 演示效果

人-主題-背景三元組:SkyReels-A2 可以將角色、目標(biāo)和背景參考圖像合成自然的視頻。

多個(gè)人類-背景三元組:SkyReels-A2還支持多人參考構(gòu)圖,創(chuàng)作高質(zhì)量的互動(dòng)視頻。

電子商務(wù):SkyReels-A2的一個(gè)重要應(yīng)用是能夠根據(jù)主播圖和商品圖生成相應(yīng)的推薦場(chǎng)景。

媒體創(chuàng)作:SkyReels-A2還凸顯了其在構(gòu)建音樂多媒體創(chuàng)作場(chǎng)景方面的有效性。

https://huggingface.co/Skywork/SkyReels-A2
https://github.com/SkyworkAI/SkyReels-A2

歡迎交流~,帶你學(xué)習(xí)AI,了解AI