AIxiv專欄是機器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
論文一作陳汐,現(xiàn)為香港大學(xué)三年級博士生,在此之前本科碩士畢業(yè)于浙江大學(xué),同時獲得法國馬賽中央理工雙碩士學(xué)位。主要研究方向為圖像視頻生成與理解,在領(lǐng)域內(nèi)頂級期刊會議上發(fā)表論文十余篇,并且 GitHub 開源項目獲得超過 5K star.
本文中,香港大學(xué)與 Adobe 聯(lián)合提出名為 UniReal 的全新圖像編輯與生成范式。該方法將多種圖像任務(wù)統(tǒng)一到視頻生成框架中,通過將不同類別和數(shù)量的輸入/輸出圖像建模為視頻幀,從大規(guī)模真實視頻數(shù)據(jù)中學(xué)習(xí)屬性、姿態(tài)、光照等多種變化規(guī)律,從而實現(xiàn)高保真的生成效果。
- 論文標題:UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics
- 項目主頁:https://xavierchen34.github.io/UniReal-Page/
- 論文鏈接:https://arxiv.org/abs/2412.07774

效果展示
我們重點展示了圖像生成與編輯中最具挑戰(zhàn)性的三個任務(wù)的效果:圖像定制化生成、指令編輯和物體插入。
此外,UniReal 還支持多種圖像生成、編輯及感知任務(wù),例如文本生成圖像、可控圖像生成、圖像修復(fù)、深度估計和目標分割等。

在單目標定制化生成任務(wù)中,UniReal 能夠在準確保留目標細節(jié)(如 logo)的同時,生成具有較大姿態(tài)和場景變化的圖像,并自然地模擬物體在不同環(huán)境下的狀態(tài),從而實現(xiàn)高質(zhì)量的生成效果。

與此同時,UniReal 展現(xiàn)了強大的多目標組合能力,能夠精確建模不同物體之間的交互關(guān)系,生成高度協(xié)調(diào)且逼真的圖像效果。

值得注意的是,我們并未專門收集人像數(shù)據(jù)進行訓(xùn)練,UniReal 仍能夠生成自然且真實的全身像定制化效果,展現(xiàn)了其出色的泛化能力。

在指令編輯方面,UniReal 支持用戶通過自由輸入文本對圖像進行靈活編輯,例如添加或刪除物體、修改屬性等。實驗結(jié)果表明,UniReal 展現(xiàn)出了卓越的場景理解能力,能夠真實地模擬物體的陰影、反射以及前后遮擋關(guān)系,生成高度逼真的編輯效果。

UniReal 支持從圖像中提取特定目標作為前景,插入到背景圖像中,天然適用于虛擬試衣、Logo 遷移、物體傳送等任務(wù)。實驗表明,UniReal 插入的目標能夠非常自然地融入背景圖像,呈現(xiàn)出與背景一致的和諧角度、倒影效果及環(huán)境匹配度,顯著提升了任務(wù)的生成質(zhì)量。

除了上述任務(wù)外,UniReal 還支持文本生成圖像、可控圖像生成、參考式圖像補全、目標分割、深度估計等多種任務(wù),并能夠同時生成多張圖像。此外,UniReal 支持各類任務(wù)的相互組合,從而展現(xiàn)出許多未經(jīng)過專門訓(xùn)練的強大能力,進一步證明其通用性和擴展性。
方法介紹
UniReal 的目標是為圖像生成與編輯任務(wù)構(gòu)建一個統(tǒng)一框架。我們觀察到,不同任務(wù)通常存在多樣化的輸入輸出圖像種類與數(shù)量,以及各自獨特的具體要求。然而,這些任務(wù)之間共享一個核心需求:在保持輸入輸出圖像一致性的同時,根據(jù)控制信號建模圖像的變化。
這一需求與視頻生成任務(wù)有天然的契合性。視頻生成需要同時滿足幀間內(nèi)容的一致性與運動變化,并能夠支持不同的幀數(shù)輸出。受到近期類似 Sora 的視頻生成模型所取得優(yōu)異效果的啟發(fā),我們提出將不同的圖像生成與編輯任務(wù)統(tǒng)一到視頻生成架構(gòu)中。
此外,考慮到視頻中自然包含真實世界中多樣化的動態(tài)變化,我們直接從原始視頻出發(fā),構(gòu)建大規(guī)模訓(xùn)練數(shù)據(jù),使模型能夠?qū)W習(xí)和模擬真實世界的變化規(guī)律,從而實現(xiàn)高保真的生成與編輯效果。

模型結(jié)構(gòu):我們借鑒了與Sora類似的視頻生成架構(gòu),將不同的輸入輸出圖像統(tǒng)一視作視頻幀處理。具體來說,圖像通過 VAE 編碼后被轉(zhuǎn)換為視覺 token,接著輸入 Transformer 進行處理。與此同時,我們引入了T5 text encoder對輸入指令進行編碼,將生成的文本 token 與視覺 token 一同輸入 Transformer。通過使用full attention機制,模型能夠充分建模視覺和文本之間的關(guān)系,實現(xiàn)跨模態(tài)信息的高效融合和綜合理解。這種設(shè)計確保了模型在處理多樣化任務(wù)時的靈活性和生成效果的一致性。
層級化提示:為了解決不同任務(wù)和數(shù)據(jù)之間的沖突問題,同時支持多樣化的任務(wù)與數(shù)據(jù),我們提出了一種Hierarchical Prompt(層級化提示)設(shè)計。在傳統(tǒng)提示詞(Prompt)的基礎(chǔ)上,引入了Context Prompt和Image Prompt兩個新組件。
- Context Prompt:用于補充描述不同任務(wù)和數(shù)據(jù)集的特性,包括任務(wù)目標、數(shù)據(jù)分特點等背景信息,從而為模型提供更豐富的上下文理解。
- Image Prompt:對輸入圖像進行層次化劃分,將其分為三類:
- Asset(前景):需要重點操作或變更的目標區(qū)域;
- Canvas(畫布):作為生成或編輯的背景場景;
- Control(控制):提供約束或引導(dǎo)的輸入信號,如參考圖像或控制參數(shù)。
為每種類別的輸入圖像單獨訓(xùn)練不同的 embedding,從而幫助模型在聯(lián)合訓(xùn)練中區(qū)分輸入圖像的作用和語義,避免不同任務(wù)和數(shù)據(jù)引發(fā)的沖突與歧義。
通過這種層級化提示設(shè)計,模型能夠更高效地整合多樣化的任務(wù)和數(shù)據(jù),顯著提升聯(lián)合訓(xùn)練的效果,進一步增強其生成和編輯能力。

數(shù)據(jù)構(gòu)造:我們基于原始視頻數(shù)據(jù)構(gòu)建了大規(guī)模訓(xùn)練數(shù)據(jù)集,以支持多樣化的任務(wù)需求。具體步驟如下:
1. 編輯數(shù)據(jù)生成
從視頻中隨機抽取前后兩幀,分別作為編輯前和編輯后的圖像結(jié)果,并借助視覺語言模型(VLM)生成對應(yīng)的編輯指令,以模擬多樣化的圖像編輯任務(wù)。
2. 多目標定制化生成
我們結(jié)合 VLM 與 SAM2,在視頻首幀中分割出不同的目標區(qū)域,并利用這些目標區(qū)域重建后續(xù)幀,構(gòu)造多目標定制化生成的數(shù)據(jù)。這種方式能夠模擬目標在復(fù)雜場景中的動態(tài)變化,并為多目標生成任務(wù)提供高質(zhì)量的數(shù)據(jù)支持。
3. 可控生成與圖像理解標注
利用一系列圖像理解模型(如深度估計模型)對視頻和圖像進行自動打標。這些標簽不僅為可控生成任務(wù)(如深度控制生成)提供了豐富的條件信息,還為圖像理解任務(wù)(如深度估計、目標分割)提供了標準參考。
通過這種基于原始視頻的多層次數(shù)據(jù)構(gòu)造策略,我們的模型能夠?qū)W習(xí)真實世界中的動態(tài)變化規(guī)律,同時支持多種復(fù)雜的圖像生成與理解任務(wù),顯著提升了數(shù)據(jù)集的多樣性和模型的泛化能力。
效果對比
在指令編輯任務(wù)中,UniReal 能夠更好地保持背景像素的一致性,同時完成更具挑戰(zhàn)性的編輯任務(wù)。例如,它可以根據(jù)用戶指令生成 “螞蟻抬起轎車” 的畫面,并在轎車被抬起后動態(tài)調(diào)整冰面上的反射,使其與場景的物理變化相一致。這種能力充分展現(xiàn)了 UniReal 在場景理解和細節(jié)生成上的強大性能。

在定制化生成任務(wù)中,無論是細節(jié)的精確保留還是對指令的準確執(zhí)行,UniReal 都展現(xiàn)出了顯著的優(yōu)勢。其生成結(jié)果不僅能夠忠實還原目標細節(jié),還能靈活響應(yīng)多樣化的指令需求,體現(xiàn)出卓越的生成能力和任務(wù)適應(yīng)性。

在物體插入任務(wù)中,我們與此前的代表性方法 AnyDoor 進行了對比,UniReal 展現(xiàn)出了更強的環(huán)境理解能力。例如,它能夠正確模擬狗在水中的姿態(tài),自動調(diào)整易拉罐在桌子上的視角,以及精確建模衣服在模特身上的狀態(tài),同時保留模特的頭發(fā)細節(jié)。這種對場景和物體關(guān)系的高度理解,使 UniReal 在生成真實感和一致性上遠超現(xiàn)有方法。

未來展望
UniReal 在多個任務(wù)中展現(xiàn)了強大的潛力。然而,隨著輸入和輸出圖像數(shù)量的進一步擴大,訓(xùn)練與推理效率問題成為需要解決的關(guān)鍵挑戰(zhàn)。為此,我們計劃探索設(shè)計更高效的注意力結(jié)構(gòu),以降低計算成本并提高處理速度。同時,我們還將這一方案進一步擴展到視頻生成與編輯任務(wù)中,利用高效的結(jié)構(gòu)應(yīng)對更復(fù)雜的數(shù)據(jù)規(guī)模和動態(tài)場景需求,推動模型性能與實用性的全面提升。
熱門跟貼