盡管以主體為驅(qū)動(dòng)的圖像生成因其廣泛的應(yīng)用前景而被廣泛研究,但在數(shù)據(jù)可擴(kuò)展性和主體擴(kuò)展性方面仍面臨諸多挑戰(zhàn)。針對(duì)第一個(gè)挑戰(zhàn),從構(gòu)建單一主體的數(shù)據(jù)集向多主體數(shù)據(jù)集轉(zhuǎn)變并實(shí)現(xiàn)規(guī)模化是一項(xiàng)特別困難的任務(wù)。對(duì)于第二個(gè)挑戰(zhàn),目前大多數(shù)方法主要集中在單主體生成,因此在處理多主體場景時(shí)難以適用。字節(jié)提出了UNO,一個(gè)基于多圖像條件的主體到圖像生成模型,采用從文本到圖像模型的迭代訓(xùn)練方式構(gòu)建。
擴(kuò)散模型的最新進(jìn)展極大地推動(dòng)了各類圖像生成任務(wù)的發(fā)展。然而,目前主流的方法仍專注于構(gòu)建特定任務(wù)的模型,這在支持廣泛多樣的需求時(shí)效率有限。雖然通用模型試圖解決這一限制,但它們面臨諸多關(guān)鍵挑戰(zhàn),包括可泛化的任務(wù)指令、合理的任務(wù)分布以及統(tǒng)一的架構(gòu)設(shè)計(jì)。南開提出了VisualCloze,一個(gè)通用圖像生成框架,支持廣泛的領(lǐng)域內(nèi)任務(wù)、對(duì)未見任務(wù)的泛化、多任務(wù)的統(tǒng)一處理以及反向生成。(鏈接均在文章底部)
01 UNO
它為模型引入了兩個(gè)關(guān)鍵增強(qiáng)模塊:漸進(jìn)式跨模態(tài)對(duì)齊和通用旋轉(zhuǎn)位置嵌入(UnoPE)。漸進(jìn)式跨模態(tài)對(duì)齊分為兩個(gè)階段:
階段一(Stage I):利用單一主體的上下文生成數(shù)據(jù),對(duì)預(yù)訓(xùn)練的文本到圖像(T2I)模型進(jìn)行微調(diào),使其轉(zhuǎn)化為主體到圖像(S2I)模型;
階段二(Stage II):在此基礎(chǔ)上,繼續(xù)使用生成的多主體數(shù)據(jù)對(duì)進(jìn)行訓(xùn)練。
通用旋轉(zhuǎn)位置嵌入(UnoPE)則能夠有效增強(qiáng) UNO 模型在擴(kuò)展視覺主體控制時(shí)的表現(xiàn),緩解屬性混淆問題。

UNO 幾乎完美地保留了參考圖像中的主體細(xì)節(jié),在編輯屬性(如顏色)時(shí),能夠同時(shí)保持主體的相似性。同時(shí)保持所有參考圖像的特征,并遵循文本指令進(jìn)行生成;UNO是一個(gè)從單一主題發(fā)展到多主題定制的通用框架。UNO表現(xiàn)出強(qiáng)大的泛化能力,能夠?qū)⒉煌娜蝿?wù)統(tǒng)一在一個(gè)模型下。
02 VisualCloze
圖像補(bǔ)全任務(wù)與基于上下文學(xué)習(xí)的通用生成模型目標(biāo)一致。通過將輸入與輸出圖像拼接為網(wǎng)格圖,將任務(wù)轉(zhuǎn)化為“填補(bǔ)輸出區(qū)域”。為此,構(gòu)建了無需架構(gòu)修改的VisualCloze,基于先進(jìn)的通用圖像補(bǔ)全模型FLUX.1-Fill-dev。

一個(gè)潛在限制是:上下文示例寬高比不同時(shí),網(wǎng)格圖像構(gòu)建困難。為解決此問題,FLUX.1-Fill-dev利用3D-RoPE(3D旋轉(zhuǎn)位置編碼)在時(shí)間維度拼接上下文,有效規(guī)避該問題且無明顯性能下降。

支持的領(lǐng)域內(nèi)任務(wù):根據(jù)視覺提示生成目標(biāo)圖像。
通過上下文學(xué)習(xí)實(shí)現(xiàn)對(duì)未知任務(wù)的泛化:如果僅依賴語言指令,模型在泛化到不同任務(wù)時(shí)表現(xiàn)較差。而通過上下文學(xué)習(xí),模型可以通過少量示例理解并執(zhí)行新任務(wù)。

https://arxiv.org/pdf/2504.07960
https://github.com/lzyhha/VisualCloze
https://arxiv.org/pdf/2504.02160
https://github.com/bytedance/UNO
歡迎交流~,帶你學(xué)習(xí)AI,了解AI
熱門跟貼