還在用 Diffusion 解碼出來(lái)的圖片做 Rewarding Tuning?要知道,Diffusion 生成的圖像分布與真實(shí)圖像分布存在差異,直接使用生成圖像計(jì)算 Rewarding Loss 會(huì)導(dǎo)致錯(cuò)誤梯度累積。為此,清華大學(xué)智能產(chǎn)業(yè)研究院的研究團(tuán)隊(duì)提出基于 Uncertainty 建模的 Rewarding 過(guò)程,可以顯著提升圖像生成任務(wù)中的可控性以及生成質(zhì)量!廣泛實(shí)驗(yàn)證明,這是目前可控性最佳的條件生成模型,并且支持 Segmentation、HED、Depth、Lineart 等多種條件擴(kuò)展。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

論文題目: Ctrl-U: Robust Conditional Image Generation via Uncertainty-aware Reward Modeling 論文鏈接: https://arxiv.org/abs/2410.11236 代碼鏈接: https://grenoble-zhang.github.io/Ctrl-U-Page

一、簡(jiǎn)介

條件圖像生成旨在生成與用戶指令高度匹配的圖像,盡管現(xiàn)有方法已經(jīng)取得了顯著進(jìn)展,但在生成圖像的條件一致性視覺(jué)質(zhì)量上依然存在巨大挑戰(zhàn)。為了解決這個(gè)問(wèn)題,清華大學(xué)智能產(chǎn)業(yè)研究院的研究團(tuán)隊(duì)提出了基于不確定性引導(dǎo)的可控生成框架——Ctrl-U,顯著提升了模型的可控性和生成質(zhì)量。

二、研究動(dòng)機(jī)

近年來(lái),隨著大規(guī)模圖文數(shù)據(jù)集的構(gòu)建,文本生成圖像(文生圖)擴(kuò)散模型在生成高保真、高分辨率圖像方面取得了顯著進(jìn)展。然而,由于文本條件在表達(dá)細(xì)節(jié)控制方面的固有局限性,文生圖模型在復(fù)雜場(chǎng)景渲染和藝術(shù)風(fēng)格模擬等特定應(yīng)用場(chǎng)景中,難以實(shí)現(xiàn)精細(xì)化和高精度的控制。

為了解決上述問(wèn)題,研究者們提出了多種條件控制方法(如 T2i-Adapter 和 ControlNet),通過(guò)引入手繪線稿、深度圖等先驗(yàn)條件信息,增強(qiáng)了生成模型的精確性。盡管上述方法在擴(kuò)展文生圖模型的應(yīng)用范圍方面取得了一定進(jìn)展,但在生成圖像的質(zhì)量和條件一致性上,仍面臨顯著挑戰(zhàn)。

為進(jìn)一步提高生成結(jié)果與輸入條件之間的一致性,部分研究(如 ControlNet++)嘗試?yán)妙A(yù)訓(xùn)練的獎(jiǎng)勵(lì)模型,提取生成圖像中的條件特征,并與輸入條件信息進(jìn)行對(duì)齊。然而,研究表明,獎(jiǎng)勵(lì)模型在處理新生成數(shù)據(jù)時(shí),往往存在反饋不準(zhǔn)確的問(wèn)題。這種不準(zhǔn)確性主要源于以下兩個(gè)方面:

  1. 擴(kuò)散過(guò)程中的噪聲干擾:擴(kuò)散模型在訓(xùn)練過(guò)程中對(duì)輸入添加不同程度的高斯噪聲,顯著增加了條件特征提取的難度。

  2. 未見(jiàn)數(shù)據(jù)的分布偏差:生成圖像與真實(shí)圖像之間存在分布差異。獎(jiǎng)勵(lì)模型在面對(duì)未見(jiàn)分布時(shí),即便生成結(jié)果已與條件保持一致,也容易產(chǎn)生錯(cuò)誤預(yù)測(cè)。這些不準(zhǔn)確的獎(jiǎng)勵(lì)反饋會(huì)造成錯(cuò)誤梯度累積,從而影響模型的優(yōu)化。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

(a)真實(shí)圖像和先驗(yàn)條件。(b)擴(kuò)散模型訓(xùn)練過(guò)程中,各時(shí)間步 t 下生成圖像的 mIoU 誤差變化曲線。值得注意的是,即使在采樣點(diǎn) t=0,mIoU ≠ 0,反映了預(yù)訓(xùn)練獎(jiǎng)勵(lì)模型本身的預(yù)測(cè)誤差。隨著 t 值遞增,盡管生成圖像的整體布局已與條件信息在空間上保持一致,獎(jiǎng)勵(lì)模型仍傾向于增大誤差,進(jìn)而導(dǎo)致錯(cuò)誤梯度的反向傳播。

三、不確定性引導(dǎo)的可控生成框架

研究團(tuán)隊(duì)通過(guò)估計(jì)獎(jiǎng)勵(lì)模型的不確定性,動(dòng)態(tài)調(diào)整訓(xùn)練過(guò)程中的損失權(quán)重,顯著提高了條件圖像生成的一致性可靠性。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

整體分為兩個(gè)階段:

3.1 不確定性估計(jì)

以分割掩碼為先驗(yàn)條件為例,輸入文本、源圖像 和條件控制 ,分別提取特征 、 、 。在訓(xùn)練過(guò)程中,我們分別向特征圖 添加不同時(shí)間步 和 的高斯噪聲 作為噪聲潛變量,具體表示為:

隨后,我們將文本條件 和圖像條件 融合,用于預(yù)測(cè)注入的噪聲。通過(guò)去除預(yù)測(cè)噪聲,得到恢復(fù)的潛變量 和 。

利用預(yù)訓(xùn)練解碼器,根據(jù) 和 分別重建輸入圖像,得到 和 。為了使生成圖像與輸入條件 保持一致,我們使用預(yù)訓(xùn)練獎(jiǎng)勵(lì)模型 來(lái)量化生成圖像的輸出條件與輸入條件之間的一致性。

為估計(jì)獎(jiǎng)勵(lì)模型預(yù)測(cè)的不確定性,我們顯式利用兩次擴(kuò)散前向過(guò)程,并比較從生成圖像中提取的 、 之間的獎(jiǎng)勵(lì)差異,作為當(dāng)前時(shí)間步的不確定性估計(jì)。對(duì)于分割掩碼,我們利用像素級(jí) KL 散度量化不確定性:

打開(kāi)網(wǎng)易新聞 查看精彩圖片

對(duì)于其他非概率條件(如線稿和深度),我們采用 距離 估計(jì)不確定性。

3.2 自適應(yīng)獎(jiǎng)勵(lì)正則化

現(xiàn)有的可控性建模方法(如 ControlNet++)通過(guò)輸入條件與提取條件之間的像素級(jí)一致性損失進(jìn)行建模。例如,當(dāng)輸入條件為分割掩碼時(shí),一致性損失 可定義為像素級(jí)交叉熵?fù)p失:

其中, 表示輸入條件, 和 分別代表從生成圖像中提取的條件信息。為了自適應(yīng)地校正不準(zhǔn)確的獎(jiǎng)勵(lì)反饋,我們?cè)谝恢滦該p失中引入了估計(jì)的不確定性,改進(jìn)后的損失函數(shù)定義為:

其中, 為正則化因子。第一項(xiàng)用于在不確定性較大時(shí)降低獎(jiǎng)勵(lì)反饋權(quán)重,減少潛在錯(cuò)誤反饋的負(fù)面影響;而在不確定性較小時(shí)賦予更高權(quán)重,增強(qiáng)模型對(duì)可靠反饋的學(xué)習(xí)能力。第二項(xiàng)則用于防止模型對(duì)所有樣本持續(xù)預(yù)測(cè)高不確定性。當(dāng)不確定性值保持恒定時(shí),其梯度與原始一致性損失一致。

為了優(yōu)化生成的魯棒性,我們結(jié)合擴(kuò)散模型損失 和不確定性正則化損失 ,其中 為:

打開(kāi)網(wǎng)易新聞 查看精彩圖片

最終的總損失定義為:

其中, 用于平衡擴(kuò)散模型損失和獎(jiǎng)勵(lì)反饋的比例。此方法通過(guò)引入不確定性估計(jì)與自適應(yīng)獎(jiǎng)勵(lì)正則化,有效提升了條件圖像生成的魯棒性與精度。

四、實(shí)驗(yàn)結(jié)果

作者在多種條件下的可控生成任務(wù)上進(jìn)行了定性和定量評(píng)估,以驗(yàn)證Ctrl-U的效果。

4.1 定性比較

如圖所示,Ctrl-U在視覺(jué)效果對(duì)比中表現(xiàn)出了優(yōu)異的條件一致性和生成質(zhì)量,在各類控制條件下均能生成與輸入條件高度匹配的逼真圖像。這一對(duì)比結(jié)果充分證明了Ctrl-U在可控圖像生成任務(wù)中的優(yōu)越性能。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

4.2 定量比較

研究團(tuán)隊(duì)在ADE20K、COCO-Stuff及MultiGen-20M驗(yàn)證集上對(duì)Ctrl-U與對(duì)比方法進(jìn)行了定量評(píng)估。結(jié)果表明,Ctrl-U在可控性、視覺(jué)質(zhì)量和文本相似度上均實(shí)現(xiàn)了更優(yōu)的表現(xiàn),驗(yàn)證了其在各方面上的有效性。

4.2.1 可控性

打開(kāi)網(wǎng)易新聞 查看精彩圖片

4.2.2 視覺(jué)質(zhì)量

打開(kāi)網(wǎng)易新聞 查看精彩圖片

4.2.3 文本相似度

打開(kāi)網(wǎng)易新聞 查看精彩圖片

五、總結(jié)與展望

Ctrl-U 通過(guò)引入基于不確定性引導(dǎo)的獎(jiǎng)勵(lì)建模,顯著提升了生成模型的圖像質(zhì)量和可控性。具體而言,Ctrl-U 不僅能夠有效捕捉復(fù)雜條件約束下的潛在結(jié)構(gòu)信息,還能在生成過(guò)程中動(dòng)態(tài)調(diào)整獎(jiǎng)勵(lì)反饋,從而更好地應(yīng)對(duì)多樣化的輸入條件與目標(biāo)分布。研究團(tuán)隊(duì)通過(guò)在多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了所提出方法的可行性,并期待相關(guān)研究成果能夠?yàn)樯钊胙芯刻囟▓?chǎng)景下的約束條件,以及開(kāi)發(fā)新型模型架構(gòu)提供有益參考。

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃

TechBeat是由將門(mén)創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(

www.techbeat.net
) 。 社區(qū)上線600+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛(ài)的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長(zhǎng)。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //

// 前沿資訊解說(shuō)/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)

投稿方式

發(fā)送郵件到

melodybai@thejiangmen.com

或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關(guān)注“將門(mén)創(chuàng)投”公眾號(hào),后臺(tái)回復(fù)“投稿”二字,獲得投稿說(shuō)明。

關(guān)于我“門(mén)”

將門(mén)是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過(guò)連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。

將門(mén)成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門(mén)”:

bp@thejiangmen.com

打開(kāi)網(wǎng)易新聞 查看精彩圖片

點(diǎn)擊右上角,把文章分享到朋友圈