
姜東志,香港中文大學(xué)MMLab博士,研究方向?yàn)槔斫馀c生成統(tǒng)一的多大模型及多模態(tài)推理。在ICML, ICLR, NeurIPS, ECCV, ICCV等頂級會議上發(fā)表過論文。
最近的大語言模型(LLMs)如 OpenAI o1 和 DeepSeek-R1,已經(jīng)在數(shù)學(xué)和編程等領(lǐng)域展示了相當(dāng)強(qiáng)的推理能力。通過強(qiáng)化學(xué)習(xí)(RL),這些模型在提供答案之前使用全面的思維鏈(CoT)逐步分析問題,顯著提高了輸出準(zhǔn)確性。最近也有工作將這種形式拓展到圖片理解的多模態(tài)大模型中(LMMs)中。然而,這種 CoT 推理策略如何應(yīng)用于自回歸的圖片生成領(lǐng)域仍然處于探索階段,我們之前的工作 Image Generation with CoT(https://github.com/ZiyuGuo99/Image-Generation-CoT)對這一領(lǐng)域有過首次初步的嘗試。
與圖片理解不同,圖片生成任務(wù)需要跨模態(tài)的文本與圖片的對齊以及細(xì)粒度的視覺細(xì)節(jié)的生成。為此,我們提出了 T2I-R1—— 一種基于雙層次 CoT 推理框架與強(qiáng)化學(xué)習(xí)的新型文本生成圖像模型。

- 論文標(biāo)題:T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT
- 論文地址:https://arxiv.org/pdf/2505.00703
- 代碼地址:https://github.com/CaraJ7/T2I-R1
- 機(jī)構(gòu):港中文 MMLab、上海 AI Lab
方法介紹
具體而言,我們提出了適用于圖片生成的兩個不同層次的 CoT 推理

Semantic-CoT
- Semantic-CoT 是對于要生成的圖像的文本推理,在圖像生成之前進(jìn)行。
- 負(fù)責(zé)設(shè)計圖像的全局結(jié)構(gòu),例如每個對象的外觀和位置。
- 優(yōu)化 Semantic-CoT 可以在圖片 Token 的生成之前顯式地對于 Prompt 進(jìn)行規(guī)劃和推理,使生成更容易。
Token-CoT
- Token-CoT 是圖片 Token 的逐塊的生成過程。這個過程可以被視為一種 CoT 形式,因?yàn)樗瑯邮窃陔x散空間中基于所有先前的 Token 輸出后續(xù)的 Token,與文本 CoT 類似。
- Token-CoT 更專注于底層的細(xì)節(jié),比如像素的生成和維持相鄰 Patch 之間的視覺連貫性。
- 優(yōu)化 Token-CoT 可以提高生成圖片的質(zhì)量以及 Prompt 與生成圖片之間的對齊。

然而,盡管認(rèn)識到這兩個層次的 CoT,一個關(guān)鍵問題仍然存在:我們怎么能協(xié)調(diào)與融合它們?
當(dāng)前主流的自回歸圖片生成模型如 VAR 完全基于生成目標(biāo)進(jìn)行訓(xùn)練,缺乏 Semantic-CoT 推理所需的顯式文本理解。雖然引入一個專門用于提示解釋的獨(dú)立模型(例如 LLM)在技術(shù)上是可行的,但這種方法會顯著增加計算成本、復(fù)雜性和部署的困難。最近,出現(xiàn)了一種將視覺理解和生成合并到單一模型中的趨勢。在 LMMs 的基礎(chǔ)上,這些統(tǒng)一 LMMs(ULMs)不僅可以理解視覺輸入,還可以從文本提示生成圖像。然而,它們的兩種能力仍然是解耦的,通常在兩個獨(dú)立階段進(jìn)行預(yù)訓(xùn)練,沒有明確證據(jù)表明理解能力可以使生成受益。
鑒于這些潛力和問題,我們從一個 ULM(Janus-Pro)開始,增強(qiáng)它以將 Semantic-CoT 以及 Token-CoT 統(tǒng)一到一個框架中用于文本生成圖像

我們提出了 BiCoT-GRPO,一種使用強(qiáng)化學(xué)習(xí)的方法來聯(lián)合優(yōu)化 ULM 的兩個層次的 CoT:
我們首先指示 ULM 基于 Image Prompt 來想象和規(guī)劃圖像來獲得 Semantic-CoT。然后,我們將 Image Prompt 和 Semantic-CoT 重新輸入 ULM 來生成圖片以獲得 Token-CoT。我們對于一個 Image Prompt 生成多組 Semantic-CoT 和 Token-CoT,對于得到的圖像計算組內(nèi)的相對獎勵,從而使用 GRPO 的方法來在一個訓(xùn)練迭代內(nèi),同時優(yōu)化兩個層次的 CoT。
與圖片的理解任務(wù)不同,理解任務(wù)有明確定義的獎勵規(guī)則,圖像生成中不存在這樣的標(biāo)準(zhǔn)化的規(guī)則。為此,我們提出使用多個不同的視覺專家模型的集成來作為獎勵模型。這種獎勵設(shè)計有兩個關(guān)鍵的目的:
- 它從多個維度評估生成的圖像以確??煽康馁|(zhì)量評估
- 作為一種正則化方法來防止 ULM 過擬合到某個單一的獎勵模型

根據(jù)我們提出的方法,我們獲得了 T2I-R1,這是第一個基于強(qiáng)化學(xué)習(xí)的推理增強(qiáng)的文生圖模型。
實(shí)驗(yàn)
根據(jù) T2I-R1 生成的圖片,我們發(fā)現(xiàn)我們的方法使模型能夠通過推理 Image Prompt 背后的真實(shí)意圖來生成更符合人類期望的結(jié)果,并在處理不尋常場景時展現(xiàn)出增強(qiáng)的魯棒性。


同時,定量的實(shí)驗(yàn)結(jié)果也表明了我們方法的有效性。T2I-R1 在 T2I-CompBench 和 WISE 的 Benchmark 上分別比 baseline 模型提高了 13% 和 19% 的性能,在多個子任務(wù)上甚至超越了之前最先進(jìn)的模型 FLUX.1。


? THE END
熱門跟貼