GPT-4o圖像生成架構(gòu)被“破解”了!
最近一陣,“萬物皆可吉卜力”讓GPT-4o的圖像生成功能一炮而紅,人們隨之好奇:
4o圖像生成的架構(gòu)底層邏輯到底是什么?GPT-4o究竟強(qiáng)在哪?存在哪些短板?
作為解答,北京大學(xué)、中山大學(xué)等多家科研機(jī)構(gòu)共同推出GPT-ImgEval,首次系統(tǒng)評估了GPT-4o在圖像生成上的真實表現(xiàn)。
這份量化評估基準(zhǔn)不僅囊括了生成質(zhì)量、編輯能力和知識推理,還嘗試揭示GPT-4o背后的可能架構(gòu),還探討了它生成圖像的可檢測性問題。

下面具體來看。
GPT-4o架構(gòu)揭秘:可能使用了擴(kuò)散+自回歸混合方案
GPT-ImgEval團(tuán)隊嘗試“反向破解”GPT-4o的圖像生成架構(gòu)。
研究團(tuán)隊在論文中提出了4種候選架構(gòu)方案(見下圖),盡管細(xì)節(jié)略有不同,但有一點是一致的:GPT-4o很可能采用的是自回歸主干+擴(kuò)散頭的混合結(jié)構(gòu)。
通俗來說,它的工作流程可能是這樣的:文本或指令→ 自回歸模塊理解語義 → 生成中間視覺Token → 擴(kuò)散模型將這些Token解碼成圖像。

當(dāng)然,架構(gòu)猜測不能僅靠想象。為此,研究團(tuán)隊設(shè)計了一套嚴(yán)謹(jǐn)?shù)?strong>實證方法:
- 先選取一組統(tǒng)一的文本提示(prompt),分別使用自回歸模型(VAR)和擴(kuò)散模型(Diffusion)各自生成1萬張圖像作為對比樣本;
- 利用這些圖像訓(xùn)練一個二分類器,讓它學(xué)會識別圖像是“AR風(fēng)格”還是“Diffusion風(fēng)格”;
- 然后,用同樣的Prompt交給GPT-4o生成圖像,將這些圖像輸入該分類器進(jìn)行識別。
也就是說,整個過程中,提示詞保持完全一致,只看不同模型生成的圖像“長得像誰”,以此判斷GPT-4o的生成方式更接近哪類結(jié)構(gòu)。
結(jié)果很直接:GPT-4o生成的圖像幾乎全部被識別為“擴(kuò)散風(fēng)格”,這就從圖像風(fēng)格維度驗證了GPT-4o的確可能用了擴(kuò)散模型作為解碼器。

除了對視覺解碼器的分析,研究人員也深入探討了視覺編碼方式。他們指出,一些研究(如UniTok)認(rèn)為基于向量量化(VQ)的編碼器可能會削弱模型的語義理解能力。
因此,作者認(rèn)為如果采用了pixel encoder,其大概率是連續(xù)(非VQ)的而不是離散(VQ)的,并基于此提出了四種可能的完整架構(gòu)示意圖。

三大維度全面評估GPT-4o圖像能力
GPT-ImgEval聚焦三類核心任務(wù),對GPT-4o進(jìn)行了系統(tǒng)評估:
- 文本生成圖像(GenEval):通過對物體數(shù)量、顏色、位置、組合屬性等細(xì)粒度維度進(jìn)行測評,驗證模型對文本的理解與圖像的構(gòu)造能力。
- 指令編輯圖像(Reason-Edit):模擬用戶給出修改指令后,模型在保留圖像語義基礎(chǔ)上進(jìn)行局部編輯的能力,如替換、刪除、變色等。
- 基于世界知識的語義合成(WISE):考察模型是否能將對世界常識、文化背景、科學(xué)原理等知識真正“顯性化”為圖像輸出。
為了支持這一系統(tǒng)評估,研究團(tuán)隊開發(fā)了一套針對GPT-4o的自動化交互腳本,解決了當(dāng)前該模型尚未開放圖像生成API的現(xiàn)實問題。
這套腳本直接與GPT-4o網(wǎng)頁界面交互,模擬真實用戶行為:
- 自動輸入提示詞(Prompt)、點擊提交
- 自動抓取生成圖像并存儲歸檔
- 每次請求會新開瀏覽器窗口,確保不同任務(wù)之間上下文不相互干擾
- 支持任務(wù)批量運行,可實現(xiàn)大規(guī)模、可重復(fù)的圖像生成任務(wù)調(diào)度
最終,GPT-ImgEval的整體工作流如下圖所示:

在文本生成圖像(GenEval)任務(wù)中,GPT-4o取得了0.84的總得分,超越目前所有擴(kuò)散類與自回歸類圖像生成模型。
尤其在以下幾項中表現(xiàn)突出:數(shù)量控制(0.85)、顏色綁定(0.92)、空間位置(0.75)、屬性組合(0.61)。

下圖是一些GPT-4o使用GenEval基準(zhǔn)中的prompt生圖的具體例子:

而在圖像編輯任務(wù)(Reason-Edit)中,GPT-4o得分高達(dá)0.929,領(lǐng)先第二名超過0.35,說明其在指令理解和局部控制上表現(xiàn)極其穩(wěn)定。


在知識合成(WISE)任務(wù)中,GPT-4o同樣大放異彩,多個子維度(生物、文化、物理等)得分均超過0.9,總分0.89,遠(yuǎn)高于當(dāng)前開源模型(普遍在0.4~0.5之間)。
這說明GPT-4o具有強(qiáng)大的世界知識和推理能力,這應(yīng)該是得益于GPT-4o這種統(tǒng)一多模態(tài)框架。


更多研究結(jié)論
GPT-4o vs Gemini 2.0 Flash:多輪編輯對比
研究團(tuán)隊還對GPT-4o與Google的Gemini 2.0 Flash進(jìn)行了多輪圖像編輯對比。
除了性能與架構(gòu)機(jī)制,GPT-4o在實際的使用體驗中也展現(xiàn)出了強(qiáng)勁的競爭力。研究團(tuán)隊對其與Google最新發(fā)布的 Gemini 2.0 Flash 進(jìn)行了多輪編輯任務(wù)的實測對比。
- GPT-4o支持完整的多輪對話式編輯流程,上下文一致性強(qiáng)
- Gemini響應(yīng)速度更快,但每輪需重新上傳圖像,缺乏連續(xù)性
- 連續(xù)修改、復(fù)雜指令理解、圖像語義保持方面,GPT-4o表現(xiàn)出更高的穩(wěn)定性
從整體趨勢來看,兩者在編輯輪數(shù)增加后均出現(xiàn)一致性下降,但GPT-4o下降更緩,保持更穩(wěn)。
GPT-4o與Gemini 2.0 Flash多輪編輯一致性對比如下圖所示:

這一對比結(jié)果也進(jìn)一步驗證了:融合大模型語義理解能力的圖像生成系統(tǒng),在交互式創(chuàng)作任務(wù)中,正在展現(xiàn)出壓倒性優(yōu)勢。
GPT-4o仍存五大問題,圖像量化評估并非無解
研究團(tuán)隊總結(jié)出GPT-4o當(dāng)前的五個常見生成難點:
- 無法嚴(yán)格保持原圖尺寸與邊框比例,有時會自動裁切或縮放
- 強(qiáng)制銳化,即使用戶要求生成模糊圖,也會被模型“優(yōu)化”成高清
- 編輯偏暖、全圖色調(diào)變化,即使只修改小部分,可能全圖色調(diào)甚至是全局都會被一定程度修改
- 復(fù)雜場景失真,多人或人-物體交互場景易出現(xiàn)姿態(tài)不自然或結(jié)構(gòu)錯亂
- 非英文文本支持較弱,如中文標(biāo)識常出錯,難以在復(fù)雜背景準(zhǔn)確生成
這些問題不僅影響使用體驗,也提示我們——GPT-4o仍在追求“自然感”與“精確控制”之間尋找平衡。

這些圖像能被檢測出來嗎?
除了感知層面的觀察和評估,研究團(tuán)隊進(jìn)一步思考一個關(guān)鍵問題:GPT-4o生成的圖像,是否真的可以“以假亂真”?
為此,研究者使用多個主流圖像取證模型,對GPT-4o生成的圖像進(jìn)行了系統(tǒng)性評估。
結(jié)果顯示,包括Effort、FakeVLM在內(nèi)的多種檢測器,對GPT-4o圖像的識別準(zhǔn)確率普遍超過95%,最高接近99.6%。

不僅僅停留在數(shù)值層面,研究團(tuán)隊還對量化評估成功的原因進(jìn)行了機(jī)制層面的歸因分析:
- GPT-4o可能在圖像生成過程中引入了超分辨率模塊,通過上采樣插值導(dǎo)致明顯偽影
- 模型有過度銳化與細(xì)節(jié)增強(qiáng)傾向,視覺效果雖然“精致”,卻留下了被取證模型捕捉的痕跡
- 在用戶未要求修改時,仍可能出現(xiàn)尺寸、色彩的隱性變化,破壞了圖像一致性
- GPT-4o生成圖像色調(diào)普遍偏暖,整體風(fēng)格趨同,易被量化評估模型建立“風(fēng)格識別模式”
可量化評估,并非弱點,而是AIGC安全設(shè)計的基線能力
研究團(tuán)隊認(rèn)為,是否可量化評估,不應(yīng)成為衡量生成模型能力強(qiáng)弱的標(biāo)準(zhǔn),而應(yīng)被視為評估其可控性與安全性的重要指標(biāo)。
在未來的AIGC系統(tǒng)設(shè)計中,“逼真”固然重要,但“可識別”、“可追蹤”同樣不可或缺。GPT-4o生成圖像中的偽影、色彩偏好等特征,也正是推動生成量化評估研究的重要突破口。
這也正是GPT-ImgEval的差異化亮點之一:不僅做量化評估,更從安全機(jī)制的角度進(jìn)行深入診斷和前瞻探索。
GPT-4o很強(qiáng),但“終局”遠(yuǎn)未到來
GPT-ImgEval不僅驗證了GPT-4o在圖像生成上的優(yōu)勢,更指出了它仍需突破的短板。尤其是在可控性、多語種處理、局部編輯穩(wěn)定性等方面,仍有不少提升空間。
GPT-ImgEval不僅系統(tǒng)性驗證了GPT-4o在圖像生成、圖像編輯與知識合成三大任務(wù)中的領(lǐng)先表現(xiàn),更進(jìn)一步揭示了其架構(gòu)特征、失敗模式與安全邊界。
該研究不僅在評測維度上實現(xiàn)了覆蓋廣泛、量化精準(zhǔn),也從架構(gòu)判別、編輯可控性、多輪理解能力和偽影檢測等多個層面,對GPT-4o進(jìn)行了技術(shù)全景式診斷。
研究團(tuán)隊認(rèn)為,該工作的重要意義在于:
1、提供系統(tǒng)化多模態(tài)評估范式:首次從“生成-編輯-推理”全流程出發(fā),建立綜合圖像能力測試框架;
2、推動閉源模型的“可解釋評測”研究:在無法訪問模型細(xì)節(jié)的前提下,建立架構(gòu)猜測和行為歸因機(jī)制;
3、強(qiáng)調(diào)通用多輪編輯場景的實用價值:用用戶視角驗證語義理解一致性與細(xì)節(jié)保真性,為交互設(shè)計落地提供參考;
4、補齊圖像生成安全性研究缺口:通過可檢測性實證,發(fā)現(xiàn)圖像中的上采樣/超分偽影、色彩特征,推動AIGC取證技術(shù)演進(jìn)。
更多細(xì)節(jié)歡迎查閱原論文。
論文地址:
https://arxiv.org/pdf/2406.19435
代碼鏈接:
https://github.com/PicoTrex/GPT-ImgEval
數(shù)據(jù)集下載:
https://huggingface.co/datasets/Yejy53/GPT-ImgEval
熱門跟貼