
新智元報(bào)道
編輯:KingHZ
【新智元導(dǎo)讀】自回歸模型,首次生成2048×2048分辨率圖像!來自Meta、西北大學(xué)、新加坡國立大學(xué)等機(jī)構(gòu)的研究人員,專門為多模態(tài)大語言模型(MLLMs)設(shè)計(jì)的TokenShuffle,顯著減少了計(jì)算中的視覺Token數(shù)量,提升效率并支持高分辨率圖像合成。
自回歸模型的新突破:首次生成2048×2048分辨率圖像!
來自Meta、西北大學(xué)、新加坡國立大學(xué)等機(jī)構(gòu)的研究人員,提出了TokenShuffle,為多模態(tài)大語言模型(MLLMs)設(shè)計(jì)的即插即用操作,顯著減少了計(jì)算中的視覺token數(shù)量,提高效率并促進(jìn)高分辨率圖像合成。

圖1:采用新技術(shù)的27億參數(shù)自回歸模型生成的高分辨率圖像
除了實(shí)現(xiàn)超高分辨率圖像生成外,生成質(zhì)量也非常出色。
基于27億參數(shù)的Llama模型,新方法顯著超越同類自回歸模型,甚至優(yōu)于強(qiáng)擴(kuò)散模型:
在GenEval基準(zhǔn)測(cè)試中,獲得0.62的綜合得分,
在GenAI-Bench上,取得0.77的VQAScore,創(chuàng)造了新的技術(shù)標(biāo)桿。
此外,大規(guī)模人類評(píng)估,也驗(yàn)證了該方法的有效性。

鏈接:https://arxiv.org/abs/2504.17789
與傳統(tǒng)方法逐個(gè)學(xué)習(xí)和生成每個(gè)視覺token不同,新方法在局部窗口內(nèi)按順序處理和生成一組token,如圖2所示。

圖2:Token-Shuffle流程
Token-Shuffle包括:
token-shuffle操作,用于在Transformer輸入階段合并局部空間內(nèi)的視覺token,
以及token-unshuffle操作,用于在推理階段還原視覺token。
該方法顯著減少了計(jì)算中所需的視覺token數(shù)量,同時(shí)保持了高質(zhì)量的生成效果。
而且,Token-Shuffle展現(xiàn)的效能與效率,揭示了其在賦能多模態(tài)大語言模型(MLLMs)實(shí)現(xiàn)高分辨率、高保真圖像生成方面的巨大潛力,為超越基于擴(kuò)散的方法開辟了新路徑。
GPT-4o沒說的秘密:自回歸圖像生成
在語言生成領(lǐng)域,自回歸(Autoregression)模型稱霸多日。
在圖像合成,自回歸的應(yīng)用雖日益增多,但普遍被認(rèn)為遜色于擴(kuò)散模型。
這一局限主要源于AR模型需要處理大量圖像token,嚴(yán)重制約了訓(xùn)練/推理效率以及圖像分辨率。
比如,,讓OpenAI的GPU都「融化」了。
但遺憾的是,OpenAI并沒有公開背后的技術(shù)原理。

GPT-4o生成的第一視角機(jī)器人打字圖
這次,來自Meta等機(jī)構(gòu)的研究者,發(fā)現(xiàn)在多模態(tài)大語言模型(MLLMs)中,視覺詞表存在維度冗余:視覺編碼器輸出的低維視覺特征,被直接映射到高維語言詞表空間。
研究者提出了一種簡(jiǎn)單而新穎的Transformer圖像token壓縮方法:Token-Shuffle。
他們?cè)O(shè)計(jì)了兩項(xiàng)關(guān)鍵操作:
token混洗(token-shuffle):沿通道維度合并空間局部token,用來減少輸入token數(shù);
token解混(token-unshuffle):在Transformer塊后解構(gòu)推斷token,用來恢復(fù)輸出空間結(jié)構(gòu)。
在輸入準(zhǔn)備階段,通過一個(gè)MLP模塊將空間上相鄰的token進(jìn)行融合,形成一個(gè)壓縮后的token,同時(shí)保留局部的關(guān)鍵信息。
對(duì)于打亂窗口大小為s的情況,token數(shù)量會(huì)按s的平方減少,從而大幅降低Transformer的運(yùn)算量。

圖3:視覺詞匯維度冗余的示意圖。左側(cè):通過兩個(gè)MLP操作將視覺token的秩降低r倍。右側(cè):不同r值下的預(yù)訓(xùn)練損失(對(duì)數(shù)刻度困惑度)
在經(jīng)過Transformer層處理后,token-unshuffle操作重新還原出原本的空間排列過程。這一階段同樣借助了輕量級(jí)的MLP模塊。
本質(zhì)上,新方法在訓(xùn)練和推理過程中并未真正減少序列長度,而是在Transformer計(jì)算過程中,有效減少了token數(shù)量,從而加速計(jì)算。
圖4直觀地展示了新方法在效率上的提升。

圖4:Token-Shuffle能夠?qū)崿F(xiàn)計(jì)算效率的二次提升
通過在Transformer計(jì)算期間壓縮token序列,Token-Shuffle實(shí)現(xiàn)了高效的高分辨率圖像生成,包括支持2048×2048分辨率的圖像。
重要的是,這種方法無需對(duì)Transformer架構(gòu)本身進(jìn)行修改,也不引入輔助損失函數(shù)或需要額外預(yù)訓(xùn)練的編碼器。
此外,該方法還集成了一個(gè)針對(duì)自回歸生成專門調(diào)整的無分類器引導(dǎo)(Classifier-Free Guidance,CFG)調(diào)度器。
不同于傳統(tǒng)的固定引導(dǎo)強(qiáng)度,新的CFG調(diào)度器在推理過程中逐步調(diào)整引導(dǎo)力度,減少早期token生成的偽影問題,并進(jìn)一步提升文本與圖像的對(duì)齊效果。
研究者探索了幾種CFG調(diào)度策略,相關(guān)結(jié)果展示在圖5中。
根據(jù)視覺質(zhì)量和人類評(píng)估的反饋,默認(rèn)采用「半線性」(half-linear)調(diào)度器,以獲得更好的生成效果。

圖5:不同CFG調(diào)度器的比較,CFG尺度從1單調(diào)增加到7.5
右側(cè)結(jié)果顯示,相較于在所有視覺token上使用固定7.5的CFG值,采用CFG調(diào)度器能夠同時(shí)提升圖像的美學(xué)質(zhì)量和文本對(duì)齊效果。

不同無分類器引導(dǎo)(CFG)尺度下的生成圖像示例
自回歸的歷史性突破
該方法通過與文本提示聯(lián)合訓(xùn)練,無需額外預(yù)訓(xùn)練文本編碼器,就能讓MLLMs在下一個(gè)token預(yù)測(cè)框架下,支持超高分辨率圖像合成,同時(shí)保持高效訓(xùn)練推理。
這是自回歸模型首次實(shí)現(xiàn)2048×2048分辨率的文生圖。
在GenAI基準(zhǔn)測(cè)試中,27億參數(shù)Llama模型在困難提示下取得0.77綜合得分,較AR模型LlamaGen提升0.18,超越擴(kuò)散模型LDM達(dá)0.15。
大規(guī)模人工評(píng)估也證實(shí)新方法在文本對(duì)齊度、視覺缺陷率和美學(xué)質(zhì)量上的全面優(yōu)勢(shì)。
在MLLMs高效生成高分辨率圖像領(lǐng)域,Token-Shuffle有望成為基準(zhǔn)設(shè)計(jì)方案。
消融實(shí)驗(yàn)等更多內(nèi)容和細(xì)節(jié),參閱原論文。
模型訓(xùn)練:3步曲
實(shí)驗(yàn)使用2.7B Llama模型,維度為3072,由20個(gè)自回歸Transformer模塊組成。
模型的預(yù)訓(xùn)練被分為3個(gè)階段,從低分辨率到高分辨率圖像生成。
首先,研究者使用512×512分辨率的圖像進(jìn)行訓(xùn)練,在此階段不使用Token-Shuffle操作,因?yàn)榇藭r(shí)視覺token的數(shù)量并不大。在這一階段,他們訓(xùn)練了約50億個(gè)token,使用4K的序列長度、512的全局批量大小和總共211K步。
接下來,研究者將圖像分辨率提升到1024×1024,并引入Token-Shuffle操作,減少視覺token數(shù)量,提高計(jì)算效率。在這一階段,他們將訓(xùn)練token數(shù)量擴(kuò)展到2TB。
最后,研究者使用之前訓(xùn)練的checkpoint,將分辨率進(jìn)一步提升至2048×2048,訓(xùn)練約300億個(gè)token,初始學(xué)習(xí)率設(shè)為4e?5。
他們引入了z-loss,用于穩(wěn)定高分辨率圖像生成的訓(xùn)練。

原文圖11:在2048×2048分辨率下訓(xùn)練時(shí)的平均損失(左)和梯度范數(shù)(右)。在大約20K次迭代后出現(xiàn)訓(xùn)練不穩(wěn)定現(xiàn)象
在不同階段,研究者對(duì)所有模型進(jìn)行了微調(diào),學(xué)習(xí)率為4e?6,使用1500張精選的高美學(xué)質(zhì)量圖像進(jìn)行展示。
默認(rèn)情況下,除非另有說明,可視化和評(píng)估是基于1024×1024分辨率和2大小的token-shuffle窗口的微調(diào)結(jié)果。
量化評(píng)估:又快又好
表1中的結(jié)果突顯了Token-Shuffle的強(qiáng)大性能。
與其他自回歸模型相比,新方法在「基本」(basic)提示上整體得分超越LlamaGen 0.14分,在「高難度」(hard)提示上超越0.18分。
與擴(kuò)散基準(zhǔn)相比,新方法在「高難度」提示上超越DALL-E 3 0.7分。

表1:在GenAI-Bench上的圖像生成VQAScore評(píng)估?!?」表示圖像是通過Llama3重寫提示生成的,保證訓(xùn)練與推理的一致性
除了表1中報(bào)告的VQAScore結(jié)果外,研究者還進(jìn)行了額外的自動(dòng)評(píng)估GenEval,并在表2中報(bào)告了詳細(xì)的評(píng)估結(jié)果。
實(shí)驗(yàn)結(jié)果表明,除了高分辨率外,Token-Shuffle作為一個(gè)純自回歸模型,能夠呈現(xiàn)出令人滿意的生成質(zhì)量。

表2:在GenEval基準(zhǔn)測(cè)試上的評(píng)估。
人類評(píng)估
盡管自動(dòng)化評(píng)估指標(biāo)提供了無偏的評(píng)估,但最近的研究所指出它們可能并不能完全捕捉到人類偏好。
為此,研究者還在GenAI-Bench提示集上進(jìn)行了大規(guī)模的人類評(píng)估,將新模型Token-Shuffle與LlamaGen、LuminamGPT和LDM進(jìn)行了比較,分別代表了自回歸模型、MLLM和擴(kuò)散模型。
在人類評(píng)估中,重點(diǎn)關(guān)注三個(gè)關(guān)鍵指標(biāo):
文本對(duì)齊,評(píng)估圖像與文本提示的匹配準(zhǔn)確度;
視覺缺陷,檢查邏輯一致性,避免出現(xiàn)不完整的身體或多余的肢體等問題;
視覺外觀,評(píng)估圖像的美學(xué)質(zhì)量。

存在視覺缺陷與結(jié)構(gòu)錯(cuò)誤的生成圖像示例(紅色圓圈標(biāo)記處)
圖6展示了結(jié)果,新模型在所有評(píng)估方面始終優(yōu)于基于自回歸的模型LlamaGen和LuminamGPT。
這表明,即使在大幅減少token數(shù)量以提高效率的情況下,Token-Shuffle也能有效地保留美學(xué)細(xì)節(jié),并且能夠緊密遵循文本引導(dǎo),前提是進(jìn)行了充分的訓(xùn)練。
在生成結(jié)果(無論是視覺外觀還是文本對(duì)齊)上,研究者展示了基于自回歸的多模態(tài)大語言模型(AR-based MLLMs)能夠與擴(kuò)散模型相媲美或更勝一籌。
然而,研究者觀察到,Token-Shuffle在視覺缺陷方面略遜于LDM。

圖6:人類評(píng)估結(jié)果|在文本對(duì)齊、視覺缺陷和視覺外觀方面等方面,比較了Token-Shuffle與無文本的自回歸模型LlamaGen、帶文本的自回歸模型Lumina-mGPT以及基于擴(kuò)散的模型LDM的表現(xiàn)
可視化示例
研究者將Token-Shuffle與其他模型進(jìn)行了視覺效果對(duì)比,包括兩種基于擴(kuò)散的模型LDM和Pixart-LCM,以及一種自回歸模型LlamaGen。
圖7展示了可視化例子。
雖然所有模型的生成效果都不錯(cuò),但Token-Shuffle在文本對(duì)齊方面表現(xiàn)得更加出色。
與自回歸模型LlamaGen相比,Token-Shuffle在相同推理開銷下實(shí)現(xiàn)了更高的分辨率,帶來了更好的視覺質(zhì)量和文本對(duì)齊效果。
與擴(kuò)散模型相比,自回歸模型Token-Shuffle在生成性能上表現(xiàn)出競(jìng)爭(zhēng)力,同時(shí)還能支持高分辨率輸出。

圖7:與其他開源的基于擴(kuò)散模型和基于自回歸模型的視覺效果對(duì)比
一作簡(jiǎn)介
馬旭(Xu Ma)


他是美國東北大學(xué)工程學(xué)院的博士研究生。
在此之前,他在美國德克薩斯大學(xué)北部分校計(jì)算機(jī)科學(xué)與工程系工作了兩年。
在南京林業(yè)大學(xué)信息科學(xué)與技術(shù)學(xué)院, 他獲得了學(xué)士和碩士學(xué)位。
他的研究興趣包括:模型效率、多模態(tài)大語言模型(LLM)、生成式人工智能(Generative AI)。
在博士學(xué)習(xí)期間,他獲得了一些獎(jiǎng)項(xiàng),包括ICME'20最佳學(xué)生論文獎(jiǎng)、SEC'19最佳論文獎(jiǎng)、NeurIPS'22杰出審稿人獎(jiǎng)和CVPR'23杰出審稿人獎(jiǎng)。
參考資料:
https://www.marktechpost.com/2025/04/25/meta-ai-introduces-token-shuffle-a-simple-ai-approach-to-reducing-image-tokens-in-transformers/
https://arxiv.org/abs/2504.17789
熱門跟貼