• UniToken團(tuán)隊(duì) 投稿
    量子位 | 公眾號(hào) QbitAI

首次在統(tǒng)一框架內(nèi)實(shí)現(xiàn)理解與生成的“雙優(yōu)表現(xiàn)”,打破了多模態(tài)統(tǒng)一建模的僵局!

復(fù)旦大學(xué)和美團(tuán)的研究者們提出了UniToken——一種創(chuàng)新的統(tǒng)一視覺(jué)編碼方案,在一個(gè)框架內(nèi)兼顧了圖文理解與圖像生成任務(wù),并在多個(gè)權(quán)威評(píng)測(cè)中取得了領(lǐng)先的性能表現(xiàn)。

UniToken通過(guò)融合連續(xù)和離散視覺(jué)表征,有效緩解了以往方法中“任務(wù)干擾”和“表示割裂”的問(wèn)題,為多模態(tài)統(tǒng)一建模提供了新的范式。

打開網(wǎng)易新聞 查看精彩圖片

為了便于社區(qū)內(nèi)研究者們復(fù)現(xiàn)與進(jìn)一步開發(fā),UniToken團(tuán)隊(duì)已將代碼與模型全部開源。

打開網(wǎng)易新聞 查看精彩圖片

任務(wù)背景:統(tǒng)一建模的挑戰(zhàn)

任務(wù)背景:統(tǒng)一建模的挑戰(zhàn)

在傳統(tǒng)圖文理解圖像生成模型中,其視覺(jué)編碼的底層特性差異較大。

譬如圖文理解模型(如LLaVA、Qwen-VL等)要求從圖像中抽取高層語(yǔ)義,從而進(jìn)一步結(jié)合文本進(jìn)行協(xié)同理解;而圖像生成模型(如DALL-E、Stable Diffusion等)則要求保留充分的底層細(xì)節(jié)以高保真圖像的生成。

由此,開發(fā)理解生成一體化的多模態(tài)大模型面臨著以下幾大難題:

視覺(jué)編碼割裂:理解任務(wù)偏好具有高層語(yǔ)義的連續(xù)視覺(jué)特征(如CLIP),而生成任務(wù)依賴保留底層細(xì)節(jié)的離散視覺(jué)特征(如VQ-GAN編碼的codebook);

聯(lián)合訓(xùn)練干擾:理解與生成任務(wù)差異而帶來(lái)的沖突性使得在統(tǒng)一模型中訓(xùn)練時(shí)難以兼顧兩個(gè)任務(wù)的性能,存在“一個(gè)優(yōu)化,另一個(gè)退化”的現(xiàn)象。

為了應(yīng)對(duì)上述挑戰(zhàn),領(lǐng)域內(nèi)的相關(guān)工作通常采取兩類范式:以VILA-U等為代表的工作通過(guò)結(jié)合圖像重建與圖文對(duì)比學(xué)習(xí)的訓(xùn)練目標(biāo),來(lái)提升離散視覺(jué)編碼的語(yǔ)義豐富度;以Janus等為代表的工作通過(guò)為理解和生成任務(wù)分別定制相應(yīng)的視覺(jué)編碼器與預(yù)測(cè)頭,來(lái)實(shí)現(xiàn)兩個(gè)任務(wù)之間的解耦。

然而,前者在理解任務(wù)上目前依舊難以與連續(xù)視覺(jué)編碼驅(qū)動(dòng)的多模態(tài)大模型匹敵;后者則在應(yīng)對(duì)更復(fù)雜的多模任務(wù)(例如多輪圖像編輯等)時(shí)面臨嚴(yán)重的上下文切換開銷及單邊信息缺失等問(wèn)題。

UniToken:統(tǒng)一視覺(jué)表示,融合兩種世界

UniToken:統(tǒng)一視覺(jué)表示,融合兩種世界

核心設(shè)計(jì):連續(xù)+離散雙編碼器

打開網(wǎng)易新聞 查看精彩圖片

不同于Janus的多任務(wù)解耦的設(shè)計(jì)思路,UniToken為所有下游任務(wù)均提供一套完備的視覺(jué)信息,促使多模態(tài)大模型以指令驅(qū)動(dòng)的形式從中吸收相應(yīng)的知識(shí)。

具體而言,UniToken采取統(tǒng)一的雙邊視覺(jué)編碼器,其中將VQ-GAN的離散編碼與SigLIP的連續(xù)表征以下述方式進(jìn)行拼接,從而得到一套兼?zhèn)涓邔诱Z(yǔ)義與底層細(xì)節(jié)的視覺(jué)編碼:

[BOS][BOI]{離散圖像token}[SEP]{連續(xù)圖像embedding}[EOI]{文本}[EOS]

多階段訓(xùn)練策略

為了協(xié)調(diào)理解與生成任務(wù)的特性,UniToken采用三階段訓(xùn)練流程:

階段一:視覺(jué)語(yǔ)義空間對(duì)齊:

階段一:視覺(jué)語(yǔ)義空間對(duì)齊:

基于Chameleon作為基座,本階段旨在為L(zhǎng)LM接入SigLIP的連續(xù)視覺(jué)編碼。為此,在訓(xùn)練時(shí)凍結(jié)LLM,僅訓(xùn)練SigLIP ViT和Adapter,使其輸出與語(yǔ)言空間對(duì)齊。

階段二:多任務(wù)聯(lián)合訓(xùn)練:

階段二:多任務(wù)聯(lián)合訓(xùn)練:

基于第一階段對(duì)齊后的雙邊編碼器所提供的完備視覺(jué)信息,本階段在大規(guī)模圖文理解與圖像生成數(shù)據(jù)集上聯(lián)合訓(xùn)練,通過(guò)控制數(shù)據(jù)配比(10M:10M)以均衡提升模型理解與生成任務(wù)的性能。

階段三:指令強(qiáng)化微調(diào):

階段三:指令強(qiáng)化微調(diào):

通過(guò)測(cè)試發(fā)現(xiàn),第二階段訓(xùn)練后的模型在指令跟隨、布局圖像生成等方面的表現(xiàn)均有待加強(qiáng),故在本階段進(jìn)一步引入高質(zhì)量多模態(tài)對(duì)話(423K)與精細(xì)化圖像生成數(shù)據(jù)(100K),進(jìn)一步增強(qiáng)模型對(duì)復(fù)雜指令的跟隨能力。

細(xì)粒度視覺(jué)增強(qiáng)

細(xì)粒度視覺(jué)增強(qiáng)

得益于保存了雙邊視覺(jué)編碼的完備性,UniToken可無(wú)縫銜接現(xiàn)有的細(xì)粒度視覺(jué)增強(qiáng)技術(shù)。

具體而言,UniToken在連續(xù)視覺(jué)編碼側(cè)引入兩項(xiàng)增強(qiáng)策略:

AnyRes:將高分辨率圖像劃分為多個(gè)子圖,分別提取特征后進(jìn)行相應(yīng)空間位置的拼接,以提升對(duì)圖像的細(xì)粒度感知;

ViT端到端微調(diào):在模型的全訓(xùn)練流程中,動(dòng)態(tài)微調(diào)連續(xù)視覺(jué)編碼器的權(quán)重,結(jié)合精細(xì)的學(xué)習(xí)率控制策略以避免模型崩潰,進(jìn)而適應(yīng)廣泛的任務(wù)場(chǎng)景。

實(shí)驗(yàn)結(jié)果:超越SOTA,多模態(tài)統(tǒng)一的“優(yōu)等生”

在多個(gè)主流多模態(tài)基準(zhǔn)(圖文理解+圖像生成)上,UniToken均取得了媲美甚至領(lǐng)先于領(lǐng)域內(nèi)專用模型的性能:

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

與此同時(shí),研究者們對(duì)于訓(xùn)練策略及視覺(jué)編碼的影響進(jìn)行了進(jìn)一步深入的消融分析:

打開網(wǎng)易新聞 查看精彩圖片

  • 在大規(guī)模數(shù)據(jù)場(chǎng)景下(>15M),1:1的理解+生成數(shù)據(jù)比例能夠兼顧理解與生成任務(wù)的性能

打開網(wǎng)易新聞 查看精彩圖片

  • 在應(yīng)對(duì)理解與生成的任務(wù)沖突時(shí),統(tǒng)一的連續(xù)+離散的視覺(jué)編碼相較于僅采用離散編碼的方案具有較強(qiáng)的魯棒性。

總結(jié):邁向通用理解生成一體化的多模態(tài)大模型

從發(fā)展趨勢(shì)上來(lái)看,目前圖文理解模型在通用性上遠(yuǎn)遠(yuǎn)領(lǐng)先于圖像生成模型。

而Gemini-2.0-Flash與GPT-4o在指令跟隨的圖像生成方面的驚艷表現(xiàn),帶來(lái)了通用圖像生成模型未來(lái)的曙光。

在這樣的時(shí)代背景下,UniToken僅是初步的嘗試,而其信息完備的特性也為進(jìn)一步挖掘其更深層次的潛力提供了更多信心:

模型規(guī)模擴(kuò)展:借助更大的語(yǔ)言模型,進(jìn)一步探索統(tǒng)一模型在理解與生成上的“涌現(xiàn)能力”;

數(shù)據(jù)規(guī)模擴(kuò)展:引入更大規(guī)模的訓(xùn)練數(shù)據(jù)(如Janus-Pro使用的近2億樣本),推動(dòng)模型性能極限;

任務(wù)類型擴(kuò)展:從傳統(tǒng)的理解與生成拓展至圖像編輯、故事生成等圖文交錯(cuò)的任務(wù),追逐通用生成能力的上限。

論文鏈接:
https://arxiv.org/pdf/2504.04423

代碼地址:
https://github.com/SxJyJay/UniToken