打開網(wǎng)易新聞 查看精彩圖片

近年來,基于大語言模型(LLM)的多模態(tài)任務(wù)處理能力取得了顯著進(jìn)展,特別是在將視覺信息融入語言模型方面。像 QwenVL 和 InternVL 這樣的模型已經(jīng)展示了在視覺理解方面的卓越表現(xiàn),而以擴(kuò)散模型為代表的文本到圖像生成技術(shù)也不斷突破,推動了統(tǒng)一多模態(tài)大語言模型(MLLM)的發(fā)展。這些技術(shù)的進(jìn)步使得視覺理解和生成能力的無縫集成成為可能,進(jìn)一步推進(jìn)了視覺和語義深度融合下的人工通用智能(AGI)的探索。

新一代 GPT-4o 作為理解生成一體的模型,其強大的能力已經(jīng)令人矚目。它不僅在語義理解和圖像生成方面展現(xiàn)出極高的準(zhǔn)確性和流暢性,還特別擅長上下文感知生成(context-aware generation)和圖像編輯(image editing)任務(wù)。無論是在進(jìn)行高精度的圖像生成,還是在復(fù)雜的圖像編輯任務(wù)中,GPT-4o 都能動態(tài)理解和生成符合上下文需求的內(nèi)容,極大地增強了模型的實用性和靈活性。這使得 GPT-4o 能夠在多模態(tài)任務(wù)中更加高效地完成多種復(fù)雜場景下的理解與生成工作。

最近,華為諾亞盤古研究團(tuán)隊聯(lián)合香港大學(xué)推出了ILLUME+,這款模型是 ILLUME 的升級版本,采用了雙重視覺聯(lián)合詞表(DualViTok)和擴(kuò)散解碼器的創(chuàng)新設(shè)計,顯著提升了語義理解和高保真圖像生成能力。與當(dāng)前現(xiàn)有的統(tǒng)一模型不同,ILLUME + 能夠在圖像理解、生成和編輯三大能力上達(dá)到優(yōu)異的表現(xiàn),解決了傳統(tǒng)模型在圖像紋理保持和語義對齊方面的難題。

打開網(wǎng)易新聞 查看精彩圖片

  • 鏈接:https://arxiv.org/abs/2504.01934
  • 項目地址:https://illume-unified-mllm.github.io/

打開網(wǎng)易新聞 查看精彩圖片

ILLUME + 在處理多模態(tài)任務(wù)時,展現(xiàn)出強大的上下文感知能力和語義深層交互能力,能夠更準(zhǔn)確地理解和生成視覺與語言的關(guān)系。它的創(chuàng)新架構(gòu)通過雙視覺聯(lián)合詞表(DualViTok)將語義信息與圖像細(xì)節(jié)同時保留,為圖像編輯和生成任務(wù)提供了更加精細(xì)的控制能力。此外,擴(kuò)散解碼器的引入,不僅提升了生成圖像的質(zhì)量,還使得超分辨率圖像生成變得更加高效,避免了傳統(tǒng)自回歸模型在高分辨率生成時的計算瓶頸。

而這正是目前行業(yè)所需要的一種能夠同時滿足理解、生成和編輯需求的統(tǒng)一架構(gòu)。與新一代 GPT-4o 架構(gòu)相比,ILLUME + 采用了類似的其官網(wǎng)中暗示的 Token→ [Transformer]→ [Diffusion]→ pixel 的結(jié)構(gòu),在語義理解和上下文感知生成能力上達(dá)到新的高度。我們認(rèn)為,ILLUME + 所展示的架構(gòu),正是未來統(tǒng)一大語言模型發(fā)展的方向。

打開網(wǎng)易新聞 查看精彩圖片

隨著我們對該架構(gòu)的深入研究,ILLUME + 的 3B 模型在多模態(tài)理解、生成與編輯的基準(zhǔn)測試中均展現(xiàn)出了卓越的性能(比肩 7B)。ILLUME + 的優(yōu)勢不僅體現(xiàn)在單一任務(wù)的出色表現(xiàn),更在于它能夠靈活適應(yīng)多樣的應(yīng)用場景,推動著多模態(tài)大語言模型向著更加智能化、可擴(kuò)展的方向邁進(jìn)。

ILLUME+ 關(guān)鍵技術(shù)點與模型架構(gòu)

1. 雙重視覺聯(lián)合詞表(DualViTok)

ILLUME + 的核心創(chuàng)新之一是雙重視覺聯(lián)合詞表(DualViTok),該詞表通過兩條分支設(shè)計,分別處理圖像的語義信息和細(xì)節(jié)紋理。具體來說,語義分支利用預(yù)訓(xùn)練的文本對齊視覺編碼器(如 QwenViT)提取高層次的語義特征,這些特征被量化為離散標(biāo)記,并通過輕量級解碼器進(jìn)行重建。同時,像素分支則通過 MoVQGAN 類似的架構(gòu)進(jìn)行像素級的細(xì)節(jié)重建,保證圖像細(xì)節(jié)的高保真度。

打開網(wǎng)易新聞 查看精彩圖片

2. 擴(kuò)散解碼器(Diffusion Decoder)

為進(jìn)一步提升生成圖像的質(zhì)量,ILLUME + 引入了擴(kuò)散解碼器。該解碼器使用擴(kuò)散模型進(jìn)行圖像生成,顯著提高了圖像的細(xì)節(jié)和魯棒性。擴(kuò)散解碼器還能夠進(jìn)行高效的超分辨率生成,緩解了傳統(tǒng)自回歸生成方法在高分辨率生成時的 token 數(shù)目急劇增長帶來的推理速度瓶頸。通過這種設(shè)計,ILLUME + 能夠生成高分辨率圖像(最高可達(dá) 1024×1024),同時有效提高了圖像的細(xì)節(jié)和質(zhì)量。

3. 連續(xù)輸入、離散輸出的 MLLM 架構(gòu)

ILLUME + 采用了統(tǒng)一的多模態(tài)大語言模型(MLLM),該模型能夠同時生成文本和圖像,并通過共同的預(yù)測頭來進(jìn)行聯(lián)合建模。ILLUME + 采用連續(xù)輸入、離散輸出的機(jī)制。在輸入端,直接使用視覺連接器連接離散化層前的視覺特征到 LLM 中。輸出端仍然保留統(tǒng)一輸出頭,以自回歸的形式預(yù)測文本 token 與視覺 token。這種機(jī)制確保了圖像輸入時不會因量化過程丟失細(xì)粒度信息,保證了模型在視覺理解任務(wù)中展現(xiàn)了更好的穩(wěn)定性和細(xì)致的語義處理能力。在生成圖像時,ILLUME + 采用生成語義 token 后再生成紋理 token 的方式(Coarse-to-fine Unified Image Representation),由于圖像語義表征更容易和文本對齊,這種先語義再紋理的序列化方式,加速了文本和圖像細(xì)節(jié)紋理信息的對齊,從而提升生成圖像的高保真度和語義一致性。

4. 支持任意分辨率的漸進(jìn)式訓(xùn)練策略

ILLUME + 采用漸進(jìn)式的訓(xùn)練策略,從而使得詞表、MLLM 和 Diffusion decoder 三個模塊均支持動態(tài)分辨率的訓(xùn)練與推理。訓(xùn)練流程包括五個階段,逐步增強模型能力,確保穩(wěn)定性和最終性能。下圖展示了我們的五個訓(xùn)練階段的打開參數(shù)和每個階段的數(shù)據(jù)分布情況。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

Dual Vision Tokenizer Training:訓(xùn)練雙重視覺標(biāo)記化器,通過重建語義和像素信息,逐步增加輸入分辨率,先訓(xùn)練固定 256 分辨率,再訓(xùn)練固定 512,最后訓(xùn)練 512×512 以內(nèi)的任意分辨率,確保模型在不同分辨率下的穩(wěn)定訓(xùn)練。該階段采用了 63M 訓(xùn)練數(shù)據(jù),包括自然圖像,美學(xué)圖像,人物肖像,文檔圖表類和學(xué)科類圖片數(shù)據(jù)。

Diffusion Decoder Training(擴(kuò)散解碼器優(yōu)化):進(jìn)一步優(yōu)化圖像生成質(zhì)量,通過擴(kuò)散模型提升生成細(xì)節(jié),并進(jìn)行圖像超分辨率輸出,解決自回歸方法的生成高分辨率速度瓶頸。訓(xùn)練時,我們凍結(jié)視覺詞表中的編碼器和詞表的權(quán)重,打開 Diffusion 的參數(shù)進(jìn)行訓(xùn)練。為支持高分辨率,訓(xùn)練分為兩個子階段,即先訓(xùn)練像素數(shù)量在 512×512 左右的分辨率,再訓(xùn)練像素數(shù)量在 1024×1024 左右的分辨率。該階段采用了 10M 與訓(xùn)練視覺詞表相同分布的數(shù)據(jù)。

MLLM Stage 1: Visual Embedding Initialization:初始化 MLLM 中新增的視覺詞表與視覺連接器,優(yōu)化圖像重建和描述任務(wù),固定分辨率為 256×256,以獲得良好的視覺表示。

MLLM Stage 2: Unified Image-Text Alignment:通過多模態(tài)數(shù)據(jù)訓(xùn)練,打開視覺適配器和語言模型,增強圖像與文本的語義對齊,先訓(xùn)練分辨率 256×256,再提升至 512×512。

MLLM Stage 3: Supervised Fine-tuning:使用復(fù)雜的多任務(wù)數(shù)據(jù)進(jìn)行微調(diào),支持任意分辨率圖像輸入,以及高達(dá) 11 種不同長寬比的圖像生成,最高像素達(dá)到 1024×1024。

ILLUME+(3B) 實驗結(jié)果

實驗設(shè)置

在實驗中,ILLUME + 使用 Qwen2.5(3B)作為基礎(chǔ)大語言模型(LLM)。其 encoder 采用了預(yù)訓(xùn)練的 QwenVIT 語義編碼器和基于 MoVQGAN 的像素編碼器架構(gòu)。流程上打通了昇騰訓(xùn)練與推理。訓(xùn)練過程中,使用了 256 Ascend NPUs。其中,視覺詞表和 Diffusion 訓(xùn)練 3+3 天;3B 的 MLLM 模型,經(jīng)過三個階段的訓(xùn)練,總訓(xùn)練時間約為 13 天。

多分辨率文生圖可視化

打開網(wǎng)易新聞 查看精彩圖片

多功能圖像編輯可視化

打開網(wǎng)易新聞 查看精彩圖片

(注:這其中的很多任務(wù)比如 ghibli style 和 ID 保持的編輯并未特意制作過數(shù)據(jù),但是竟然都能泛化出來,很神奇)

圖像理解可視化

打開網(wǎng)易新聞 查看精彩圖片

與 SOTA 模型的比較

多模態(tài)理解:在多模態(tài)理解任務(wù)中,ILLUME + 在常用的基準(zhǔn)測試(如 POPE、MMBench、SEED 等)上表現(xiàn)優(yōu)秀,尤其在文檔相關(guān)任務(wù)中展現(xiàn)了優(yōu)異的性能。盡管是 3B 模型,ILLUME + 在這些任務(wù)上與現(xiàn)有的 7B 模型如 Janus-Pro-7B 和 ILLUME-7B 相當(dāng),特別是在文檔理解任務(wù)中,得益于雙重編碼器設(shè)計,模型在保留強大理解能力方面取得了顯著優(yōu)勢。

打開網(wǎng)易新聞 查看精彩圖片

多模態(tài)圖像生成:在多模態(tài)圖像生成方面,ILLUME + 在 MJHQ-30K、GenAI-bench 和 GenEval 基準(zhǔn)測試中取得了顯著成績。在 MJHQ-30K 的 FID 分?jǐn)?shù)為 6.00,達(dá)到了最先進(jìn)的生成質(zhì)量和多樣性,在復(fù)雜文本描述生成方面獲得了很好的準(zhǔn)確度。

打開網(wǎng)易新聞 查看精彩圖片

多模態(tài)圖像編輯:在圖像編輯任務(wù)中,ILLUME + 在 Emu Edit 基準(zhǔn)測試中優(yōu)于專門的圖像編輯模型,特別是在 CLIP-T 評分上,表明其強大的理解能力增強了對編輯指令的解釋能力,實現(xiàn)了更加精確的修改。DualViTok 設(shè)計有效提高了與原始圖像的一致性,特別是在紋理信息處理上。

打開網(wǎng)易新聞 查看精彩圖片

Tokenizer 的圖像重建:在 ImageNet 50k 驗證集上,DualViTok 在不同分辨率下的重建效果超越了多種現(xiàn)有的視覺標(biāo)記化器,尤其在 256×256 分辨率下,展現(xiàn)了最優(yōu)的性能。特別是在 384×384 分辨率下,DualViTok 相較于 VILA-U 有了顯著的提升,突出了其在處理不同輸入分辨率時的靈活性和高效性。

打開網(wǎng)易新聞 查看精彩圖片

更多的 Ablation Study 可參看具體論文

結(jié)語

ILLUME + 通過創(chuàng)新的 DualViTok 保留圖像中的語義和細(xì)節(jié)紋理,并結(jié)合擴(kuò)散解碼器提升圖像生成質(zhì)量,實現(xiàn)了任意分辨率。憑借統(tǒng)一的粗到細(xì)圖像表示和動態(tài)視覺分辨率的漸進(jìn)訓(xùn)練過程,ILLUME + 僅用 3B 參數(shù)便能處理靈活分辨率的視覺輸入和輸出,并在多模態(tài)理解、生成和編輯任務(wù)中表現(xiàn)出色,在 context-aware 生成和泛化上表現(xiàn)出了令人意外的水平。

作者表示將會嘗試更大的模型,并且嘗試更多原生圖像 - 文本交織預(yù)訓(xùn)練的效果,讓 ILLUME + 能夠真正在視覺任務(wù)上完成大一統(tǒng)。