UniME團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI
告別CLIP痛點(diǎn),更懂語(yǔ)義關(guān)聯(lián)的跨模態(tài)理解新SOTA來了!
格靈深瞳、阿里ModelScope團(tuán)隊(duì),以及通義實(shí)驗(yàn)室機(jī)器智能團(tuán)隊(duì)聯(lián)合發(fā)布通用多模態(tài)嵌入新框架UniME,一經(jīng)推出就刷新MMEB訓(xùn)練榜紀(jì)錄。

UniME作為一個(gè)創(chuàng)新性的兩階段框架,所展現(xiàn)的卓越的組合理解力,幫助MLLMs具備學(xué)習(xí)適用于各種下游任務(wù)的判別性表征的能力,并在多個(gè)任務(wù)中達(dá)到了新的SOTA。


以下是UniME的更多相關(guān)細(xì)節(jié)。
UniME訓(xùn)練框架拆解
第一階段:文本判別知識(shí)蒸餾
- 訓(xùn)練
受E5V等之前研究的啟發(fā),研究團(tuán)隊(duì)第一階段選擇使用純文本數(shù)據(jù)來增強(qiáng)了MLLM中LLM語(yǔ)言組件的嵌入能力。
由于LLM采用自回歸解碼器架構(gòu),因果掩碼機(jī)制會(huì)從本質(zhì)上限制了它們的判別能力。
為了解決這一限制,團(tuán)隊(duì)引入了如圖所示的文本判別知識(shí)蒸餾。

從最先進(jìn)的基于LLM的嵌入模型NV-Embed V2(該模型在對(duì)比訓(xùn)練中移除了因果注意力掩碼并使用多個(gè)多樣化的數(shù)據(jù)集進(jìn)行訓(xùn)練)中轉(zhuǎn)移知識(shí)。
具體來說,團(tuán)隊(duì)首先將LLM組件從MLLM架構(gòu)中分離出來,并使用嵌入提示處理僅文本輸入:“ Summary the above sentences in one word: \n”。

通過在一個(gè)批次內(nèi)不同樣本之間的關(guān)系蒸餾,該方法在相同數(shù)據(jù)和訓(xùn)練條件下相較于直接使用對(duì)比學(xué)習(xí)在下游任務(wù)中展示出顯著的性能提升。
- 推理
在訓(xùn)練階段,此方法僅使用純文本輸入,并單獨(dú)優(yōu)化多模態(tài)語(yǔ)言模型架構(gòu)中的語(yǔ)言模型組件,同時(shí)保持其他參數(shù)不變。
在推理時(shí),恢復(fù)原始的視覺編碼器和投影層,以啟用多模態(tài)處理。
對(duì)于單模態(tài)輸入(文本或圖像),使用特定于模態(tài)的標(biāo)準(zhǔn)化提示。
對(duì)于圖文交錯(cuò)的輸入,獨(dú)立處理每種模態(tài)及其相應(yīng)的提示,并通過元素級(jí)求和聚合嵌入從而得到最終的多模態(tài)表示。
第二階段:困難負(fù)樣本增強(qiáng)指令微調(diào)
在完成文本判別知識(shí)蒸餾截?cái)嗟挠?xùn)練后,UniME已經(jīng)具備了初步的判別能力但表現(xiàn)出較弱的視覺敏感性,這種不敏感導(dǎo)致圖文對(duì)齊出現(xiàn)偏差,并限制了判別性能。
此外,第一階段使用的通用指令提示限制了UniME在復(fù)雜檢索任務(wù)中的效果。
為了解決這些限制,研究人員引入了一個(gè)額外的困難負(fù)例增強(qiáng)指令調(diào)整階段,該階段目的在于:
1. 進(jìn)一步增強(qiáng)模型判別能力。
2. 改善模型跨模態(tài)對(duì)齊。
3. 加強(qiáng)下游任務(wù)中的指令跟隨能力。

- 錯(cuò)誤負(fù)樣本污染
訓(xùn)練批次中錯(cuò)誤負(fù)樣本的存在妨礙了在標(biāo)準(zhǔn)InfoNCE損失下有效區(qū)分困難負(fù)樣本。

- 困難負(fù)樣本采樣
困難負(fù)樣本在標(biāo)簽上與正樣本不同但在向量空間中非常接近,這類具有挑戰(zhàn)性的樣本能夠在對(duì)比學(xué)習(xí)過程中顯著增強(qiáng)模型的判別能力。
相比之下,簡(jiǎn)單負(fù)樣本產(chǎn)生的梯度微不足道,對(duì)學(xué)習(xí)過程的貢獻(xiàn)極小。
因此團(tuán)隊(duì)提出一種困難負(fù)樣本采樣策略,旨在優(yōu)化訓(xùn)練效率和判別性能。

- 訓(xùn)練目標(biāo)

訓(xùn)練食譜
- 第一階段:文本判別知識(shí)蒸餾
團(tuán)隊(duì)采用QLoRA對(duì)大型語(yǔ)言模型組件進(jìn)行參數(shù)高效的微調(diào)。
這一階段僅使用純文本輸入并僅訓(xùn)練極少的參數(shù)(通常不超過總數(shù)的5%),完整訓(xùn)練Phi3.5-V和LLaVA-1.6分別需要大約1小時(shí)和2小時(shí)。
- 第二階段:困難負(fù)樣本增強(qiáng)指令微調(diào)
為了克服較大批量MLLM訓(xùn)練時(shí)的GPU內(nèi)存限制,研究人員采用了兩種策略:
- 參照VLM2Vec,使用了GradCache梯度緩存技術(shù)將對(duì)比損失計(jì)算和編碼器更新的反向傳播分離;
- 采用QLoRA對(duì)MLLM內(nèi)所有參數(shù)進(jìn)行參數(shù)高效的微調(diào)。
將這兩種策略進(jìn)行組合有效地促進(jìn)了訓(xùn)練效率同時(shí)顯著降低訓(xùn)練時(shí)的內(nèi)存開銷。
實(shí)戰(zhàn)性能全驗(yàn)證
訓(xùn)練數(shù)據(jù)
研究人員在第一階段的文本判別知識(shí)蒸餾中使用了Natural Language Inference(NLI)數(shù)據(jù)集,該數(shù)據(jù)集包含約273k個(gè)句子對(duì)。
對(duì)于困難負(fù)例增強(qiáng)指令調(diào)優(yōu)階段,使用了MMEB基準(zhǔn)提供的訓(xùn)練數(shù)據(jù)集,涵蓋了四個(gè)核心多模態(tài)任務(wù):分類、視覺問答、多模態(tài)檢索和視覺定位。
這一全面的訓(xùn)練語(yǔ)料庫(kù),結(jié)合了單模態(tài)和多模態(tài)輸入數(shù)據(jù),共計(jì)662k經(jīng)過精心策劃的訓(xùn)練對(duì),確保了模型在多樣化的多模態(tài)任務(wù)中的穩(wěn)健適應(yīng)。
下游評(píng)測(cè)
團(tuán)隊(duì)評(píng)估了MMEB中的分布內(nèi)(20個(gè)測(cè)試集)和分布外(16個(gè)測(cè)試集)基準(zhǔn),以評(píng)估UniME在多樣化檢索任務(wù)中的多模態(tài)嵌入能力。
為了進(jìn)一步檢驗(yàn)UniME的單模態(tài)嵌入性能,研究人員在多個(gè)跨模態(tài)檢索任務(wù)上進(jìn)行了實(shí)驗(yàn),包括短標(biāo)題圖文檢索(Flickr30K和COCO2014),長(zhǎng)標(biāo)題圖文檢索(ShareGPT4V和Urban1K),以及組合式檢索(SugarCrepe)。
實(shí)驗(yàn)結(jié)果
- 多模態(tài)檢索
在表1中,展示了UniME與現(xiàn)有基線模型的性能對(duì)比,其中IND代表分布內(nèi)數(shù)據(jù)集,OOD代表分布外數(shù)據(jù)集,報(bào)告的分?jǐn)?shù)是相應(yīng)數(shù)據(jù)集上平均精確度,最佳結(jié)果用粗體標(biāo)出,?表示僅文本判別蒸餾的UniME,?表示文本判別蒸餾和困難負(fù)樣本增強(qiáng)指令調(diào)優(yōu)的UniME。

在相同的訓(xùn)練數(shù)據(jù)和配置設(shè)置下,UniME相比E5-V在不同的基礎(chǔ)模型上始終展示出顯著的性能提升。
使用Phi3.5-V模型時(shí),UniME的平均性能提高了4.2%;采用LLaVA-1.6作為基礎(chǔ)模型時(shí),UniME的平均性能進(jìn)一步提高了4.1%。
這些顯著的性能提升主要?dú)w功于團(tuán)隊(duì)提出的文本判別知識(shí)蒸餾方法可以更有效地增強(qiáng)MLLM中LLM語(yǔ)言組件的判別能力。

如圖所示,團(tuán)隊(duì)隨機(jī)從COCO中選擇50個(gè)樣本,并可視化跨模態(tài)余弦相似度矩陣。
與E5-V相比,UniME矩陣的對(duì)角線清晰度顯著增強(qiáng),表明UniME學(xué)習(xí)到了更具判別性的表征。
在困難負(fù)樣本增強(qiáng)指令微調(diào)之后,UniME的嵌入判別能力進(jìn)一步提高。
與VLM2Vec相比,UniME在Phi3.5-V和LLaVA-1.6基礎(chǔ)模型上分別實(shí)現(xiàn)了1.3%和10.3%的性能提升。
- 短-長(zhǎng)標(biāo)題跨模態(tài)檢索
如表2所示,團(tuán)隊(duì)在零樣本跨模態(tài)檢索任務(wù)上評(píng)估了UniME。

首先,在短標(biāo)題數(shù)據(jù)集Flickr30K和MSCOCO上進(jìn)行實(shí)驗(yàn)。
在文本判別知識(shí)蒸餾階段之后,UniME的檢索性能與E5-V相當(dāng)。
隨后的困難負(fù)例增強(qiáng)指令調(diào)優(yōu)進(jìn)一步提升了UniME的表現(xiàn),相較于VLM2Vec提高了5.2%-11.3%。
對(duì)于在ShareGPT4V和Urban1K數(shù)據(jù)集上的長(zhǎng)標(biāo)題檢索任務(wù),UniME在所有指標(biāo)上均表現(xiàn)出優(yōu)越性能。
在文本判別蒸餾階段后,基于Phi3.5-V模型UniME展示了1.3%-3.8%的性能提升。
隨后通過困難負(fù)例增強(qiáng)指令調(diào)優(yōu)的進(jìn)一步增強(qiáng),UniME相較于VLM2Vec提高了2.0%-8.3%。
值得注意的是,與EVA-CLIP(8B)相比,UniME在Urban1K數(shù)據(jù)集上的長(zhǎng)標(biāo)題檢索中,性能提升了14.8%和18.1%。
這一顯著增強(qiáng)主要源于EVA-CLIP(8B)受77文本輸入令牌長(zhǎng)度的限制,從而嚴(yán)重阻礙了其傳達(dá)長(zhǎng)標(biāo)題完整語(yǔ)義信息的能力。
- 跨模態(tài)組合檢索
團(tuán)隊(duì)在組合理解基準(zhǔn)SugarCrepe上評(píng)估了UniME模型區(qū)分困難負(fù)樣本的能力。
如表2所示,UniME在所有評(píng)估指標(biāo)上均展示出最佳結(jié)果。
在文本判別知識(shí)蒸餾后,基于Phi3.5-V的UniME在關(guān)系替換、對(duì)象交換和屬性添加任務(wù)中分別比E5-V表現(xiàn)出2.0%、1.0%和15.9%的性能提升。
在第二階段困難負(fù)例增強(qiáng)指令微調(diào)后,UniME的組合理解能力得到進(jìn)一步增強(qiáng),與VLM2Vec相比分別實(shí)現(xiàn)了3.9%、4.2%和9.1%的性能提升。
此外,與EVA-CLIP(8B)相比,UniME在這些任務(wù)上也顯示出了4.2%、0.6%和6.6%的提升,凸顯了其在區(qū)分困難負(fù)例方面的強(qiáng)大能力。
消融實(shí)驗(yàn)
- 困難負(fù)樣本分析
在下圖中,展示了三種類型負(fù)樣本的訓(xùn)練損失和裁剪前梯度范數(shù):簡(jiǎn)單負(fù)樣本(批次中最不相似的樣本),隨機(jī)負(fù)樣本(批次中隨機(jī)采樣的負(fù)樣本),以及困難負(fù)樣本(在移除正例和假負(fù)例后批次中最相似的負(fù)樣本)。

由于就簡(jiǎn)單負(fù)樣本容易區(qū)分,模型通過學(xué)習(xí)這類數(shù)據(jù)很難增強(qiáng)其判別能力,因此訓(xùn)練損失迅速收斂到接近零。
使用隨機(jī)負(fù)樣本,訓(xùn)練損失比簡(jiǎn)單負(fù)樣本收斂更慢,但最終接近零。
相比之下,困難負(fù)樣本帶來更大的挑戰(zhàn),使得訓(xùn)練損失始終保持在較高水平。
相應(yīng)地,簡(jiǎn)單負(fù)樣本的梯度范數(shù)最小,而困難負(fù)樣本的梯度范數(shù)明顯更高,相差數(shù)個(gè)數(shù)量級(jí)。
- 訓(xùn)練階段的消融
團(tuán)隊(duì)基于Phi3.5-V來對(duì)不同訓(xùn)練階段進(jìn)行了消融研究。

如表3所示,Phi3.5-V的初始嵌入判別能力很弱。
在經(jīng)過文本判別知識(shí)蒸餾后,模型在MMEB基準(zhǔn)、短長(zhǎng)標(biāo)題跨模態(tài)檢索和組合檢索任務(wù)上分別獲得了15%、19.5%、24.9%和19.9%的性能提升。
如果僅進(jìn)行第二階段負(fù)樣本增強(qiáng)指令微調(diào),同一任務(wù)的性能提升分別為38.5%、17.3%、21.3%和14.0%。
值得注意的是,第二階段在MMEB基準(zhǔn)的性能提升明顯超過第一階段,主要是由于模型在遵循下游任務(wù)復(fù)雜指令方面的能力得到了改善。
通過整合兩個(gè)訓(xùn)練階段,UniME模型在所有評(píng)估的下游任務(wù)中實(shí)現(xiàn)了最佳性能。
- 輸出分布的可視化
為了進(jìn)一步探索UniME嵌入捕獲的語(yǔ)義表達(dá),使用此提示“ Summary above image in one word: \n”,并在下圖中展示了不同訓(xùn)練階段之前和之后,top-k下一個(gè)預(yù)測(cè)詞匯的預(yù)測(cè)概率。

團(tuán)隊(duì)觀察到,在訓(xùn)練之前,預(yù)測(cè)的詞匯更抽象,如“Pastoral”和“Peaceful”。
經(jīng)過文本判別知識(shí)蒸餾后,詞匯轉(zhuǎn)向更具體的語(yǔ)義,包括“cow”、“waterfront”和“house”,盡管概率分布仍主要集中在“Farm”。
在第二階段困難負(fù)樣本增強(qiáng)指令微調(diào)后,概率分布在與圖像語(yǔ)義一致的多個(gè)詞匯上變得更加均勻,從而使嵌入能夠更準(zhǔn)確地表達(dá)圖像的語(yǔ)義內(nèi)容,并增強(qiáng)其判別能力。
論文鏈接:https://arxiv.org/pdf/2504.17432
代碼鏈接:https://github.com/deepglint/UniME
項(xiàng)目鏈接:https://garygutc.github.io/UniME
模型鏈接:https://huggingface.co/DeepGlint-AI/UniME-LLaVA-OneVision-7B
魔搭社區(qū):https://www.modelscope.cn/models/deepglint/UniME
熱門跟貼