隨著AI的發(fā)展進(jìn)入下半場(chǎng),定義問(wèn)題變得更加重要。盡管多模態(tài)大模型在現(xiàn)有評(píng)測(cè)基準(zhǔn)中的分?jǐn)?shù)大幅上升,但在實(shí)際應(yīng)用中卻仍然面臨諸多局限。因此,為以O(shè)penAI o3和Gemini 2.5 Pro為代表的視覺(jué)推理模型設(shè)計(jì)全新的評(píng)測(cè)基準(zhǔn)顯得尤為重要。
本文介紹了一個(gè)新提出的多模態(tài)大模型(LMMs)評(píng)測(cè)數(shù)據(jù)集MOAT。為了研究現(xiàn)有LMMs與人類之間的差距和背后的原因,MOAT中的每個(gè)題目需要同時(shí)運(yùn)用多種基礎(chǔ)視覺(jué)能力。此外,在團(tuán)隊(duì)設(shè)計(jì)的能力分類體系中,首次提出了跟隨復(fù)雜文本指令和跟隨復(fù)雜視覺(jué)指令的能力。在MOAT上,人類準(zhǔn)確率比表現(xiàn)最好的LMM(OpenAI o1)高43.9%。
在論文發(fā)布后,Gemini 2.5 Pro和OpenAI o3等新一代推理模型相繼問(wèn)世。團(tuán)隊(duì)發(fā)現(xiàn)這些模型雖然相比于o1有較大提升(準(zhǔn)確率從38.8%提升至48%左右),但仍然與人類表現(xiàn)(82.7%)有明顯差距,尤其是在物體計(jì)數(shù)、空間理解、指令跟隨等方面。即使是對(duì)于o3,MOAT中的復(fù)雜視覺(jué)任務(wù)仍然屬于“拼盡全力無(wú)法戰(zhàn)勝”的狀態(tài)。

論文題目: MOAT: Evaluating LMMs for Capability Integration and Instruction Grounding 論文鏈接: https://arxiv.org/abs/2503.09348 項(xiàng)目鏈接: https://cambrian-yzt.github.io/MOAT/一、動(dòng)機(jī)
視覺(jué)是人類感知和理解世界的重要方式之一。因此,視覺(jué)能力也一直是人工智能領(lǐng)域的研究熱點(diǎn)之一。多模態(tài)大模型(LMMs)雖然展現(xiàn)出了解決視覺(jué)-文本任務(wù)上的能力,但在許多任務(wù)上仍與人類水平有較大差距。與之相比,大語(yǔ)言模型在很多純文本任務(wù)上已經(jīng)超越了人類普遍水平、甚至人類專家水平。
為了研究LMMs性能劣勢(shì)的原因,我們需要準(zhǔn)確、系統(tǒng)地考察和評(píng)測(cè)LMMs。而現(xiàn)有的評(píng)測(cè)數(shù)據(jù)集中,有些數(shù)據(jù)集的每個(gè)題目只能針對(duì)一種視覺(jué)-文本能力,忽略了真實(shí)視覺(jué)場(chǎng)景的復(fù)雜性;有些數(shù)據(jù)集的評(píng)測(cè)受到大模型內(nèi)置知識(shí)和語(yǔ)言生成風(fēng)格的影響,難以準(zhǔn)確評(píng)測(cè)LMMs的真實(shí)能力;有些數(shù)據(jù)集的能力分類不夠全面,尤其是遺漏了復(fù)雜指令跟隨的能力。因此,我們需要一個(gè)新的LMMs評(píng)測(cè)數(shù)據(jù)集,不僅能提供一個(gè)全面的視覺(jué)-文本能力分類體系,同時(shí)也能夠考察LMMs是否能夠同時(shí)運(yùn)用多種能力。
對(duì)此,我們提出一個(gè)全新的LMMs評(píng)測(cè)數(shù)據(jù)集MOAT,和對(duì)應(yīng)的能力分類體系。我們的分類體系包含4個(gè)大類、共10種基礎(chǔ)能力,使其能夠細(xì)粒度地評(píng)價(jià)LMMs。我們的分類中首次提出了復(fù)雜文本指令跟隨能力和視覺(jué)指令跟隨能力。MOAT中的問(wèn)題涉及多種能力,一道題考察的能力數(shù)量最多高達(dá)6種。此外,為了防止評(píng)測(cè)結(jié)果受到文本生成質(zhì)量和模型知識(shí)庫(kù)的干擾、保證評(píng)測(cè)的公平性,MOAT中的每個(gè)題目都是有唯一正確答案的客觀題,并且在題目中提供了所有解題所需的知識(shí)。

我們將MOAT評(píng)測(cè)了20余個(gè)LMMs,其中OpenAI o1效果最優(yōu)(準(zhǔn)確率38.8%),遠(yuǎn)低于人類水平(準(zhǔn)確率82.7%)。此外,我們針對(duì)能力分類進(jìn)行了細(xì)粒度的分析,并總結(jié)了一些值得注意的現(xiàn)象,用于指導(dǎo)未來(lái)LLMs相關(guān)的研究:對(duì)于部分能力,所有的LMMs有統(tǒng)一的性能缺陷;不同的模型家族具有不同的能力優(yōu)劣傾向;參數(shù)規(guī)模能顯著提高表現(xiàn);基于提示詞的思維鏈(Chain-of-Thought,CoT)和推理模型在某些能力上展現(xiàn)出穩(wěn)定的提升,但在有些能力上展現(xiàn)出穩(wěn)定的性能退化;通過(guò)調(diào)整圖像大小來(lái)避免圖像tiling可以顯著提升使用tiling機(jī)制LMMs的分類能力。
二、數(shù)據(jù)集細(xì)節(jié)2.1 能力分類體系
我們定義了共4大類、10種視覺(jué)-文本基礎(chǔ)能力的分類體系。為了保證評(píng)測(cè)的準(zhǔn)確性,我們的分類體系排除了:所有任務(wù)都需要的能力,例如物體和屬性識(shí)別(模型在這些能力上的表現(xiàn)可以通過(guò)benchmark上的總準(zhǔn)確率反映);純文本模態(tài)的能力,例如文本生成能力和數(shù)學(xué)能力。我們的分類體系包括:
感知類
計(jì)數(shù) (CNT):準(zhǔn)確數(shù)出圖像中特定物體的個(gè)數(shù)。
文本識(shí)別 (OCR):閱讀圖像中的文字。
理解圖表和可視化 (UCV):能夠理解圖表或其它利用顏色、形狀、文本等的組合來(lái)傳達(dá)的直觀信息。
空間理解
理解空間關(guān)系 (RLA):理解二維或三維空間中,物體之間的相對(duì)位置關(guān)系或物理連接關(guān)系。
理解空間變換 (3DTF):理解三維空間中空間變換,并能理解變換對(duì)應(yīng)的語(yǔ)義。例如一個(gè)化學(xué)分子球棍模型旋轉(zhuǎn)后不改變其分子結(jié)構(gòu)。
理解空間物理量 (3DQNT):能夠估計(jì)或比較空間物理量,例如長(zhǎng)度、角度、面積、體積等。
指令跟隨
文本指令跟隨 (GNDT):理解并運(yùn)用復(fù)雜的文本指令。例如理解靶紙的復(fù)雜計(jì)分規(guī)則。
視覺(jué)指令跟隨 (GNDV):理解并運(yùn)用基于圖像的指令。例如理解宜家說(shuō)明書(shū)。
處理復(fù)雜場(chǎng)景
信息富集場(chǎng)景中檢索任務(wù)相關(guān)信息 (RET):在具有大量信息場(chǎng)景中,檢索出和具體問(wèn)題相關(guān)的信息。例如在10余個(gè)出口的車站檢索目標(biāo)相關(guān)信息。
多圖像理解 (MTIMG):處理多張圖像的能力。
基于上述的能力分類體系,我們構(gòu)建了評(píng)測(cè)數(shù)據(jù)集MOAT,并對(duì)每個(gè)問(wèn)題標(biāo)注了解答所需的能力。此外,對(duì)于需要額外知識(shí)的問(wèn)題,我們會(huì)通過(guò)文本或圖像的形式來(lái)提供對(duì)應(yīng)的知識(shí),保證回答者自身不需要具備任何專業(yè)知識(shí)就可以回答MOAT中的所有問(wèn)題。對(duì)于有些問(wèn)題,我們會(huì)在提示詞中提供可選的選項(xiàng)。
三、實(shí)驗(yàn)
我們選擇了20余個(gè)商用或開(kāi)源LMMs,測(cè)試了它們?cè)贛OAT上的運(yùn)行結(jié)果。此外,我們測(cè)試了人類在MOAT上的結(jié)果。然后,我們針對(duì)具體的能力分類進(jìn)行了細(xì)粒度分析,并提供了一些有利于未來(lái)LMMs研究工作的實(shí)驗(yàn)結(jié)論。
3.1 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果。開(kāi)源模型以淡藍(lán)底標(biāo)注。'random guess'表示在選擇題中隨機(jī)選擇、并放棄非選擇題時(shí)的準(zhǔn)確率。
在實(shí)驗(yàn)結(jié)果中,我們發(fā)現(xiàn):
人類遙遙領(lǐng)先:在MOAT上,人類在所有能力都遠(yuǎn)遠(yuǎn)超過(guò)LMMs,準(zhǔn)確率最高可領(lǐng)先62.8%,最低也有20.1%。在整體準(zhǔn)確率上,差距也有43.9%。
不同家族各有側(cè)重:不同的LMMs家族在能力優(yōu)劣上各有側(cè)重,并且同一系列的模型往往有統(tǒng)一性。例如,OpenAI系列(GPT-4v、GPT-4o、o1)在UCV、3DTF、MTIMG、RLA能力上表現(xiàn)出色,而Claude 3.7系列則在3DQNT、GNDT、GNDV上領(lǐng)先。
部分能力嚴(yán)重落后:所有模型在CNT、RLA、GNDT、GNDV能力上都表現(xiàn)不佳。除了極少數(shù)模型之外,UCV能力的準(zhǔn)確率也很低。
我們比較了三個(gè)模型在不同推理設(shè)置(無(wú)推理提示詞、基于提示詞的CoT、內(nèi)置推理能力)下的表現(xiàn)。從整體的準(zhǔn)確率來(lái)看,基于提示詞的CoT和現(xiàn)在大火的原生推理能力均無(wú)法穩(wěn)定提升表現(xiàn)。
從具體每個(gè)能力分析,純文本推理在純視覺(jué)能力或視覺(jué)占主導(dǎo)的能力上(例如3DTF、3DQNT、GNDT、GNDV)反而會(huì)表現(xiàn)出明顯的性能下降。通過(guò)對(duì)推理過(guò)程的觀察,我們猜測(cè)這是因?yàn)槲谋灸B(tài)的推理加劇了細(xì)粒度理解能力的不足帶來(lái)的幻覺(jué);而在文本模態(tài)強(qiáng)相關(guān)、或涉及上下文信息的能力上(例如OCR、UCV、RLA、RET),推理能力才具有一定的提升效果。

比較相同基座模型,在不同設(shè)置下(無(wú)推理提示詞、基于提示詞的CoT、內(nèi)置推理能力)的表現(xiàn)。 3.1.2 Tiling機(jī)制嚴(yán)重影響計(jì)數(shù)能力(CNT)
在麻將計(jì)數(shù)任務(wù)中,LMMs需要先根據(jù)文本指令找到需要計(jì)數(shù)的麻將位置(Phase 1)、再進(jìn)行計(jì)數(shù)(Phase 2)。如果將圖片裁剪出需要計(jì)數(shù)的區(qū)域,則僅需要CNT能力。

麻將技術(shù)任務(wù)的兩個(gè)步驟
我們發(fā)現(xiàn),相比于計(jì)數(shù)本身,對(duì)LMMs更難的是找到需要計(jì)數(shù)的區(qū)域;同時(shí),tiling會(huì)導(dǎo)致計(jì)數(shù)能力嚴(yán)重下降,這可能是因?yàn)閠iling將圖片分割為固定大小的tile時(shí),把同一個(gè)物體切分進(jìn)了多個(gè)tile,破壞了圖片在計(jì)數(shù)層面的語(yǔ)義。

在麻將計(jì)數(shù)任務(wù)上的實(shí)驗(yàn)結(jié)果。Original表示輸入圖像不進(jìn)行任何修改、問(wèn)題涉及包括CNT的多種能力;CNT-only表示將輸入圖像裁剪成只包含待計(jì)數(shù)區(qū)域,問(wèn)題只涉及CNT能力;CNT-only w/o Tiling表示在此之上,調(diào)整圖像大小使其不需要進(jìn)行tiling。 四、總結(jié)
我們提出了一個(gè)新的LMMs評(píng)測(cè)數(shù)據(jù)集MOAT,它需要LMMs同時(shí)運(yùn)用多種能力,并且首次提出考察指令跟隨能力。MOAT提出了一個(gè)包含10種基本能力的分類體系,使其可以準(zhǔn)確全面地評(píng)價(jià)現(xiàn)有的LMMs,并為未來(lái)LMMs地研究提供指導(dǎo)。MOAT中的復(fù)雜視覺(jué)任務(wù)對(duì)于OpenAI o3、Gemini 2.5 Pro等最新的視覺(jué)推理模型仍然具有極高的挑戰(zhàn)性,在MOAT上取得突破可能需要LMMs在范式層面的創(chuàng)新。
llustration From IconScout By IconScout Store
-The End-
掃碼觀看!
本周上新!
“AI技術(shù)流”原創(chuàng)投稿計(jì)劃
TechBeat是由將門(mén)創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線600+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛(ài)的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長(zhǎng)。
投稿內(nèi)容
// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //
// 前沿資訊解說(shuō)/心得經(jīng)歷講述 //
投稿須知
稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。
我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)
投稿方式
發(fā)送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關(guān)注“將門(mén)創(chuàng)投”公眾號(hào),后臺(tái)回復(fù)“投稿”二字,獲得投稿說(shuō)明。
關(guān)于我“門(mén)”
將門(mén)是一家以專注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過(guò)連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。
將門(mén)成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。
如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門(mén)”:
bp@thejiangmen.com
點(diǎn)擊右上角,把文章分享到朋友圈
熱門(mén)跟貼