上海AI Lab 投稿
量子位 | 公眾號(hào) QbitAI
GPT-4o會(huì)畫吉卜力、會(huì)「自拍」,但是能拼好樂(lè)高嗎?
你有沒(méi)有想過(guò)這樣的問(wèn)題:
多模態(tài)大語(yǔ)言模型真的具備理解和推理空間結(jié)構(gòu)的能力嗎?
在多步空間推理任務(wù)上,現(xiàn)有 MLLMs 究竟表現(xiàn)得如何?
近年來(lái),隨著多模態(tài)大語(yǔ)言模型的迅速發(fā)展,視覺(jué)理解、圖文對(duì)齊、語(yǔ)言生成等能力不斷突破,仿佛人類助手已觸手可及。
但在需要多步驟空間感知與邏輯推理的復(fù)雜場(chǎng)景中。
例如機(jī)器人裝配、自動(dòng)駕駛決策、3D物體理解等,多模態(tài)大模型的真實(shí)“空間智商”究竟如何?
為此,上海人工智能實(shí)驗(yàn)室聯(lián)合同濟(jì)大學(xué)與清華大學(xué),提出了全新基準(zhǔn)LEGO-Puzzles,以樂(lè)高拼搭為載體,首次系統(tǒng)評(píng)估現(xiàn)有多模態(tài)大模型(MLLMs)在多步空間推理(multi-step spatial reasoning)任務(wù)中的實(shí)際表現(xiàn)。

LEGO-Puzzles:全面覆蓋多步空間推理的基準(zhǔn)數(shù)據(jù)集
評(píng)估多模態(tài)大模型的多步空間推理能力,一個(gè)核心挑戰(zhàn)是:如何構(gòu)建既真實(shí)又結(jié)構(gòu)清晰的任務(wù)?
相比起現(xiàn)實(shí)世界視頻或圖像中的混亂背景和不確定性,LEGO 拼搭過(guò)程具備天然的評(píng)測(cè)優(yōu)勢(shì)。它不僅結(jié)構(gòu)規(guī)則、每一步明確、空間變化清晰,還擁有高度可控的任務(wù)序列。
不同于視頻幀之間可能存在的時(shí)間邏輯跳躍或視角漂移,LEGO 的每一組裝步驟都具有穩(wěn)定且嚴(yán)密的空間邏輯。此外,視覺(jué)多樣性也是 LEGO 的一大優(yōu)勢(shì)。
各種形狀、顏色、組合方式帶來(lái)了豐富的視覺(jué)表達(dá),同時(shí)又避免了現(xiàn)實(shí)圖像中復(fù)雜紋理和背景的干擾。
更重要的是,團(tuán)隊(duì)基于公開LEGO積木源文件自動(dòng)生成大規(guī)模、可擴(kuò)展的任務(wù)數(shù)據(jù),既節(jié)省標(biāo)注成本,又保證高質(zhì)量與一致性。因此,無(wú)論從建模邏輯、可控性,還是數(shù)據(jù)效率來(lái)看,LEGO 都是多步空間推理的理想載體。
依托 LEGO 所具備的結(jié)構(gòu)規(guī)則性與空間變化可控性,團(tuán)隊(duì)構(gòu)建了一個(gè)專注于多模態(tài)大模型多步空間推理能力評(píng)估的基準(zhǔn)數(shù)據(jù)集:LEGO-Puzzles。
數(shù)據(jù)集基于從互聯(lián)網(wǎng)收集的開源 LEGO 項(xiàng)目源文件,通過(guò) Bricklink 官方軟件 Studio 進(jìn)行渲染,并結(jié)合 POV-Ray 生成多視角高質(zhì)量圖像,配合任務(wù)模板自動(dòng)生成問(wèn)題與選項(xiàng),最終構(gòu)建出 1100+ 精心設(shè)計(jì)的任務(wù)樣本。
這些樣本覆蓋 11 種任務(wù)類型,按功能劃分為三大類,支持兩種任務(wù)形式:視覺(jué)問(wèn)答(VQA)與圖像生成(Image Generation)。

LEGO-Puzzles 的任務(wù)設(shè)計(jì)遵循人類在 LEGO 拼搭中的自然認(rèn)知流程,從觀察結(jié)構(gòu)、執(zhí)行操作到整體還原,逐步提升任務(wù)難度,具體包括:
- 空間理解(Spatial Understanding):判斷樂(lè)高組件的高矮關(guān)系、鄰接關(guān)系和旋轉(zhuǎn)角度;根據(jù)不同視角理解樂(lè)高結(jié)構(gòu)。
- 單步推理(Single-Step Reasoning):評(píng)估下一個(gè)組件的旋轉(zhuǎn)狀態(tài)、裝配位置,以及裝配后的下一步狀態(tài)和所需組件。
- 多步推理(Multi-Step Reasoning):推理裝配過(guò)程中的中間狀態(tài)、整體裝配順序,以及識(shí)別不符合順序的異常狀態(tài)。

整體任務(wù)設(shè)置覆蓋從基礎(chǔ)感知到多步?jīng)Q策,具有高度結(jié)構(gòu)性、序列依賴性與空間多樣性。
同時(shí),圖像生成版本進(jìn)一步拓展了評(píng)測(cè)維度,使得 LEGO-Puzzles 不僅能檢驗(yàn)?zāi)P汀翱磮D做題”的理解力,也能測(cè)試“看題畫圖”的構(gòu)建能力。
模型表現(xiàn)如何?閉源領(lǐng)跑,但仍遠(yuǎn)不及人類
團(tuán)隊(duì)在 LEGO-Puzzles 基準(zhǔn)上系統(tǒng)評(píng)測(cè)了 20 個(gè)多模態(tài)大模型(MLLMs),包括GPT-4o、Gemini系列、Claude 3.5,以及Qwen2.5-VL、InternVL等開源模型。涵蓋視覺(jué)問(wèn)答(VQA)與圖像生成兩大類任務(wù)。
開源 vs 閉源:能力鴻溝仍明顯

整體來(lái)看,閉源模型在所有任務(wù)上普遍優(yōu)于開源模型。GPT-4o 以 57.7% 的平均準(zhǔn)確率位居榜首,Gemini-2.0-Flash 緊隨其后(54.0%),而最佳開源模型 Qwen2.5-VL-72B 僅為 46.6%,其余開源模型大多落在 30%~40% 區(qū)間,接近甚至低于隨機(jī)基線(27.5%) 。
在部分關(guān)鍵子任務(wù)上,開源模型的表現(xiàn)不僅不穩(wěn)定,甚至存在系統(tǒng)性失效。例如在“Ordering”任務(wù)中,多達(dá) 4 個(gè)開源模型準(zhǔn)確率為 0,而在“Height”任務(wù)中,有一半模型準(zhǔn)確率低于隨機(jī)水平。這表明當(dāng)前多數(shù)開源 MLLMs 還無(wú)法建立起有效的空間構(gòu)型表示或推理路徑,特別是在三維結(jié)構(gòu)感知和多步狀態(tài)理解方面存在根本短板。
MLLMs vs 人類:距離真實(shí)智能還有多遠(yuǎn)?

為了更直觀地比較 MLLMs 與人類在空間任務(wù)上的表現(xiàn),團(tuán)隊(duì)構(gòu)建了LEGO-Puzzles-Lite 子集,從完整數(shù)據(jù)集中每類任務(wù)中隨機(jī)抽取 20 題,總計(jì) 220 個(gè)樣本,邀請(qǐng) 30 位具備相關(guān)專業(yè)背景的專家參與答題。
實(shí)驗(yàn)結(jié)果顯示:人類在所有任務(wù)上的平均準(zhǔn)確率為 93.6%,幾乎在所有任務(wù)中都表現(xiàn)穩(wěn)定。而 GPT-4o 雖然是最強(qiáng)模型,在該子集上僅達(dá)到 59.1%。其他模型表現(xiàn)更為遜色,Gemini-2.0-Flash 為 55.5%,Qwen2.5-VL-72B 為 48.2% 。
特別是在多步推理任務(wù)中,模型與人類之間的差距進(jìn)一步被放大。以“Backwards”和“Ordering”為例,GPT-4o 的得分落在 55% 和 60%,而人類均為 95%。這充分說(shuō)明,當(dāng)前模型在處理多步空間推理能力上,與人類之間仍有顯著認(rèn)知鴻溝。
圖像生成:看得見(jiàn)的空間推理“災(zāi)難現(xiàn)場(chǎng)”
除了視覺(jué)問(wèn)答外,LEGO-Puzzles 還包含了一個(gè)專門用于評(píng)估視覺(jué)生成能力的子集,設(shè)計(jì)了 5 類圖像生成任務(wù),分別對(duì)應(yīng)于主任務(wù)中的 Rotation、Multiview、Next-Step、Position與 Dependency。
每個(gè)樣本要求模型在給定拼搭狀態(tài)和操作指令的前提下,生成目標(biāo)結(jié)構(gòu)圖像。團(tuán)隊(duì)從主數(shù)據(jù)集中為這五類任務(wù)擴(kuò)展構(gòu)建圖像生成輸入輸出,并邀請(qǐng)人工專家對(duì)生成結(jié)果進(jìn)行雙重維度評(píng)分:
- Appearance(App):圖像是否在整體結(jié)構(gòu)上保留了目標(biāo)狀態(tài)的特征;
- Instruction Following(IF):圖像是否準(zhǔn)確反映了指定的拼搭操作。
評(píng)測(cè)模型包含 GPT-4o、Gemini-2.0-Flash,以及開源的 Emu2、GILL、Anole 等具備圖像生成能力的模型。
結(jié)果表明,僅有 Gemini-2.0-Flash 在兩項(xiàng)指標(biāo)上均達(dá)到中等及以上水平(App: 2.15 / IF: 1.17),在結(jié)構(gòu)保真度和指令執(zhí)行力之間保持了較好的平衡。
相比之下,GPT-4o 的生成過(guò)程更像是基于指令語(yǔ)義進(jìn)行場(chǎng)景重構(gòu),而非逐步編輯輸入圖像。這種策略使得它在指令理解方面表現(xiàn)尚可,但在結(jié)構(gòu)還原方面存在明顯不足,生成圖像在細(xì)節(jié)與整體結(jié)構(gòu)上常常偏離原始圖像,導(dǎo)致其 appearance 得分顯著低于 Gemini-2.0-Flash。
需要說(shuō)明的是,本次評(píng)測(cè)使用的是 2025 年 3 月 6 日前的 GPT-4o 版本,團(tuán)隊(duì)也正在測(cè)試新版 GPT-4o 的圖像生成能力,后續(xù)評(píng)測(cè)中將及時(shí)更新。
Emu2 的圖像生成與原圖外觀相似度較高,但幾乎無(wú)法體現(xiàn)任何操作變化,呈現(xiàn)出典型的“圖像重建”行為,缺乏對(duì)任務(wù)指令的響應(yīng)。
而 GILL 和 Anole 在所有子任務(wù)中基本失效,生成結(jié)果與目標(biāo)結(jié)構(gòu)無(wú)關(guān),IF 得分接近于 0,說(shuō)明它們?cè)诳臻g理解與執(zhí)行方面均不具備有效能力。
一步能答對(duì),五步就亂了?多步推理讓模型“斷片”
為了更深入評(píng)估 MLLMs 在復(fù)雜空間序列任務(wù)中的推理能力,團(tuán)隊(duì)引入了一個(gè)針對(duì)多步構(gòu)建鏈條的擴(kuò)展實(shí)驗(yàn):Next-k-Step。該實(shí)驗(yàn)建立在原有的單步任務(wù)“Next-Step”之上,進(jìn)一步要求模型在連續(xù)執(zhí)行多個(gè)拼搭操作后,識(shí)別正確的最終拼搭狀態(tài),模擬更貼近真實(shí)場(chǎng)景中的多步空間構(gòu)建推理。
實(shí)驗(yàn)設(shè)置中,團(tuán)隊(duì)控制拼搭操作步數(shù) k 從 1 增加到 5,逐步加深推理鏈長(zhǎng)度,對(duì)模型的連貫性建模與狀態(tài)記憶能力提出更高要求。輸入包括當(dāng)前 LEGO 狀態(tài)、接下來(lái)的 k 個(gè)組件圖,以及對(duì)應(yīng)的目標(biāo)圖像和候選選項(xiàng);模型需從中判斷哪一張是合理的拼搭結(jié)果。團(tuán)隊(duì)還引入 Chain-of-Thought(CoT)提示詞,探索“逐步思考”是否能在視覺(jué)場(chǎng)景中帶來(lái)推理性能提升 。

結(jié)果顯示,大多數(shù)模型在 k=1 時(shí)仍有一定推理能力,如 GPT-4o 可達(dá) 75%(使用 CoT),Gemini-2.0-Flash 高達(dá) 85%。
但隨著 k 增大,準(zhǔn)確率顯著下滑,GPT-4o 在 k=4 和 k=5 情況下幾乎完全失效,準(zhǔn)確率降至 0–5%。
即使引入 CoT 提示,大部分模型在 k > 2 后仍無(wú)法維持有效推理路徑,說(shuō)明語(yǔ)言模型中常見(jiàn)的 CoT 技術(shù)對(duì)視覺(jué)多步空間任務(wù)的幫助極為有限。
值得注意的是,Qwen2.5-VL-72B 在不同步數(shù)下表現(xiàn)相對(duì)穩(wěn)定,準(zhǔn)確率始終維持在 65%左右,展現(xiàn)出一定的結(jié)構(gòu)記憶能力;而 InternVL-2.5-78B 則在多數(shù)情境下準(zhǔn)確率接近隨機(jī)水平。
這一系列實(shí)驗(yàn)揭示出:當(dāng)前主流 MLLMs 在處理多步驟空間邏輯時(shí),存在明顯的“推理衰減”問(wèn)題。
總結(jié)
LEGO-Puzzles是一個(gè)專為評(píng)估多模態(tài)大模型在復(fù)雜空間推理任務(wù)中的能力而設(shè)計(jì)的全新基準(zhǔn),涵蓋 1100+ 任務(wù)實(shí)例,覆蓋從靜態(tài)結(jié)構(gòu)識(shí)別到多步時(shí)序重建在內(nèi)的 11 類子任務(wù)。數(shù)據(jù)集同時(shí)支持 VQA 與圖像生成,為模型提供了多模態(tài)輸入、多樣化輸出的完整測(cè)評(píng)路徑。
團(tuán)隊(duì)對(duì)當(dāng)前主流的 20+ 多模態(tài)大模型進(jìn)行了系統(tǒng)性評(píng)估,全面揭示了它們?cè)谌S空間理解、多步驟空間推理、指令驅(qū)動(dòng)圖像生成等關(guān)鍵能力上的表現(xiàn)瓶頸。實(shí)驗(yàn)還進(jìn)一步引入了 Next-k-Step 和 CoT 推理等機(jī)制,深入探查了模型在推理鏈條加深時(shí)的穩(wěn)定性與泛化能力。
LEGO-Puzzles 現(xiàn)已集成至 VLMEvalKit,支持一鍵評(píng)測(cè),快速定位模型的空間推理能力短板。
Paper:https://arxiv.org/abs/2503.19990
Github:https://github.com/Tangkexian/LEGO-Puzzles
HomePage:https://tangkexian.github.io/LEGO-Puzzles
熱門跟貼