GeoSense團隊 投稿
量子位 | 公眾號 QbitAI

多模態(tài)大模型幾何解題哪家強?

首個從幾何原理視角出發(fā),全面評估多模態(tài)大模型幾何解題能力的雙語綜合基準來了!

GeoSense,系統(tǒng)評測多模態(tài)大模型在幾何原理識別和應用中的表現(xiàn),評測基準的數(shù)據(jù)和評測代碼均已開源。

其背后團隊來自淘天集團算法技術-未來生活實驗室團隊。

打開網易新聞 查看精彩圖片

人類在解答幾何問題時,首先會識別所需的幾何原理并通過靈活應用它們來推導出答案。

然而,目前的評測方法多集中于最終答案的正確性或簡單地對每個推理步驟進行打分,而忽視了推理過程中的關鍵因素:幾何原理的識別和應用。

盡管有研究發(fā)現(xiàn)模型的對幾何圖的感知能力不足限制了其后續(xù)推理,但實驗發(fā)現(xiàn),幾何原理與圖像中幾何元素的正確對應及應用,是多模態(tài)大模型推理的另一大瓶頸。

為填補這一空白,GeoSense出現(xiàn)了,為在復雜視覺場景中的推理能力提升提供了新的方向。

5層知識架構+1789道幾何問題

5層知識架構+1789道幾何問題

GeoSense旨在系統(tǒng)評估多模態(tài)大模型識別和應用幾何原理來解決幾何問題的能力。

該基準建立了包含定義、定理和公式等幾何原理的5層知識架構,覆蓋平面幾何和立體幾何,支持中英雙語;精心構建并人工詳細標注了包括1789道問題的數(shù)據(jù)集;并針對幾何原理設計了創(chuàng)新性的評估策略。

它構建了包含148個幾何原理的5層知識架構,覆蓋平面幾何和立體幾何的65個定義,47個定理和36個計算公式,多維度細粒度地評估模型面對幾何問題時識別和應用知識的能力。

此外,Geosense有精細標注的數(shù)據(jù)集。

它收納了1789道幾何問題,并使用中英雙語詳細標注了解題所必需的5556個幾何原理及其與幾何圖中元素的對應與應用,并使用特殊標簽()標注了解題中的關鍵點,確保模型評估的綜合性和準確性。

打開網易新聞 查看精彩圖片

GeoSense擁有嚴格的構建流程,共有23位幾何領域的研究生同學進行數(shù)據(jù)標注、審核和質量把控。

下圖展示了一道題目的雙語標注示例。

打開網易新聞 查看精彩圖片

值得一提的是,GeoSense采用創(chuàng)新的評估方法,創(chuàng)新性地提出GPI(幾何原理識別)和GPA(幾何原理應用)兩個評估指標,重點審視模型在復雜視覺場景中的幾何原理識別和應用能力,幫助識別模型推理過程中的潛在不足與提升空間。

評估系統(tǒng):GPI+GPA+ACC

GeoSense貢獻了一種新的評估系統(tǒng),包括幾何原理識別(GPI)評分和幾何原理應用(GPA)評分以及答案正確性評分(ACC),以全面評估多模態(tài)大模型在GPS中類人的推理機制。

打開網易新聞 查看精彩圖片

GPI(幾何原理識別評分)

作者使用GPI來評估模型能否正確識別解決問題所必需的幾何原理。

如上圖所示,對于每個幾何問題 ,專家標注了解題所必需的幾何原理集合。

對于每個幾何原理,作者借助GPT-4o判斷其是否在模型的響應中被應用。最終的GPI得分是幾何原理集合中模型可以正確識別的幾何原理的比例。

然而,僅僅通過此指標仍然無法得知,模型是否在視覺環(huán)境中合理地使用這些原理解決問題。這與人類解決幾何問題時遇到的困境相似:在某些情況下,人類知道應該運用相似三角形的知識來解決問題,但在實際的幾何圖形中,往往難以正確對應各個相似元素并將幾何原理正確應用。

GPA(幾何原理應用評分)

為了進一步衡量模型在視覺環(huán)境中應用幾何原理的能力,作者們提出了GPA指標。

如上圖所示,對于模型正確識別的每個幾何原理,首先提取模型響應中與該幾何原理相關的內容。

而后將提取到的內容與標注中的關鍵點進行比對,計算F1 score作為該幾何原理的GPA評分。

ACC(答案準確性評分)

作者還評估了答案的準確性,以評估模型正確識別和組合應用多個幾何原理以解決問題的能力。

以下是跟現(xiàn)有流行的多模態(tài)幾何相關的多個評測基準的對比:

打開網易新聞 查看精彩圖片

Gemini-2.0-Pro-Flash表現(xiàn)最佳

Gemini-2.0-Pro-Flash表現(xiàn)最佳

該團隊對多個開源和閉源模型進行了全面評測和分析,并給出了這些模型在GPI、GPA和ACC三個指標的平均值上的排名情況。

打開網易新聞 查看精彩圖片

最佳表現(xiàn)模型

Gemini-2.0-Pro-Flash在以幾何原理為中心的解題能力評估中表現(xiàn)最佳,其次是Qwen2.5-VL-72B和QvQ-72B-Preview。

開源模型中,Qwen-VL系列表現(xiàn)最為突出。

推理增強類模型的潛力與挑戰(zhàn)

推理模型如QVQ-72B-Preview在幾何原理識別和應用上展現(xiàn)了強大的潛力,但在實際問題解決中面臨準確率挑戰(zhàn),這是由于過度復雜化思考過程從而無法得到正確答案導致的。

此外,InternVL2.5-38B-MPO在幾何原理識別率(GPI)和應用準確率(GPA)方面相較于nternVL2.5-38B有所提升,顯示了優(yōu)化模型推理思維過程的有效性。

平面幾何理解是共同短板

多模態(tài)大模型在平面幾何的理解方面存在明顯不足。

以Claude3.55-Sonnet為例,其在平面圖形的轉換和移動(TMPF)以及平面圖形的理解(UPF)中的幾何原理識別率(GPI)分別為65.9和45.1,應用準確率(GPA)更低,為32.5和38.7。

這一現(xiàn)象顯示出在處理二維空間問題時,模型的識別和應用能力均較弱,說明多模態(tài)大模型在視覺信息處理和空間關系推理方面需要進一步優(yōu)化,以改善其在平面幾何任務中的表現(xiàn)。

推理能力隨模型規(guī)模提升

一般情況下,同一系列的模型規(guī)模越大,表現(xiàn)越優(yōu)。

例如,Qwen2.5-VL系列從7B增至72B后,三種指標的平均分(AVG)從 51.3 提升至 60.1。

實驗都有哪些發(fā)現(xiàn)?

實驗都有哪些發(fā)現(xiàn)?

什么限制了多模態(tài)大模型的推理能力?

GPI和GPA的降低都會導致ACC的降低。

在上表中,InternVL-2.5-8B和InternVL-2.5-38B在定義類幾何原理上的GPA基本相同,但由于InternVL-2.5-38B的GPI得分比InternVL-2.5-8B高了5%,導致其ACC比后者高了7.7%。

另外,其他一些例子如Claude37-Sonnet和Qwen2.5-VL-72B在全量評測下的結果體現(xiàn)了GPA的降低也會影響模型的表現(xiàn)。

此外,大部分多模態(tài)大模型在GeoSense上的GPI和GPA都較低,這體現(xiàn)了幾何原理的識別和應用共同限制了多模態(tài)大模型的推理能力。

為什么多模態(tài)大模型在復雜問題中表現(xiàn)更差?

研究團隊觀察到,隨著所需幾何原理數(shù)量的增加,GPI和ACC分數(shù)都降低,而GPA分數(shù)則受到的影響較小。這樣的趨勢在閉源多模態(tài)大模型中更加明顯。

這些觀察結果表明,多模態(tài)大模型在復雜問題上的較差表現(xiàn)主要是由于未能準確識別必需的幾何原理所導致的。

該實驗強調了提高多模態(tài)大模型識別幾何原理能力的重要性,以進一步增強其推理能力。

打開網易新聞 查看精彩圖片

更擅長哪種知識,哪方面有所欠缺?

多模態(tài)大模型在計算方面表現(xiàn)出色,但在幾何性質理解方面卻存在不足。

從上表的結果來看,多模態(tài)大模型在公式類問題上的三個指標表現(xiàn)顯著優(yōu)于定義和定理類問題,特別是在GPI指標上。

這表明,多模態(tài)大模型在面對計算問題時能夠更清楚地識別所需的幾何原理。

相比之下,定義和定理通常包含幾何元素的抽象屬性和關系,這是多模態(tài)大模型難以理解的。

為什么在平面幾何領域表現(xiàn)不好?

研究人員發(fā)現(xiàn),GPI限制了多模態(tài)大模型在平面幾何中的表現(xiàn)。

就GPI指標而言,大多數(shù)模型在USF科目上的表現(xiàn)優(yōu)于UPF科目。然而,對于GPA指標,兩個科目之間的表現(xiàn)差異不顯著。盡管如此,就ACC指標而言,大多數(shù)模型在USF上的表現(xiàn)仍然更好。

這些觀察結果表明,限制模型解決平面幾何問題能力的關鍵因素是GPI,即模型在準確識別必需的幾何原理方面遇到的困難。這是由于平面幾何中存在許多容易混淆的原理,如判定相似和全等三角形。

這強調了模型需要準確識別必要原理,以增強其對平面幾何的理解。

打開網易新聞 查看精彩圖片

論文鏈接:
https://arxiv.org/abs/2504.12597
項目主頁:
https://gfzshiwai.github.io/GeoSense_Project/
Github:
https://github.com/GFZShiwai/GeoSense