打開網(wǎng)易新聞 查看精彩圖片

新智元報(bào)道

編輯:定慧

【新智元導(dǎo)讀】在「學(xué)」與「思」之間,AI需要跨越的不只是算力的堆砌。北大物理學(xué)院聯(lián)合多個(gè)院系,推出了首個(gè)專注于物理感知與推理能力的大模型基準(zhǔn)——PHYBench。首次系統(tǒng)性揭示了當(dāng)前大語言模型在理解物理世界時(shí)的巨大短板。

學(xué)而不思則罔,思而不學(xué)則殆。

——《論語》

如果說大模型的訓(xùn)練是「學(xué)」的過程,那么各種基準(zhǔn)測試就是大模型停下來「思」的片刻。

現(xiàn)在模型訓(xùn)練需要的算力和電量已經(jīng)遠(yuǎn)超碳基人類的范疇,AI的學(xué)習(xí)只需要更多的卡和更多的電。

打開網(wǎng)易新聞 查看精彩圖片

AI學(xué)習(xí)不成問題,但是AI能「思」嗎?

但是對于AI的評估,似乎有些「迷惘」——AI的基準(zhǔn)測試到底應(yīng)該如何設(shè)計(jì)才能體現(xiàn)模型真正的能力?

打開網(wǎng)易新聞 查看精彩圖片

來自datalearner.com上AI評測基準(zhǔn),只是一些還有很多

像DeepSeek-R1和OpenAI-o3等推理模型展現(xiàn)了復(fù)雜推理能力,這些推理模型能夠理解、建模并回答奧林匹克級(jí)別的難題。

但是目前的這些基準(zhǔn)有點(diǎn)像是「為了考試而考試」制作的考卷,AI們只需要在特定的數(shù)據(jù)集上完成訓(xùn)練,就可以做一個(gè)高分的考生。

這就像從學(xué)校走向社會(huì)的高分考生,不一定能從象牙塔一下子適應(yīng)到外部社會(huì)的弱肉強(qiáng)食。

既然AI的能力需要輻射到現(xiàn)實(shí)生活,那么也許一個(gè)針對「物理」的評測指標(biāo)是不是更能驗(yàn)證AI的現(xiàn)實(shí)可用性?

最近,由北大物理學(xué)院、人工智能研究院、計(jì)算科學(xué)研究中心、集成電路學(xué)院和元培學(xué)院共同組成的「天團(tuán)」,推出了一個(gè)用于評估大語言模型在物理情境中的推理能力的高質(zhì)量基準(zhǔn)——PHYBench。

值得一提的是,這其中有很多人都是物理競賽金牌得主。

打開網(wǎng)易新聞 查看精彩圖片

論文地址:https://arxiv.org/abs/2504.16074

具體來說,PHYBench包含500個(gè)精心挑選的基于現(xiàn)實(shí)的物理問題。

涵蓋了力學(xué)、電磁學(xué)、熱力學(xué)、光學(xué)、現(xiàn)代物理學(xué)和高級(jí)物理學(xué)等領(lǐng)域,難度從高中習(xí)題到大學(xué)生問題,再到物理奧林匹克挑戰(zhàn)題目不等。

有沒有想起被高中物理支配的恐懼?

如何評價(jià)一個(gè)評測基準(zhǔn)到底好與壞,適合與不適合?這里引用北大團(tuán)隊(duì)的一句話最為適合不過。

基準(zhǔn)測試不會(huì)神化或貶低模型;它們引導(dǎo)人類和AI共同朝著AGI前進(jìn)。

先來看下目前的推理基準(zhǔn)通常會(huì)有的三個(gè)問題:

1. 過度簡化的推理任務(wù):隨著模型性能越來越高,現(xiàn)有的基準(zhǔn)已經(jīng)不再足夠。

2. 過度抽象的問題:雖然現(xiàn)有的基準(zhǔn)測試通過抽象或建模建立了足夠的推理難度,但它們往往缺乏物理現(xiàn)實(shí)和實(shí)際應(yīng)用的基礎(chǔ)。說人話就是,評測太抽象冷門,現(xiàn)實(shí)里大概率遇不到,通過了可能也無法指導(dǎo)現(xiàn)實(shí)。

3. 缺乏精確的評估指標(biāo):當(dāng)前的自動(dòng)化評估方法在捕捉復(fù)雜推理的細(xì)微方面仍然不足。簡單說就是,評測結(jié)果不能簡單的分段,最好是能具體到1-100比較精確的分?jǐn)?shù)。

PHYBench就是為了解決這些問題,PHYBench涵蓋了物理學(xué)中的多個(gè)領(lǐng)域,使用明確定義的物理表達(dá)式作為答案。

這確保了對模型的物理感知和穩(wěn)健推理能力的準(zhǔn)確評估。

基于策劃的數(shù)據(jù)集,進(jìn)一步提出了表達(dá)式編輯距離(EED)得分,這是一種利用樹表達(dá)式和編輯距離的自動(dòng)、細(xì)粒度的評估指標(biāo),展示了LLMs給出的表達(dá)式與真實(shí)值之間的「接近」程度。

打開網(wǎng)易新聞 查看精彩圖片

來自 PHYBench的一個(gè)示例問題。使用兩個(gè)主要指標(biāo)來評估模型性能:表達(dá)式編輯距離(EED)得分和準(zhǔn)確率。

上圖展示了三個(gè)不同回答的得分,其中答案1和模型答案2分別由DeepSeek-R1和GPT-4o生成。

除了評估語言模型外,北大團(tuán)隊(duì)還通過招募北京大學(xué)的物理系本科生來解決相同的問題,建立了人類水平基線(這水平有點(diǎn)高了)。

結(jié)果顯示,機(jī)器和人類的能力之間存在顯著的性能差距。

即使是最先進(jìn)的LLM——Gemini 2.5 Pro——也僅達(dá)到了36.9%的準(zhǔn)確率,遠(yuǎn)低于人類基線的61.9%。

PHYBench基準(zhǔn)測試

PHYBench的每道題目都基于一個(gè)具體的物理情景,要求模型根據(jù)給定條件推導(dǎo)出關(guān)鍵物理量的符號(hào)表達(dá)式。

所有問題都有明確的標(biāo)準(zhǔn)答案,且均可通過物理原理獨(dú)立求解,無需依賴外部知識(shí)。

真正的挑戰(zhàn)在于,模型需要能根據(jù)文本描述準(zhǔn)確構(gòu)建空間和相互作用關(guān)系,選擇性地應(yīng)用多條物理定律和定理,并在動(dòng)態(tài)系統(tǒng)的演化與相互作用中進(jìn)行復(fù)雜計(jì)算。

此外,大多數(shù)題目都涉及長鏈推理,模型必須在多步推導(dǎo)中剔除無關(guān)的物理作用和排除不合理的代數(shù)解,以避免計(jì)算復(fù)雜度急劇上升。

不同于以往注重高強(qiáng)度推理或窮舉搜索空間的基準(zhǔn)測試,PHYBench更加注重真實(shí)物理場景中的逐步感知與推理能力。

簡單地說,就是希望LLMs像人一樣進(jìn)行邏輯推理,而不是類似「鳥槍法」的暴力解法。

數(shù)據(jù)集整理

PHYBench基準(zhǔn)測試題目改編自面向人類的物理練習(xí)題,難度涵蓋高中至大學(xué)物理競賽水平。

邀請了來自北京大學(xué)物理學(xué)院的178名學(xué)生參與題目的貢獻(xiàn)與打磨。

打開網(wǎng)易新聞 查看精彩圖片

上圖展示了數(shù)據(jù)整理的流程。數(shù)據(jù)來源包括非公開和公開的問題,這些題目無法通過直接的網(wǎng)絡(luò)搜索或常規(guī)參考資料輕松獲得。

在改編過程中,每一道題目都被視為一個(gè)具體的物理情景。整理人員會(huì)確定一個(gè)核心物理量作為目標(biāo)變量,并設(shè)計(jì)問題,要求解題者根據(jù)給定條件推導(dǎo)出該物理量的符號(hào)表達(dá)式。

隨后,每道題目都會(huì)經(jīng)過多輪審核、篩選和打磨。首先,所有題目會(huì)被存入內(nèi)部平臺(tái)托管的題庫中。接著,這些題目會(huì)分配給審閱人員進(jìn)行評估。

審閱人員檢查題目是否符合上述標(biāo)準(zhǔn),如有不符合的地方會(huì)進(jìn)行修改,必要時(shí)退回給原作者進(jìn)一步編輯。

在審核過程中,內(nèi)部平臺(tái)會(huì)展示多種大語言模型(LLM)生成的解答,供審閱人員參考,以判斷題目是否表述清晰、全面,并根據(jù)需要調(diào)整描述,直到不會(huì)再引發(fā)理解上的歧義。

一旦題目獲得審閱人員批準(zhǔn)并附上評語,就會(huì)進(jìn)入審閱者題庫。

題目進(jìn)入審閱者題庫后,還會(huì)經(jīng)過多輪模型測試。

通過觀察模型生成的答案,判斷題目是否能促使模型產(chǎn)生符合標(biāo)準(zhǔn)的解答。

同時(shí),使用GPT-4o對題目的語法和格式進(jìn)行檢查。根據(jù)模型測試的結(jié)果,會(huì)反復(fù)修訂題目,直到所有題目的輸出結(jié)果完全符合基準(zhǔn)測試的格式要求。

最后,邀請了109位人類專家參與解題。

他們進(jìn)一步評估題目的表述是否恰當(dāng),并根據(jù)專家反饋對題目進(jìn)行最終的細(xì)致打磨。

評估指標(biāo)

正如最開始介紹,PHYBench使用了兩個(gè)指標(biāo),其中一個(gè)叫做表達(dá)式編輯距離得分(EED Score),另一個(gè)是準(zhǔn)確率比較好理解。

EED Score是一種自動(dòng)化、無需模型輔助的評估指標(biāo),用來判斷AI生成解答的正確性。

EED Score通過計(jì)算兩個(gè)符號(hào)表達(dá)式的表達(dá)式樹編輯距離來評估它們的相似性。

所謂表達(dá)式樹編輯距離,指的是將一個(gè)樹狀結(jié)構(gòu)的表達(dá)式變換成另一個(gè)所需的最少節(jié)點(diǎn)級(jí)別編輯操作次數(shù)(包括插入、刪除和更新)。

打開網(wǎng)易新聞 查看精彩圖片

比如Answer 1中,大模型給出的答案和正確答案只差了一個(gè)系數(shù)。

而Answer 2中,和標(biāo)準(zhǔn)答案差的比較多,所以EED score要明顯低于第一個(gè)答案。

選擇使用EED Score而非傳統(tǒng)的二分類評分,主要是為了更細(xì)致地反映模型解答的正確程度。

即便生成的答案存在一些小的計(jì)算錯(cuò)誤或系數(shù)偏差,也能體現(xiàn)出模型對物理原理的部分理解,而不是完全錯(cuò)誤。

模型實(shí)驗(yàn)

有了基準(zhǔn),就來看下各個(gè)模型的表現(xiàn)。

在PHYBench基準(zhǔn)上測試了一系列不同類型的模型,包括最先進(jìn)的模型和一些廣泛應(yīng)用或具有代表性的模型。

在基于API的評估中,選取了GPT-4o、o1、Gemini 2.0 Flash Thinking、DeepSeek-V3、DeepSeek-R1、Qwen2.5-max、o3-mini、Grok 3 Beta、Claude 3.7 Sonnet、Claude 3.7 Sonnet Thinking、Gemini 2.5 pro、o4-mini和o3。

其余模型DeepSeek-R1-Distill-Qwen-32B和QwQ-32B則在本地進(jìn)行評估。

人類基線

招募了來自北京大學(xué)物理學(xué)院的81名學(xué)生,每人解答了8道取自PHYBench數(shù)據(jù)集的問題。

總共收集到了559份有效答卷,這些答卷對應(yīng)于公開發(fā)布的PHYBench數(shù)據(jù)集范圍內(nèi)的問題。

人類答題的平均準(zhǔn)確率為61.9±2.1%,EED分?jǐn)?shù)為70.4±1.8,這里的不確定性是通過10,000次重采樣獲得的自助法標(biāo)準(zhǔn)誤。

在99%的置信水平下,專家組在兩個(gè)指標(biāo)上均明顯優(yōu)于所有被評估的LLM。

此外,人類成績分布的上四分位數(shù)達(dá)到了71.4%的準(zhǔn)確率和80.4的EED分?jǐn)?shù)。

主要結(jié)果

在PHYBench數(shù)據(jù)集上評估了多個(gè)模型,它們的準(zhǔn)確率和EED分?jǐn)?shù)可視化展示在下圖。

打開網(wǎng)易新聞 查看精彩圖片

結(jié)果表明,即使是最先進(jìn)的推理模型,在物理推理任務(wù)中的表現(xiàn)仍然有限。

表現(xiàn)最好的模型是Gemini 2.5 pro,其準(zhǔn)確率為36.9%,EED分?jǐn)?shù)為49.5,仍然明顯低于人類基線。

這種差距凸顯了基準(zhǔn)測試的高度復(fù)雜性。

值得注意的是,盡管專門為推理設(shè)計(jì)的模型整體上優(yōu)于通用語言模型,但一些近期發(fā)布的通用模型,如 DeepSeek-V3、GPT-4.1 和 Claude 3.7 Sonnet,也表現(xiàn)出具有競爭力的成績,準(zhǔn)確率分別達(dá)到 13.6%、12.9% 和 13.2%。

此外,32B參數(shù)的模型,包括DeepSeek-Distill-32B和QwQ-32B,在PHYBench上的表現(xiàn)明顯較弱,準(zhǔn)確率分別只有2.6%和1.2%,EED分?jǐn)?shù)分別為4.5和3.2,這與它們在其他基準(zhǔn)測試中的強(qiáng)勁表現(xiàn)形成了鮮明對比。

打開網(wǎng)易新聞 查看精彩圖片

各模型在不同領(lǐng)域的平均原始得分。(縮寫:ALL=所有問題;Mech.=力學(xué);Elec.=電學(xué);Thmo.=熱力學(xué);Opt.=光學(xué);Mod.=近代物理;Adv.=高級(jí)內(nèi)容)

大模型在PHYBench上表現(xiàn)不佳,可能歸因于任務(wù)具有長推理鏈特性或?qū)ξ锢碇庇X的挑戰(zhàn),這些超出了傳統(tǒng)快速問答(QA)設(shè)置的能力范圍。

在數(shù)據(jù)集上采用了準(zhǔn)確率和EED分?jǐn)?shù)兩種評估指標(biāo)。

雖然這兩種指標(biāo)在模型排序上幾乎一致,但EED分?jǐn)?shù)提供了更廣泛的數(shù)值分布和更小的統(tǒng)計(jì)不確定性。

分析顯示,EED指標(biāo)在樣本效率上平均提升了304%,標(biāo)準(zhǔn)差為80%。

換句話說,使用EED指標(biāo)評估500道題目的效果,相當(dāng)于用準(zhǔn)確率指標(biāo)評估約1500道題目的區(qū)分能力。

這種提升使得模型性能之間的差異可以更加可靠地體現(xiàn)出來。

打開網(wǎng)易新聞 查看精彩圖片

不同領(lǐng)域下的模型性能

為了更清晰地展示各模型在不同領(lǐng)域的相對優(yōu)勢,引入了兩個(gè)指標(biāo):絕對優(yōu)勢相對優(yōu)勢。

值得注意的是,相對優(yōu)勢是在對領(lǐng)域平均分進(jìn)行歸一化之后計(jì)算的,這樣可以減小某些低分問題對整體結(jié)果的不成比例影響。

進(jìn)一步分析了模型在不同物理領(lǐng)域下的得分分布情況,在細(xì)分的領(lǐng)域中:

  • 力學(xué):主要考察空間推理和對動(dòng)態(tài)過程的理解;

  • 電磁學(xué):評估模型理解場分布與空間劃分的能力;

  • 熱力學(xué):測試模型在多物理場交互和復(fù)雜過程理解方面的水平;

  • 光學(xué):同樣強(qiáng)調(diào)空間推理能力;

  • 近代與高等物理:則需要模型具備對復(fù)雜物理概念的深入理解與應(yīng)用能力。

通過分析發(fā)現(xiàn),傳統(tǒng)模型(如GPT-4o)在力學(xué)領(lǐng)域的表現(xiàn)相對較差,這可能是因?yàn)樗鼈冊谏婕叭S幾何和動(dòng)態(tài)過程的數(shù)據(jù)上訓(xùn)練不足。

專注于推理能力的模型(如o1和QwQ-32B)在力學(xué)領(lǐng)域表現(xiàn)較好。

熱力學(xué)問題通常涉及多步推理和復(fù)雜過程分析,在這里,推理型模型與非推理型模型之間的性能差異尤為明顯。

而在近代與高等物理領(lǐng)域的結(jié)果也表明,各大語言模型在知識(shí)深度上存在顯著差異。

通用型模型GPT-4.1在這些領(lǐng)域中,相比GPT-4o、o1和DeepSeek V3展現(xiàn)出了明顯的優(yōu)勢,突出了其在科學(xué)問題解決任務(wù)中的卓越能力。

相對優(yōu)勢這一指標(biāo)突出了各模型在特定領(lǐng)域內(nèi)相對于同類模型的優(yōu)勢。

圖4a中的雷達(dá)圖展示了部分典型模型的相對優(yōu)勢,直觀地呈現(xiàn)了前文所討論的各模型優(yōu)勢分布情況。

圖4b則展示了模型優(yōu)勢在不同問題難度等級(jí)下的分布情況。

錯(cuò)誤分析

本節(jié)將詳細(xì)分析在評估過程中發(fā)現(xiàn)的錯(cuò)誤。

將PHYBench基準(zhǔn)測試所評估的能力分為兩個(gè)主要維度:物理感知(Physical Perception,簡稱PP)和穩(wěn)健推理(Robust Reasoning,簡稱RR)。

為了更好地說明這兩個(gè)類別,分析了大型語言模型(LLMs)的推理過程,特別是DeepSeek-R1的表現(xiàn)。

打開網(wǎng)易新聞 查看精彩圖片

正如上面的例子所示,DeepSeek-R1的推理過程可以明顯分為兩個(gè)階段,分別對應(yīng)PP和RR。

在各種模型中,都能一致地觀察到與這兩個(gè)階段相關(guān)的錯(cuò)誤,說明這兩個(gè)分類具有很好的代表性。

此外,提出的EED指標(biāo)能夠有效量化模型在PP和RR兩個(gè)方面的表現(xiàn)。

理解模型推理過程

在分析多個(gè)模型的解題過程時(shí),發(fā)現(xiàn)它們的推理鏈條具有典型的結(jié)構(gòu)特征,與定義的兩個(gè)挑戰(zhàn)類別高度對應(yīng):

物理感知(PP):在這個(gè)階段,模型需要進(jìn)行大量的語義推理,花費(fèi)較多認(rèn)知資源來識(shí)別相關(guān)的物理對象、變量和動(dòng)態(tài)過程。模型需要定性判斷哪些物理效應(yīng)是重要的,哪些可以忽略。PP主要體現(xiàn)在推理鏈中的關(guān)鍵決策節(jié)點(diǎn)上。

穩(wěn)健推理(RR):在這個(gè)階段,模型會(huì)推導(dǎo)出大量方程,并進(jìn)行符號(hào)推理。這一過程將感知節(jié)點(diǎn)通過推理鏈條連接起來。RR主要包括連續(xù)的數(shù)學(xué)推導(dǎo)、解方程和正確應(yīng)用已知條件等環(huán)節(jié)。

從結(jié)構(gòu)上看,PP對應(yīng)推理鏈中的關(guān)鍵決策點(diǎn),而RR則是連接這些節(jié)點(diǎn)的推理鏈條。

如果在PP節(jié)點(diǎn)出錯(cuò),可能會(huì)導(dǎo)致對物理情景的根本性誤解,最終給出錯(cuò)誤的答案;同時(shí),也可能引入不必要的物理效應(yīng),增加后續(xù)符號(hào)推理的復(fù)雜度。

而RR階段的錯(cuò)誤,通常表現(xiàn)為推導(dǎo)表達(dá)式不一致、解方程錯(cuò)誤或條件應(yīng)用不當(dāng),這些問題會(huì)不斷累積,使最終的結(jié)果越來越偏離正確答案。

打開網(wǎng)易新聞 查看精彩圖片

物理感知(Physical Perception)

第一個(gè)典型挑戰(zhàn)來自對物理過程理解不足和建模能力欠缺。

打開網(wǎng)易新聞 查看精彩圖片

如上圖所示,示例問題1描述了一個(gè)經(jīng)典力學(xué)場景:三顆小球通過一根不可伸長的繩子連接在一起。

大型語言模型(LLM)的錯(cuò)誤解答源于對這些小球之間運(yùn)動(dòng)關(guān)系的誤解,特別是錯(cuò)誤地認(rèn)為中間繩段的角速度為零。

即使后續(xù)符號(hào)推導(dǎo)過程是正確的,最終得到的答案依然是錯(cuò)誤的。

這個(gè)問題中的PP挑戰(zhàn),對于一般大學(xué)生來說并不難,但即便是像Gemini-2.5-Pro、o3和DeepSeek-R1這樣最先進(jìn)的模型,也未能正確處理這道運(yùn)動(dòng)學(xué)題目。

實(shí)驗(yàn)進(jìn)一步發(fā)現(xiàn),32B參數(shù)規(guī)模的模型在PP階段表現(xiàn)尤為糟糕,甚至在基礎(chǔ)問題上也頻頻出錯(cuò)。這種失敗不僅暴露了模型在物理感知能力上的根本性局限,也反映了其在語義推理方面的不足。

PHYBench基準(zhǔn)測試正是有意設(shè)計(jì)來區(qū)分真正理解物理過程的模型與那些僅靠記憶或模式識(shí)別解題的模型。

穩(wěn)健推理(Robust Reasoning)

打開網(wǎng)易新聞 查看精彩圖片

另一種常見錯(cuò)誤出現(xiàn)在長且復(fù)雜的推理過程中,模型難以保持推理的一致性,或者在解方程時(shí)出錯(cuò)。

例如,在上圖示例問題2中,場景是一個(gè)以相對論速度運(yùn)動(dòng)的鏡子受到高能光子的反沖。雖然LLM正確理解了物理設(shè)定,也選用了恰當(dāng)?shù)姆匠?,但在漫長的符號(hào)推導(dǎo)后,最終未能得出正確解答。

這種情況典型地反映了模型在數(shù)學(xué)推理穩(wěn)健性方面的不足。

物理問題通常需要大量符號(hào)推導(dǎo)。由于篇幅限制,這里展示的兩個(gè)示例問題都相對較短,但前文提到,PHYBench中一份完整解答的平均長度約為3000字符,人工解答通常需要使用幾十步中間推導(dǎo)。

而未經(jīng)外部數(shù)學(xué)工具輔助的LLMs,往往會(huì)比人類解答步驟更多,從而增加出錯(cuò)的風(fēng)險(xiǎn)。

這一觀察說明,物理問題實(shí)際上是一種受多種明確規(guī)則約束的長鏈推理任務(wù)。

實(shí)驗(yàn)結(jié)果表明,長鏈符號(hào)推理仍然是當(dāng)前模型面臨的重要挑戰(zhàn)。

用EED指標(biāo)捕捉錯(cuò)誤

EED分?jǐn)?shù)能有效捕捉模型在PP和RR兩個(gè)階段的錯(cuò)誤。

PP階段的錯(cuò)誤通常導(dǎo)致中間推導(dǎo)過程中的術(shù)語缺失或多余——小錯(cuò)誤會(huì)引起系數(shù)偏差,大錯(cuò)誤則可能增加或漏掉整個(gè)術(shù)語,顯著拉低EED得分。

而RR階段的錯(cuò)誤則表現(xiàn)為推導(dǎo)過程中的表達(dá)式逐步偏離,EED能夠平滑地捕捉到這種變化。

通過在PHYBench框架下對這些問題的分析,進(jìn)一步驗(yàn)證了該基準(zhǔn)測試在評估AI模型物理感知和邏輯推理能力上的有效性。

PHYBench通過提供真實(shí)且復(fù)雜的物理場景,迫使模型展示其真正的理解與推理能力。這不僅提升了評估AI推理能力的標(biāo)準(zhǔn),也為開發(fā)更先進(jìn)、能夠理解并與物理世界互動(dòng)的模型提供了方向。

這些問題的分析也是PHYBench被創(chuàng)建的核心目標(biāo)。

通過呈現(xiàn)真實(shí)復(fù)雜的物理情景,PHYBench考察了超越傳統(tǒng)物理解題的推理能力。

這兩種能力——物理感知(PP)和穩(wěn)健推理(RR)——可以作為衡量AI模型在多規(guī)則推理任務(wù)中表現(xiàn)的重要指標(biāo),不僅適用于物理學(xué)領(lǐng)域,也適用于更廣泛的科學(xué)和工程任務(wù)。

它們反映了模型從現(xiàn)實(shí)信息中抽象出結(jié)構(gòu),并執(zhí)行復(fù)雜長鏈推理任務(wù)的能力。

因此,PHYBench不僅為評估AI推理能力設(shè)定了新標(biāo)準(zhǔn),也為開發(fā)能真正理解和與現(xiàn)實(shí)世界互動(dòng)的更高級(jí)模型提供了指導(dǎo)。

要讓AI在真實(shí)環(huán)境中有效運(yùn)作,光靠模仿視頻或文本學(xué)習(xí),或者單純積累專家知識(shí)是不夠的,模型還必須具備自主構(gòu)建內(nèi)部表示并通過合理推理推導(dǎo)出可靠物理關(guān)系的能力。

參考資料:

https://arxiv.org/abs/2504.16074