打開(kāi)網(wǎng)易新聞 查看精彩圖片

機(jī)器之心報(bào)道

編輯:+0

當(dāng) AI 翻開(kāi)奧數(shù)題,CPU 也燒了!

還記得那些被奧數(shù)題折磨得徹夜難眠的日子嗎?

當(dāng)你在凌晨三點(diǎn)對(duì)著一道幾何證明題抓耳撓腮、懷疑人生的時(shí)候,你可能會(huì)想:「要是有個(gè)超級(jí)大腦能幫我解決這些問(wèn)題該多好啊!」

打開(kāi)網(wǎng)易新聞 查看精彩圖片

好消息:大模型解數(shù)學(xué)題的能力很強(qiáng)!壞消息:它們好像也被奧數(shù)折磨得不輕。

很多針對(duì)大型語(yǔ)言模型(LLMs)的數(shù)學(xué)基準(zhǔn)測(cè)試已經(jīng)表明,最先進(jìn)的推理模型在美國(guó)數(shù)學(xué)邀請(qǐng)賽(AIME)等數(shù)學(xué)競(jìng)賽中表現(xiàn)出色,O3-MINI 模型甚至達(dá)到了與頂尖人類參賽者相當(dāng)?shù)乃健?strong>然而,這些測(cè)試僅僅評(píng)估了最終答案,而忽略了推理和證明過(guò)程

為彌補(bǔ)這一不足,專注于評(píng)估大模型數(shù)學(xué)能力的 MathArena 平臺(tái)的研究人員,首次全面評(píng)估了模型解決復(fù)雜數(shù)學(xué)問(wèn)題的完整推理和證明構(gòu)建能力

美國(guó)數(shù)學(xué)奧林匹克競(jìng)賽(USAMO)是全球最具挑戰(zhàn)性的中學(xué)生數(shù)學(xué)競(jìng)賽之一。首先,該賽事強(qiáng)調(diào)嚴(yán)格證明與邏輯嚴(yán)謹(jǐn)性,題目均為證明題,要求選手通過(guò)嚴(yán)密的邏輯推導(dǎo)和完整的數(shù)學(xué)語(yǔ)言呈現(xiàn)解答,而非僅給出數(shù)值答案(如 AIME)。其次,題目難度極高,涉及數(shù)論、組合數(shù)學(xué)、代數(shù)、幾何等核心領(lǐng)域,常需運(yùn)用高級(jí)技巧(如生成函數(shù)、不等式放縮、圖論構(gòu)造等)。而且題目設(shè)計(jì)具有「門檻效應(yīng)」:部分問(wèn)題看似簡(jiǎn)單,但需洞察隱藏結(jié)構(gòu)或非標(biāo)準(zhǔn)解法(如構(gòu)造性證明、反證法)。

他們?cè)?2025 年美國(guó)數(shù)學(xué)奧林匹克競(jìng)賽(USAMO)試題發(fā)布后立即測(cè)試了多個(gè)熱門模型,結(jié)果令人失望:所有模型都表現(xiàn)欠佳,平均得分不到 5%

打開(kāi)網(wǎng)易新聞 查看精彩圖片

通過(guò)深入分析模型的推理過(guò)程,研究人員識(shí)別出了多種常見(jiàn)失敗模式,并發(fā)現(xiàn)模型訓(xùn)練中的某些優(yōu)化策略反而產(chǎn)生了負(fù)面影響。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

  • 論文標(biāo)題:PROOF OR BLUFF? EVALUATING LLMS ON 2025 USA MATH OLYMPIAD
  • 論文鏈接:https://arxiv.org/pdf/2503.21934v1
  • 項(xiàng)目主頁(yè):https://matharena.ai
  • 項(xiàng)目代碼:https://github.com/eth-sri/matharena

結(jié)果表明,當(dāng)前的 LLM 在嚴(yán)格的數(shù)學(xué)推理方面,尤其是在形式化證明生成方面,仍然非常吃力。在未來(lái)的研究中,有必要改進(jìn)訓(xùn)練方法,如納入重證明的數(shù)據(jù)集、整合形式驗(yàn)證工具或開(kāi)發(fā)優(yōu)先考慮邏輯一致性而非答案優(yōu)化的架構(gòu),彌合數(shù)值正確性與逐步證明能力之間的差距。

方法

評(píng)估基準(zhǔn)與問(wèn)題準(zhǔn)備

研究團(tuán)隊(duì)選擇了 USAMO 2025 作為基準(zhǔn)測(cè)試,這是一個(gè)權(quán)威數(shù)學(xué)競(jìng)賽,包含六道需要證明的題目,為期兩天。這個(gè)競(jìng)賽非常適合作為評(píng)估基準(zhǔn),因?yàn)轭}目具有挑戰(zhàn)性,需要詳細(xì)證明才能得滿分,且數(shù)據(jù)未被污染.

圖 1 展示了兩個(gè)競(jìng)賽題目。在評(píng)估過(guò)程中,研究人員要求各模型提供全面詳細(xì)的證明,并使用 LaTeX 格式。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

為降低結(jié)果的變異性,每個(gè)模型對(duì)每道題目進(jìn)行了四次獨(dú)立解答。所有解答均經(jīng)過(guò)匿名化處理并轉(zhuǎn)換為 PDF 格式進(jìn)行評(píng)分,評(píng)分過(guò)程中不考慮思考過(guò)程部分。

評(píng)審團(tuán)隊(duì)

評(píng)分團(tuán)隊(duì)由四位資深數(shù)學(xué)專家組成,他們都曾是國(guó)家 IMO 隊(duì)成員或進(jìn)入過(guò)國(guó)家隊(duì)最終選拔。評(píng)審前,他們接受了詳細(xì)說(shuō)明評(píng)估目標(biāo)和方法的指導(dǎo)(可在 GitHub 查閱)。團(tuán)隊(duì)通過(guò) USAMO 2024 三道題目的試評(píng)分熟悉了評(píng)分標(biāo)準(zhǔn)并解決歧義。

評(píng)分流程

USAMO 2025 的六個(gè)問(wèn)題均由兩名評(píng)審員獨(dú)立評(píng)分,每位評(píng)審員負(fù)責(zé)三個(gè)不同問(wèn)題。這種借鑒 IMO 的雙重評(píng)分方法確保了評(píng)分的一致性并減少了主觀偏見(jiàn)。由于官方不發(fā)布標(biāo)準(zhǔn)答案,研究團(tuán)隊(duì)從可靠的數(shù)學(xué)社區(qū)資源(尤其是 AoPS 論壇)收集整理了標(biāo)準(zhǔn)化評(píng)分方案,并驗(yàn)證了所有解法的準(zhǔn)確性。

遵循 USAMO 慣例,每題滿分七分,對(duì)有意義的進(jìn)展給予部分分。評(píng)審員根據(jù)既定標(biāo)準(zhǔn)獨(dú)立評(píng)分,對(duì)不完全符合評(píng)分方案的解法也適當(dāng)給分,并記錄了評(píng)分理由和部分分?jǐn)?shù)的合理性說(shuō)明。

失敗模式分類

評(píng)估者在評(píng)分過(guò)程中記錄了明顯的失敗模式 —— 即推理中首次出現(xiàn)的錯(cuò)誤或解釋不充分的實(shí)例,包括邏輯缺陷、無(wú)根據(jù)的假設(shè)、數(shù)學(xué)不準(zhǔn)確或計(jì)算錯(cuò)誤。這些錯(cuò)誤被具體分為四類:

  • 邏輯:由于邏輯謬誤或無(wú)根據(jù)的推理跳躍導(dǎo)致的錯(cuò)誤,中斷了推理過(guò)程。
  • 假設(shè):由于引入未經(jīng)證明或不正確的假設(shè)而產(chǎn)生的錯(cuò)誤,這些假設(shè)破壞了后續(xù)步驟。
  • 創(chuàng)造力:由于無(wú)法識(shí)別正確方法而導(dǎo)致的從根本上錯(cuò)誤的解決策略所造成的錯(cuò)誤。
  • 代數(shù) / 算術(shù):由關(guān)鍵的代數(shù)或算術(shù)計(jì)算錯(cuò)誤引起的錯(cuò)誤。

研究團(tuán)隊(duì)還系統(tǒng)性地記錄了模型在生成解決方案過(guò)程中表現(xiàn)出的顯著行為模式和趨勢(shì),以便進(jìn)行深入分析。這些觀察結(jié)果有助于識(shí)別模型推理能力中存在的常見(jiàn)問(wèn)題和需要改進(jìn)的方向。

結(jié)果

主要結(jié)果

研究評(píng)估了六個(gè)推理模型(QWQ、R1、FLASH-THINKING、O1-PRO、O3-MINI 和 Claude 3.7)在 2025 年 USAMO 問(wèn)題上的表現(xiàn)。

表 1 詳細(xì)分析了各模型在每個(gè)問(wèn)題上的表現(xiàn),平均分基于四次評(píng)估運(yùn)行計(jì)算,每題滿分 7 分,每次運(yùn)行總分 42 分。表中還包括使用各模型的總成本數(shù)據(jù)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

評(píng)估發(fā)現(xiàn),雖然當(dāng)前頂尖語(yǔ)言模型在以數(shù)值答案為主的競(jìng)賽(如 AIME 和 HMMT)中可與頂尖人類競(jìng)爭(zhēng)者相當(dāng),但在生成嚴(yán)格證明方面存在顯著差距。所有評(píng)估模型的最高平均分不足 5%,近 150 個(gè)被評(píng)估的解答中無(wú)一獲得滿分。

所有模型都無(wú)法解決超過(guò)一個(gè)問(wèn)題,這凸顯了當(dāng)前大型語(yǔ)言模型在奧林匹克級(jí)數(shù)學(xué)推理任務(wù)中的局限性。這表明現(xiàn)有優(yōu)化方法如 GRPO 對(duì)需要高度邏輯精確性的任務(wù)可能尚不足夠。

失敗模式

人類參與者最常見(jiàn)的失誤是無(wú)法找到正確解答,但他們通常能清楚判斷自己是否成功解決了問(wèn)題。相比之下,所有評(píng)估的大型語(yǔ)言模型都聲稱已解決問(wèn)題,這對(duì)數(shù)學(xué)應(yīng)用構(gòu)成重大挑戰(zhàn),因?yàn)樵谌狈?yán)格人類驗(yàn)證的情況下,這些模型得出的結(jié)果不可信賴。

研究人員詳細(xì)分析了評(píng)分過(guò)程中發(fā)現(xiàn)的錯(cuò)誤類型。圖 2 展示了評(píng)審員確定的錯(cuò)誤類別分布。

最常見(jiàn)的是邏輯缺陷,包括無(wú)依據(jù)的推理步驟、錯(cuò)誤理由或?qū)ο惹斑M(jìn)展的誤解。另一個(gè)重要問(wèn)題是模型傾向于將關(guān)鍵證明步驟視為瑣碎而不提供適當(dāng)證明。值得注意的是,盡管 O3-MINI 是表現(xiàn)最佳的推理模型之一,卻經(jīng)常通過(guò)將關(guān)鍵步驟標(biāo)記為「瑣碎」來(lái)跳過(guò)基本證明步驟。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

研究還發(fā)現(xiàn)模型推理缺乏創(chuàng)造性,通常在所有嘗試中采用相同且錯(cuò)誤的策略,未能探索替代方法。例外是 FLASH-THINKING,它在同一運(yùn)行中嘗試多種策略,但僅淺層探索每種方法,未能得出有效結(jié)論。

然而,模型在代數(shù)和算術(shù)計(jì)算方面普遍表現(xiàn)出色,能在沒(méi)有外部支持的情況下成功執(zhí)行符號(hào)運(yùn)算。不過(guò),R1 表現(xiàn)出明顯更高頻率的代數(shù)或算術(shù)錯(cuò)誤,表明這是該模型需要改進(jìn)的方向。

自動(dòng)評(píng)分

研究團(tuán)隊(duì)探索了用 LLMs 替代人類評(píng)分員的可行性,選擇 O3-MINI 和 Claude 3.7 作為評(píng)分模型。兩個(gè)模型均獲得了評(píng)分方案、驗(yàn)證解決方案和評(píng)估示例參考。

表 2 顯示,兩個(gè)模型都未能準(zhǔn)確評(píng)分解決方案,均系統(tǒng)性地高估了解答質(zhì)量。具體而言,它們經(jīng)常為不正確或無(wú)依據(jù)的推理授予分?jǐn)?shù),導(dǎo)致分?jǐn)?shù)膨脹最多達(dá)到 20 倍。

值得注意的是,F(xiàn)LASH-THINKING 從自動(dòng)評(píng)估中獲得的分?jǐn)?shù)明顯低于其他模型,研究人員推測(cè)這可能是因?yàn)樗鼉A向于在每次嘗試中生成多個(gè)解決方案,從而混淆了基于 LLMs 的評(píng)審系統(tǒng)。相比之下,QWQ 獲得較高分?jǐn)?shù),可能是因?yàn)樗ǔI筛?jiǎn)潔的解決方案,更便于自動(dòng)評(píng)審系統(tǒng)理解。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

定性討論

答案框選

當(dāng)前強(qiáng)化學(xué)習(xí)優(yōu)化技術(shù)依賴從明確的最終答案中提取獎(jiǎng)勵(lì),為此模型常被要求將最終答案放在 \boxed {} 環(huán)境中。然而,這在 USAMO 問(wèn)題解答中產(chǎn)生了意外副作用:即使大多數(shù)評(píng)估問(wèn)題不需要框選答案,模型仍習(xí)慣性地這樣做。

一個(gè)典型例子是問(wèn)題 5 中,QWQ 模型錯(cuò)誤地限制自己只尋找整數(shù)解,盡管題目沒(méi)有這樣的要求。它堅(jiān)持最終答案是 2,雖然已經(jīng)正確推導(dǎo)出所有偶數(shù)都滿足條件。這表明像 GRPO 這樣的對(duì)齊技術(shù)可能無(wú)意中讓模型認(rèn)為每個(gè)數(shù)學(xué)問(wèn)題都需要一個(gè)明確的框選答案,從而損害了其整體推理能力。

模式泛化

模型常表現(xiàn)出將小數(shù)值案例中觀察到的模式過(guò)度泛化到更大未測(cè)試案例的傾向。雖然這種啟發(fā)式方法對(duì)僅需數(shù)值答案的問(wèn)題可能有效,但對(duì)于需要嚴(yán)格證明的問(wèn)題,這種方法本質(zhì)上存在缺陷。模型經(jīng)常在缺乏正式證明的情況下,錯(cuò)誤地?cái)嘌孕“咐杏^察到的模式具有普遍適用性。

解答結(jié)構(gòu)與清晰度

不同模型提供的解答在清晰度和結(jié)構(gòu)連貫性上存在顯著差異。O3-MINI 和 O1-PRO 等模型通常以清晰、邏輯化且易于理解的方式呈現(xiàn)解答。相反,F(xiàn)LASH-THINKING 和 QWQ 等模型經(jīng)常產(chǎn)生混亂且難以理解的回答,有時(shí)在單個(gè)解答中混合多個(gè)不相關(guān)的概念。

OpenAI 訓(xùn)練的模型在清晰度上的明顯優(yōu)勢(shì)表明,專注于解答連貫性的額外訓(xùn)練顯著提高了其可讀性,這一特性在其他模型中明顯受到較少重視。

所以,當(dāng)下次有人警告你「AI 即將統(tǒng)治世界」時(shí),不妨淡定地遞給他一張奧數(shù)試卷:「先讓它們過(guò)了這一關(guān)再說(shuō)吧?!?/p>