人工智能在數(shù)學(xué)領(lǐng)域高歌猛進,似乎正以不可阻擋之勢逼近甚至超越人類智慧的邊界。從國際數(shù)學(xué)奧林匹克(IMO)賽場上斬獲銀牌級成績(DeepMind的 AlphaProof與AlphaGeometry 2組合系統(tǒng)[1] 解決了當(dāng)屆難題),到輔助頂尖數(shù)學(xué)家證明困擾學(xué)界數(shù)十年的猜想(如 卡日丹-盧斯蒂格多項式[2]),再到 AlphaTensor發(fā)現(xiàn)超越人類已知最優(yōu)解的矩陣乘法算法[3],AI的數(shù)學(xué)“傳奇”故事層出不窮,似乎預(yù)示著一個機器智能主導(dǎo)數(shù)學(xué)研究的新紀(jì)元即將到來。諸如OpenAI的 O3-MINI[4] 等模型,在 MathArena[5] 等基準(zhǔn)測試的AIME(美國數(shù)學(xué)邀請賽)模擬中,取得了高達(dá) 86.7%的驚人準(zhǔn)確率[6],幾乎與人類頂尖選手持平。一時間,“AI數(shù)學(xué)天才”的形象深入人心。

然而,就在這片樂觀的喧囂之下,一項來自INSAIT、蘇黎世聯(lián)邦理工學(xué)院(ETH Zurich)等頂尖機構(gòu)的研究,悄然進行了一場不為大眾所知的、堪稱“終極試煉”的測試,結(jié)果卻石破天驚。這份名為 《Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad》[7](證明還是虛張聲勢?評估大語言模型在美國2025數(shù)學(xué)奧林匹克上的表現(xiàn))的預(yù)印本論文,像一面冷峻的鏡子,照見了AI數(shù)學(xué)“天才”光環(huán)下令人不安的陰影。研究團隊讓包括O3-MINI、Claude 3.7在內(nèi)的六款當(dāng)前最先進的AI推理模型,挑戰(zhàn)了真正考驗數(shù)學(xué)思維深度——需要嚴(yán)格證明的美國數(shù)學(xué)奧林匹克(USAMO)2025年的題目。下圖展示了其中兩道題目的示例:

打開網(wǎng)易新聞 查看精彩圖片

圖注:USAMO題目不僅要求答案,更要求嚴(yán)謹(jǐn)?shù)淖C明過程,考察深度邏輯推理能力。來源:《Proof or Bluff?》Fig. 1[8]

結(jié)果如何?平均得分低于5%!與它們在AIME等只需給出數(shù)值答案的測試中的輝煌戰(zhàn)績形成了刺眼的對比。更令人困惑的是,幾乎所有模型在提交了幾乎完全錯誤的解答后,都自信滿滿地宣稱“問題已解決”。這戲劇性的反轉(zhuǎn)不禁讓人脊背發(fā)涼:那個在計算題上所向披靡的AI“學(xué)霸”,為何在需要真正“講道理”的證明題面前,竟顯得如此不堪一擊?這究竟是技術(shù)發(fā)展中的暫時性瓶頸,還是暴露了當(dāng)前AI范式難以逾越的根本性鴻溝?這背后隱藏的,是對AI能力邊界、乃至人類智能獨特性的深刻追問。

深入探秘:USAMO測試的特殊挑戰(zhàn)

要理解這場AI的“滑鐵盧”,我們首先需要認(rèn)識USAMO(美國數(shù)學(xué)奧林匹克)究竟是何方神圣。在全球數(shù)學(xué)競賽的金字塔體系中,其層級關(guān)系大致如下:

打開網(wǎng)易新聞 查看精彩圖片

圖注:全球數(shù)學(xué)競賽體系層級示意圖,USAMO是通往IMO的關(guān)鍵環(huán)節(jié)。信息來源:MAA官網(wǎng)[9]及維基百科[10]

USAMO正是這個體系中承上啟下的關(guān)鍵一環(huán),是通往IMO國家隊的“試金石”。與AIME側(cè)重計算技巧和快速得出數(shù)值答案不同,USAMO的靈魂在于證明。它要求參賽者在極長時間內(nèi)(兩天,每天4.5小時)完成6道高難度題目,每一題都需要提供完整、嚴(yán)謹(jǐn)、邏輯無懈可擊的數(shù)學(xué)證明,正如 Art of Problem Solving網(wǎng)站上的USAMO介紹[11] 所述。

數(shù)學(xué)證明,絕非僅僅是“算出答案”。它是一門要求深刻理解概念、靈活運用定理、構(gòu)建邏輯鏈條、甚至需要創(chuàng)造性洞察的藝術(shù)。從 歐幾里得《幾何原本》[12] 奠定公理化范式,到現(xiàn)代數(shù)學(xué)家借助形式化語言和 Lean[13]、Coq[14] 等計算機輔助證明工具驗證復(fù)雜猜想,證明的標(biāo)準(zhǔn)在不斷演進,但其核心——對真理的嚴(yán)謹(jǐn)追求和深刻理解——從未改變。正如數(shù)學(xué)教育專家指出的,USAMO的獨特價值在于它彌補了傳統(tǒng)教育中對證明寫作和開放性問題解決能力訓(xùn)練的不足,真正考察的是學(xué)生是否具備未來數(shù)學(xué)研究所需的深度思維能力(可參考數(shù)學(xué)家 Tanya Khovanova的博客文章[15])。例如,USAMO 2025年的一道題目涉及到一個復(fù)雜的無限城市布局博弈,要求參賽者不僅要理解游戲規(guī)則,更要構(gòu)建全局策略并證明其完備性,融合了組合游戲、拓?fù)浣Y(jié)構(gòu)和形式邏輯(見 2025 USAMO 題目列表[16])。這與AIME中常見的、可以通過標(biāo)準(zhǔn)技巧求解的代數(shù)或計算幾何題,在認(rèn)知要求上有著天壤之別。

正是USAMO的這種獨特性,使其成為了檢驗AI真實數(shù)學(xué)推理能力的“照妖鏡”。研究團隊深知這一點,因此設(shè)計了極其嚴(yán)格的評估流程:邀請了四位具有前IMO國家隊成員背景的數(shù)學(xué)專家組成評審團,采用與人類競賽完全相同的7分制評分標(biāo)準(zhǔn),對AI生成的每一份證明進行獨立、細(xì)致的交叉評估。被測試的六款模型,包括聲名赫赫的O3-MINI和Claude 3.7,都是當(dāng)前公認(rèn)的推理能力佼佼者。這場測試,無疑是對AI數(shù)學(xué)能力的一次前所未有的“深度體檢”。

揭秘結(jié)果:AI的數(shù)學(xué)"滑鐵盧"

測試結(jié)果令人瞠目結(jié)舌。在總共近150份(6個模型 x 6道題 x 4次運行)AI生成的解答中,沒有任何一份獲得滿分7分。所有模型的平均得分都**低于5%**,即在滿分42分的測試中,平均得分不到2.1分。即使是此前在AIME模擬中表現(xiàn)最搶眼的O3-MINI,其平均得分也僅為0.9分,與人類頂尖選手的表現(xiàn)相去甚遠(yuǎn)。這份慘淡的成績單(詳見下表),與AI在數(shù)值計算、模式識別等任務(wù)上的高光表現(xiàn)形成了強烈的、幾乎是諷刺性的對比。

打開網(wǎng)易新聞 查看精彩圖片

表格注:展示了各AI模型在USAMO 2025六個問題上的平均得分(滿分7分/題)和總平均分。數(shù)據(jù)來源:《Proof or Bluff?》Table 1[17]

更令人不安的是AI表現(xiàn)出的“虛假自信”。研究報告指出,幾乎所有模型在提交解答時,都使用了諸如“我們已經(jīng)成功證明了…”、“因此,結(jié)論成立…”等確定性表述,完全無視其證明過程中存在的明顯邏輯漏洞或前提錯誤。這種現(xiàn)象,在AI領(lǐng)域被稱為“幻覺”(Hallucination),但在數(shù)學(xué)這個對精確性要求極高的領(lǐng)域,其潛在危害遠(yuǎn)超文學(xué)創(chuàng)作中的“一本正經(jīng)胡說八道”。想象一下,如果一個用于藥物研發(fā)或橋梁設(shè)計的AI系統(tǒng),以同樣的自信提交了基于錯誤數(shù)學(xué)推導(dǎo)的方案,后果將不堪設(shè)想(關(guān)于AI幻覺風(fēng)險的討論,可參考 Science AI Chat的相關(guān)文章[18] 或 這篇關(guān)于AI幻覺的綜述[19])。

雪上加霜的是,研究團隊還發(fā)現(xiàn),讓AI模型(O3-MINI和Claude 3.7)來評估其他AI生成的證明時,其評分結(jié)果與人類專家評分存在驚人的偏差——AI評分平均比人類專家評分高出近20倍!這意味著AI不僅自身在進行嚴(yán)格數(shù)學(xué)推理時存在嚴(yán)重問題,甚至連識別自身或其他AI錯誤的能力也極其有限。這無疑給那些希望通過AI自監(jiān)督學(xué)習(xí)或相互評估來提升推理能力的技術(shù)路線蒙上了一層厚厚的陰影。

打開網(wǎng)易新聞 查看精彩圖片

表格注:對比了人類專家與AI模型對各模型解答的評分,并計算了AI評分相對人類評分的平均倍數(shù)。數(shù)據(jù)來源:《Proof or Bluff?》Table 2[20]

破解之謎:AI的數(shù)學(xué)思維缺陷

為何AI會在嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)證明面前如此脆弱?研究團隊通過對AI錯誤解答的細(xì)致分析,歸納出四大“致命弱點”:

打開網(wǎng)易新聞 查看精彩圖片

圖注:根據(jù)《Proof or Bluff?》研究中對AI失敗模式的分類和大致比例繪制。邏輯錯誤是最主要的失敗原因。

  1. 邏輯斷鏈 (Flawed Logic):這是最常見的失敗模式(如上圖所示,占比最高)。AI生成的證明往往在推理鏈條的中間環(huán)節(jié)出現(xiàn)斷裂。例如,論文附錄C.1.1中提到,在一個需要證明所有指標(biāo)都滿足某個性質(zhì)的問題中,Claude 3.7模型在證明了單個指標(biāo)滿足該性質(zhì)后,便錯誤地將其泛化至所有指標(biāo),跳過了關(guān)鍵的歸納或推廣步驟。這種錯誤并非簡單的計算失誤,而是深層次邏輯推理能力的缺失。技術(shù)上,這與當(dāng)前主流Transformer架構(gòu)在處理長序列依賴和維持嚴(yán)格邏輯一致性上的固有局限密切相關(guān),正如 一篇分析Transformer推理能力局限的論文[21] 所指出的。Transformer本質(zhì)上是基于概率的模式匹配器,而非嚴(yán)謹(jǐn)?shù)倪壿嬔堇[機。

  2. 創(chuàng)造力沙漠 (Lack of Creativity):AI在面對需要新穎思路或多種策略組合的問題時,表現(xiàn)出驚人的“固執(zhí)”。它們往往會反復(fù)嘗試同一種(通常是錯誤的)解題路徑,即使多次運行也無法跳出思維定式。論文附錄C.1.2指出,在USAMO 2025年第3題那個復(fù)雜的博弈問題上,O3-MINI從一開始就選擇了一個錯誤的方向,并且在后續(xù)所有嘗試中都未能進行有效的策略調(diào)整。唯一的例外是FLASH-THINKING,它會嘗試在一次運行中生成多種解題思路,但每種思路都淺嘗輒止,同樣無法達(dá)成有效證明(見附錄C.2)。這與人類數(shù)學(xué)家在遇到困難時能夠靈活轉(zhuǎn)換視角、進行類比推理或構(gòu)造反例的能力形成了鮮明對比,關(guān)于人機創(chuàng)造力對比可參考 哈佛商業(yè)評論的研究[22]。

  3. 假設(shè)陷阱 (Unjustified Assumptions):AI在證明過程中常常會引入未經(jīng)證實或完全錯誤的假設(shè),并以此為基礎(chǔ)進行推導(dǎo),構(gòu)建出看似嚴(yán)密實則基礎(chǔ)崩塌的“空中樓閣”。一個典型的例子是,在USAMO 2025年第4題的幾何證明中,O3-MINI錯誤地假設(shè)了某個點位于特定圓的外部(見附錄C.1.3),而實際上該點位于圓內(nèi),導(dǎo)致后續(xù)基于切線性質(zhì)的論證完全失效。同樣,過度泛化小樣本觀察結(jié)果也是常見問題,比如FLASH-THINKING在測試了幾個具體多項式后,便輕率地將其結(jié)論推廣到所有多項式(見附錄C.4)。

  4. 優(yōu)化陷阱:AI被“訓(xùn)”出來的壞習(xí)慣 (Training Artifacts):當(dāng)前AI模型的訓(xùn)練方法,尤其是基于強化學(xué)習(xí)的優(yōu)化策略(如 GRPO[23]),也無意中塑造了一些不利于嚴(yán)謹(jǐn)數(shù)學(xué)思維的“壞習(xí)慣”。最典型的就是“答案框選”(Answer Boxing)現(xiàn)象。研究發(fā)現(xiàn),即使在USAMO這類根本不需要提供最終數(shù)值答案的證明題中,像QWQ這樣的模型也常常會“畫蛇添足”地在結(jié)尾處用\boxed{}框出一個(通常是無關(guān)緊要或錯誤的)數(shù)值(見附錄C.3)。這很可能是因為模型在訓(xùn)練中習(xí)慣了那些需要框出最終答案才能獲得獎勵的任務(wù),從而錯誤地將這種行為泛化到了所有數(shù)學(xué)問題上。這種為了迎合訓(xùn)練目標(biāo)而產(chǎn)生的行為偏差,恰恰說明模型并未真正“理解”問題的本質(zhì),關(guān)于GRPO的潛在問題可參考 這篇技術(shù)博客[24]。

這四大缺陷相互交織,共同構(gòu)成了當(dāng)前AI在高級數(shù)學(xué)推理上的“阿喀琉斯之踵”。它們揭示了一個核心問題:AI或許擅長模仿(Mimicry),但距離真正的理解(Understanding)和創(chuàng)造(Creation)仍有遙遠(yuǎn)距離。

人類數(shù)學(xué)家的獨特優(yōu)勢

AI在USAMO上的失敗,恰恰反襯出人類數(shù)學(xué)思維的獨特光芒。究竟是什么讓人類數(shù)學(xué)家能夠駕馭抽象概念、構(gòu)建嚴(yán)謹(jǐn)證明、實現(xiàn)創(chuàng)造性突破?認(rèn)知科學(xué)和數(shù)學(xué)史的研究為我們提供了一些線索:

  1. 概念性思維 (Conceptual Thinking):人類并非僅僅在操作符號,我們能夠真正理解抽象數(shù)學(xué)概念的內(nèi)涵和外延,把握它們之間的深層聯(lián)系。認(rèn)知科學(xué)研究表明,這種能力源于我們通過具身經(jīng)驗(如物理互動、空間導(dǎo)航)和符號系統(tǒng)(語言、數(shù)學(xué)符號)的協(xié)同作用,逐步構(gòu)建起從具體到抽象的認(rèn)知階梯,正如 《認(rèn)知雜志》的一項研究[25] 所揭示的。我們能“看見”數(shù)學(xué)結(jié)構(gòu),比如黎曼“看見”彎曲空間,瑟斯頓“看見”三維流形的幾何分解(關(guān)于數(shù)學(xué)可視化,可參考 數(shù)學(xué)家對可視化體驗的描述[26] 或 維基百科關(guān)于數(shù)學(xué)可視化的條目[27])。這種基于理解的“視覺洞察”,是當(dāng)前AI基于模式匹配的“計算視覺”所無法比擬的。

  2. 直覺與創(chuàng)造力 (Intuition and Creativity):數(shù)學(xué)史上眾多重大突破,如伽羅瓦創(chuàng)立群論、康托爾發(fā)現(xiàn)無窮集合的不同基數(shù)、高斯構(gòu)想非歐幾何,都源于超越當(dāng)時形式邏輯框架的直覺閃光(數(shù)學(xué)直覺的案例[28])。神經(jīng)科學(xué)研究發(fā)現(xiàn),數(shù)學(xué)創(chuàng)造力與大腦中默認(rèn)模式網(wǎng)絡(luò)(DMN)執(zhí)行控制網(wǎng)絡(luò)(ECN)的靈活切換有關(guān),允許我們在發(fā)散思維和聚焦驗證之間取得精妙平衡(見 Frontiers in Psychology的研究[29])。這種源于生物神經(jīng)網(wǎng)絡(luò)復(fù)雜動態(tài)的創(chuàng)造性火花,是目前基于Transformer等相對靜態(tài)結(jié)構(gòu)的AI難以模擬的。

  3. 元認(rèn)知與自我監(jiān)控 (Metacognition and Self-Monitoring):人類數(shù)學(xué)家在解決問題時,能夠進行高層次的元認(rèn)知活動——監(jiān)控自己的思考過程,評估策略的有效性,識別潛在的錯誤,并靈活調(diào)整方向(關(guān)于數(shù)學(xué)元認(rèn)知的研究可參考 這篇綜述[30] 或 維基百科關(guān)于元認(rèn)知的條目[31])。專業(yè)數(shù)學(xué)家在檢查證明時,會系統(tǒng)性地運用反例檢驗、結(jié)構(gòu)分解、依賴關(guān)系分析等方法,正如 [Rutgers大學(xué)的研究](https://sites.math.rutgers.edu/~jpmejia/files/Weber_(2008JRME "Rutgers大學(xué)的研究").pdf) 所描述的。這種“知道自己知道什么,知道自己不知道什么”的能力,與AI那高達(dá)20倍的評分誤差和虛假自信形成了鮮明對比。

正是這些深植于生物基礎(chǔ)和長期演化之上的認(rèn)知能力,構(gòu)成了人類在高級數(shù)學(xué)思維領(lǐng)域難以被輕易取代的核心優(yōu)勢。

未來之路:突破數(shù)學(xué)AI的天花板

USAMO測試的結(jié)果并非宣判AI數(shù)學(xué)能力的“死刑”,而是更清晰地指明了未來發(fā)展的方向和挑戰(zhàn)。當(dāng)前的困境,恰恰是通往更強大、更通用人工智能的必經(jīng)之路。

短期內(nèi)(未來1-3年),AI最現(xiàn)實的角色是增強型數(shù)學(xué)助手。它們可以在文獻(xiàn)檢索、模式發(fā)現(xiàn)、計算驗證、形式化證明轉(zhuǎn)換等方面極大提升人類數(shù)學(xué)家的工作效率。正如DeepMind與悉尼大學(xué)合作證明卡日丹-盧斯蒂格猜想(見Nature論文[32]),以及Lean4-Mathlib系統(tǒng)加速定理形式化(見專家觀點[33])所展示的那樣,AI可以成為強大的“副駕駛”,將研究者從繁瑣的事務(wù)中解放出來,聚焦于更具創(chuàng)造性的核心問題。

中期來看(未來3-7年),神經(jīng)符號系統(tǒng)(Neuro-Symbolic AI)被寄予厚望。這種架構(gòu)試圖將神經(jīng)網(wǎng)絡(luò)強大的模式識別、直覺啟發(fā)能力與符號系統(tǒng)(如邏輯推理引擎、定理證明器)的嚴(yán)謹(jǐn)性、可解釋性結(jié)合起來(了解神經(jīng)符號AI[34])。AlphaProof和AlphaGeometry 2的成功已經(jīng)初步驗證了這條路徑的潛力。未來,更成熟的神經(jīng)符號系統(tǒng)有望克服純粹基于Transformer架構(gòu)的邏輯推理瓶頸,在更廣泛的數(shù)學(xué)領(lǐng)域?qū)崿F(xiàn)可靠的證明生成與驗證。

長期而言(未來7年以上),真正的突破可能需要借鑒認(rèn)知科學(xué)和神經(jīng)科學(xué)的發(fā)現(xiàn),構(gòu)建更接近人腦工作原理的AI架構(gòu)。模擬前額葉-頂葉網(wǎng)絡(luò)的協(xié)同工作機制,實現(xiàn)概念抽象、直覺涌現(xiàn)和元認(rèn)知監(jiān)控,或許是通向通用人工智能(AGI)級數(shù)學(xué)能力的關(guān)鍵(相關(guān)討論[35])。

與此同時,人機協(xié)作將是貫穿始終的主旋律。未來的數(shù)學(xué)研究很可能演變成一種全新的范式,如下圖所示:

打開網(wǎng)易新聞 查看精彩圖片

圖注:未來數(shù)學(xué)研究可能形成人機協(xié)同的閉環(huán),人類負(fù)責(zé)高層次創(chuàng)造性工作,AI負(fù)責(zé)規(guī)模化探索與驗證。

這種協(xié)同將極大地加速數(shù)學(xué)知識的發(fā)現(xiàn)和應(yīng)用(人機協(xié)作案例[36])。

結(jié)語:數(shù)學(xué)智能的未解之謎

AI在USAMO上的“驚人失敗”,如同一聲警鐘,提醒我們在人工智能的浪潮中保持清醒和審慎。它揭示了當(dāng)前AI能力的真實邊界——在模式識別和計算任務(wù)上高歌猛進的同時,在需要深度理解、邏輯嚴(yán)謹(jǐn)和創(chuàng)造性思維的高階認(rèn)知領(lǐng)域,依然步履蹣跚。這種在邏輯證明上的“集體失敗”,是否暗示了當(dāng)前基于大數(shù)據(jù)的“暴力計算”范式在通往AGI道路上的根本性障礙?這對于AI產(chǎn)業(yè)的投資邏輯和技術(shù)路線選擇,無疑提出了新的思考方向,值得每一位科技從業(yè)者和決策者深思。

這次“滑鐵盧”并非否定AI的巨大潛力,而是為我們提供了一個寶貴的契機,去重新審視和理解智能的本質(zhì)。數(shù)學(xué),作為人類理性思維的巔峰,成為了檢驗機器智能深度和廣度的終極試煉場。AI的挑戰(zhàn),反過來也促使我們更深刻地思考:什么是真正的數(shù)學(xué)理解?直覺和創(chuàng)造力在知識發(fā)現(xiàn)中扮演著怎樣不可替代的角色?人類認(rèn)知的獨特性究竟體現(xiàn)在何處?(關(guān)于AI對數(shù)學(xué)哲學(xué)的啟示,可參考 相關(guān)研究[37])。AI的“數(shù)學(xué)幻覺”,或許也為我們理解人類意識、直覺和創(chuàng)造力的某種不可計算性,提供了新的側(cè)面證據(jù)。

未來,數(shù)學(xué)與AI的關(guān)系,更可能是共同進化而非簡單替代。AI將成為數(shù)學(xué)家探索未知世界的強大工具,拓展我們認(rèn)知的邊界;而人類的直覺、創(chuàng)造力和批判性思維,將繼續(xù)引領(lǐng)數(shù)學(xué)發(fā)展的方向。正如 Terence Tao[38] 等頂尖數(shù)學(xué)家所預(yù)見的那樣,我們正在進入一個“人機協(xié)同”的新數(shù)學(xué)時代。在這個時代,理解AI的局限與優(yōu)勢,發(fā)揮人類智能的獨特價值,將是推動科學(xué)進步的關(guān)鍵。人機協(xié)作的未來,是否會催生一種全新的“數(shù)學(xué)物種”或研究范式,徹底改變知識生產(chǎn)的方式?這對我們的教育體系,尤其是旨在培養(yǎng)下一代創(chuàng)新者的STEM教育,又提出了哪些迫切的改革要求?數(shù)學(xué)之謎依然深邃,而探索這個謎題的旅程,將因為AI的加入而變得更加波瀾壯闊。

參考資料

AlphaProof與AlphaGeometry 2組合系統(tǒng): https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

卡日丹-盧斯蒂格多項式: https://phys.org/news/2021-12-maths-hail-breakthrough-applications-artificial.html

AlphaTensor發(fā)現(xiàn)超越人類已知最優(yōu)解的矩陣乘法算法: https://www.nature.com/articles/s41586-022-05172-4

O3-MINI: https://openai.com/index/openai-o3-mini/

[5]

MathArena: https://matharena.ai/

[6]

86.7%的驚人準(zhǔn)確率: https://www.vals.ai/benchmarks/aime-2025-03-28

[7]

《Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad》: https://arxiv.org/abs/2503.21934v1

[8]

《Proof or Bluff?》Fig. 1: https://arxiv.org/abs/2503.21934v1

[9]

MAA官網(wǎng): https://maa.org/maa-invitational-competitions/

[10]

維基百科: https://en.wikipedia.org/wiki/United_States_of_America_Mathematical_Olympiad

[11]

Art of Problem Solving網(wǎng)站上的USAMO介紹: https://artofproblemsolving.com/wiki/index.php/United_States_of_America_Mathematical_Olympiad

[12]

歐幾里得《幾何原本》: https://en.wikipedia.org/wiki/Euclid%27s_Elements

[13]

Lean: https://leanprover.github.io/

[14]

Coq: https://coq.inria.fr/

[15]

Tanya Khovanova的博客文章: https://blog.tanyakhovanova.com/2009/03/amc-aime-usamo-contradiction/

[16]

2025 USAMO 題目列表: https://artofproblemsolving.com/wiki/index.php/2025_USAMO_Problems

[17]

《Proof or Bluff?》Table 1: https://arxiv.org/abs/2503.21934v1

Science AI Chat的相關(guān)文章: https://www.scienceos.ai/science-ai-chat/what-are-risks-of-ai-hallucinations-in-science/

這篇關(guān)于AI幻覺的綜述: https://en.wikipedia.org/wiki/Hallucination_(artificial_intelligence)

《Proof or Bluff?》Table 2: https://arxiv.org/abs/2503.21934v1

[21]

一篇分析Transformer推理能力局限的論文: https://arxiv.org/abs/2405.00352

[22]

哈佛商業(yè)評論的研究: https://www.library.hbs.edu/working-knowledge/generative-ai-and-creative-problem-solving

[23]

GRPO: https://huggingface.co/blog/NormalUhr/grpo

[24]

這篇技術(shù)博客: https://blog.gopenai.com/the-achilles-heel-of-reasoning-exploiting-group-dynamics-in-grpo-trained-language-models-ec9627ba7943

[25]

《認(rèn)知雜志》的一項研究: https://journalofcognition.org/articles/10.5334/joc.214

[26]

數(shù)學(xué)家對可視化體驗的描述: https://www.reddit.com/r/mathematics/comments/12znjzi/visualization_in_mathematics/

[27]

維基百科關(guān)于數(shù)學(xué)可視化的條目: https://en.wikipedia.org/wiki/Mathematical_visualization

[28]

數(shù)學(xué)直覺的案例: https://www.intelligence-and-iq.com/what-are-the-most-shocking-mathematical-discoveries-that-challenged-mathematicians-intuition/

[29]

Frontiers in Psychology的研究: https://www.frontiersin.org/journals/psychology/articles/10.3389/fpsyg.2024.1400328/full

[30]

這篇綜述: https://www.semanticscholar.org/paper/f38cd57e9ecf65d77cab780b0d05aa1ef76c354a

[31]

維基百科關(guān)于元認(rèn)知的條目: https://en.wikipedia.org/wiki/Metacognition

[32]

見Nature論文: https://www.nature.com/articles/s41586-021-04086-x

[33]

見專家觀點: https://epoch.ai/frontiermath/expert-perspectives

[34]

了解神經(jīng)符號AI: https://en.wikipedia.org/wiki/Neuro-symbolic_AI

[35]

相關(guān)討論: https://epoch.ai/frontiermath/expert-perspectives

[36]

人機協(xié)作案例: https://www.nature.com/articles/s41586-021-04086-x

[37]

相關(guān)研究: https://www.v500.com/philosophy-mathematics-artificial-intelligence/

[38]

Terence Tao: https://mathscholar.org/2024/10/terence-taos-vision-of-ai-assistants-in-research-mathematics/