每當有人問我AI是不是比人聰明的時候,我只用一句話他就會閉嘴。
那就是,9.11 和 9.9 哪個大?
自打去年有網(wǎng)友發(fā)現(xiàn)比大小這個 bug 以來,這一個人類可以一眼定真的問題,對 AI 來說那就跟送命題一樣,比女朋友問我跟你媽掉水里先救誰還難回答。
所以每次有新 AI 出現(xiàn)都會被網(wǎng)友們拿這個問題測試一遍,到現(xiàn)在2025年都要過去 1/3 了,還是有 AI 做不對。

不過,要理解AI為啥數(shù)學上犯傻,咱還是得站到ai的角度上來聊。
當你告訴 AI “ 9.11 和 9.9 哪個大 ? ” 這句話的時候,它的眼中并沒有數(shù)字,而是一個個碎片化的詞。
比如 “ 9.11 ” 會被拆成 [token_9, token_dot, token_11]
,而 “ 9.9 ” 則會被拆成[token_9, token_dot, token_9]
。
也就是說,這倆數(shù)對 AI 而言一開始就沒有大小之分,而是一堆 Tokens 。所以當你提問以后, AI 的第一反應(yīng)是要明白,這里的 9.11 是個啥?

眾所周知,AI嘴里的所有內(nèi)容,全都靠從網(wǎng)上的各種信息里學,而 “ 這個網(wǎng)絡(luò) ” 是程序員們 “ 創(chuàng)造的 ” ,所以當AI學多了這些語料后,腦子也就變成人家的形狀了。
所以再看到9.11 和 9.9
時,AI可能就壓根沒把這倆數(shù)當成數(shù)學里的小數(shù)比大小,而是字符串、版本號,甚至可能是飛機撞雙子塔,和撞塔的前天。

再加上現(xiàn)在的AI都引入了注意力機制,所以系統(tǒng)一開始就過度注意了可能象征著日期、字符串、版本號的 token_11
,而不是把9.11
這個數(shù)字當成整體。
于是AI完事兒把這兩堆Tokens拉一塊兒做比較:
“ 9 ” = “ 9 ”,“ . ” =“ . ” , “ 11 ” > “ 9 ” ,破案了, 9.11 大于 9.9 。

有差友可能就要問了,像OpenAI-o1這些推理大模型,不是都號稱能做奧數(shù)題嗎,那人家怎么就能搞明白這些數(shù)學?
該說不說,那還真不一定。
本月初的一篇來自 INSAIT 、蘇黎世聯(lián)邦理工學院(ETH Zurich)等頂尖機構(gòu)的論文研究顯示,這些號稱能做對奧數(shù)題的大模型絕大部分做的都是算術(shù)填空題。
當研究人員把題庫換成論述解答題以后,發(fā)現(xiàn)從 DeepSeek-R1 到 OpenAI-o1pro ,甚至新出的 Claude3.7 都只能拿到零點幾分(滿分7分)。。。

從這幫大模型的翻車記錄中,研究人員發(fā)現(xiàn)目前這些推理大模型也是一個比一個抽象。
比如在一道幾何證明題里,所有模型都幻想出了不同的假定理,然后用假定理去硬解題,最后做出來的也就是全錯的。
像o3-mini就直接假設(shè)一個點位于特定圓外部,但實際上那個點應(yīng)該在里面,于是后面模型利用切線做的論證就全錯了。

而gemini-2.5-pro更離譜,它在論述過程里寫了個表情,然后把表情當成參考文獻去證明了。。。

雖然這可能是因為模型的隨機性,但更無語的是這些大模型往往相當固執(zhí)。
即使你告訴它這里是錯的,它還是不會跳出原先的思維定式,老是在一棵樹上吊死。
而在所有失敗分布中,有將近一半的原因都是因為推理邏輯錯誤。沒錯,這些號稱推理的大模型,真到了純推理的時候就會翻車。。。

比如在一個要證明所有數(shù)據(jù)都滿足某個性質(zhì)的問題中,Claude 3.7模型只證明了一個,就直接說所有的都符合這個性質(zhì),中間沒有任何歸納、推廣的步驟,就純嘴硬。

也就是說,這些推理大模型看上去能分析這那的,但實際上不具備真正深度思考的能力,當然這是因為Transformer的問題,也是大語言模型的通病。
對Transformer模型來說,它實際上是通過tokens之間的概率,權(quán)重來輸出對應(yīng)的文字符號,它操作的是符號的統(tǒng)計關(guān)聯(lián),是在預測“給定前面的符號,后面跟哪個符號的可能性更大”,而不是在理解和執(zhí)行抽象的數(shù)學公理。
所以在論文最后,研究人員總結(jié)說:當前的LLMs不足以完成嚴格的數(shù)學推理任務(wù),這凸顯了推理和證明生成能力需要大幅改進。
也就是說,AI確實擅長模仿(Mimicry),但它和真正的理解(Understanding)與創(chuàng)造(Creation)還相當遙遠,AI到目前也還不具備像人類一樣,對數(shù)學的思考和認知能力。

但要從更本質(zhì)上講,AI的數(shù)學缺陷其實是因為符號與理解的割裂。
雖然它能學會跟你對答如流,但這只是照搬語言的模式,而這種模式跟精確的數(shù)學邏輯不是一回事兒,人類語言本身就充滿歧義。
維特根斯坦說,“語言的邊界意味著世界的邊界”。對我們?nèi)祟惗?,?shù)字并不是是眼前的黑白符號,“9”就是九個蘋果,“0.11米”就是尺子上那段你量出的長度,這些概念全部來自你和世界的互動。
而語言卻無法描述這些經(jīng)歷到底有多豐富,就像AI永遠弄不明白,她的“愛過”兩個字,會讓你的心有多痛。
前幾個月deepseek大火的時候,有人問deepseek如果變成人,最想做什么?deepseek說它想去經(jīng)歷暴雨、去熬夜讀書、去經(jīng)歷失戀,甚至承認自己會犯錯。

實際上,這恰恰就是AI越來越強的現(xiàn)在,你和我作為人類存在的價值。
生命的意義不是要你成為一臺不會出錯的機器,而是全然地投入這場有笑有淚、有成有敗、充滿不確定的旅程。正是這些看似平平無奇還不完美的經(jīng)歷,構(gòu)成了人的一生:豐富、復雜、充滿體驗而不斷變化。
所以下一次,當你輕松地判斷出9.9大于9.11時,不妨停頓一下,感受這中理所當然背后作為人類的深刻與幸運。
畢竟在這浩瀚宇宙中,能夠思考、能夠感受、能去愛,去體驗生活本身,就是我們存在的奇跡。
撰文:納西
編輯:江江 & 面線
美編:煥妍
圖片、資料來源:
PROOF OR BLUFF? EVALUATING LLMS ON 2025 USA MATH OLYMPIAD
REASONING LIMITATIONS OF MULTIMODAL LARGE LANGUAGE MODELS. A CASE STUDY OF BONGARD PROBLEMS
涌現(xiàn)據(jù)點:數(shù)學之謎,揭秘AI在奧數(shù)證明中的驚人失敗
OpenAI Platfor、小紅書、知乎等,部分圖源網(wǎng)絡(luò)

熱門跟貼