▲點(diǎn)擊圖片報(bào)名,抓住風(fēng)口(iOS用戶請用電腦端打開小程序)
本期要點(diǎn):AI也要應(yīng)試?但真正該做的是換條路!
你好,我是王煜全,這里是王煜全要聞評論。
面對這場AI浪潮,大家常常感到恐慌。特別是在馬斯克的不斷宣傳下,很多人都擔(dān)心AI很快會取代人類,甚至導(dǎo)致人類毀滅。
但是,就像昨天我們介紹楊立昆對人形機(jī)器人的看法時提到的,人類距離實(shí)現(xiàn)AGI(通用人工智能)還很遙遠(yuǎn),所以大家大可不必被“AI末日說”搞得一驚一乍。
而且,最近我們又看到了一個有趣的新聞,證明了AI至少在短期內(nèi)無法替代人類。
上周,“弧光獎基金會”(Arc Prize Foundation)發(fā)布了一項(xiàng)名為ARC-AGI-2的測試。根據(jù)他們的數(shù)據(jù),這個測試已經(jīng)難倒了幾乎所有現(xiàn)有的AI模型。
如OpenAI的o1-pro和DeepSeek的R1等推理AI大模型,在ARC-AGI-2測試中的得分僅為1%~1.3%。而各類非推理模型,如GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Flash等,得分則更低。
更關(guān)鍵的是,研究人員邀請了400多個普通人參與ARC-AGI-2測試。結(jié)果顯示,平均而言,大家答對了測試中60%的問題,遠(yuǎn)遠(yuǎn)超過了所有模型的得分。
也就是說,“弧光獎基金會”找到了一類人類比較擅長、但AI幾乎無法完成的任務(wù),而且鑒于AI得分如此之低,它們在短期內(nèi)想要超過人類,難度很大。

我認(rèn)為,當(dāng)前大模型在ARC-AGI-2測試中的潰敗,確實(shí)暴露了AI方法論上的問題,表明單純堆砌算力和數(shù)據(jù)量并不能碾壓一切。如果要進(jìn)一步發(fā)展,必須轉(zhuǎn)換思路。同時,這也觸及了人工智能領(lǐng)域的一個核心問題:如何判斷一個模型是否真正具備了通用智能。
首先,你也許會好奇,是什么事情把AI難住了?
其實(shí)在科技界,ARC-AGI測試已小有名氣。這些問題類似于謎題,比如要求AI從一組顏色各異的方塊中識別出視覺模式,并生成正確的“答案”網(wǎng)格。說白了,就是給AI一些從未見過的新問題,考驗(yàn)其發(fā)現(xiàn)規(guī)律、解決問題的能力。
簡而言之,這就是為了測試AI的“小樣本泛化”能力,也就是我們常說的“舉一反三”、“觸類旁通”—-從對少量案例的觀察中發(fā)現(xiàn)規(guī)律、并運(yùn)用到后續(xù)實(shí)踐中的能力。通過不了ARC-AGI-2測試,至少說明當(dāng)前的AI方法論存在上限,未來也很難實(shí)現(xiàn)AGI。

ARC-AGI-2測試題目
人類智能的獨(dú)特性,正體現(xiàn)在能從有限的經(jīng)驗(yàn)中抽象出通用規(guī)則。例如,我們能從數(shù)字變化中總結(jié)出乘法規(guī)則,然后還能用這些規(guī)則進(jìn)行計(jì)算,既不會算錯,也不會因?yàn)閱栴}的表述形式(比如是應(yīng)用題、而不是算術(shù)式)而不會解題。
但當(dāng)前的AI大模型經(jīng)常出現(xiàn)幻覺,在99%的情況下非常可靠,在1%的狀況下卻會發(fā)生荒誕失誤。正如Meta首席AI科學(xué)家楊立昆(Yann LeCun)所指出的,當(dāng)前AI大模型都是基于自回歸預(yù)測機(jī)制,也就是“猜下一個詞”,這還是概率,而不是真的理解了規(guī)律,自然永遠(yuǎn)無法超越人類智能。
因?yàn)楝F(xiàn)有的AI,不光不能“觸類旁通”,還得“舉一萬才能返三”,所以,對那些沒見過的事情,AI就是答不出來;對那些小概率事件,AI就是應(yīng)對不好,這是刻在骨子里的缺陷。

但是,話說回來,我想強(qiáng)調(diào)的是,單純追求小樣本泛化的能力的測試結(jié)果,可能會陷入測試導(dǎo)向的發(fā)展誤區(qū)。
如果未來有AI大模型通過了ARC-AGI-2測試,是否就意味著實(shí)現(xiàn)了AGI呢?這顯然是站不住腳的,因?yàn)檫@樣的測試并沒有排除用別的方法找到結(jié)果的可能性,也就是說,做對了題的AI,也不保證用的就是“小樣本泛化”能力。
實(shí)際上,在ARC-AGI的第一代測試中,就有模型通過暴力破解的方式獲得了高分。
例如,OpenAI的o3,就是首個在ARC-AGI-1上取得了75.7%高分的模型。但很明顯,這并不能真正證明o3有小樣本泛化能力,更不能證明它達(dá)到了AGI的水平,大概率是模型為了刷分而專門進(jìn)行了優(yōu)化。
為了解決這一問題,ARC-AGI-2測試就要求模型在解答問題時,每項(xiàng)任務(wù)花費(fèi)不能超過0.42美元。不僅要能獲得高分,還要考慮效率和成本。由于o3模型每解答一個問題就需要消耗約200美元的計(jì)算成本,所以無法通過新的測試。
可是這并沒有高枕無憂,只要是設(shè)計(jì)的測試題,就有可能存在漏洞。很難說以后不會有模型在訓(xùn)練中,找到新的暴力破解或者偶然撞對答案的方法,那樣,測試題的效力就會大打折扣。
那么,究竟該怎么辦呢?我認(rèn)為,自然是要嘗試新的具有真正理解能力的模型設(shè)計(jì),而不是仍然試圖通過現(xiàn)有模型概率預(yù)測的舊方法來取得高分。
楊立昆倡導(dǎo)“世界模型”,通過嵌入物理定律和因果推理模塊來構(gòu)建基礎(chǔ)認(rèn)知架構(gòu),以求從范式上超越現(xiàn)有AI大模型。他們的團(tuán)隊(duì)也開始了初步探索,未來可以關(guān)注其后續(xù)進(jìn)展。
但我覺得,“世界模型”也是不夠的。AI的競爭不僅靠技術(shù)革命,更要靠認(rèn)知革命。
首先,我們或許應(yīng)該要理解人類“舉一反三”的能力從何而來。所謂泛化,其實(shí)是記憶、感知和抽象動態(tài)交互的結(jié)果。遇到新事物時,我們會以很低的功耗從現(xiàn)象中抽象出規(guī)則,并在可控范圍內(nèi)將其與已有的規(guī)則和經(jīng)驗(yàn)進(jìn)行比較。
就像古人第一次見到大象時,雖然叫不出其名字,但也會與既往的認(rèn)知進(jìn)行關(guān)聯(lián),將其放入大型野生動物的認(rèn)知框架之中,知道不能切成一塊塊的來稱重量。
其次,我們的認(rèn)知其實(shí)是個貝葉斯式漸進(jìn)優(yōu)化的過程,體現(xiàn)為以目標(biāo)為導(dǎo)向、且能持續(xù)進(jìn)行自我修正。即便碰到?jīng)]見過的問題,在大部分情況下,我們通過學(xué)習(xí)知識、原理分析和實(shí)踐嘗試,就能在有限次的循環(huán)中朝正確方向收斂。而AI只有實(shí)現(xiàn)了這一點(diǎn),才能避免陷入重復(fù)試錯的低效運(yùn)轉(zhuǎn)之中。
最后,我還想強(qiáng)調(diào)的是,社會化AI可能才是通往下一階段的重要路徑,因?yàn)槿祟惖闹腔鄄粌H來自個體,更來自于群體。具體可以回看以往的思想薈文章,我有更詳細(xì)的論述。
當(dāng)然,對于廣大的開發(fā)者和創(chuàng)業(yè)者而言,我們不用管AGI何時到來,專家型AI確實(shí)可以遠(yuǎn)超人類專家,專家級的、個性化的、連續(xù)的、普惠的智能服務(wù)已經(jīng)可以實(shí)現(xiàn),真正的黃金時代其實(shí)就已經(jīng)到來了。如果你也想抓住時代紅利,歡迎掃碼加入特訓(xùn)營直播課,與我一起,先人一步,看清未來!

此外,前哨AI小課第四季已經(jīng)進(jìn)展到第五講了,想用AI提升自己職業(yè)能力的朋友,千萬不要錯過!最后,您的寶貴意見是我們不斷優(yōu)化課程內(nèi)容的關(guān)鍵,在此誠摯地邀請您抽出幾分鐘,掃碼參與AI小課的問卷調(diào)查,一起幫助我們提升課程質(zhì)量。非常感謝!
以上就是今天的內(nèi)容,王煜全要聞評論,我們明天見。
【科技特訓(xùn)營】看懂科技產(chǎn)業(yè),離不開長期觀察。線上書院模式,與王老師深度鏈接!為未來五年做好準(zhǔn)備,先人一步,領(lǐng)先一路!
↓長按圖片掃碼報(bào)名, 先人一步,領(lǐng)先一路

↓¥399,掌握王煜全AI產(chǎn)業(yè)預(yù)測精華(iOS用戶請?jiān)陔娔X端打開)
此外,我們還為您準(zhǔn)備了一份清單
“全球AI獨(dú)角獸公司TOP10”
熱門跟貼