
新智元報(bào)道
編輯:編輯部 YNH
【新智元導(dǎo)讀】OpenAI o3推理成本從3000美元飆至3萬(wàn)美元,暴增10倍。o3-high靠暴力試錯(cuò)生成4300萬(wàn)字解題,卻被ARC-AGI「除名」。
短短幾個(gè)月,最新評(píng)估顯示,o3推理成本比預(yù)初估計(jì)暴漲10倍!
在ARC-AGI最新測(cè)試上,AI單次任務(wù)曾用3000美元,而如今已飆升至30000美元。
來(lái)自牛津大學(xué)的高級(jí)研究員Toby Ord指出,o3-high看似性能強(qiáng)大,實(shí)則更多地依賴于海量計(jì)算,而非真正的推理突破。

o3-high在對(duì)每個(gè)任務(wù)嘗試1024次,每次生成137頁(yè)文本,總計(jì)4300萬(wàn)字——相當(dāng)于為每個(gè)任務(wù)寫了一本《大英百科全書》(4400萬(wàn)字)。
結(jié)果就是,完成每個(gè)任務(wù)成本高達(dá)3萬(wàn)美金。而這些簡(jiǎn)單的謎題,一個(gè)10歲的孩子可能只需4分鐘就能解決。

成本飆升直接導(dǎo)致了o3-high超出ARC-AGI每個(gè)任務(wù)1萬(wàn)美元限制,直接被排除在排行榜之外
甚至,o3-high的算力消耗竟是o3-low的172倍。
這種「暴力試錯(cuò)」的方式不禁讓人質(zhì)疑:這真的是智能解題嗎?
從驚艷到驚嚇,o3成本暴增10倍
去年12月,OpenAI推出了推理模型o3。
為了展示o3的強(qiáng)大性能,他們邀請(qǐng)了ARC PrizeFoundation主席Greg Kamradt一同參與那次發(fā)布會(huì)。
就在上周,ARC Prize Foundation更新了他們對(duì)o3模型計(jì)算成本的估算,結(jié)果令人震驚。
最初,他們估計(jì)o3-low解決一個(gè)ARC-AGI任務(wù)的成本為20美元,o3-high為3000美元。
而現(xiàn)在,根據(jù)修訂后的ARC-AGI表,這些數(shù)字分別增加到200美元和3萬(wàn)美元。
這要比他們預(yù)計(jì)的成本整整高出10倍,這也可能是OpenAI遲遲沒(méi)有正式發(fā)布o(jì)3的原因。
成本實(shí)在是太高了。

對(duì)此,ARC Prize Foundation的聯(lián)合創(chuàng)始人之一Mike Knoop表示:「我們認(rèn)為o1-pro更接近o3的真實(shí)成本,因?yàn)樗跍y(cè)試時(shí)用了大量的計(jì)算資源」。
o3的原始估算僅為OpenAI現(xiàn)有o1-pro模型收費(fèi)的1/10,因此,他們以o1-pro定價(jià)作為參考,更新了定價(jià)數(shù)據(jù)。

「但這只是個(gè)參考,我們?cè)谂判邪裆习裲3標(biāo)記為預(yù)覽版,就是為了反映官方定價(jià)的不確定性。」
研究員Toby Ord稱,令人失望的是,更新后的圖表顯示,o3整體表現(xiàn)幾乎未超出o1對(duì)數(shù)收益的趨勢(shì)。
他對(duì)此推測(cè),或許是因?yàn)閛3是在ARC-AGI公開(kāi)測(cè)試集的75%上進(jìn)行了專門的訓(xùn)練,而OpenAI并未發(fā)布任何消融數(shù)據(jù)澄清這一增益的來(lái)源。
相較之下,o3-mini更讓人眼前一亮,所用的計(jì)算資源比o3-high要燒1000倍,卻能展現(xiàn)出真正突破趨勢(shì)的表現(xiàn)。

一直以來(lái)都有傳言稱OpenAI打算為企業(yè)客戶推出昂貴的會(huì)員計(jì)劃。
有人可能會(huì)覺(jué)得,即便是如此高的會(huì)員費(fèi)也比請(qǐng)一個(gè)員工便宜。
但當(dāng)一個(gè)任務(wù)需要3萬(wàn)美元、4300萬(wàn)字「暴力堆砌」下才能解決,這種效率是否真的劃算。

ARC-AGI五年不敗,難倒了一片AI
提起ARC-AGI,最初只是Keras之父Fran?ois Chollet在谷歌一個(gè)副業(yè)項(xiàng)目,如今卻成為所有AI必考題。
ARC Prize Foundation是一家非營(yíng)利組織,使命是在基準(zhǔn)測(cè)試期間成為AGI的北極星。
他們的第一個(gè)基準(zhǔn)ARC-AGI,是Fran?ois Chollet于2019年在關(guān)于智力測(cè)量的論文中發(fā)表的,它在AI領(lǐng)域已經(jīng)保持5年不敗。

隨著模型變得越來(lái)越強(qiáng),上個(gè)月,他們更新了ARC-AGI-2。

不像ARC-AGI-1,這個(gè)新版本不容易靠蠻力破解。這對(duì)AI來(lái)講非常難。
難到什么程度呢?
像GPT-4.5、Claude 3.7 Sonnet、Gemini 2等這些現(xiàn)在頂尖的基礎(chǔ)模型得分都是0%。也就是說(shuō)一道也解不出來(lái)。
推理模型也沒(méi)好到哪里去,Claude Thinking、DeepSeek-R1、o3-mini得分也只有0-1%。
為什么會(huì)這樣?
原因在于ARC-AGI-2的所有任務(wù)都需要一些認(rèn)真的思考。
也就是說(shuō),推理模型在解決這些任務(wù)時(shí),需要進(jìn)行大量的推理,消耗非常多的Token。
比如,當(dāng)前最先進(jìn)的推理模型在處理需要把符號(hào)看作「有意義的內(nèi)容」時(shí),表現(xiàn)并不好。
它們會(huì)嘗試檢查對(duì)稱性、做鏡像、進(jìn)行圖形變換,甚至能識(shí)別符號(hào)之間的連接關(guān)系,但卻無(wú)法理解這些符號(hào)本身所代表的含義。

符號(hào)解釋:ARC-AGI-2公共評(píng)估任務(wù)#e3721c99
在需要同時(shí)運(yùn)用多條規(guī)則,或者這些規(guī)則相互影響的任務(wù)中表現(xiàn)得也很吃力。
相比之下,如果任務(wù)只涉及一條或極少數(shù)幾條整體性的規(guī)則,AI通常能穩(wěn)定地發(fā)現(xiàn)并正確運(yùn)用這些規(guī)則。

組合推理:ARC-AGI-2公開(kāi)評(píng)估任務(wù) #cbebaa4b
在面對(duì)需要根據(jù)具體情境靈活應(yīng)用規(guī)則的任務(wù)時(shí)這些推理模型同樣表現(xiàn)不佳。
它們往往只關(guān)注表面模式,而不是理解背后真正的選擇原則。

上下文規(guī)則應(yīng)用:ARC-AGI-2 公共評(píng)估任務(wù) #b5ca7ac4
幾年內(nèi),AGI或?qū)⒊霈F(xiàn)
雖然這些頂尖的推理模型在ARC-AGI的測(cè)試中表現(xiàn)不理想,但并沒(méi)有妨礙很多人對(duì)實(shí)現(xiàn)AGI的暢想。
在最新一篇博客中,DeepMind就表示「通用人工智能(AGI)可能在未來(lái)幾年內(nèi)到來(lái)」。

結(jié)合AI智能體的能力,AGI可以大幅提升AI在理解、推理、規(guī)劃和自主執(zhí)行行動(dòng)方面的能力。這種技術(shù)進(jìn)步將為社會(huì)提供寶貴的工具,以應(yīng)對(duì)包括藥物發(fā)現(xiàn)、經(jīng)濟(jì)增長(zhǎng)和氣候變化在內(nèi)的關(guān)鍵全球挑戰(zhàn)。
而這也意味著,我們可以期待數(shù)十億人將從中獲得切實(shí)的益處。例如:
通過(guò)實(shí)現(xiàn)更快速、更精準(zhǔn)的醫(yī)療診斷,它可以革新醫(yī)療保健領(lǐng)域;
通過(guò)提供個(gè)性化的學(xué)習(xí)體驗(yàn),它例如,使教育更加普及且更具吸引力;
通過(guò)增強(qiáng)信息處理能力,它可以幫助降低創(chuàng)新和創(chuàng)造的門檻;
通過(guò)使先進(jìn)工具和知識(shí)的獲取更加便捷,它可以讓小型組織有能力解決那些以前只有大型、資金充足的機(jī)構(gòu)才能應(yīng)對(duì)的復(fù)雜挑戰(zhàn)。
而現(xiàn)在,o3成本暴漲10倍,智能邊界似乎比我們想象的更遠(yuǎn)。
未來(lái)幾年,AGI曙光或許將至,但眼下,燒錢智能并不代表著真正的推理突破,我們?nèi)孕璞3智逍雅c期待。
參考資料:
https://x.com/tobyordoxford/status/1907379921825014094
https://techcrunch.com/2025/04/02/openais-o3-model-might-be-costlier-to-run-than-originally-estimated/
熱門跟貼