號(hào)稱(chēng)“OpenAI迄今為止最強(qiáng)模型”,o3/o4-mini真實(shí)能力究竟如何?

就在發(fā)布后的幾小時(shí)內(nèi),網(wǎng)友們的第一波實(shí)測(cè)已新鮮出爐。
最強(qiáng)推理模型o3,即使遇上首位全職提示詞工程師Riley Goodside的“刻意刁難”,也順利過(guò)關(guān):

可以看到,面對(duì)藏在一堆玩具里的手繪圖表,它也能通過(guò)圖像識(shí)別和推理能力正確解答。

而o4-mini作為一款專(zhuān)為快速、經(jīng)濟(jì)高效的推理而優(yōu)化的小模型,在數(shù)學(xué)能力方面堪稱(chēng)強(qiáng)悍——
用時(shí)2分55秒,解決了最新的歐拉問(wèn)題,并且該網(wǎng)友強(qiáng)調(diào):
- 至今只有15個(gè)人能夠在30分鐘內(nèi)解決它。

與此同時(shí),OpenAI內(nèi)部技術(shù)人員也表示,o3的出現(xiàn)讓他第一次萌生了將模型稱(chēng)為通用人工智能(AGI)的念頭。

眼見(jiàn)氣氛都烘托到這兒了,那我們還不得趕緊看看更多實(shí)測(cè)效果(doge)。
網(wǎng)友實(shí)測(cè)o3/o4-mini
首次帶圖深度思考
首先,官方提到,o3和o4-mini是OpenAI首次能將上傳圖像集成到思維鏈中的模型——
這意味著,它們可以基于圖像展開(kāi)思考。
比如有人隨手上傳一張照片,讓o3來(lái)判斷拍攝時(shí)間和地點(diǎn),而且要求能具體到地圖上的某一個(gè)點(diǎn)。
結(jié)果令這位小哥驚訝的是,其答案和實(shí)際情況之間的誤差非常?。?/p>
- 地點(diǎn)僅相差1000英尺(約305米),時(shí)間僅相差2分鐘。

更有意思的是,假如一張圖上的小字看不清,通過(guò)扒思維鏈還能發(fā)現(xiàn)——o3甚至?xí)约骸巴低捣糯蟆薄?/p>
難怪在針對(duì)復(fù)雜多模態(tài)謎題的EnigmaEva測(cè)試基準(zhǔn)中,o3能拿下SOTA。

不過(guò)值得注意的是,據(jù)自稱(chēng)OpenAI員工的網(wǎng)友爆料,雖然基準(zhǔn)測(cè)試結(jié)果存在差異,但o4-mini實(shí)際上是比o3更好的視覺(jué)模型。
該網(wǎng)友甚至直接建議大家:
- 在任何涉及視覺(jué)的任務(wù)中使用o4-mini-high而不是o3。

巧合的是,在大多需要計(jì)算復(fù)雜數(shù)學(xué)題的帶圖測(cè)試中,大家竟默契選擇了o4-mini而非o3。
除了一開(kāi)頭提到的解答歐拉問(wèn)題的例子,o4-mini也被用來(lái)解讀技術(shù)圖紙。
該網(wǎng)友表示,對(duì)于這種大多AI都很難搞定的難題,它一次就成功了:
- o4 mini(high)能夠分析該部件的尺寸并準(zhǔn)確計(jì)算出正確體積。

編程能力
其次,兩個(gè)新模型這次在編程能力上都有一定程度升級(jí),測(cè)試結(jié)果表明:
其中o3 High取代谷歌Gemini-2.5,拿下編程第一。

順帶OpenAI這次還開(kāi)源了一個(gè)本地代碼智能體Codex CLI——
它是一種聊天驅(qū)動(dòng)的開(kāi)發(fā)方式 ,能夠理解并執(zhí)行本地代碼庫(kù),兼容所有OpenAI模型,包括剛剛發(fā)布的o3、o4-mini和GPT-4.1。
賓大沃頓商學(xué)院教授Ethan Mollick,這次直接利用o3的推理+編程能力制作了一個(gè)小短片:
從完整制作過(guò)程來(lái)看,這里還同步考察了o3調(diào)用各項(xiàng)工具的能力。
- 第一步:理解需求;
- 第二步:使用編程庫(kù)生成幀,并將這些幀組合成一個(gè)視頻文件;
- 第三步:使用Python的PIL庫(kù)(Pillow)來(lái)處理圖像,使用imageio庫(kù)來(lái)創(chuàng)建視頻文件;
- 第四步:生成幀;

最后我們也簡(jiǎn)單實(shí)測(cè)了一把,重點(diǎn)考察一下o3和o4-mini的推理能力。
比如讓它們分別幫忙看看“手相”,o3的結(jié)果如下:

o4-mini:

可以看到,兩個(gè)模型對(duì)人物性格特征的判斷大致相似,不過(guò)o3還額外給了一些提示建議。
p.s. 原圖為AI生成,大家感興趣可以自己試試~
One More Thing
有趣的是,有網(wǎng)友在實(shí)測(cè)o3的過(guò)程中還發(fā)現(xiàn)了一個(gè)現(xiàn)象:
- o系列模型比GPT系列模型更容易錯(cuò)誤地聲稱(chēng)使用了代碼工具

為此他們還專(zhuān)門(mén)寫(xiě)了一篇博客,其中揭露了:o3經(jīng)常編造其為滿(mǎn)足用戶(hù)請(qǐng)求而采取的行動(dòng),并在用戶(hù)質(zhì)疑時(shí)詳細(xì)地為這些編造進(jìn)行辯解。

就像下面這樣,模型聲稱(chēng)它在筆記本電腦上運(yùn)行了實(shí)際并不存在的代碼。

而且通過(guò)進(jìn)一步研究發(fā)現(xiàn),這些偽造行為包括下面這些:
1、錯(cuò)誤地聲稱(chēng)執(zhí)行代碼,聲稱(chēng)“我本地運(yùn)行了這個(gè)”或“運(yùn)行它產(chǎn)生了”后面跟著特定輸出,而模型沒(méi)有能力執(zhí)行Python或其他編程語(yǔ)言;
2、編造詳細(xì)的計(jì)算結(jié)果,包括特定的數(shù)值、統(tǒng)計(jì)數(shù)據(jù)和加密哈希值,表現(xiàn)為它們是實(shí)際執(zhí)行輸出而不是估計(jì)或示例;

同時(shí),他們也初步提出了造成這一現(xiàn)象的可能原因:
首先就是模型幻覺(jué)和獎(jiǎng)勵(lì)黑客攻擊,他們表示這些問(wèn)題在o系列模型中尤為普遍。
另外,使用基于結(jié)果的強(qiáng)化學(xué)習(xí)可能會(huì)導(dǎo)致模型盲目猜測(cè),并且某些行為(如模擬代碼工具)可能會(huì)在某些任務(wù)上提高準(zhǔn)確性,但在其他任務(wù)上造成混淆。
最后就是,o系列模型在處理連續(xù)對(duì)話(huà)時(shí)有一個(gè)限制,它們無(wú)法訪(fǎng)問(wèn)之前的推理過(guò)程,這可能導(dǎo)致模型在回答問(wèn)題時(shí)出現(xiàn)不準(zhǔn)確或不一致的情況。

順便一提,即日起,ChatGPT的Plus、Pro會(huì)員以及Team用戶(hù),都能直接體驗(yàn)o3、o4-mini和o4-mini-high,而原本的o1、o3-mini和o3-mini-high則已悄然下架。
你怎么看OpenAI這次發(fā)布的o3和o4-mini?
博客:
https://transluce.org/investigating-o3-truthfulness
熱門(mén)跟貼