晚上1點,OpenAI的直播如約而至。
其實在預告的時候,幾乎已經(jīng)等于明示了。

沒有廢話,今天發(fā)布的就是o3和o4-mini。
但是奧特曼這個老騙子,之前明明說o3不打算單獨發(fā)布要融到GPT-5里面一起發(fā),結(jié)果今天又發(fā)了。。。
ChatGPT Plus、Pro和Team用戶從今天開始將在模型選擇器中看到o3、o4-mini和o4-mini-high,取代o1、o3-mini和o3-mini-high。

我的已經(jīng)變了,但是我最想要的o3 pro,還要幾周才能提供,就很可惜,現(xiàn)在o1 pro被折疊到了更多模型里。
說實話純粹的模型參數(shù)的進步,其實已經(jīng)沒啥可說的了,這次最讓我覺得最大的進步點,是兩個:
1. 滿血版的o3終于可以使用工具了。
2.o3和o4-mini是o系列中最新的視覺推理模型,第一次能夠在思維鏈中思考圖像了。
照例,我一個一個來說,盡可能給大家一個,非常全面完整的總結(jié)。
一.o3和o4-mini性能
其實沒有特別多的意思,就跟現(xiàn)在數(shù)碼圈一樣,刷新了XX分數(shù)。
但是慣例,還是得放,而且坦白的講,那個級別的模型已經(jīng)不是我能觸達他們智力上限的了。
首先是模型知識這塊,我就一起放了。

這塊大概解釋一下,別看底下模型那么多,亂七八糟,各種變體。
但是從最早的o1到如今的o3和o4?mini,核心差別就在于模型規(guī)模、推理能力和插件工具的接入。
最開始的o1只是一個基礎的推理大模型,它在2024年AIME數(shù)學賽上只有 74.3%的準確率,在代碼競賽上的表現(xiàn)也相對平平。
緊接著推出的 o3?mini,雖然參數(shù)量更小,但經(jīng)過架構(gòu)優(yōu)化,在同一場 AIME上就跑出了87.3%的楓樹,Codeforces的ELO也從1891提升到 2073。
而完整版的o3,其實是比o3?mini更大的大兄弟,o3其實最明顯的變化就是能接入工具了。
比如在AIME2024里,o3跑裸模沒接工具時能達到91.6%,一旦允許它調(diào)用Python,準確率就飆到95.2%。
同理,o4?mini相當于小一號的o4,經(jīng)過更先進的架構(gòu)優(yōu)化,在不開工具的情況下就能拿到93.4%,接入Python后則沖到98.7%,已經(jīng)快干到滿分了。
如果把視野放寬到跨學科的PhD級科學題(GPQA Diamond)和專家級綜合測試(Humanity’s Last Exam),無需額外工具時,o3在科學題上能以 83.3%稍微領先于o4?mini的81.4%。
而面對專家綜合考題,不帶插件的o3準確率約為20.3%,添上Python、網(wǎng)絡瀏覽甚至調(diào)用多種工具后能推到24.9%。
相比之下,o4?mini從14.3%起步,借助插件也只能漲到 17.7%,仍不及 o3。
最有趣的是,DeepResearch在這個專家綜合測試上,力壓群雄,但是也能理解,畢竟人本身就是一個基于o3微調(diào)的專門干這活的模型。。。
多模態(tài)能力這塊。

三個數(shù)據(jù)集。
MMMU:大學水平的視覺數(shù)學題庫,題目里既有公式也有圖形,考察模型把圖像和數(shù)學符號結(jié)合起來解題的能力。
MathVista:專注視覺數(shù)學推理,題目多來源于幾何圖形、函數(shù)曲線、矩陣變換等圖像,讓模型從畫面里看出數(shù)學規(guī)律。
CharXiv?Reasoning:從科學論文(ArXiv)里抽取圖表、流程圖和示意圖,要求模型根據(jù)科研圖形回答問題,考驗它的專業(yè)圖表理解能力。
o1在大學級別的MMMU數(shù)據(jù)集上只能拿到77.6%,面對直觀的MathVista 只有71.8%,CharXiv-Reasoning更是跪在55.1%的及格邊緣。
o3一上來就把MMMU拉到82.9%,MathVista直接沖到87.5%,CharXiv-Reasoning也飆到75.4%。
這次是正二八經(jīng)地把視覺推理任務推到了一個新高度。
代碼能力這塊。

SWE?Lancer: IC SWE Diamond上真實的自由職業(yè)軟件工程任務,模型以“高獎勵”模式接單,看看最后能拿到的收益是多少錢。
所有模型都直接上了high模式。o3直接掙起飛了。
SWE?Bench Verified:一個經(jīng)人工標注驗證的軟件工程題庫,包括常見算法、系統(tǒng)設計、API 調(diào)用等,o3和o4-mini同樣遙遙領先。
Aider Polyglot Code Editing:多語言代碼編輯基準,分“whole”(整體重寫)和“diff”(補丁式修改)兩類。
o3還是強的,o4mini反而比o3mini還差了點。
工具使用這塊。

左邊那個Scale?MultiChallenge,多輪指令跟隨,是一套用來測記性+執(zhí)行力的題。
評測流程一般是:系統(tǒng)給模型一段設定,隨后用戶分好幾輪追加、修改、插入條件,最后再要求一次性產(chǎn)出答案,模型既要把之前的上下文全部保住,又得正確理解最新指令,才能拿高分。o3突出一些。
中間那個BrowseComp?Agentic?Browsing,就是瀏覽器里干活的能力。題目會給模型接入一個虛擬瀏覽器,要求它自己去搜索、點擊、翻頁、在網(wǎng)頁里抓信息,再整合成回答。
常規(guī)的AI搜索就是4o+聯(lián)網(wǎng)的能力,低的有點可憐,o3加了Python和聯(lián)網(wǎng)之后,居然快能追上DeepReasearch,這是讓我有點沒想到的。
最右邊那個叫Tau?bench?函數(shù)調(diào)用。它把模型放進有外部API可調(diào)用的場景里,看模型能否判斷何時該把自然語言請求轉(zhuǎn)成結(jié)構(gòu)化函數(shù)調(diào)用,并把參數(shù)拼得毫無差錯。常見兩條賽道:
Airline?,比如就是根據(jù)乘客需求,生成正確的航班預訂JSON。
Retail?,比如就是?根據(jù)購物指令,調(diào)用商品查詢或下單接口。
如果模型選錯函數(shù)、漏填參數(shù)、或者格式寫歪,都會直接扣分,所以這項測驗主要檢驗模型的意圖解析到結(jié)構(gòu)化輸出鏈路是否穩(wěn)固。
這塊,居然o3相比o1,幾乎沒有任何提升。
然后我在翻System卡的時候,還發(fā)現(xiàn)一個有趣的數(shù)據(jù)。

第一個指標是準確率,越高越好,第二個是幻覺率,越低越好。
o3因為在整體上,更敢下定論了,所以不會含糊其辭,也就是更準確了,但是幻覺率也飆升,直接干到了o1的兩倍。。。
以上,就是o3和o4-mini的性能參數(shù)。
定價上。

o3比o1的定價便宜了三分之一,o4-mini相比o3-mini沒漲價。
OpenAI終于干了回人事。。。
二.使用工具以及視覺推理
o1和o1 pro我之前有個巨大的痛點,就是這玩意不能使用工具,聯(lián)網(wǎng)、代碼解釋器啥的,一個都不行。
然后只支持識圖,連PDF文件,都傳不上去,太傻了。
而這一次,o3和o4-mini直接拉滿,不僅支持了OpenAI的所有工具,甚至還有了一個超級牛逼的新特性。
視覺推理。
單聽這個很難理解,我直接給你們,看兩個例子。
第一個,是一個非常經(jīng)典的游戲,就是看圖猜地點,但是不是那種沒啥難度的,城市題,說實話,有建筑,太好猜了。
我們直接進一個專門玩這個的網(wǎng)站,叫圖尋,參加每日挑戰(zhàn)。
我的第一題,就是這個。

對,就這么個東西,讓你猜這是中國的哪,在右下角的地圖上打標,離終點越近,分越高。
我直接把這個扔給了o3,我們來看看,他的思考過程。

非常離譜的,自己去看圖,把圖片放大,一點一點思考,這個地方不對,哎換個地方我再放大看看。
以前模型的思維鏈,只有文字,而這次,這是大模型第一次,真正的把圖片,也融入到了推理中。
我們再回過頭來看看,剛才那道猜地題,它給出的答案。

雖然沒有那么肯定,但是也給出了答案,北京門頭溝、房山,109國道,妙峰山那一段。
我們來揭曉答案。

可能有些人對這個地點不熟悉,這個地方,叫北京,門頭溝,109國道,妙峰山。
那一刻,我真的有點起雞皮疙瘩了。
因為你會發(fā)現(xiàn),AI開始像人一樣去看圖、像人一樣去思考了。
以前你說AI懂圖,懂什么?懂像素?懂特征?是的,它會提特征、會分類、會打標簽,但它并不看圖思考。
它是一個圖像識別器,但不是一個圖像思考者。
而今天,o3,是第一次讓模型學會了看圖思考,學會了視覺推理。
這個變化,堪稱范式級別的躍遷。
我們甚至可以,把一個事件的圖片發(fā)給他,讓他來尋找,這是哪一天發(fā)生的事件。

還有一個很有趣的例子,雖然不算成功,但是我還是想分享給你看。
前天,《流浪地球3》正式開機了,官方也發(fā)了一張大合照。
也官宣了沈騰的加入。
然后,我試圖,讓o3,在里面找到吳京。。。
第一次,失敗了。

因為那天太曬,吳京和沈騰都帶了帽子,幾乎就無法靠臉識別了。
于是,我又去找了一張圖。

這一次,他成功了,當然,靠的是找帽子。

這個case,可以完整的展現(xiàn)出,o3的能力,包括在中間各種放大查看細節(jié),跟python結(jié)合進行分析以及加紅框等等。
視覺推理讓AI具備了第一種專業(yè)場景下的觀察力。
而視覺推理這個能力的普及,意味著很多原本需要人眼判斷的崗位,會被徹底改寫。
安全監(jiān)控不再是看到異常才報警,而是看到將要發(fā)生異常就提前預判。
設計審稿不再是人力盯圖,而是AI先過一遍排版,再交給人來最后決策。
醫(yī)生看片子,也不再只是看片,而是由AI先提出幾個可能的診斷路徑和可能遺漏點,再輔助手術(shù)或治療。
這就像,當年推理模型對非推理模型的沖擊。
而現(xiàn)在,又一次上演。
除了o3和o4-mini之外,OpenAI這次,還開源了一個AI編程工具。

開源地址在此:https://github.com/openai/codex
有興趣的可以去試試。
這一次,看到OpenAI掏出來的模型。
我忽然想起很多年前,人類第一次拍到地球全貌時的震撼。
一顆藍色的球,懸在黑色的宇宙中。
那張圖,改變了很多人的世界觀。
而今天,當AI第一次看懂圖、思考圖、把圖當做世界的一部分去推理。
我們或許,也站在了某種第一次的起點。
它會改變什么?
我現(xiàn)在,還不知道。
但是一定會有所改變的。
我堅信。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克
>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com
熱門跟貼