晚上1點,OpenAI的直播如約而至。

其實在預告的時候,幾乎已經(jīng)等于明示了。

打開網(wǎng)易新聞 查看精彩圖片

沒有廢話,今天發(fā)布的就是o3和o4-mini。

但是奧特曼這個老騙子,之前明明說o3不打算單獨發(fā)布要融到GPT-5里面一起發(fā),結(jié)果今天又發(fā)了。。。

ChatGPT Plus、Pro和Team用戶從今天開始將在模型選擇器中看到o3、o4-mini和o4-mini-high,取代o1、o3-mini和o3-mini-high。

打開網(wǎng)易新聞 查看精彩圖片

我的已經(jīng)變了,但是我最想要的o3 pro,還要幾周才能提供,就很可惜,現(xiàn)在o1 pro被折疊到了更多模型里。

說實話純粹的模型參數(shù)的進步,其實已經(jīng)沒啥可說的了,這次最讓我覺得最大的進步點,是兩個:

1. 滿血版的o3終于可以使用工具了。

2.o3和o4-mini是o系列中最新的視覺推理模型,第一次能夠在思維鏈中思考圖像了。

照例,我一個一個來說,盡可能給大家一個,非常全面完整的總結(jié)。

一.o3和o4-mini性能

其實沒有特別多的意思,就跟現(xiàn)在數(shù)碼圈一樣,刷新了XX分數(shù)。

但是慣例,還是得放,而且坦白的講,那個級別的模型已經(jīng)不是我能觸達他們智力上限的了。

首先是模型知識這塊,我就一起放了。

打開網(wǎng)易新聞 查看精彩圖片

這塊大概解釋一下,別看底下模型那么多,亂七八糟,各種變體。

但是從最早的o1到如今的o3和o4?mini,核心差別就在于模型規(guī)模、推理能力和插件工具的接入。

最開始的o1只是一個基礎的推理大模型,它在2024年AIME數(shù)學賽上只有 74.3%的準確率,在代碼競賽上的表現(xiàn)也相對平平。

緊接著推出的 o3?mini,雖然參數(shù)量更小,但經(jīng)過架構(gòu)優(yōu)化,在同一場 AIME上就跑出了87.3%的楓樹,Codeforces的ELO也從1891提升到 2073。

而完整版的o3,其實是比o3?mini更大的大兄弟,o3其實最明顯的變化就是能接入工具了。

比如在AIME2024里,o3跑裸模沒接工具時能達到91.6%,一旦允許它調(diào)用Python,準確率就飆到95.2%。

同理,o4?mini相當于小一號的o4,經(jīng)過更先進的架構(gòu)優(yōu)化,在不開工具的情況下就能拿到93.4%,接入Python后則沖到98.7%,已經(jīng)快干到滿分了。

如果把視野放寬到跨學科的PhD級科學題(GPQA Diamond)和專家級綜合測試(Humanity’s Last Exam),無需額外工具時,o3在科學題上能以 83.3%稍微領先于o4?mini的81.4%。

而面對專家綜合考題,不帶插件的o3準確率約為20.3%,添上Python、網(wǎng)絡瀏覽甚至調(diào)用多種工具后能推到24.9%。

相比之下,o4?mini從14.3%起步,借助插件也只能漲到 17.7%,仍不及 o3。

最有趣的是,DeepResearch在這個專家綜合測試上,力壓群雄,但是也能理解,畢竟人本身就是一個基于o3微調(diào)的專門干這活的模型。。。

多模態(tài)能力這塊。

打開網(wǎng)易新聞 查看精彩圖片

三個數(shù)據(jù)集。

MMMU:大學水平的視覺數(shù)學題庫,題目里既有公式也有圖形,考察模型把圖像和數(shù)學符號結(jié)合起來解題的能力。

MathVista:專注視覺數(shù)學推理,題目多來源于幾何圖形、函數(shù)曲線、矩陣變換等圖像,讓模型從畫面里看出數(shù)學規(guī)律。

CharXiv?Reasoning:從科學論文(ArXiv)里抽取圖表、流程圖和示意圖,要求模型根據(jù)科研圖形回答問題,考驗它的專業(yè)圖表理解能力。

o1在大學級別的MMMU數(shù)據(jù)集上只能拿到77.6%,面對直觀的MathVista 只有71.8%,CharXiv-Reasoning更是跪在55.1%的及格邊緣。

o3一上來就把MMMU拉到82.9%,MathVista直接沖到87.5%,CharXiv-Reasoning也飆到75.4%。

這次是正二八經(jīng)地把視覺推理任務推到了一個新高度。

代碼能力這塊。

打開網(wǎng)易新聞 查看精彩圖片

SWE?Lancer: IC SWE Diamond上真實的自由職業(yè)軟件工程任務,模型以“高獎勵”模式接單,看看最后能拿到的收益是多少錢。

所有模型都直接上了high模式。o3直接掙起飛了。

SWE?Bench Verified:一個經(jīng)人工標注驗證的軟件工程題庫,包括常見算法、系統(tǒng)設計、API 調(diào)用等,o3和o4-mini同樣遙遙領先。

Aider Polyglot Code Editing:多語言代碼編輯基準,分“whole”(整體重寫)和“diff”(補丁式修改)兩類。

o3還是強的,o4mini反而比o3mini還差了點。

工具使用這塊。

打開網(wǎng)易新聞 查看精彩圖片

左邊那個Scale?MultiChallenge,多輪指令跟隨,是一套用來測記性+執(zhí)行力的題。

評測流程一般是:系統(tǒng)給模型一段設定,隨后用戶分好幾輪追加、修改、插入條件,最后再要求一次性產(chǎn)出答案,模型既要把之前的上下文全部保住,又得正確理解最新指令,才能拿高分。o3突出一些。

中間那個BrowseComp?Agentic?Browsing,就是瀏覽器里干活的能力。題目會給模型接入一個虛擬瀏覽器,要求它自己去搜索、點擊、翻頁、在網(wǎng)頁里抓信息,再整合成回答。

常規(guī)的AI搜索就是4o+聯(lián)網(wǎng)的能力,低的有點可憐,o3加了Python和聯(lián)網(wǎng)之后,居然快能追上DeepReasearch,這是讓我有點沒想到的。

最右邊那個叫Tau?bench?函數(shù)調(diào)用。它把模型放進有外部API可調(diào)用的場景里,看模型能否判斷何時該把自然語言請求轉(zhuǎn)成結(jié)構(gòu)化函數(shù)調(diào)用,并把參數(shù)拼得毫無差錯。常見兩條賽道:

Airline?,比如就是根據(jù)乘客需求,生成正確的航班預訂JSON。

Retail?,比如就是?根據(jù)購物指令,調(diào)用商品查詢或下單接口。

如果模型選錯函數(shù)、漏填參數(shù)、或者格式寫歪,都會直接扣分,所以這項測驗主要檢驗模型的意圖解析到結(jié)構(gòu)化輸出鏈路是否穩(wěn)固。

這塊,居然o3相比o1,幾乎沒有任何提升。

然后我在翻System卡的時候,還發(fā)現(xiàn)一個有趣的數(shù)據(jù)。

打開網(wǎng)易新聞 查看精彩圖片

第一個指標是準確率,越高越好,第二個是幻覺率,越低越好。

o3因為在整體上,更敢下定論了,所以不會含糊其辭,也就是更準確了,但是幻覺率也飆升,直接干到了o1的兩倍。。。

以上,就是o3和o4-mini的性能參數(shù)。

定價上。

打開網(wǎng)易新聞 查看精彩圖片

o3比o1的定價便宜了三分之一,o4-mini相比o3-mini沒漲價。

OpenAI終于干了回人事。。。

二.使用工具以及視覺推理

o1和o1 pro我之前有個巨大的痛點,就是這玩意不能使用工具,聯(lián)網(wǎng)、代碼解釋器啥的,一個都不行。

然后只支持識圖,連PDF文件,都傳不上去,太傻了。

而這一次,o3和o4-mini直接拉滿,不僅支持了OpenAI的所有工具,甚至還有了一個超級牛逼的新特性。

視覺推理。

單聽這個很難理解,我直接給你們,看兩個例子。

第一個,是一個非常經(jīng)典的游戲,就是看圖猜地點,但是不是那種沒啥難度的,城市題,說實話,有建筑,太好猜了。

我們直接進一個專門玩這個的網(wǎng)站,叫圖尋,參加每日挑戰(zhàn)。

我的第一題,就是這個。

打開網(wǎng)易新聞 查看精彩圖片

對,就這么個東西,讓你猜這是中國的哪,在右下角的地圖上打標,離終點越近,分越高。

我直接把這個扔給了o3,我們來看看,他的思考過程。

打開網(wǎng)易新聞 查看精彩圖片

非常離譜的,自己去看圖,把圖片放大,一點一點思考,這個地方不對,哎換個地方我再放大看看。

以前模型的思維鏈,只有文字,而這次,這是大模型第一次,真正的把圖片,也融入到了推理中。

我們再回過頭來看看,剛才那道猜地題,它給出的答案。

打開網(wǎng)易新聞 查看精彩圖片

雖然沒有那么肯定,但是也給出了答案,北京門頭溝、房山,109國道,妙峰山那一段。

我們來揭曉答案。

打開網(wǎng)易新聞 查看精彩圖片

可能有些人對這個地點不熟悉,這個地方,叫北京,門頭溝,109國道,妙峰山。

那一刻,我真的有點起雞皮疙瘩了。

因為你會發(fā)現(xiàn),AI開始像人一樣去看圖、像人一樣去思考了。

以前你說AI懂圖,懂什么?懂像素?懂特征?是的,它會提特征、會分類、會打標簽,但它并不看圖思考。

它是一個圖像識別器,但不是一個圖像思考者。

而今天,o3,是第一次讓模型學會了看圖思考,學會了視覺推理。

這個變化,堪稱范式級別的躍遷。

我們甚至可以,把一個事件的圖片發(fā)給他,讓他來尋找,這是哪一天發(fā)生的事件。

打開網(wǎng)易新聞 查看精彩圖片

還有一個很有趣的例子,雖然不算成功,但是我還是想分享給你看。

前天,《流浪地球3》正式開機了,官方也發(fā)了一張大合照。

也官宣了沈騰的加入。

然后,我試圖,讓o3,在里面找到吳京。。。

第一次,失敗了。

打開網(wǎng)易新聞 查看精彩圖片

因為那天太曬,吳京和沈騰都帶了帽子,幾乎就無法靠臉識別了。

于是,我又去找了一張圖。

打開網(wǎng)易新聞 查看精彩圖片

這一次,他成功了,當然,靠的是找帽子。

打開網(wǎng)易新聞 查看精彩圖片

這個case,可以完整的展現(xiàn)出,o3的能力,包括在中間各種放大查看細節(jié),跟python結(jié)合進行分析以及加紅框等等。

視覺推理讓AI具備了第一種專業(yè)場景下的觀察力。

而視覺推理這個能力的普及,意味著很多原本需要人眼判斷的崗位,會被徹底改寫。

安全監(jiān)控不再是看到異常才報警,而是看到將要發(fā)生異常就提前預判。

設計審稿不再是人力盯圖,而是AI先過一遍排版,再交給人來最后決策。

醫(yī)生看片子,也不再只是看片,而是由AI先提出幾個可能的診斷路徑和可能遺漏點,再輔助手術(shù)或治療。

這就像,當年推理模型對非推理模型的沖擊。

而現(xiàn)在,又一次上演。

除了o3和o4-mini之外,OpenAI這次,還開源了一個AI編程工具。

打開網(wǎng)易新聞 查看精彩圖片

開源地址在此:https://github.com/openai/codex

有興趣的可以去試試。

這一次,看到OpenAI掏出來的模型。

我忽然想起很多年前,人類第一次拍到地球全貌時的震撼。

一顆藍色的球,懸在黑色的宇宙中。

那張圖,改變了很多人的世界觀。

而今天,當AI第一次看懂圖、思考圖、把圖當做世界的一部分去推理。

我們或許,也站在了某種第一次的起點。

它會改變什么?

我現(xiàn)在,還不知道。

但是一定會有所改變的。

我堅信。

以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。

>/ 作者:卡茲克

>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com