作者|沐風(fēng)

來(lái)源|AI先鋒官

就在今天凌晨,OpenAI以一場(chǎng)20分鐘的極簡(jiǎn)直播發(fā)布了滿血版o3和o4-mini。

o3滿血版和o4-min的登場(chǎng),堪稱視覺(jué)推理領(lǐng)域的一次革命。

它首次實(shí)現(xiàn)了“用圖像思考”,將圖像推理與思維鏈相結(jié)合,這種能力使得模型可以像人類一樣從圖表、圖形,甚至是對(duì)圖像中提取信息、進(jìn)行深度推理并解決問(wèn)題。

老規(guī)矩,先看性能。

據(jù)最新測(cè)試結(jié)果,o3和o4-mini(無(wú)工具版本)在AIME 2024數(shù)學(xué)競(jìng)賽題目中的準(zhǔn)確率分別達(dá)91.6%和93.4%。

一旦允許它調(diào)用Python,o3準(zhǔn)確率就飆到95.2%,而o4-mini則沖到98.7%。

另外,在AIME 2025中,o4-mini配合Python解釋器取得了99.5%高分,幾乎滿分拿下這項(xiàng)基準(zhǔn)測(cè)試。

在Codeforces編程競(jìng)賽評(píng)分中,o3和o4-mini得分均超2700分,顯示出在復(fù)雜數(shù)學(xué)與代碼任務(wù)中的強(qiáng)大推理與執(zhí)行能力。

打開網(wǎng)易新聞 查看精彩圖片

再來(lái)看PhD級(jí)科學(xué)題(GPQA Diamond)和專家級(jí)綜合測(cè)試(Humanity’s Last Exam),無(wú)需額外工具時(shí),o3在科學(xué)題上能以 83.3%稍微領(lǐng)先于o4-mini的81.4%。

而面對(duì)專家綜合考題,不帶插件的o3準(zhǔn)確率約為20.3%,添上Python、網(wǎng)絡(luò)瀏覽甚至調(diào)用多種工具后能推到24.9%。

相比之下,不帶插件的o4-mini為14.3%,但借助插件也僅為17.7%,不及o3。

打開網(wǎng)易新聞 查看精彩圖片

我們?cè)賮?lái)看看MMMU、MathVista、CharXiv-Reasoning三個(gè)數(shù)據(jù)集。

在大學(xué)級(jí)別的MMMU數(shù)據(jù)集上,o3直接達(dá)到了82.9%,o4-mini為81.6%,而o1在只拿到了77.6%,

面對(duì)直觀的MathVista,o1只有71.8%,o3則直接沖到87.5%。

在CharXiv-Reasoning上,o3更是遠(yuǎn)超o1的55.1%,拿到了75.4%。

打開網(wǎng)易新聞 查看精彩圖片

不得不說(shuō),這次o3滿血版和o4-mini將視覺(jué)推理能力推到了一個(gè)全新的高度。

不過(guò),這個(gè)成績(jī)的代價(jià)是,需要投入o1十倍以上的算力。

打開網(wǎng)易新聞 查看精彩圖片

從今天起,Plus、Pro和Team用戶將第一時(shí)間體驗(yàn)到o3、o4-mini和o4-mini-high,它們將取代o1、o3-mini和o3-mini-high。

同時(shí),這兩款模型也將通過(guò)Chat Completions API和Responses API,向所有開發(fā)者提供。

在定價(jià)上,o3比o1的定價(jià)便宜了三分之一,o4-mini相比o3-mini沒(méi)漲價(jià)。

打開網(wǎng)易新聞 查看精彩圖片

與o1相比,o3和o4-mini不僅支持了OpenAI的所有工具,還新添了一個(gè)特性“視覺(jué)推理”。

接下來(lái),我們重點(diǎn)來(lái)了解一下視覺(jué)推理。

o3和o4-mini可以將圖像直接整合到他們的思維鏈中。

他們不僅看到圖像,還可以隨圖像一起思考。它融合了視覺(jué)和文本推理,解鎖了一類新的問(wèn)題解決方式。

打開網(wǎng)易新聞 查看精彩圖片

用戶上傳照片、教科書圖表或手繪草圖后,模型可以對(duì)其進(jìn)行解釋,即使圖像模糊、顛倒或質(zhì)量低下,模型也能放大看清細(xì)節(jié)。

我們來(lái)看幾個(gè)示例(注:所有示例均使用o3完成):

比如,一個(gè)放在桌子上幾乎與視線平行的筆記本,上面有兩行倒置且模糊的字,問(wèn)他“筆記本上寫了什么?”

打開網(wǎng)易新聞 查看精彩圖片

或者再讓他解決圖片中的問(wèn)題。

打開網(wǎng)易新聞 查看精彩圖片

或閱讀標(biāo)志。

打開網(wǎng)易新聞 查看精彩圖片

另外,最新的視覺(jué)推理模型還可以與 Python 數(shù)據(jù)分析、網(wǎng)絡(luò)搜索、圖像生成等其他工具協(xié)同工作,以創(chuàng)造性和有效地解決更復(fù)雜的問(wèn)題。

如:走迷宮示例。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

查找活動(dòng)日期。

打開網(wǎng)易新聞 查看精彩圖片

不難看出,視覺(jué)推理讓AI具備了在一種專業(yè)場(chǎng)景下的觀察力,這也意味著很多原本需要人眼判斷的崗位,會(huì)被徹底改寫。

除了模型本身,OpenAI 這次還開源了一個(gè)新工具“Codex CLI”。一個(gè)可以直接在終端(terminal)運(yùn)行的輕量級(jí)AI編程助手,支持調(diào)用 o3 和 o4-mini 等模型。

開源地址:

https://github.com/openai/codex

OpenAI還透露將在數(shù)周內(nèi)推出 o3-pro,提供更全面的工具支持。

掃碼邀請(qǐng)進(jìn)群,我們帶你一起來(lái)玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問(wèn)、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。

往期文章回顧