打開網(wǎng)易新聞 查看精彩圖片

OpenAI 做 Agent,得天獨厚。

作者丨鄭佳美

編輯丨馬曉寧

今天凌晨,奧特曼突然發(fā)文宣布推出自家最新的 o 系列模型:滿血版 o3 和 o4-mini,同時表示這兩款模型都可以自由調(diào)用 ChatGPT 里的各種工具,包括但不限于圖像生成、圖像分析、文件解釋、網(wǎng)絡(luò)搜索、Python。

總的來說,就是比前一代的性能更強而且價格更低。

打開網(wǎng)易新聞 查看精彩圖片

消息一出,馬上就有網(wǎng)友曬出了兩個模型的“小球測試”結(jié)果,并配文:“這確實是迄今為止看到的最好的測試結(jié)果了?!?/p>

打開網(wǎng)易新聞 查看精彩圖片

 Agent 要被吃進大模型了
打開網(wǎng)易新聞 查看更多視頻
Agent 要被吃進大模型了

也有網(wǎng)友曬出了滿血版 o3 和 o4-mini 在 HLM 基準的中的排名,其中 OpenAI 的兩款新模型僅用了幾個小時的時間就穩(wěn)穩(wěn)的“盤”上了榜單前三,引得網(wǎng)友大呼震驚。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

1

o3 與 o4 mini 全面進化

除了網(wǎng)友們的測評結(jié)果外,我們也來看一下 OpenAI 給出的兩個模型的官方數(shù)據(jù)。

首先,o3 在多個基準測試中表現(xiàn)優(yōu)異,包括 Codeforces、SWE-bench 和 MMMU 等,刷新了多項紀錄。除此之外,o3 在應(yīng)對復(fù)雜現(xiàn)實任務(wù)時,比 OpenAI o1 減少了 20% 的重大錯誤,尤其在編程、商業(yè)咨詢和創(chuàng)意構(gòu)思領(lǐng)的方面能力最為突出。

打開網(wǎng)易新聞 查看精彩圖片

o4 mini 這邊,別看它體量不大,但專為快速、高效的推理任務(wù)而設(shè)計,可以支持比 o3 更高的使用頻率。

在數(shù)學、編程和視覺任務(wù)上的表現(xiàn)依然非常亮眼。在 2025 年 AIME 數(shù)學競賽中,借助 Python 解釋器的幫助,o4-mini 取得了99.5%的高分,幾乎達到了該測試的滿分水平。專家評估同樣顯示,它在非 STEM 任務(wù)以及數(shù)據(jù)科學領(lǐng)域的表現(xiàn)已經(jīng)超越了 o3-mini。

打開網(wǎng)易新聞 查看精彩圖片

此外,o3 和 o4-mini 首次實現(xiàn)了將圖像直接融入思維鏈的能力,它們不僅“看得見”圖像,更能“通過圖像思考”。這帶來了視覺與文本推理的全新融合方式,顯著提升了它們在多模態(tài)任務(wù)中的表現(xiàn)。

關(guān)于這點,OpenAI 圖像推理研究員 Jiahui Yu 發(fā)文稱:“自最初推出 o 系列以來,“圖像思考”始終是我們在感知領(lǐng)域的核心戰(zhàn)略之一。早期發(fā)布的 o1 vision,曾為這一方向提供了初步的探索與預(yù)覽;而如今,隨著 o3 和 o4-mini 的發(fā)布,這一戰(zhàn)略終于以更為成熟和完整的形式落地。多模態(tài)能力的持續(xù)演進,不僅推動了模型在理解世界方式上的躍升,也成為 OpenAI 實現(xiàn) AGI 愿景中不可或缺的關(guān)鍵一環(huán)?!?/p>

打開網(wǎng)易新聞 查看精彩圖片

模型性能毋庸置疑,而關(guān)于這兩款模型可以自由調(diào)用 ChatGPT 里的各種工具的能力,OpenAI 首席研究官 Mark Chen 也發(fā)文表示:一旦推理模型學會了端到端地使用工具,它們就會變得更加強大,而最新的 o 系列模型正在“向未來邁出的質(zhì)的一步”。

打開網(wǎng)易新聞 查看精彩圖片

所謂“質(zhì)的一步”,無非是將大模型的能力擴展到目前最火的 Agent 領(lǐng)域,值得一提的是,這已經(jīng)不是 OpenAI 第一次向 Agent 領(lǐng)域進發(fā)了。

今年年初,OpenAI 接連推出 Operator 和 Deep Research 兩個產(chǎn)品宣告向 Agent 進發(fā),在此之前,他們還推出過一個類似于代辦助手的 Agent 產(chǎn)品 —— ChatGPT tasks,來試了試水花。

而這次的滿血版 o3 和 o4 mini 則是支持直接調(diào)用 ChatGPT 里的各種工具,從之前的“聰明大腦”直接進化為了“靈巧雙手”。

有網(wǎng)友在試過了 o3 最新模型的調(diào)用能力后表示,模型幫他做了一些需要跨工具才能完成的工作,這讓他感覺到了 Agent 給人們帶來的便捷。

打開網(wǎng)易新聞 查看精彩圖片

2

OpenAI 做 Agent,得天獨厚

關(guān)于如何才能做出真正的 Agent,目前坊間的主流觀點是:強化學習加基座模型。

但在 Agent 的實際研發(fā)中,大多數(shù)專注于 Agent 的公司并不具備自研基座模型的能力,能夠組建強化學習團隊的更是鳳毛麟角。它們唯一的機會,往往在于依靠強悍的工程能力持續(xù)打磨產(chǎn)品體驗,或通過差異化定位,探索某些功能層面的創(chuàng)新。

然而,由于缺乏底層模型的掌控權(quán),這樣的努力終究只是為自己在與大模型公司的賽道上爭取些許緩沖時間。正因如此,那些具備訓練基礎(chǔ)模型能力的公司,在開發(fā) Agent 時,往往能夠?qū)崿F(xiàn)事半功倍的效果,占據(jù)天然優(yōu)勢。

巧合的是,Deep Research 團隊曾在多次訪談中強調(diào),他們認為基于強化學習的端到端訓練是當前 Agent 技術(shù)變革的關(guān)鍵所在,原因在于強化學習能夠有效突破傳統(tǒng) AI 系統(tǒng)在復(fù)雜場景中面臨的靈活性不足和泛化能力受限的問題。

在此基礎(chǔ)上,疊加 OpenAI 本身在基礎(chǔ)模型上的強大優(yōu)勢,或許不久之后,Agent 就會被吃進 ChatGTP 的某個版本之中。

打開網(wǎng)易新聞 查看精彩圖片

一位長期從事 Agent 方向的研究人員曾對 AI 科技評論表示:“用強化學習訓練 Agent,本質(zhì)上更像是將語言模型的能力在特定環(huán)境中進行定向強化和適配。也就是說,強化學習更多是在幫助語言模型在某一特定場景中“訓得很好”。然而,目前許多學術(shù)研究仍停留在使用較基礎(chǔ)的 base model 進行環(huán)境內(nèi)訓練,這樣的工作即便做到極致,其成果也往往只是某個環(huán)境下的“特化版本”,難以實現(xiàn)跨環(huán)境的泛化能力,因此其實際意義和應(yīng)用價值仍然有限?!?/p>

順著這個點往下看,不難發(fā)現(xiàn)其實 OpenAI 已經(jīng)同時掌握了基礎(chǔ)模型和訓練方式,擁有從底層能力到上層產(chǎn)品的完整控制權(quán),也因此在定價方便擁有了更大的自主權(quán)。

例如,Deep Research 的 Agent 以每月 200 美金的價格對外訂閱,全部收入可以留在體系內(nèi)部,而那些依賴第三方模型的獨立 Agent 團隊,不僅受到 API 成本和模型性能波動的限制,在產(chǎn)品定價上也顯得捉襟見肘。

“略知皮毛”不如洞徹本質(zhì),“套殼”并不是長久之計,這么一看,OpenAI 做 Agent,就得天獨厚。

3

開源 Codex CLI

新模型之外,OpenAI 還開源了一款本地代碼智能體:Codex CLI。它是一個輕量級的編碼助手,可直接在用戶的終端命令行中運行,為的是充分發(fā)揮 o3、o4-mini 等模型的推理能力,緊密連接本地開發(fā)環(huán)境,未來還會支持 GPT 4.1 等其他模型。

值得一提的是,它甚至支持通過截圖或手繪草圖進行多模態(tài)編程,直接刷新了代碼交互與內(nèi)容理解的邊界。

打開網(wǎng)易新聞 查看精彩圖片

為了測試這個功能,在發(fā)布會的直播中,開發(fā)人員還現(xiàn)場用 Codex CLI 展示了一波實施攝影的 ASCII 畫面,讓不少直播間網(wǎng)友大呼:“Intresting!”

打開網(wǎng)易新聞 查看精彩圖片

https://x.com/sama/status/1912558495997784441

https://news.ycombinator.com/item?id=43707719#43711155

https://github.com/openai/codex

https://x.com/jhyuxm/status/1912562461624131982