深夜,OpenAI 發(fā)布了 o 系列模型的最新成果 o3 和 o4-mini。該系列模型經(jīng)過訓(xùn)練,會(huì)在響應(yīng)之前進(jìn)行更長時(shí)間的思考。

OpenAI 表示,這是他們迄今為止發(fā)布的最智能模型,也標(biāo)志著 ChatGPT 能力的巨大飛躍。

這次新發(fā)布的推理模型能夠像智能體一樣使用并組合 ChatGPT 中的每一個(gè)工具 —— 這包括搜索互聯(lián)網(wǎng)、用 Python 分析上傳的文件和其他數(shù)據(jù)、深入推理視覺輸入,甚至生成圖像。

打開網(wǎng)易新聞 查看精彩圖片

至關(guān)重要的是,這些模型經(jīng)過訓(xùn)練,能夠推理何時(shí)以及如何使用工具,以在正確輸出格式下產(chǎn)生詳細(xì)且深思熟慮的答案,通常在不到一分鐘的時(shí)間內(nèi)解決更復(fù)雜的問題。這使得它們能夠更有效地應(yīng)對多面性問題,邁向一個(gè)更具自主性的 ChatGPT,獨(dú)立為你執(zhí)行任務(wù)。

OpenAI CEO 山姆?奧特曼表示,o3 和 o4-mini 功能非常強(qiáng)大,尤其擅長多模態(tài)理解,并且可以組合使用 ChatGPT 中的所有工具。另外,o4-mini 的價(jià)格非常劃算。

打開網(wǎng)易新聞 查看精彩圖片

從今天開始,ChatGPT Plus、Pro 和 Team 用戶可以在模型選擇器中看到 o3、o4-mini 和 o4-mini-high,取代 o1、o3?mini 和 o3?mini?high。ChatGPT Enterprise 和 Edu 用戶將在一周內(nèi)獲得訪問權(quán)限。

打開網(wǎng)易新聞 查看精彩圖片

免費(fèi)用戶可以在提交查詢之前,在編輯器中選擇「Think」來試用 o4-mini。所有計(jì)劃的速率限制與之前的模型組保持不變。

此外,OpenAI 預(yù)計(jì)將在幾周內(nèi)發(fā)布 o3?pro,并提供全面的工具支持。目前,Pro 用戶仍然可以訪問 o1?pro。

開發(fā)者現(xiàn)在也可以通過「Chat Completions API」和「Responses API」使用 o3 和 o4-mini(部分開發(fā)者需要驗(yàn)證其組織才能訪問這些模型)。 Responses API 支持推理摘要,能夠在函數(shù)調(diào)用周圍保留推理 token 以提高性能,并且即將在模型推理中支持內(nèi)置工具,例如網(wǎng)頁搜索、文件搜索和代碼解釋器。

至于 API 價(jià)格,o3 比 o1 全方位(輸入、cached 輸入和輸出)降低,o4-mini 也比 o3-mini 部分降低。

打開網(wǎng)易新聞 查看精彩圖片

新模型強(qiáng)在哪里?

o3 是 OpenAI 最強(qiáng)大的推理模型,它推動(dòng)了編程、數(shù)學(xué)、科學(xué)、視覺感知等領(lǐng)域的前沿發(fā)展。o3 在 Codeforces、SWE-bench(無需構(gòu)建自定義模型專用框架)和 MMMU 等基準(zhǔn)測試中創(chuàng)下了新的 SOTA(最佳性能)。

o3 非常適合需要多方面分析且答案可能并非顯而易見的復(fù)雜查詢,并在分析圖像、圖表和圖形等視覺任務(wù)中表現(xiàn)尤為出色。在外部專家的評估中,o3 在困難的現(xiàn)實(shí)任務(wù)中比 o1 犯的重大錯(cuò)誤少 20%,尤其是在編程、商業(yè) / 咨詢和創(chuàng)意構(gòu)思等領(lǐng)域表現(xiàn)出色。

早期測試人員強(qiáng)調(diào)了 o3 作為思想伙伴的分析嚴(yán)謹(jǐn)性,并強(qiáng)調(diào)了其生成和批判性評估新假設(shè)的能力,尤其是在生物學(xué)、數(shù)學(xué)和工程學(xué)領(lǐng)域。

OpenAI o4-mini 是一款小型模型,專為快速、經(jīng)濟(jì)高效的推理而優(yōu)化,它以其尺寸和成本實(shí)現(xiàn)了卓越的性能,尤其是在數(shù)學(xué)、編程和視覺任務(wù)方面。

o4-mini 是 AIME 2024 和 2025 基準(zhǔn)測試中表現(xiàn)最佳的模型。在專家評估中,它在非 STEM 任務(wù)以及數(shù)據(jù)科學(xué)等領(lǐng)域的表現(xiàn)也優(yōu)于其前身 o3-mini。得益于其高效性,o4-mini 支持的使用限制遠(yuǎn)高于 o3,使其成為解決需要推理能力的問題的強(qiáng)大高容量、高吞吐量解決方案。

外部專家評估人員認(rèn)為,得益于智能化的提升和網(wǎng)絡(luò)資源的引入,o3 和 o4-mini 都比前代模型展現(xiàn)出了更佳的指令遵循能力,以及更實(shí)用、更可驗(yàn)證的響應(yīng)。

與 OpenAI 之前的推理模型相比,這兩個(gè)模型的體驗(yàn)也更加自然、更具對話性,尤其是在參考記憶和歷史對話的情況下,響應(yīng)更加個(gè)性化和相關(guān)。

打開網(wǎng)易新聞 查看精彩圖片

模態(tài)基準(zhǔn)測試(包括 MMMU 大學(xué)水平的視覺問答、MathVista 視覺數(shù)學(xué)推理和 CharXiv-Reasoning 論文圖表推理):

打開網(wǎng)易新聞 查看精彩圖片

編程基準(zhǔn)測試(包括 SWE-Lancer: IC SWE Diamod Freelancer 編程任務(wù)和 SWE-Bench Verified 軟件工程任務(wù)):

打開網(wǎng)易新聞 查看精彩圖片

Aider Polyglot 代碼編輯任務(wù):

打開網(wǎng)易新聞 查看精彩圖片

指令遵循和智能體工具使用任務(wù)(包括 Scale MultiChallenge 多輪指令遵循和 BrowerComp 智能體瀏覽):

打開網(wǎng)易新聞 查看精彩圖片

Tau-bench 函數(shù)調(diào)用:

打開網(wǎng)易新聞 查看精彩圖片

繼續(xù)擴(kuò)展強(qiáng)化學(xué)習(xí),模型掌握工具使用

在 OpenAI o3 開發(fā)過程中,OpenAI 觀察到大規(guī)模強(qiáng)化學(xué)習(xí)表現(xiàn)出與 GPT 系列預(yù)訓(xùn)練中觀察到的趨勢相同,即「計(jì)算量越大,性能越好(more compute = better performance)」。

通過重新追溯這一擴(kuò)展路徑,這次是在強(qiáng)化學(xué)習(xí)中 ——OpenAI 在訓(xùn)練計(jì)算和推理時(shí)間推理能力方面又向前推進(jìn)了一個(gè)數(shù)量級,但仍能清晰地看到性能的提升,這驗(yàn)證了模型的性能會(huì)隨著其被允許思考的時(shí)間越長而持續(xù)提高。在與 OpenAI o1 相同的延遲和成本下,o3 在 ChatGPT 中的性能更高 ——OpenAI 已經(jīng)驗(yàn)證,如果讓模型思考更長時(shí)間,其性能還會(huì)繼續(xù)攀升。

OpenAI 還通過強(qiáng)化學(xué)習(xí)訓(xùn)練這兩個(gè)模型掌握工具使用的能力 —— 不僅教會(huì)它們?nèi)绾问褂霉ぞ?,更讓它們學(xué)會(huì)判斷何時(shí)該使用工具。這種根據(jù)目標(biāo)結(jié)果自主調(diào)配工具的能力,使它們在開放式場景中表現(xiàn)尤為出色 —— 特別是在涉及視覺推理和多步驟工作流的任務(wù)中。正如早期測試者反饋所示,這種提升既體現(xiàn)在學(xué)術(shù)基準(zhǔn)測試中,也反映在實(shí)際任務(wù)表現(xiàn)上。

根據(jù)圖像進(jìn)行思考

首次,模型能夠在思維鏈中運(yùn)用圖像進(jìn)行思考,而不僅僅是看到圖像。這開啟了一類新的問題解決方式,視覺和文本推理終于結(jié)合在一起了。無論是上傳的白板照片、教科書圖表或手繪草圖,即使圖像模糊、反轉(zhuǎn)或質(zhì)量低下,模型也能對其進(jìn)行解讀。

與之前的 OpenAI o1 模型類似,o3 和 o4-mini 經(jīng)過訓(xùn)練,可以在回答前進(jìn)行更長時(shí)間的思考,并在回復(fù)用戶之前運(yùn)用較長的內(nèi)部思維鏈。o3 和 o4-mini 進(jìn)一步擴(kuò)展了這一能力,將圖像融入其思維鏈中,通過使用工具轉(zhuǎn)換用戶上傳的圖像,使其能夠進(jìn)行裁剪、放大和旋轉(zhuǎn)等簡單的圖像處理技術(shù)。更重要的是,這些功能是原生的,無需依賴單獨(dú)的專用模型。

這種方法為測試時(shí)間計(jì)算擴(kuò)展提供了一個(gè)新的軸,可以無縫融合視覺和文本推理,這反映在它們在多模態(tài)基準(zhǔn)測試中的最先進(jìn)的性能上,標(biāo)志著朝著多模態(tài)推理邁出了重要一步。

用戶可以通過拍照提問,無需擔(dān)心物體的位置 —— 無論是文字顛倒,還是一張照片中存在多個(gè)物理問題。即使物體乍一看并不明顯,視覺推理也能讓模型放大查看,從而更清晰地觀察。

舉例來說:問筆記本上寫了什么,其實(shí)這個(gè)筆記本上的字體根本看不清,并且字體是顛倒的,這些問題都被 OpenAI o3 在推理過程中一一解決了。

打開網(wǎng)易新聞 查看精彩圖片

用戶輸入圖片

打開網(wǎng)易新聞 查看精彩圖片

下面的示例是 OpenAI o3 做題過程,我們能看到其清晰的思維鏈過程。

打開網(wǎng)易新聞 查看精彩圖片

用戶輸入圖片

打開網(wǎng)易新聞 查看精彩圖片

走迷宮示例:

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

中間省略了較長的思維鏈過程

智能體工具使用

o3 和 o4-mini 可以完全訪問 ChatGPT 中的工具,以及通過 API 中的函數(shù)調(diào)用訪問用戶自己的自定義工具。這些模型經(jīng)過訓(xùn)練,能夠推理如何解決問題,選擇何時(shí)以及如何使用工具,從而快速(通常在一分鐘內(nèi))以正確的輸出格式生成詳細(xì)而周到的答案。

例如,用戶可能會(huì)問:「加州夏季的能源使用量與去年相比如何?」 該模型可以在網(wǎng)上搜索公共事業(yè)數(shù)據(jù),編寫 Python 代碼構(gòu)建預(yù)測,生成圖表或圖像,并解釋預(yù)測背后的關(guān)鍵因素,并將多個(gè)工具調(diào)用串聯(lián)在一起。

推理功能使模型能夠根據(jù)遇到的信息做出反應(yīng)和調(diào)整。例如,它們可以借助搜索引擎多次搜索網(wǎng)頁,查看結(jié)果,并在需要更多信息時(shí)嘗試新的搜索。

這種靈活的策略方法使模型能夠處理需要訪問最新信息的任務(wù),而不僅僅是模型的內(nèi)置知識(shí)、擴(kuò)展推理、綜合和跨模態(tài)輸出生成。

比如在視覺推理任務(wù)中,o3 準(zhǔn)確地考慮了時(shí)間表并輸出了可用的計(jì)劃,而 o1 則存在不準(zhǔn)確之處,導(dǎo)致某些演出時(shí)間出現(xiàn)錯(cuò)誤。

打開網(wǎng)易新聞 查看精彩圖片

再比如在科學(xué)問答任務(wù)中,o3 提供了全面、準(zhǔn)確且富有洞察力的分析,分析了最近的電池技術(shù)突破如何延長電動(dòng)汽車?yán)m(xù)航里程、加快充電速度并推動(dòng)采用,所有這些都有科學(xué)研究和行業(yè)數(shù)據(jù)作為支持。o1 雖然可信且切題,但不夠詳細(xì)和具有前瞻性,存在一些小錯(cuò)誤或過于簡單化。

打開網(wǎng)易新聞 查看精彩圖片

推進(jìn)高效(cost-efficient)推理

o3 和 o4-mini 是 OpenAI 迄今為止發(fā)布的最智能模型,而且它們通常也比其前輩 o1 和 o3-mini 更高效。

例如,在 2025 年 AIME 數(shù)學(xué)競賽中,o3 的性價(jià)比邊界比 o1 有顯著提升;同樣,o4-mini 的性價(jià)比邊界也比 o3-mini 有顯著提升。

更普遍地講,OpenAI 預(yù)計(jì),在大多數(shù)實(shí)際應(yīng)用中,o3 和 o4-mini 也將分別比 o1 和 o3-mini 更智能、更經(jīng)濟(jì)。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

安全

模型能力的每一次提升都意味著安全性的相應(yīng)提升。對于 o3 和 o4-mini,OpenAI 徹底重建了安全訓(xùn)練數(shù)據(jù),在生物威脅(生物風(fēng)險(xiǎn))、惡意軟件生成和越獄等領(lǐng)域添加了新的拒絕提示。

這些更新的數(shù)據(jù)使 o3 和 o4-mini 在 OpenAI 的內(nèi)部拒絕基準(zhǔn)測試(例如指令層次結(jié)構(gòu)、越獄)中取得了優(yōu)異的表現(xiàn)。

除了模型拒絕方面的出色表現(xiàn)外,OpenAI 還開發(fā)了系統(tǒng)級緩解措施,以標(biāo)記前沿風(fēng)險(xiǎn)領(lǐng)域的危險(xiǎn)提示。與之前在圖像生成方面的工作類似,OpenAI 訓(xùn)練了一個(gè)推理 LLM 監(jiān)控器,它基于人工編寫且可解釋的安全規(guī)范。當(dāng)應(yīng)用于生物風(fēng)險(xiǎn)時(shí),該監(jiān)控器成功標(biāo)記了 OpenAI 人工紅隊(duì)演練活動(dòng)中約 99% 的對話。

OpenAI 還采用迄今為止最嚴(yán)格的安全程序?qū)@兩種模型進(jìn)行了壓力測試。根據(jù) OpenAI 更新的應(yīng)急準(zhǔn)備框架,他們根據(jù)該框架涵蓋的三個(gè)跟蹤能力領(lǐng)域(生物和化學(xué)、網(wǎng)絡(luò)安全以及人工智能自我改進(jìn))對 o3 和 o4-mini 進(jìn)行了評估。

根據(jù)評估結(jié)果,OpenAI 確定 o3 和 o4-mini 在所有三個(gè)類別中均低于該框架的「高」閾值。

關(guān)于更多 o3 和 o4-mini 的信息,大家可以參考 OpenAI 完整的模型系統(tǒng)卡。

打開網(wǎng)易新聞 查看精彩圖片

地址:https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf

開源 Codex CLI:終端前沿推理

OpenAI 還分享了一項(xiàng)新實(shí)驗(yàn):Codex CLI,這是一款可在終端運(yùn)行的輕量級編程智能體。它可以直接在個(gè)人計(jì)算機(jī)上運(yùn)行,最大限度地提升 o3 和 o4-mini 等模型的推理能力,并即將支持 GPT-4.1 等更多 API 模型。

用戶可以通過將屏幕截圖或低保真草圖傳遞給模型,并在本地訪問代碼,從而從命令行獲得多模態(tài)推理的優(yōu)勢。OpenAI 將 Codex CLI 視為一個(gè)將自身模型連接到用戶及其計(jì)算機(jī)的極簡界面。Codex CLI 現(xiàn)已完全開源。

打開網(wǎng)易新聞 查看精彩圖片

開源地址:https://github.com/openai/codex

效果如下:

打開網(wǎng)易新聞 查看精彩圖片

此外,OpenAI 還將啟動(dòng)一項(xiàng) 100 萬美元的計(jì)劃,以支持使用 Codex CLI 和 OpenAI 模型的項(xiàng)目。OpenAI 將以 API 積分的形式評估和接受每 2.5 萬美元的資助申請。

博客地址:https://openai.com/index/introducing-o3-and-o4-mini/