大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自頭部科技
文丨譚梓馨
正如網(wǎng)友所預(yù)測的那樣,OpenAI全新一代頂尖模型o3和o4-mini終于揭開面紗。
今天,OpenAI聯(lián)合創(chuàng)始人Greg Brockman帶隊開播進(jìn)行了產(chǎn)品介紹,開發(fā)人員稱o3和o4-mini是OpenAI迄今為止發(fā)布的最智能模型,代表著ChatGPT能力的又一次重大飛躍。

這也是OpenAI推理模型首次能夠智能調(diào)度使用和組合ChatGPT中的每個工具——包括搜索網(wǎng)頁、使用Python分析文件和其他數(shù)據(jù)、對視覺輸入進(jìn)行深度推理,以及生成圖像等等,從而能更有效地幫助用戶處理多方面的復(fù)雜問題。
即日起,o3、o4-mini和o4-mini-high將會取代o1、o3-mini和o3-mini-high,開發(fā)者也可通過Chat Completions API和Responses API進(jìn)行調(diào)用。
o3和o4-mini非常擅長編碼,因此OpenAI還同步推出了Codex CLI,一個可以在終端中運(yùn)行的開源輕量級編碼代理,Greg Brockman表示,Codex CLI是未來幾個月內(nèi)要發(fā)布的一系列工具中的第一個,它展示了編程的未來。


新品發(fā)布后,OpenAI CEO Sam Altman轉(zhuǎn)發(fā)用戶的評價稱“達(dá)到或接近天才水平”,數(shù)千萬美元花得值,并表示會在未來幾周內(nèi)把o3-pro發(fā)布到Pro用戶層。
最強(qiáng)多模式推理
將最先進(jìn)的推理能力與完全的工具訪問權(quán)限相結(jié)合,讓o3和o4-mini模型在實(shí)際任務(wù)和各大學(xué)術(shù)基準(zhǔn)測試中表現(xiàn)出色。
OpenAI這次推出o3和o4-mini模型的一大亮點(diǎn)在于“圖像思考”,可以把用戶上傳的圖片直接集成到思路鏈中,這意味著AI模型不只是看到圖像,還能識別出關(guān)鍵信息并用它來思考,圖片可以是白板照片、教科書圖表或手繪草圖。
ChatGPT增強(qiáng)的視覺感知能夠全面、準(zhǔn)確和可靠地分析圖像,并且將高級推理與網(wǎng)頁搜索、圖像處理(自動縮放、裁剪、翻轉(zhuǎn)或增強(qiáng)圖像)等工具無縫結(jié)合,即使照片質(zhì)量不太好,也能從中提取關(guān)鍵信息和分析洞見,可以無縫融合視覺和文本推理,標(biāo)志著模型在多模式推理方面邁出重要一步。
這個“圖像思考”功能有多強(qiáng)?OpenAI展示了o3的一些實(shí)際用例,比如識別遠(yuǎn)處筆記本上的手寫字體,即便是人眼也很難分辨的內(nèi)容,o3模型通過拉近縮放旋轉(zhuǎn)圖像,成功識別出了上面寫的內(nèi)容。
不僅能精準(zhǔn)識別,而且識別之后還能幫助用戶去分析解決實(shí)際問題,比如當(dāng)它識別到手寫的內(nèi)容是計算費(fèi)曼圖振幅的圖示,它就能幫用戶提供解題思路。
當(dāng)視覺推理與Python數(shù)據(jù)分析、網(wǎng)絡(luò)搜索、圖像生成等其他工具協(xié)同工作,還可以有創(chuàng)造性地解決更復(fù)雜的問題,為用戶提供多模式代理體驗(yàn)。
比如讓o3分析一個迷宮圖,找出最近的走出路線,o3會將圖像轉(zhuǎn)化為程序問題進(jìn)行破解處理,然后按照用戶要求繪制出路線。
在STEM問答(MMMU、MathVista)、圖表閱讀和推理(CharXiv)、感知基元(VLM為盲)以及視覺搜索(V*)等不同的測試基準(zhǔn)上,o3和o4-mini均創(chuàng)下了新的最高水平,在V*測試中,視覺推理方法達(dá)到了95.7%的準(zhǔn)確率。

當(dāng)然,在o3和o4-mini之間也存在定位上的差異化。
OpenAI官方表示,o3是一個跨多個領(lǐng)域的強(qiáng)大模型,為編碼、數(shù)學(xué)、科學(xué)和視覺推理任務(wù)設(shè)定了新的行業(yè)標(biāo)準(zhǔn)。在外部專家的評估中,o3在困難的現(xiàn)實(shí)任務(wù)中比o1模型犯的錯誤少20%,尤其是在編程、商業(yè)/咨詢和創(chuàng)意構(gòu)思等領(lǐng)域表現(xiàn)出色,而且在生物學(xué)、數(shù)學(xué)和工程學(xué)知識領(lǐng)域也非常厲害。
o4-mini則是一款體型更小的模型,專為快速、經(jīng)濟(jì)高效的推理而優(yōu)化,它以其尺寸和成本實(shí)現(xiàn)了卓越性能,尤其是在數(shù)學(xué)、編程和視覺任務(wù)方面,它支持比o3更高的使用限制,使其成為一個有性價比的高容量、高吞吐量解決方案,適合所有需要推理能力的用戶。


而且,o3和o4-mini相比較它們的前輩模型o1和o3-mini成本與性能比更高效,更經(jīng)濟(jì)。尤其是o3模型,幾乎是對o1模型質(zhì)的改進(jìn),提升幅度非常大。

OpenAI今天的上新反映了其模型的發(fā)展方向:將O系列的專業(yè)推理能力與GPT系列的自然對話能力和工具使用能力融合在一起,通過整合這些優(yōu)勢,未來的AI模型將支持無縫、自然的對話,以及主動的工具使用和高級問題解決能力。
重新霸榜,逼近AGI
值得關(guān)注的是,在業(yè)內(nèi)備受關(guān)注的Aider多語言編碼基準(zhǔn)測試排行榜上,OpenAI依靠o3和o4-mini重回巔峰寶座,把谷歌Gemini 2.5 Pro和Anthropic的claude 3.7 sonnet都壓了一頭,也進(jìn)一步拉開了與DeepSeek R1和V3-0324之間的差距,打了一次硬核翻身仗。

來自網(wǎng)友的旋轉(zhuǎn)彈跳小球測試,在完全相同的提示語之下對頂級推理模型進(jìn)行測試,OpenAI這一回合PK完勝。
還有更離譜的測試,有用戶在上班路上隨手拍了張照片測試視覺推理能力,讓o3分析其所在位置,它首先截取放大了圖片,分析圖中的車牌號、門店關(guān)鍵信息,然后搜索相關(guān)網(wǎng)頁一步步縮小搜索范圍,最后準(zhǔn)確給出了位置信息,網(wǎng)友們直呼這種“柯南式”的分析能力有點(diǎn)恐怖。

還有用戶丟給o3一張車內(nèi)照片,詢問汽車的品牌和型號,o3經(jīng)過多次裁剪圖片,不停調(diào)用Python寫代碼分析多個細(xì)節(jié),進(jìn)行了大量網(wǎng)絡(luò)搜索對比,4分鐘內(nèi)分析出了正確答案。

杰克遜實(shí)驗(yàn)室生物醫(yī)學(xué)科學(xué)家Derya Unutmaz發(fā)帖表示,o3的智能程度已經(jīng)達(dá)到或接近天才的水平了,其新型代理式工具能夠以令人難以置信的推理和精度輕松處理多步驟任務(wù),并根據(jù)需要生成復(fù)雜的、具有洞察力和科學(xué)基礎(chǔ)的假設(shè)。

Derya Unutmaz向o3提出一些頗具挑戰(zhàn)性的臨床或醫(yī)學(xué)問題時,它的回答聽起來就像直接來自??漆t(yī)生:精準(zhǔn)、全面、基于證據(jù)的自信,而且非常專業(yè),就像一位該領(lǐng)域的真正專家,智能程度優(yōu)于Gemini 2.5 pro。

o3還可以幫助用戶推理解決一些數(shù)學(xué)推導(dǎo)問題,例如它會根據(jù)圖中已知的綠色柱狀體參數(shù)信息推算出光線的斜率,然后再去推導(dǎo)紅色柱狀體的高度,對圖像的理解思考能力進(jìn)入了新階段。

不少網(wǎng)友直呼,o3是一次質(zhì)的飛躍,代表了AI大模型的下一個階別,可能已經(jīng)算是AGI了。
再次提振開源影響力
除了新模型,OpenAI今天還罕見地拋出一款輕量級編碼代理開源工具。
由于o3和o4-min非常擅長編碼,因此OpenAI特意發(fā)布了一款實(shí)驗(yàn)性的新產(chǎn)品Codex CLI,它可以直接在用戶的計算機(jī)上運(yùn)行,旨在最大限度地提升o3和o4-mini等模型的推理能力,目前該項(xiàng)目已在github上開源可訪問,不到一天時間內(nèi)已超11K星,非?;鸨?/p>
具體而言,Codex CLI可以將自然語言轉(zhuǎn)化為可執(zhí)行代碼,開發(fā)者只需要告訴Codex CLI要構(gòu)建、修復(fù)或解釋什么,然后它會將想法變成現(xiàn)實(shí),Codex CLI可用來快速構(gòu)建應(yīng)用程序、修復(fù)錯誤并更快地理解代碼庫,并且兼容所有o3、o4-mini和GPT-4.1等新模型。
Codex CLI專為那些已經(jīng)習(xí)慣使用本地AI終端,并希望擁有ChatGPT級別推理能力及實(shí)際運(yùn)行代碼、操作文件和迭代能力的開發(fā)者打造,這跟國內(nèi)已經(jīng)有的無代碼開發(fā)平臺類似,是一種聊天驅(qū)動的開發(fā)方式,能夠理解并執(zhí)行開發(fā)者的代碼庫。

為了在開源社區(qū)打開影響力,OpenAI還為此推出一項(xiàng)價值100萬美元的計劃,以支持使用Codex及其他OpenAI模型的開源項(xiàng)目,資助會以每次2.5萬美元的API使用額度形式發(fā)放。
除了多模式推理,從本次發(fā)布的技術(shù)趨勢來看,OpenAI正在加速把所有主流AI Agent功能與頂尖模型進(jìn)行深度融合內(nèi)化。
為了增強(qiáng)模型的競爭力,其他競爭對手如谷歌可能也會快速跟進(jìn),這將對一些第三方AI Agent產(chǎn)品發(fā)展帶來影響,例如Manus、MainFunc等等,它們依托頂尖模型來集成各種功能提供面對用戶的產(chǎn)品,如果大模型本身就具備了強(qiáng)大的多模式AI Agent能力,可能就不太需要其他“中間商”了。
而且為了抵御DeepSeek的開源攻勢,OpenAI正在借助其在開發(fā)者群體中的影響力加強(qiáng)在開源社區(qū)的影響力滲透,可謂下了一步好棋。
盡管GPT-5尚未到來,但o3已經(jīng)再次提高了大模型競爭對壘高度,谷歌、Anthropic或開源之王DeepSeek將會如何出招對戰(zhàn)OpenAI可以一起期待下。
GPU算力按需租用
A100/H100 GPU算力按需租用,
秒級計費(fèi),平均節(jié)省開支30%以上!
掃碼了解詳情?

熱門跟貼