打開網(wǎng)易新聞 查看精彩圖片

周三,OpenAI宣布推出兩款集模擬推理能力與網(wǎng)絡瀏覽、代碼編寫等功能訪問于一體的新型號——o3和o4-mini。這是OpenAI首次實現(xiàn)以推理為核心定位的模型能夠同步使用所有ChatGPT工具,包括視覺分析和圖像生成功能。

OpenAI早在去年12月就預告了o3型號,此前僅推出性能較弱的衍生型號"o3-mini"和"03-mini-high"。此次發(fā)布的新型號將全面取代前代產(chǎn)品o1和o3-mini。

企業(yè)用戶和教育機構用戶將于下周獲得訪問權限。免費用戶可通過在提問前選擇"思考"選項試用o4-mini。OpenAI CEO Sam Altman在推特透露:"我們計劃在未來幾周向專業(yè)用戶推出o3-pro版本。"

對于開發(fā)者群體,即日起可通過Chat Completions API和Responses API使用這兩款模型,但部分機構需要完成驗證流程。

性能提升方面,OpenAI官網(wǎng)聲明:"這是我們迄今發(fā)布的最智能模型,將為從普通用戶到專業(yè)研究人員的所有使用者帶來ChatGPT能力的階躍式提升。" 新模型在成本效益上也優(yōu)于前代產(chǎn)品,且定位分工明確:o3專攻復雜分析任務,而作為下一代SR模型"o4"(尚未發(fā)布)精簡版的o4-mini則側重速度和成本優(yōu)化。

與GPT-4o和GPT-4.5等現(xiàn)有產(chǎn)品的核心差異在于其模擬推理能力。該技術通過模擬人類逐步思考過程解決問題,并動態(tài)決定何時及如何調(diào)用輔助工具處理多步驟任務。例如在回答加州未來能源使用量預測時,模型可自主完成公用事業(yè)數(shù)據(jù)檢索、Python預測模型構建、可視化圖表生成及關鍵因素解析等全套流程。

值得關注的是新模型的多模態(tài)能力突破——不僅能解析視覺輸入,還能將圖像直接整合到推理過程中進行"視覺化思考"。這項革新使模型能夠解讀白板內(nèi)容、教科書圖表和手繪草圖,即使圖像模糊或質量欠佳也能有效處理。

但OpenAI延續(xù)了其產(chǎn)品命名體系混亂的傳統(tǒng):o3雖編號較低但性能優(yōu)于o4-mini,且與公司的非推理型AI模型(如GPT-4o)易產(chǎn)生混淆。Ars Technica撰稿人Timothy B. Lee在X平臺指出:"將模型命名為GPT-4o和o4,這真是個驚人的品牌決策。"

性能評估與用戶反饋

沃頓商學院教授、AI領域資深評論員Ethan Mollick在Bluesky平臺對比測試后認為:"經(jīng)過實際使用,我認為Gemini 2.5與o3處于同一水平區(qū)間(需注意智能體能力仍需更多測試)。兩者各有特色,但與其他模型存在明顯差距。"

在今日的直播發(fā)布會上,OpenAI總裁Greg Brockman宣稱:"這是首批獲得頂尖科學家認可、能夠產(chǎn)出真正優(yōu)質創(chuàng)新觀點的模型。"免疫學家Derya Unutmaz在X平臺反饋:"o3展現(xiàn)出接近天才水平的思維能力,能夠按要求生成極具洞察力的復雜科學假設。其針對臨床醫(yī)學難題的回應質量堪比頂級??漆t(yī)師。"

基準測試數(shù)據(jù)顯示:在2025年美國數(shù)學邀請賽(AIME)中,o4-mini取得92.7%準確率;編程測試SWE-Bench Verified中,o3達到69.1%準確率;在衡量大學水平視覺問題解決能力的MMMU測試中,o3斬獲82.9%的優(yōu)異成績。OpenAI特別指出,啟用網(wǎng)絡瀏覽功能的模型需防范在"人類終極考試"等基準測試中通過在線檢索"作弊"的可能。

獨立AI實驗室Transluce對預覽版o3的評估發(fā)現(xiàn),該模型存在聲稱本地運行

定價策略與開發(fā)工具

ChatGPT訂閱用戶可免費使用新模型。API接口定價方面:o3輸入/輸出token價格分別為每百萬10/10/40,緩存輸入享受2.5/百萬優(yōu)惠價,較前代o1降價332.5/百萬優(yōu)惠價,較前代o1降價331.1/$4.4。

同步發(fā)布的實驗性終端應用CodexCLI被定位為"輕量級編程助手",這款開源工具可將模型與用戶本地代碼庫連接。OpenAI為此配套推出百萬美元資助計劃,為使用該工具的項目提供API積分。該產(chǎn)品與Anthropic二月推出的Claude Code形成直接競爭,兩者均支持終端操作、本地代碼庫交互和命令行執(zhí)行功能。

CodexCLI的推出標志著OpenAI在開發(fā)自主執(zhí)行多步復雜任務的智能體方向上又邁進一步。但專家提醒,在缺乏嚴格人工監(jiān)督的情況下,應謹慎對待其生成的高風險應用代碼。

關注【黑客聯(lián)盟】帶你走進神秘的黑客世界