国产黄片av免费_在线观看看片_www第一精品久久久_成人毛片18女人毛片免_日日摸夜夜操av_国产精品热久久久久夜色精品三区 _中文字幕日韩欧美精品在线_欧美高清另类hdvideosex

推理模型o3來了！圖像深度思考首秀，開源編程智能體已攬5k+star

機(jī)器之心Pro

2025-04-17 15:33 ·北京 ·《機(jī)器之心》官方網(wǎng)易號(hào)

深夜，OpenAI 發(fā)布了 o 系列模型的最新成果 o3 和 o4-mini。該系列模型經(jīng)過訓(xùn)練，會(huì)在響應(yīng)之前進(jìn)行更長時(shí)間的思考。

OpenAI 表示，這是他們迄今為止發(fā)布的最智能模型，也標(biāo)志著 ChatGPT 能力的巨大飛躍。

這次新發(fā)布的推理模型能夠像智能體一樣使用并組合 ChatGPT 中的每一個(gè)工具 —— 這包括搜索互聯(lián)網(wǎng)、用 Python 分析上傳的文件和其他數(shù)據(jù)、深入推理視覺輸入，甚至生成圖像。

至關(guān)重要的是，這些模型經(jīng)過訓(xùn)練，能夠推理何時(shí)以及如何使用工具，以在正確輸出格式下產(chǎn)生詳細(xì)且深思熟慮的答案，通常在不到一分鐘的時(shí)間內(nèi)解決更復(fù)雜的問題。這使得它們能夠更有效地應(yīng)對多面性問題，邁向一個(gè)更具自主性的 ChatGPT，獨(dú)立為你執(zhí)行任務(wù)。

OpenAI CEO 山姆?奧特曼表示，o3 和 o4-mini 功能非常強(qiáng)大，尤其擅長多模態(tài)理解，并且可以組合使用 ChatGPT 中的所有工具。另外，o4-mini 的價(jià)格非常劃算。

從今天開始，ChatGPT Plus、Pro 和 Team 用戶可以在模型選擇器中看到 o3、o4-mini 和 o4-mini-high，取代 o1、o3?mini 和 o3?mini?high。ChatGPT Enterprise 和 Edu 用戶將在一周內(nèi)獲得訪問權(quán)限。

免費(fèi)用戶可以在提交查詢之前，在編輯器中選擇「Think」來試用 o4-mini。所有計(jì)劃的速率限制與之前的模型組保持不變。

此外，OpenAI 預(yù)計(jì)將在幾周內(nèi)發(fā)布 o3?pro，并提供全面的工具支持。目前，Pro 用戶仍然可以訪問 o1?pro。

開發(fā)者現(xiàn)在也可以通過「Chat Completions API」和「Responses API」使用 o3 和 o4-mini（部分開發(fā)者需要驗(yàn)證其組織才能訪問這些模型）。 Responses API 支持推理摘要，能夠在函數(shù)調(diào)用周圍保留推理 token 以提高性能，并且即將在模型推理中支持內(nèi)置工具，例如網(wǎng)頁搜索、文件搜索和代碼解釋器。

至于 API 價(jià)格，o3 比 o1 全方位（輸入、cached 輸入和輸出）降低，o4-mini 也比 o3-mini 部分降低。

新模型強(qiáng)在哪里？

o3 是 OpenAI 最強(qiáng)大的推理模型，它推動(dòng)了編程、數(shù)學(xué)、科學(xué)、視覺感知等領(lǐng)域的前沿發(fā)展。o3 在 Codeforces、SWE-bench（無需構(gòu)建自定義模型專用框架）和 MMMU 等基準(zhǔn)測試中創(chuàng)下了新的 SOTA（最佳性能）。

o3 非常適合需要多方面分析且答案可能并非顯而易見的復(fù)雜查詢，并在分析圖像、圖表和圖形等視覺任務(wù)中表現(xiàn)尤為出色。在外部專家的評估中，o3 在困難的現(xiàn)實(shí)任務(wù)中比 o1 犯的重大錯(cuò)誤少 20%，尤其是在編程、商業(yè) / 咨詢和創(chuàng)意構(gòu)思等領(lǐng)域表現(xiàn)出色。

早期測試人員強(qiáng)調(diào)了 o3 作為思想伙伴的分析嚴(yán)謹(jǐn)性，并強(qiáng)調(diào)了其生成和批判性評估新假設(shè)的能力，尤其是在生物學(xué)、數(shù)學(xué)和工程學(xué)領(lǐng)域。

OpenAI o4-mini 是一款小型模型，專為快速、經(jīng)濟(jì)高效的推理而優(yōu)化，它以其尺寸和成本實(shí)現(xiàn)了卓越的性能，尤其是在數(shù)學(xué)、編程和視覺任務(wù)方面。

o4-mini 是 AIME 2024 和 2025 基準(zhǔn)測試中表現(xiàn)最佳的模型。在專家評估中，它在非 STEM 任務(wù)以及數(shù)據(jù)科學(xué)等領(lǐng)域的表現(xiàn)也優(yōu)于其前身 o3-mini。得益于其高效性，o4-mini 支持的使用限制遠(yuǎn)高于 o3，使其成為解決需要推理能力的問題的強(qiáng)大高容量、高吞吐量解決方案。

外部專家評估人員認(rèn)為，得益于智能化的提升和網(wǎng)絡(luò)資源的引入，o3 和 o4-mini 都比前代模型展現(xiàn)出了更佳的指令遵循能力，以及更實(shí)用、更可驗(yàn)證的響應(yīng)。

與 OpenAI 之前的推理模型相比，這兩個(gè)模型的體驗(yàn)也更加自然、更具對話性，尤其是在參考記憶和歷史對話的情況下，響應(yīng)更加個(gè)性化和相關(guān)。

多模態(tài)基準(zhǔn)測試（包括 MMMU 大學(xué)水平的視覺問答、MathVista 視覺數(shù)學(xué)推理和 CharXiv-Reasoning 論文圖表推理）：

編程基準(zhǔn)測試（包括 SWE-Lancer: IC SWE Diamod Freelancer 編程任務(wù)和 SWE-Bench Verified 軟件工程任務(wù)）：

Aider Polyglot 代碼編輯任務(wù)：

指令遵循和智能體工具使用任務(wù)（包括 Scale MultiChallenge 多輪指令遵循和 BrowerComp 智能體瀏覽）：

Tau-bench 函數(shù)調(diào)用：

繼續(xù)擴(kuò)展強(qiáng)化學(xué)習(xí)，模型掌握工具使用

在 OpenAI o3 開發(fā)過程中，OpenAI 觀察到大規(guī)模強(qiáng)化學(xué)習(xí)表現(xiàn)出與 GPT 系列預(yù)訓(xùn)練中觀察到的趨勢相同，即「計(jì)算量越大，性能越好（more compute = better performance）」。

通過重新追溯這一擴(kuò)展路徑，這次是在強(qiáng)化學(xué)習(xí)中 ——OpenAI 在訓(xùn)練計(jì)算和推理時(shí)間推理能力方面又向前推進(jìn)了一個(gè)數(shù)量級，但仍能清晰地看到性能的提升，這驗(yàn)證了模型的性能會(huì)隨著其被允許思考的時(shí)間越長而持續(xù)提高。在與 OpenAI o1 相同的延遲和成本下，o3 在 ChatGPT 中的性能更高 ——OpenAI 已經(jīng)驗(yàn)證，如果讓模型思考更長時(shí)間，其性能還會(huì)繼續(xù)攀升。

OpenAI 還通過強(qiáng)化學(xué)習(xí)訓(xùn)練這兩個(gè)模型掌握工具使用的能力 —— 不僅教會(huì)它們?nèi)绾问褂霉ぞ?，更讓它們學(xué)會(huì)判斷何時(shí)該使用工具。這種根據(jù)目標(biāo)結(jié)果自主調(diào)配工具的能力，使它們在開放式場景中表現(xiàn)尤為出色 —— 特別是在涉及視覺推理和多步驟工作流的任務(wù)中。正如早期測試者反饋所示，這種提升既體現(xiàn)在學(xué)術(shù)基準(zhǔn)測試中，也反映在實(shí)際任務(wù)表現(xiàn)上。

根據(jù)圖像進(jìn)行思考

首次，模型能夠在思維鏈中運(yùn)用圖像進(jìn)行思考，而不僅僅是看到圖像。這開啟了一類新的問題解決方式，視覺和文本推理終于結(jié)合在一起了。無論是上傳的白板照片、教科書圖表或手繪草圖，即使圖像模糊、反轉(zhuǎn)或質(zhì)量低下，模型也能對其進(jìn)行解讀。

與之前的 OpenAI o1 模型類似，o3 和 o4-mini 經(jīng)過訓(xùn)練，可以在回答前進(jìn)行更長時(shí)間的思考，并在回復(fù)用戶之前運(yùn)用較長的內(nèi)部思維鏈。o3 和 o4-mini 進(jìn)一步擴(kuò)展了這一能力，將圖像融入其思維鏈中，通過使用工具轉(zhuǎn)換用戶上傳的圖像，使其能夠進(jìn)行裁剪、放大和旋轉(zhuǎn)等簡單的圖像處理技術(shù)。更重要的是，這些功能是原生的，無需依賴單獨(dú)的專用模型。

這種方法為測試時(shí)間計(jì)算擴(kuò)展提供了一個(gè)新的軸，可以無縫融合視覺和文本推理，這反映在它們在多模態(tài)基準(zhǔn)測試中的最先進(jìn)的性能上，標(biāo)志著朝著多模態(tài)推理邁出了重要一步。

用戶可以通過拍照提問，無需擔(dān)心物體的位置 —— 無論是文字顛倒，還是一張照片中存在多個(gè)物理問題。即使物體乍一看并不明顯，視覺推理也能讓模型放大查看，從而更清晰地觀察。

舉例來說：問筆記本上寫了什么，其實(shí)這個(gè)筆記本上的字體根本看不清，并且字體是顛倒的，這些問題都被 OpenAI o3 在推理過程中一一解決了。

用戶輸入圖片

下面的示例是 OpenAI o3 做題過程，我們能看到其清晰的思維鏈過程。

用戶輸入圖片

走迷宮示例：

中間省略了較長的思維鏈過程

智能體工具使用

o3 和 o4-mini 可以完全訪問 ChatGPT 中的工具，以及通過 API 中的函數(shù)調(diào)用訪問用戶自己的自定義工具。這些模型經(jīng)過訓(xùn)練，能夠推理如何解決問題，選擇何時(shí)以及如何使用工具，從而快速（通常在一分鐘內(nèi)）以正確的輸出格式生成詳細(xì)而周到的答案。

例如，用戶可能會(huì)問：「加州夏季的能源使用量與去年相比如何？」該模型可以在網(wǎng)上搜索公共事業(yè)數(shù)據(jù)，編寫 Python 代碼構(gòu)建預(yù)測，生成圖表或圖像，并解釋預(yù)測背后的關(guān)鍵因素，并將多個(gè)工具調(diào)用串聯(lián)在一起。

推理功能使模型能夠根據(jù)遇到的信息做出反應(yīng)和調(diào)整。例如，它們可以借助搜索引擎多次搜索網(wǎng)頁，查看結(jié)果，并在需要更多信息時(shí)嘗試新的搜索。

這種靈活的策略方法使模型能夠處理需要訪問最新信息的任務(wù)，而不僅僅是模型的內(nèi)置知識(shí)、擴(kuò)展推理、綜合和跨模態(tài)輸出生成。

比如在視覺推理任務(wù)中，o3 準(zhǔn)確地考慮了時(shí)間表并輸出了可用的計(jì)劃，而 o1 則存在不準(zhǔn)確之處，導(dǎo)致某些演出時(shí)間出現(xiàn)錯(cuò)誤。

再比如在科學(xué)問答任務(wù)中，o3 提供了全面、準(zhǔn)確且富有洞察力的分析，分析了最近的電池技術(shù)突破如何延長電動(dòng)汽車?yán)m(xù)航里程、加快充電速度并推動(dòng)采用，所有這些都有科學(xué)研究和行業(yè)數(shù)據(jù)作為支持。o1 雖然可信且切題，但不夠詳細(xì)和具有前瞻性，存在一些小錯(cuò)誤或過于簡單化。

推進(jìn)高效（cost-efficient）推理

o3 和 o4-mini 是 OpenAI 迄今為止發(fā)布的最智能模型，而且它們通常也比其前輩 o1 和 o3-mini 更高效。

例如，在 2025 年 AIME 數(shù)學(xué)競賽中，o3 的性價(jià)比邊界比 o1 有顯著提升；同樣，o4-mini 的性價(jià)比邊界也比 o3-mini 有顯著提升。

更普遍地講，OpenAI 預(yù)計(jì)，在大多數(shù)實(shí)際應(yīng)用中，o3 和 o4-mini 也將分別比 o1 和 o3-mini 更智能、更經(jīng)濟(jì)。

安全

模型能力的每一次提升都意味著安全性的相應(yīng)提升。對于 o3 和 o4-mini，OpenAI 徹底重建了安全訓(xùn)練數(shù)據(jù)，在生物威脅（生物風(fēng)險(xiǎn)）、惡意軟件生成和越獄等領(lǐng)域添加了新的拒絕提示。

這些更新的數(shù)據(jù)使 o3 和 o4-mini 在 OpenAI 的內(nèi)部拒絕基準(zhǔn)測試（例如指令層次結(jié)構(gòu)、越獄）中取得了優(yōu)異的表現(xiàn)。

除了模型拒絕方面的出色表現(xiàn)外，OpenAI 還開發(fā)了系統(tǒng)級緩解措施，以標(biāo)記前沿風(fēng)險(xiǎn)領(lǐng)域的危險(xiǎn)提示。與之前在圖像生成方面的工作類似，OpenAI 訓(xùn)練了一個(gè)推理 LLM 監(jiān)控器，它基于人工編寫且可解釋的安全規(guī)范。當(dāng)應(yīng)用于生物風(fēng)險(xiǎn)時(shí)，該監(jiān)控器成功標(biāo)記了 OpenAI 人工紅隊(duì)演練活動(dòng)中約 99% 的對話。

OpenAI 還采用迄今為止最嚴(yán)格的安全程序?qū)@兩種模型進(jìn)行了壓力測試。根據(jù) OpenAI 更新的應(yīng)急準(zhǔn)備框架，他們根據(jù)該框架涵蓋的三個(gè)跟蹤能力領(lǐng)域（生物和化學(xué)、網(wǎng)絡(luò)安全以及人工智能自我改進(jìn)）對 o3 和 o4-mini 進(jìn)行了評估。

根據(jù)評估結(jié)果，OpenAI 確定 o3 和 o4-mini 在所有三個(gè)類別中均低于該框架的「高」閾值。

關(guān)于更多 o3 和 o4-mini 的信息，大家可以參考 OpenAI 完整的模型系統(tǒng)卡。

地址：https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf

開源 Codex CLI：終端前沿推理

OpenAI 還分享了一項(xiàng)新實(shí)驗(yàn)：Codex CLI，這是一款可在終端運(yùn)行的輕量級編程智能體。它可以直接在個(gè)人計(jì)算機(jī)上運(yùn)行，最大限度地提升 o3 和 o4-mini 等模型的推理能力，并即將支持 GPT-4.1 等更多 API 模型。

用戶可以通過將屏幕截圖或低保真草圖傳遞給模型，并在本地訪問代碼，從而從命令行獲得多模態(tài)推理的優(yōu)勢。OpenAI 將 Codex CLI 視為一個(gè)將自身模型連接到用戶及其計(jì)算機(jī)的極簡界面。Codex CLI 現(xiàn)已完全開源。

開源地址：https://github.com/openai/codex

效果如下：

此外，OpenAI 還將啟動(dòng)一項(xiàng) 100 萬美元的計(jì)劃，以支持使用 Codex CLI 和 OpenAI 模型的項(xiàng)目。OpenAI 將以 API 積分的形式評估和接受每 2.5 萬美元的資助申請。

博客地址：https://openai.com/index/introducing-o3-and-o4-mini/

打開網(wǎng)易新聞體驗(yàn)更佳

熱搜

熱門跟貼

打開APP發(fā)貼

镇原县| 高陵县| 鄂伦春自治旗| 田阳县| 嘉鱼县| 古交市| 贵德县| 鄂尔多斯市| 景泰县| 安义县| 芦山县| 化德县| 灌南县| 绍兴市| 宁乡县| 阿图什市| 漳浦县| 铜山县| 浙江省| 正定县| 静乐县| 宣化县| 宝鸡市| 大方县| 开江县| 康马县| 汶川县| 确山县| 镶黄旗| 富蕴县| 含山县| 杂多县| 大余县| 泸州市| 长武县| 吕梁市| 遂平县| 美姑县| 金乡县| 林西县| 沙雅县|