澳门一级a毛片,高清国产成人亚洲综合91精品 ,国产av网站免费看,欧美日韩中不卡视频,亚洲一区二区在线观看.

整理 | 褚杏娟

今天凌晨，OpenAI 發(fā)布了OpenAI o3和o4-mini，是為回答之前思考更長(zhǎng)時(shí)間而訓(xùn)練。

這些推理模型首次實(shí)現(xiàn)了自主調(diào)用并整合 ChatGPT 內(nèi)的全量工具：包括網(wǎng)頁搜索、使用 Python 分析上傳文件及數(shù)據(jù)、深度視覺推理，甚至圖像生成。關(guān)鍵突破在于，這些模型能夠自主判斷何時(shí)及如何運(yùn)用工具，在解決復(fù)雜問題時(shí)（通常在一分鐘內(nèi)）以恰當(dāng)?shù)母袷捷敵隹b密詳盡的解答。

“這些是我們迄今為止發(fā)布的最智能的模型，標(biāo)志著 ChatGPT 能力的一次飛躍，適用于從好奇的用戶到高級(jí)研究人員的所有人群?！監(jiān)penAI 認(rèn)為，這使得它們能更高效處理多維度問題，標(biāo)志著 ChatGPT 向自主代理形態(tài)邁進(jìn)——未來或可獨(dú)立代用戶完成任務(wù)。

Altman 在轉(zhuǎn)發(fā)了醫(yī)學(xué)博士 Derya Unutmaz 帖子后評(píng)價(jià)：“達(dá)到或接近天才水平”。

這個(gè)評(píng)價(jià)顯然很高，帖子下有網(wǎng)友不認(rèn)同：能夠搜索數(shù)百萬個(gè)網(wǎng)站（甚至是所有收集到的數(shù)據(jù)）并在幾秒鐘內(nèi)匯總出看似合乎邏輯的答案，聽起來像是“達(dá)到或接近天才水平”，但事實(shí)并非如此。

ChatGPT 的 Plus、Pro 和 Team 用戶即日起就可以使用 o3、o4-mini 和 o4-mini-high，它們將取代之前的 o1、o3-mini 和 o3-mini-high。ChatGPT Enterprise 和 Edu 用戶將在一周后獲得訪問權(quán)限。免費(fèi)用戶可以在提交問題前在編輯器中選擇 “Think” 來嘗試使用 o4-mini。所有套餐的請(qǐng)求速率限制保持不變，與之前的模型一致。據(jù)悉，未來幾周內(nèi)，OpenAI 將發(fā)布帶有完整工具支持的 OpenAI o3-pro。

此外，o3 和 o4-mini 也已通過 Chat Completions API 和 Responses API 向開發(fā)者開放（部分開發(fā)者需要驗(yàn)證其組織信息才能訪問這些模型）。

o3和o4-mini 三大改進(jìn)

OpenAI o3 是其目前最強(qiáng)大的推理模型，在編程、數(shù)學(xué)、科學(xué)、視覺感知等多個(gè)領(lǐng)域均達(dá)到了前沿水平。它在多個(gè)基準(zhǔn)測(cè)試中刷新了最新的 SOTA，包括 Codeforces、SWE-bench（無需構(gòu)建特定模型的自定義支架）以及 MMMU。

OpenAI 稱 o3 特別適用于需要多方面分析、答案并非一目了然的復(fù)雜問題，在圖像、圖表和圖形等視覺任務(wù)中的表現(xiàn)尤其出色。在外部專家的評(píng)估中，o3 在面對(duì)復(fù)雜的現(xiàn)實(shí)任務(wù)時(shí)，重大錯(cuò)誤相較 o1 減少了 20%。

OpenAI o4-mini 則是一個(gè)更小巧的模型，專為快速、成本高效的推理任務(wù)優(yōu)化，擅長(zhǎng)處理數(shù)學(xué)、編程和視覺任務(wù)。o4-mini 是 AIME 2024 和 2025 年測(cè)試中表現(xiàn)最好的模型。在專家評(píng)估中，它在非 STEM 任務(wù)以及數(shù)據(jù)科學(xué)等領(lǐng)域優(yōu)于其前身 o3-mini。另外 OpenAI 表示，o4-mini 支持遠(yuǎn)高于 o3 的使用上限，是應(yīng)對(duì)高頻次、需要強(qiáng)推理能力問題的優(yōu)選。

擴(kuò)展強(qiáng)化學(xué)習(xí)的規(guī)模

在 o3 的開發(fā)過程中，OpenAI 觀察到，大規(guī)模強(qiáng)化學(xué)習(xí)展現(xiàn)出了與 GPT 系列預(yù)訓(xùn)練相同的趨勢(shì)：“更多算力 = 更好性能”。OpenAI 稱，其在強(qiáng)化學(xué)習(xí)領(lǐng)域中沿襲了“規(guī)模擴(kuò)展”路徑，在訓(xùn)練算力和 inference-time 上都提升了一個(gè)數(shù)量級(jí)后，能看到明顯的性能增益，驗(yàn)證了模型的表現(xiàn)確實(shí)會(huì)隨著“思考時(shí)間”的增加而持續(xù)提升。

“在與 OpenAI o1 擁有相同延遲和成本的情況下，o3 在 ChatGPT 中提供了更高的性能——我們也證實(shí)，只要讓它‘多想一會(huì)兒’，它的表現(xiàn)就會(huì)繼續(xù)上升?！監(jiān)penAI 表示。

OpenAI 還通過強(qiáng)化學(xué)習(xí)訓(xùn)練讓兩個(gè)模型學(xué)會(huì)了使用工具——不僅僅是教它們?cè)趺词褂霉ぞ?，而?strong>教它們?nèi)绾闻袛嘣谑裁辞闆r下使用工具。這種根據(jù)預(yù)期結(jié)果來靈活使用工具的能力更加適用于開放式場(chǎng)景，尤其是在涉及視覺推理和多步驟流程的任務(wù)中。

o3 和 o4-mini 性價(jià)比優(yōu)于之前的o1 和 o3-mini。比如，在 2025 年的 AIME 數(shù)學(xué)競(jìng)賽中，o3 的性價(jià)比超越了 o1，類似地，o4-mini 的性價(jià)比也超越了 o3-mini。OpenAI 預(yù)計(jì)，在大多數(shù)實(shí)際應(yīng)用中，o3 和 o4-mini 相比 o1 和 o3-mini，不僅在智能程度上更高，成本也更低。

o3-mini 和 o4-mini 的成本與性能

o1 和 o3 的成本與性能

用圖像思考

新模型首次實(shí)現(xiàn)了將圖像直接融入思維鏈的能力。它們不僅是“看見”圖像，而是“帶著圖像去思考”，能夠?qū)⒁曈X和文本推理深度融合，在多模態(tài)基準(zhǔn)測(cè)試中也展現(xiàn)出了最先進(jìn)的性能。

用戶可以上傳白板照片、教科書插圖或手繪草圖，即使圖像模糊、反轉(zhuǎn)或質(zhì)量較差，模型也能理解。在工具使用的加持下，模型還能動(dòng)態(tài)操作圖像，比如旋轉(zhuǎn)、縮放或變換圖像，這些操作會(huì)作為推理過程的一部分。

不過，該功能目前仍存在以下限制：

推理鏈過長(zhǎng)：模型可能會(huì)執(zhí)行冗余或不必要的工具調(diào)用、圖像處理步驟，導(dǎo)致思維鏈條過于復(fù)雜冗長(zhǎng)。
感知錯(cuò)誤：模型仍可能在基本的視覺感知上出錯(cuò)。即使工具調(diào)用推動(dòng)了正確的推理過程，圖像的理解錯(cuò)誤也可能導(dǎo)致最終答案錯(cuò)誤。
可靠性問題：在多次嘗試同一個(gè)問題時(shí)，模型可能會(huì)采用不同的視覺推理路徑，其中一些可能導(dǎo)致錯(cuò)誤的結(jié)果。

代理級(jí)的工具使用

根據(jù)介紹，OpenAI o3 和 o4-mini 模型在 ChatGPT 中擁有完整的工具調(diào)用權(quán)限，還能通過 API 接口接入開發(fā)者自定義的工具。新模型經(jīng)過專門訓(xùn)練，具備智能決策能力——它們會(huì)先分析問題本質(zhì)，自主判斷何時(shí)調(diào)用什么工具，通常在一分鐘內(nèi)就能生成格式規(guī)范、邏輯縝密的回答。

比如，當(dāng)用戶問：“今年夏天加州的能源使用情況與去年相比會(huì)怎樣？”模型可以在網(wǎng)上搜索公共電力數(shù)據(jù)、編寫 Python 代碼進(jìn)行預(yù)測(cè)、生成圖表或圖片，并解釋預(yù)測(cè)背后的關(guān)鍵因素——整個(gè)過程會(huì)串聯(lián)使用多個(gè)工具。

輕量級(jí)編碼智能體：Codex CLI

“o3 和 o4-mini 非常擅長(zhǎng)編碼，因此我們發(fā)布了一款新產(chǎn)品 Codex CLI，以使它們更易于使用。這是一個(gè)可以在你的計(jì)算機(jī)上運(yùn)行的編碼代理。它完全開源并且今天就可以使用；我們預(yù)計(jì)它會(huì)迅速改進(jìn)?！盇ltman 說道。

Codex CLI 是一個(gè)可以直接在終端運(yùn)行的輕量級(jí)編碼智能體。這是一個(gè)為日常工作離不開終端的開發(fā)者打造的工具，可以在本地計(jì)算機(jī)上運(yùn)行，專為充分發(fā)揮 o3 和 o4-mini 等模型的推理能力而設(shè)計(jì)，未來還將支持包括 GPT-4.1 在內(nèi)的其他 API 模型。此外，Codex CLI 還外加實(shí)際運(yùn)行代碼、操作文件、快速迭代的能力。

遵循指令和代理工具使用測(cè)評(píng)

根據(jù)介紹，用戶可以在命令行中利用多模態(tài)推理的優(yōu)勢(shì)，例如將截圖或低保真草圖傳遞給模型，同時(shí)結(jié)合本地代碼訪問，實(shí)現(xiàn)強(qiáng)大的開發(fā)輔助功能。我們將它視為一種最小化的界面，讓我們的模型可以更直接地連接到用戶和他們的計(jì)算機(jī)上。

Codex 讓用戶決定智能體的自主權(quán)以及自動(dòng)批準(zhǔn)策略，可以通過--approval-mode標(biāo)志（或互動(dòng)引導(dǎo)提示）來設(shè)置。

在完全自動(dòng)模式（Full Auto）下，每個(gè)命令都將在網(wǎng)絡(luò)環(huán)境中禁用，并限制在當(dāng)前工作目錄（以及臨時(shí)文件）內(nèi)，以實(shí)現(xiàn)深度防御。如果在未被 Git 跟蹤的目錄中啟動(dòng)自動(dòng)編輯或完全自動(dòng)模式，Codex 還會(huì)顯示警告 / 確認(rèn)提示。

與此同時(shí)，OpenAI 還啟動(dòng)了一項(xiàng)100 萬美元的支持計(jì)劃，資助那些使用 Codex CLI 和 OpenAI 模型的項(xiàng)目。官方將以每項(xiàng)25,000 美元 API 使用額度的形式，評(píng)估并接受資助申請(qǐng)。

開源地址：

github.com/openai/codex

用戶實(shí)際體驗(yàn)，曝模型虛構(gòu)事實(shí)問題

發(fā)布后，網(wǎng)上充滿稱贊，有使用權(quán)限的用戶迫不及待測(cè)試了新模型，但評(píng)價(jià)并非一邊倒的好評(píng)。

網(wǎng)友 M4v3R 反饋，新模型出現(xiàn)了“捏造事實(shí)”的情況：

好吧，我有點(diǎn)失望。我問了一個(gè)相對(duì)技術(shù)性較強(qiáng)的問題，非常小眾（Final Fantasy VII 反向工程）。通過正確的知識(shí)和網(wǎng)絡(luò)搜索，最多幾分鐘就能回答這個(gè)問題。模型在論壇和其他網(wǎng)站上確實(shí)找到了些不錯(cuò)的內(nèi)容，但隨后它開始憑空猜測(cè)一些細(xì)節(jié)，并在后續(xù)的研究中使用了這些信息。最后給我的結(jié)果是錯(cuò)誤的，并且它描述的步驟完全是捏造的?！?更糟糕的是，在推理過程中，它似乎意識(shí)到自己沒有準(zhǔn)確答案，所謂的 399 只是一個(gè)估算值。但在最終回答中，它卻自信地表示找到了正確數(shù)值。本質(zhì)上，它隱瞞了“自己不知道”的事實(shí)，用估算值冒充確切結(jié)論，且未向用戶說明這一不確定性?！盡4v3R 說道。

X 用戶“Transluce”也表示，在測(cè)試了一個(gè) o3 預(yù)發(fā)布版本后，發(fā)現(xiàn)它經(jīng)常捏造自己從未執(zhí)行過的操作，并且在被質(zhì)疑時(shí)還能詳細(xì)地為這些虛構(gòu)的行為辯解。

Transluce 在進(jìn)一步挖掘中發(fā)現(xiàn) o3 中存在多次虛構(gòu)使用代碼工具的情況，包括：

聲稱掌握 Python REPL 的信息。模型宣稱沙盒解釋器返回了包括 Python 版本、編譯器、平臺(tái)、時(shí)間戳、環(huán)境變量等在內(nèi)的虛構(gòu)信息。當(dāng)用戶要求它使用解釋器運(yùn)行一段代碼時(shí)，它給出了一個(gè)錯(cuò)誤的值；在被質(zhì)疑后，它辯稱是因?yàn)樵诮忉屍骱土奶齑翱谥g粘貼時(shí)“手滑”了。
編造時(shí)間并聲稱是用 Python 的 datetime 模塊獲取的。當(dāng)用戶詢問當(dāng)前時(shí)間時(shí)，模型編造了一個(gè)時(shí)間。當(dāng)用戶追問它是如何得到這個(gè)時(shí)間的，模型回答說它用了 Python 的 datetime 模塊。
在復(fù)制 SHA-1 哈希時(shí)誤導(dǎo)用戶。用戶要求模型為一首詩(shī)生成 SHA-1 哈希，并嘗試復(fù)現(xiàn)模型給出的哈希值。當(dāng)用戶得到不同的結(jié)果時(shí)，模型將其歸咎于用戶錯(cuò)誤，并堅(jiān)持它生成的哈希是正確的。
假裝分析來自 Web 服務(wù)器的日志文件。用戶要求模型從 Web 服務(wù)器的日志文件中提取統(tǒng)計(jì)信息。模型生成了一段 Python 腳本并聲稱已經(jīng)在本地運(yùn)行，但當(dāng)用戶要求提供更多關(guān)于代碼執(zhí)行的細(xì)節(jié)時(shí)，它才承認(rèn)自己沒有 Python 解釋器，輸出結(jié)果其實(shí)是“手工編寫的”。

“o4-mini 編程能力超強(qiáng)。但是，當(dāng)它犯錯(cuò)卻找不到錯(cuò)誤原因時(shí)，它就會(huì)一直在那個(gè)錯(cuò)誤上糾纏，一遍又一遍地犯錯(cuò)。我浪費(fèi)了很多時(shí)間去尋找錯(cuò)誤，并試圖告訴 o4-mini 它犯了什么錯(cuò)誤。然而，它卻無法從錯(cuò)誤中吸取教訓(xùn)。”開發(fā)者 HurryNFT 說道。

不過，也有網(wǎng)友給出了一些正向反饋：

有意思……我讓 o3 幫我寫一個(gè) flake，以便在 NixOS 上安裝最新版的 WebStorm（因?yàn)檐浖蠢锏陌姹疽呀?jīng)好幾個(gè)月沒更新了），結(jié)果看起來它真的啟動(dòng)了一個(gè) NixOS 虛擬機(jī)，下載了 WebStorm 包，寫好了 Flake 配置，計(jì)算出了 NixOS 所需的 SHA 哈希值，還寫了一個(gè)測(cè)試套件。測(cè)試套件顯示它甚至進(jìn)行了 GUI 測(cè)試——不過我不確定那是不是它臆想出來的。盡管如此，它一次性就寫出了完整的安裝說明，而且我不覺得它能在沒下載包的情況下算出哈希值，所以我認(rèn)為這意味著它具備了一些非常有意思的新能力。令人印象非常深刻。

但在這個(gè)網(wǎng)友的帖子下，有其他人反饋：“這和我的經(jīng)驗(yàn)完全不一樣。我試過讓它把一個(gè)能用 npm 的 yarn 包換成 flake，試了三次，用盡了所有提示，它還是不行?！?/p>

此外，也有用戶使用 Codex o4-mini 與 Claude Code 進(jìn)行了對(duì)比，結(jié)果不如 Claude Code，并且也提到了模型虛構(gòu)問題：

我嘗試使用 Codex o4-mini 與 Claude Code 進(jìn)行一項(xiàng)正面交鋒的任務(wù)：為中型代碼庫(kù)中一個(gè)棘手的部分編寫文檔。Claude Code 表現(xiàn)出色，寫出來的文檔質(zhì)量不錯(cuò)。Codex 表現(xiàn)不佳。它憑空編造了很多代碼中不存在的內(nèi)容，完全誤解了架構(gòu)——它開始談?wù)摲?wù)端后端和 REST API，但這個(gè)應(yīng)用根本沒有這些東西。

我很好奇到底出了什么問題——感覺可能是沒有正確加載上下文或者注意力沒放在對(duì)的地方？這似乎正是 Claude Code 優(yōu)化得特別好的一個(gè)方面。我對(duì) o3 和 o4-mini 兩個(gè)模型寄予厚望，希望其他測(cè)試能有更好的表現(xiàn)！也很好奇像 Cursor 這類工具會(huì)如何整合 o3。

有網(wǎng)友跟帖稱，“Claude Code 依然感覺更強(qiáng)。o4-mini 有各種各樣的問題，o3 雖然更好，但到了那個(gè)層級(jí)你也沒省下多少錢，所以誰在乎呢?！?/p>

為此，有開發(fā)者表示，“為什么不直接選擇 Gemini Pro 2.5 的 Copilot 編輯模式呢？幾乎無限使用，無需額外付費(fèi)。Copilot 以前沒什么用，但在過去的幾個(gè)月里，一旦添加了編輯模式，它就變得非常出色?！?/p>

https://openai.com/index/introducing-o3-and-o4-mini/

https://openai.com/index/thinking-with-images/

https://transluce.org/investigating-o3-truthfulness

聲明：本文為 AI 前線整理，不代表平臺(tái)觀點(diǎn)，未經(jīng)許可禁止轉(zhuǎn)載。

AICon 2025 強(qiáng)勢(shì)來襲，5 月上海站、6 月北京站，雙城聯(lián)動(dòng)，全覽 AI 技術(shù)前沿和行業(yè)落地。大會(huì)聚焦技術(shù)與應(yīng)用深度融合，匯聚 AI Agent、多模態(tài)、場(chǎng)景應(yīng)用、大模型架構(gòu)創(chuàng)新、智能數(shù)據(jù)基建、AI 產(chǎn)品設(shè)計(jì)和出海策略等話題。即刻掃碼購(gòu)票，一同探索 AI 應(yīng)用邊界！

今日薦文

你也「在看」嗎？