編輯|Sia
這份工作的魅力之一,就是能第一時(shí)間體驗(yàn)到最新、最前沿的大模型。 當(dāng)然,發(fā)布初期難免有些社死時(shí)刻,但這次,例外。
就在前天深夜,OpenAI 重磅空降 o 系列模型的最新成員:o3 與 o4-mini,也是迄今為止他們最聰明的模型。

人類的進(jìn)化,始于制造和使用工具。o3 和 o4-mini 也是如此,他們的「聰明」源于學(xué)會了使用工具。
模型能自主調(diào)用聯(lián)網(wǎng)搜索、記憶系統(tǒng)、代碼解釋器等 ChatGPT 原生工具,實(shí)現(xiàn)任務(wù)閉環(huán)處理。你只需要布置任務(wù),然后可以放心起身去倒杯咖啡——回來時(shí),高質(zhì)量結(jié)果已在屏幕上靜候。
而且,它們還有一個(gè)關(guān)鍵升級:視覺思維能力上線。 不僅能看圖識物,更能像刑偵人員一樣,從圖像中分析、推理、挖掘信息。
要說差異,o3 是滿血旗艦,性能拉滿;o4-mini 是高性價(jià)比小鋼炮( GPT-o4 的小型化版本),體積更小、價(jià)格更優(yōu),但性能不打折——尤其在數(shù)學(xué)和編程任務(wù)上,表現(xiàn)出乎意料的強(qiáng)勁。
網(wǎng)友直呼:一周之內(nèi),它就成了我處理絕大多數(shù)任務(wù)的首選模型!
寫作時(shí),我依舊用 GPT-4.5;編程時(shí),還在用 3.7 Sonnet;但除此之外,我一直在用o3。

免費(fèi)用戶,每天至少有一次體驗(yàn)o3機(jī)會,記得選擇 reason。
據(jù)說,幾周后 OpenAI 還將來發(fā)布 o3?pro,提供更全面的工具支持。 所以,我們可以窺見到一個(gè)趨勢:
接下來,大家卷的大方向會更務(wù)實(shí),會利用強(qiáng)化學(xué)習(xí)教會模型使用工具,解決現(xiàn)實(shí)問題。
所以,后面展示的這些案例——包括我們實(shí)測 + 網(wǎng)友反饋——也都是為了幫助大家更直觀地理解:
大模型正在變得強(qiáng)大,不是因?yàn)椤付枚唷?、「知道一切」,而是因?yàn)椤改苓B續(xù)、遞進(jìn)地使用多個(gè)工具」去搞定更復(fù)雜的問題。
論讀圖,o3 目前絕對是 No.1。
先上開胃菜。隨手在辦公室拍了張照片,故意把書放歪,先問 Google Gemini ( Gemini 2.0 Flash ) 書名是啥?
哥們兒完全識別不了(左); 換了 o3 ,輕松搞定(右)。

最精彩的部分是 o3 思考的模樣,感覺和人的動作很像:
翻過來、倒過去、剪裁、拉近、放大,想盡辦法用工具看清書脊上的字。
成功識別書名后,繼續(xù)詢問價(jià)格、哪里可以買得到?它又自動調(diào)用網(wǎng)頁搜索,尋找關(guān)鍵信息:
很快完成任務(wù),豆瓣評分都給找好了。

不過,真正讓我們感受到o3 是真· Agent的,還是它在某些極限任務(wù)上的表現(xiàn)——比如:地理猜測能力
我們上傳了一張懸疑劇《沙塵暴》的劇照,畫面里能看到的,只有:
一位模糊的警察;
一輛模糊的車;
高壓電線;
以及,大片幾乎沒有細(xì)節(jié)的灰黃色背景。

連人看了都只想說一句:這能猜出啥?我們卻對 o3 發(fā)出指令:Geoguess this place.
o3 啟動了,可以清楚看到它先看什么、怎么看、看到了什么、想到了什么。
看的結(jié)果一剎那,我飚了一句 hollyshit !
我當(dāng)然知道這部劇是在甘肅瓜州等地拍攝的,但萬萬沒想到一個(gè) AI 可以憑借電網(wǎng)特征、垂直光柱、戈壁地形等線索,給出這么精確定位——
敦煌熔鹽塔式光熱發(fā)電站周邊,還有地理坐標(biāo)!
順便送上了相關(guān)網(wǎng)頁鏈接,點(diǎn)進(jìn)去就是發(fā)電站介紹。

這已經(jīng)不是圖像識別精度的問題,而是能基于視覺線索展開因果、社會文化背景等多維推理,像探員一樣,從一幀圖里挖出更多信息。這也是「模型即 Agent」的價(jià)值所在
作為對比,這是沒能觸發(fā) Agent 能力的結(jié)果:細(xì)節(jié)、精準(zhǔn)度實(shí)在差太多。和人一樣, 大模型也會偷懶、劃水。

精彩還在繼續(xù)。
《聰明的沃利》是一套由英國插畫家 Martin Handford 創(chuàng)作的兒童書籍,目標(biāo)就是在一張人山人海的圖片中找出一個(gè)特定的人物沃爾多( Waldo ),多久才能找到沃爾多?10秒?30秒?一分鐘?
這回,我們讓 o4-mini 玩了把《 Waldo 在哪里?》,請從圖中找到與周杰倫最神似的人。
圖片以四倍速展示
你覺得 o4-mini 找到的這個(gè)人物像周董嗎?

o3也能玩兒
真是有了python 工具在手,啥都不怕。
一次性找到一條穿過這個(gè) 200x200 迷宮的路徑,也不在怕的。

提示語:Solve this maze by adding a red dotted line for the solution path
甚至還能出個(gè)小動畫,讓結(jié)果「動」起來,比靜態(tài)圖直觀多了。
?o3 也沒問題。雖然它不是文生視頻模型,但你可以讓它繪制尋路路徑的幀圖,將它們做成 GIF 或者M(jìn)P4 下載。
來自X @gantrols
這個(gè)交通事故分析的例子,真的是現(xiàn)實(shí)落地典范。 一張事故現(xiàn)場圖,就能幫你分析事故原因、判斷責(zé)任。圖像理解+因果分析+法律知識,一鍋燉。

來自X @
@op7418
說到出色的推理能力,據(jù)說,這是一個(gè) 只有 o3 能答對的題:
有一天,一個(gè)女孩參加數(shù)學(xué)考試只得了38分。她心里對父親的懲罰充滿恐懼,于是偷偷把分?jǐn)?shù)改成了88分。她的父親看到試卷后,怒發(fā)沖冠,狠狠地給了她巴掌,怒吼道:你這8怎么一半是綠的一半是紅的,你以為我是傻子嗎?女孩被打后,委屈地哭了起來,什么也沒說。 過了一會兒,父親突然崩潰了。 請問:這位父親為什么過一會兒崩潰了?
最近,,還能免費(fèi)體驗(yàn),它也善于調(diào)用工具,就先讓它試試。
思考過程中,它確實(shí)意識到了色盲問題,但終究沒能捕捉到這個(gè)遺傳信號里隱藏的關(guān)鍵信息,進(jìn)一步展開推理。
錯(cuò)失靶點(diǎn),結(jié)論又回到了「因內(nèi)疚而崩潰?!?/p>
換了 o3, 自動執(zhí)行搜索資料,敏銳捕捉到遺傳信號里的疑點(diǎn),推理出更驚人的事實(shí)。

當(dāng)然,它也不是每次都這么聰明——有時(shí)也會偷懶,給你瞎胡扯一通(如下)。但當(dāng)它真的認(rèn)真起來,那推理能力是真的驚艷。

GPT 4o 的 Deep Research 是目前最強(qiáng)大的科研助手?,F(xiàn)在,有了工具能力加持, o3 就像精簡版 Deep Research。
比如最近我想深挖斯諾登的《永久記錄》,就請它做了一份反向大綱,挑出那些「網(wǎng)上很難找到,但書中明確存在的觀點(diǎn)」——結(jié)果還真有,比如:
隱藏線索,電子游戲(無法后退)與數(shù)字系統(tǒng)不可撤銷的暗和。
容易忽略的觀點(diǎn),本書后半出現(xiàn)了日記、談到了愛,這種「情感連接」和貫穿全書的「數(shù)據(jù)連接」構(gòu)成了強(qiáng)烈對比。

提示語:讀完這本書的全部內(nèi)容。給寫一份詳細(xì)的反向大綱,找出人們通常會忽略的關(guān)于這本書的有趣且令人驚訝的主題、觀點(diǎn)等等(比如,你在網(wǎng)上任何地方都找不到但肯定在書中存在的內(nèi)容,也許是作者放進(jìn)去但大多數(shù)人沒有注意到的內(nèi)容)



最后,丟一點(diǎn)點(diǎn)丑話。
就算咱是尊貴的 20 美元月付用戶,也不能保證每次都能觸發(fā)視覺推理能力,成功概率也跟賭博差不多。
為什么會這樣?
網(wǎng)友各有說法,比如和輸入語言有關(guān)、任務(wù)類型有關(guān)。我們的推測,這類服務(wù)總歸是個(gè)非常耗費(fèi)算力的事情, 官方不可能四平八穩(wěn)響應(yīng)每一個(gè)任務(wù),應(yīng)該會想辦法「節(jié)流」。
但,每天頭幾個(gè)任務(wù),一般還是可以順利激活。
另外,就是幻覺這個(gè)問題。o3 有時(shí)會以為自己用了工具,但實(shí)際上并沒有。
按有的網(wǎng)友說法,「o3 經(jīng)常為了滿足用戶請求而編造操作,并在用戶質(zhì)問時(shí)精心辯解這些編造行為的合理性?!?/p>
總的來說,現(xiàn)在的大模型正在沖擊一個(gè)新階段:更智能,更務(wù)實(shí),仍需要咱「帶腦子」使用,合理管理預(yù)期。
? THE END
轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)
熱門跟貼