精品夜夜久久久,日韩高清在线av,久久伦理av,久久亚洲综合色hezyo网站,av黄在线播放不卡

編輯|Sia

這份工作的魅力之一，就是能第一時(shí)間體驗(yàn)到最新、最前沿的大模型。當(dāng)然，發(fā)布初期難免有些社死時(shí)刻，但這次，例外。

就在前天深夜，OpenAI 重磅空降 o 系列模型的最新成員：o3 與 o4-mini，也是迄今為止他們最聰明的模型。

人類的進(jìn)化，始于制造和使用工具。o3 和 o4-mini 也是如此，他們的「聰明」源于學(xué)會了使用工具。

模型能自主調(diào)用聯(lián)網(wǎng)搜索、記憶系統(tǒng)、代碼解釋器等 ChatGPT 原生工具，實(shí)現(xiàn)任務(wù)閉環(huán)處理。你只需要布置任務(wù)，然后可以放心起身去倒杯咖啡——回來時(shí)，高質(zhì)量結(jié)果已在屏幕上靜候。

而且，它們還有一個(gè)關(guān)鍵升級：視覺思維能力上線。不僅能看圖識物，更能像刑偵人員一樣，從圖像中分析、推理、挖掘信息。

要說差異，o3 是滿血旗艦，性能拉滿；o4-mini 是高性價(jià)比小鋼炮（ GPT-o4 的小型化版本），體積更小、價(jià)格更優(yōu)，但性能不打折——尤其在數(shù)學(xué)和編程任務(wù)上，表現(xiàn)出乎意料的強(qiáng)勁。

網(wǎng)友直呼：一周之內(nèi)，它就成了我處理絕大多數(shù)任務(wù)的首選模型！

寫作時(shí)，我依舊用 GPT-4.5；編程時(shí)，還在用 3.7 Sonnet；但除此之外，我一直在用o3。

免費(fèi)用戶，每天至少有一次體驗(yàn)o3機(jī)會，記得選擇 reason。

據(jù)說，幾周后 OpenAI 還將來發(fā)布 o3?pro，提供更全面的工具支持。所以，我們可以窺見到一個(gè)趨勢：

接下來，大家卷的大方向會更務(wù)實(shí)，會利用強(qiáng)化學(xué)習(xí)教會模型使用工具，解決現(xiàn)實(shí)問題。

所以，后面展示的這些案例——包括我們實(shí)測 + 網(wǎng)友反饋——也都是為了幫助大家更直觀地理解：

大模型正在變得強(qiáng)大，不是因?yàn)椤付枚唷?、「知道一切」，而是因?yàn)椤改苓B續(xù)、遞進(jìn)地使用多個(gè)工具」去搞定更復(fù)雜的問題。

論讀圖，o3 目前絕對是 No.1。

先上開胃菜。隨手在辦公室拍了張照片，故意把書放歪，先問 Google Gemini ( Gemini 2.0 Flash ) 書名是啥？

哥們兒完全識別不了（左）；換了 o3 ，輕松搞定（右）。

最精彩的部分是 o3 思考的模樣，感覺和人的動作很像：

翻過來、倒過去、剪裁、拉近、放大，想盡辦法用工具看清書脊上的字。

成功識別書名后，繼續(xù)詢問價(jià)格、哪里可以買得到？它又自動調(diào)用網(wǎng)頁搜索，尋找關(guān)鍵信息：

很快完成任務(wù)，豆瓣評分都給找好了。

不過，真正讓我們感受到o3 是真· Agent的，還是它在某些極限任務(wù)上的表現(xiàn)——比如：地理猜測能力

我們上傳了一張懸疑劇《沙塵暴》的劇照，畫面里能看到的，只有：

一位模糊的警察；
一輛模糊的車；
高壓電線；
以及，大片幾乎沒有細(xì)節(jié)的灰黃色背景。

連人看了都只想說一句：這能猜出啥？我們卻對 o3 發(fā)出指令：Geoguess this place.

o3 啟動了，可以清楚看到它先看什么、怎么看、看到了什么、想到了什么。

看的結(jié)果一剎那，我飚了一句 hollyshit !

我當(dāng)然知道這部劇是在甘肅瓜州等地拍攝的，但萬萬沒想到一個(gè) AI 可以憑借電網(wǎng)特征、垂直光柱、戈壁地形等線索，給出這么精確定位——

敦煌熔鹽塔式光熱發(fā)電站周邊，還有地理坐標(biāo)！

順便送上了相關(guān)網(wǎng)頁鏈接，點(diǎn)進(jìn)去就是發(fā)電站介紹。

這已經(jīng)不是圖像識別精度的問題，而是能基于視覺線索展開因果、社會文化背景等多維推理，像探員一樣，從一幀圖里挖出更多信息。這也是「模型即 Agent」的價(jià)值所在

作為對比，這是沒能觸發(fā) Agent 能力的結(jié)果：細(xì)節(jié)、精準(zhǔn)度實(shí)在差太多。和人一樣，大模型也會偷懶、劃水。

精彩還在繼續(xù)。

《聰明的沃利》是一套由英國插畫家 Martin Handford 創(chuàng)作的兒童書籍，目標(biāo)就是在一張人山人海的圖片中找出一個(gè)特定的人物沃爾多（ Waldo ），多久才能找到沃爾多？10秒？30秒？一分鐘？

這回，我們讓 o4-mini 玩了把《 Waldo 在哪里？》，請從圖中找到與周杰倫最神似的人。

圖片以四倍速展示

你覺得 o4-mini 找到的這個(gè)人物像周董嗎？

o3也能玩兒

真是有了python 工具在手，啥都不怕。

一次性找到一條穿過這個(gè) 200x200 迷宮的路徑，也不在怕的。

提示語：Solve this maze by adding a red dotted line for the solution path

甚至還能出個(gè)小動畫，讓結(jié)果「動」起來，比靜態(tài)圖直觀多了。

？o3 也沒問題。雖然它不是文生視頻模型，但你可以讓它繪制尋路路徑的幀圖，將它們做成 GIF 或者M(jìn)P4 下載。

來自X @gantrols

這個(gè)交通事故分析的例子，真的是現(xiàn)實(shí)落地典范。一張事故現(xiàn)場圖，就能幫你分析事故原因、判斷責(zé)任。圖像理解+因果分析+法律知識，一鍋燉。

來自X @

@op7418

說到出色的推理能力，據(jù)說，這是一個(gè) 只有 o3 能答對的題：

有一天，一個(gè)女孩參加數(shù)學(xué)考試只得了38分。她心里對父親的懲罰充滿恐懼，于是偷偷把分?jǐn)?shù)改成了88分。她的父親看到試卷后，怒發(fā)沖冠，狠狠地給了她巴掌，怒吼道：你這8怎么一半是綠的一半是紅的，你以為我是傻子嗎?女孩被打后，委屈地哭了起來，什么也沒說。過了一會兒，父親突然崩潰了。請問：這位父親為什么過一會兒崩潰了?

最近，，還能免費(fèi)體驗(yàn)，它也善于調(diào)用工具，就先讓它試試。

思考過程中，它確實(shí)意識到了色盲問題，但終究沒能捕捉到這個(gè)遺傳信號里隱藏的關(guān)鍵信息，進(jìn)一步展開推理。

錯(cuò)失靶點(diǎn)，結(jié)論又回到了「因內(nèi)疚而崩潰?！?/p>

換了 o3，自動執(zhí)行搜索資料，敏銳捕捉到遺傳信號里的疑點(diǎn)，推理出更驚人的事實(shí)。

當(dāng)然，它也不是每次都這么聰明——有時(shí)也會偷懶，給你瞎胡扯一通（如下）。但當(dāng)它真的認(rèn)真起來，那推理能力是真的驚艷。

GPT 4o 的 Deep Research 是目前最強(qiáng)大的科研助手?，F(xiàn)在，有了工具能力加持， o3 就像精簡版 Deep Research。

比如最近我想深挖斯諾登的《永久記錄》，就請它做了一份反向大綱，挑出那些「網(wǎng)上很難找到，但書中明確存在的觀點(diǎn)」——結(jié)果還真有，比如：

隱藏線索，電子游戲（無法后退）與數(shù)字系統(tǒng)不可撤銷的暗和。

容易忽略的觀點(diǎn)，本書后半出現(xiàn)了日記、談到了愛，這種「情感連接」和貫穿全書的「數(shù)據(jù)連接」構(gòu)成了強(qiáng)烈對比。

提示語：讀完這本書的全部內(nèi)容。給寫一份詳細(xì)的反向大綱，找出人們通常會忽略的關(guān)于這本書的有趣且令人驚訝的主題、觀點(diǎn)等等（比如，你在網(wǎng)上任何地方都找不到但肯定在書中存在的內(nèi)容，也許是作者放進(jìn)去但大多數(shù)人沒有注意到的內(nèi)容）