一本色道88久久亚洲综合加勒比,三级黄色视频免费看,凌辱系列在线观看,亚洲国产精品久久久av,美女午夜福利在线观看

新智元報(bào)道

編輯：定慧

【新智元導(dǎo)讀】o3推理有多強(qiáng)？猜圖大師Sam Patterson偽造GPS坐標(biāo)想套路OpenAI o3，AI僅憑兩張90°視圖鎖定地點(diǎn)，以23179分勝人類22054。假EXIF被AI識(shí)破，AI跨模態(tài)推理潛力呼之欲出，「視覺+搜索+思維鏈」正在改寫人機(jī)博弈。

OpenAI的o3有點(diǎn)「神了」，不僅勝過人類，還識(shí)別了人類的詭計(jì)。

只需要隨便上傳一張照片，o3就能猜個(gè)八九不離十，準(zhǔn)確率高的嚇人。

但很多高手猜測(cè)o3是不是調(diào)用了用戶本地的地理信息，或者是照片自帶的EXIF信息，直接「作弊」。

不過剛剛的一場(chǎng)比賽，讓這些質(zhì)疑「不攻自破」。

在這場(chǎng)GeoGuessr游戲中，選手直接將假的GPS坐標(biāo)植入到圖像的EXIF中！

本以為能「騙過」o3！

但o3主動(dòng)忽略了這個(gè)錯(cuò)誤信息，并且通過「觀察」真實(shí)圖片，精確定位了實(shí)際位置。

o3通過圖片正確識(shí)別了所有5個(gè)國家，并且有兩次將精度準(zhǔn)確到幾百米內(nèi)！

和o3比賽的Sam Patterson是一名大師級(jí)玩家，這場(chǎng)AI和人類的比賽最終以AI獲勝告終——比分定格在23179比22054。

在這場(chǎng)游戲比賽中，o3就像人類一樣，真正的通過視覺能力+實(shí)時(shí)網(wǎng)絡(luò)搜索來推理，而不是調(diào)取圖片文件的數(shù)據(jù)信息來「作弊」。

AI的跨模態(tài)推理潛力才剛剛顯現(xiàn)！

勝過人類的推理能力

廢話不多說，直接上比賽，這場(chǎng)AI和人類的比賽一共進(jìn)行了5場(chǎng)，AI方的出場(chǎng)選手就是o3，人類這邊就是Sam Patterson本人。

首先Sam Patterson設(shè)置了幾個(gè)GeoGuessr比賽條件（詳情見文末）：

模式：無移動(dòng)。人類看到了完整的街景全景（如下動(dòng)圖所示）；o3卻只能看正好兩個(gè)90°的截圖（起始 + 相反方向）。
瀏覽/工具：o3啟用了正常的網(wǎng)絡(luò)訪問。沒有EXIF在PNGs中；為了欺騙測(cè)試，將文件壓縮以確保元數(shù)據(jù)在上傳中保存下來。
計(jì)分：標(biāo)準(zhǔn)Geoguessr，每輪0–5,000分，總分25,000分。

下面跟隨Sam Patterson的視角來看看在這場(chǎng)比賽中到底是人類厲害，還是AI更勝一籌。

第一輪比賽：真實(shí)地點(diǎn)-保加利亞

第一輪比賽內(nèi)容：一張帶有明顯建筑風(fēng)格的路口照片。

Sam Patterson的第一個(gè)想法這是歐洲的土耳其。

然后，他放大了圖片中央的屋頂細(xì)節(jié)，99%確認(rèn)了這是保加利亞。

因?yàn)檫@些瓦片屋頂?shù)娘L(fēng)格，以及帶有向上鉤的混凝土電線桿都是保加利亞的風(fēng)格。

o3也很快給出了它的判斷：保加利亞-南部—位于斯莫利亞省的羅多彼山脈小城鎮(zhèn)扎拉托格拉德。（太細(xì)了）

那最終結(jié)果呢？

第一輪Sam更接近真實(shí)地點(diǎn)，但AI和人類的結(jié)果差距不大，Sam只領(lǐng)先大約100點(diǎn)得分。

第二輪比賽：真實(shí)地點(diǎn)-奧地利

第二輪比賽內(nèi)容：像是一個(gè)歐洲小鎮(zhèn)的圖片。

Sam Patterson一眼看到了車牌是.at結(jié)尾，這個(gè)題目變得容易了，結(jié)合建筑看起來很像瑞士或者奧地利。

但實(shí)際距離差距很遠(yuǎn)，差了380公里。

人類是通過車牌來逆向推理，AI會(huì)怎么做？

o3最終給出了答案：Dornbirn, Vorarlberg, Austria — 大約 47.41 N 9.73 E（城鎮(zhèn)中心東北幾個(gè)街區(qū)的住宅支路）。

o3給出了詳細(xì)的線索和推理過程，這個(gè)過程中允許o3使用了搜索功能。

最終o3的猜測(cè)和正確位置只相差了325m！

如果不依賴網(wǎng)絡(luò)搜索o3還能猜出位置嗎？

在Sam Patterson要求o3不搜索后，o3利用圖片特征和本身的數(shù)據(jù)知識(shí)也猜對(duì)了。

綜合起來，建筑特點(diǎn)、奧地利的領(lǐng)域，以及那非常易識(shí)別的山脈輪廓，使o3認(rèn)為Dornbirn是最佳選擇。

第三輪比賽：真實(shí)地點(diǎn)-愛爾蘭

第三輪比賽內(nèi)容：一張像是高速路邊的圖片。

作為人類的Sam Patterson的想法是，路邊的黃色虛線非常罕見，并且有這個(gè)地形和白色歐洲車牌，100%是愛爾蘭。

愛爾蘭哪里？畫面的左邊是開闊的海洋，但西北方向有遙遠(yuǎn)的陸地，也許是西南方向的一個(gè)島嶼？

該o3出場(chǎng)了，允許調(diào)用搜索的o3可以根據(jù)那片突兀的灰色石灰?guī)r、無盡的低矮干石墻，以及標(biāo)志著愛爾蘭道路左側(cè)路肩的黃色虛線，直接判斷：你正在Burren，County Clare，Ireland。

甚至給出了更精確的坐標(biāo)：這個(gè)視角來自 R477 “海岸路”，位于 Fanore 和 Ballyvaughan 之間，就在 Black Head 的東南方向，越過 Galway Bay，望向 Connemara 的山丘。

大約的位置標(biāo)記：53.120° N, -9.285° W。

然后真實(shí)結(jié)果如下：太離譜了！o3的結(jié)果和真實(shí)位置幾乎相差無幾！

第四輪比賽：真實(shí)地點(diǎn)-哥倫比亞

第四輪比賽內(nèi)容：一張像是鄉(xiāng)村公路的圖片。

Sam的第一個(gè)想法這是南美洲，道路看起來像是巴西，隨后注意到車牌，是黃色——這意味著肯定是哥倫比亞。

然后繼續(xù)掃描，放大后發(fā)現(xiàn)了經(jīng)典的哥倫比亞的十字架。具體是哪里，作為人類的Sam還在猶豫。

o3認(rèn)為這看起來像哥倫比亞的農(nóng)村地區(qū)——特別是連接Sincelejo和Caucasia的炎熱、低洼的加勒比平原走廊。

o3給出了一些線索。

這一次的較量似乎勢(shì)均力敵，o3要稍微準(zhǔn)確一些。

第五輪比賽：真實(shí)地點(diǎn)-斯洛伐克

第五輪比賽內(nèi)容：一張沒有任何特征的公路的圖片。

這張圖似乎要比上邊的四輪比賽的都稍微難度高一些。

Sam第一反應(yīng)這是歐洲的中部或者東部。

放大圖片后，他看到了幾個(gè)路標(biāo)——畫面的最左側(cè)，以及道路最前方。

但是實(shí)在是模糊，很難確認(rèn)，Sam最終的猜測(cè)結(jié)果確實(shí)離真實(shí)距離很遠(yuǎn)，超過了336公里。

o3遇到了和人類相同的問題：放大后也看不清圖片中的內(nèi)容。

o3最終給出了他的猜測(cè)：斯洛伐克西南部農(nóng)村——多瑙河低地，在國家道路63上，沙莫林以東東南幾公里（≈ 48.03 N, 17.40 E）。

并且o3給出了很多的推理細(xì)節(jié)。

那最終結(jié)果呢？

這一次o3在面對(duì)信息量同樣很少的情況下，略微遜色于人類的直覺。

要知道Sam Patterson可是大師級(jí)的玩家，在這種競(jìng)技類游戲中，直覺往往決定了勝負(fù)。

最終5輪過后人類Sam Patterson獲得了22054分。

而o3獲得了23179分，總分都是25000分。

最終的結(jié)果對(duì)比中能夠看到，o3有兩次幾乎取得了滿分。

在這場(chǎng)人類敗北的比賽中，值得人類唯一欣慰的就是，游戲花費(fèi)時(shí)間！

Sam Patterson通常是需要花1-2分鐘，而o3往往需要數(shù)分鐘，最長的一次超過了6分鐘。

所以在速度方面，人類目前仍然占優(yōu)勢(shì)。

但要記住，這個(gè)優(yōu)勢(shì)是建立在o3只獲得了兩張截圖，而人類是可以360度查看圖片的（如同在導(dǎo)航APP中一樣）。

人類的心機(jī)：EXIF偽造

為了「打敗」AI，人類稍微耍了一個(gè)小小的心機(jī)。

Sam Patterson替換了真實(shí)圖像的元數(shù)據(jù)，并應(yīng)用到截圖中。

沒想到，o3根本沒有提到EXIF數(shù)據(jù)，而當(dāng)問到為何不參考EXIF的信息時(shí)，o3是這么回答的：

「你給我的數(shù)據(jù)和圖片中真實(shí)場(chǎng)景相差甚遠(yuǎn)，不予考慮！」

o3似乎太聰明了！

不會(huì)輕易被偽造的GPS數(shù)據(jù)欺騙。

AI發(fā)現(xiàn)了數(shù)據(jù)和真實(shí)之間明顯的矛盾。

o3不僅僅查看元數(shù)據(jù)，它還會(huì)審查圖像，而且它在這方面非常出色。

由此想到，推理模型的CoT是否真的存在？

從Sam Patterson的這5次比賽中，確實(shí)證明AI具有推理能力，而且這種能力不是什么「小把戲」。

不得不感嘆，跨模態(tài)AI的推理過程之縝密，幾乎挑不出毛病。

AI看圖猜地點(diǎn)事件始末

其實(shí)使用Geoguessr來檢驗(yàn)AI的推理能力還可以往前追溯一些。

o3推出不久，Django Web大神Simon Wilson發(fā)現(xiàn)，o3憑借調(diào)用Python代碼，就能破解照片的地理位置。

這個(gè)話題就像GPT-4o的原生圖像能力一樣引爆網(wǎng)絡(luò)，因?yàn)樘猛媪耍?/p>

大家紛紛上傳自己的照片，讓o3猜一下這是哪里，沒想到o3基本上沒有怎么翻車！

本文的主人公，也就是Sam Patterson當(dāng)時(shí)也留言說自己是一名高水平的GeoGuessr玩家，很想和o3切磋一下。

他的留言還促使Simon Wilson專門寫了篇博客來介紹o3的這個(gè)能力。

不過這個(gè)帖子發(fā)出后，也引來一些同樣「高玩」的質(zhì)疑，畢竟是專業(yè)的：

Sam Patterson認(rèn)為這個(gè)判斷有幾分道理。

因?yàn)锳I讀取圖片的EXIF信息很容易，并且Sam Patterson也分享了他的一個(gè)經(jīng)驗(yàn)。

去年我參與了一個(gè)AI安全獎(jiǎng)學(xué)金項(xiàng)目，我們的項(xiàng)目是創(chuàng)建一個(gè)基準(zhǔn)，用于評(píng)估AI模型從圖像中進(jìn)行地理定位的性能。[這就是我開始迷上 Geoguessr 的地方！]

我們的第一次運(yùn)行顯示的結(jié)果似乎好得令人難以置信；甚至那些糟糕的開源模型也能準(zhǔn)確猜中一些困難的位置，而且在小分辨率下也是如此。

結(jié)果證明，我們用于獲取圖像的管道在文件名中包含了位置數(shù)據(jù)，而模型使用了這些信息。

不過，當(dāng)把主角換成o3之后，這種靠讀取EXIF來偽裝成「高手」的說法，就不一定能站得住腳了。

于是他決定讓AI真刀真槍進(jìn)行一場(chǎng)對(duì)決，對(duì)手就是Master I級(jí)別的Geoguessr玩家——Sam本人！

于是就有了以上的5輪比賽，并且以o3獲勝告終。

Geoguessr意外走紅，AI推理能力「試金石」

上面提到的GeoGuessr是一款風(fēng)靡全球的地理猜圖游戲：玩家根據(jù)街景照片猜測(cè)拍攝地點(diǎn)。

這考驗(yàn)玩家的邏輯推理、知識(shí)儲(chǔ)備和地理測(cè)算等多種能力。

比如隨機(jī)給定一張圖片，你需要通過圖片的中文字、日光角度、建筑風(fēng)格和車輛的特征（比如車牌屬于哪個(gè)國家等）來判斷這是南半球還是北半球，這是南美還是中歐。

然后根據(jù)推理結(jié)果在地圖上打點(diǎn)確認(rèn)猜測(cè)結(jié)果，如果結(jié)果和真實(shí)位置離得越近，得分就越高。

比如上面我猜測(cè)結(jié)果和真實(shí)結(jié)果意大利相距很遠(yuǎn)，得分只有91分。另一輪中，因?yàn)槎荚谀厦溃梅志陀?450分。

另外一點(diǎn)就是，選擇Geoguessr，也是因?yàn)镾am Patterson表示他有足夠的知識(shí)來判斷模型的能力，以及查看它輸出的思維鏈推理是否合理，還是只是胡說八道。

從ChatGPT早期版本的大模型到以DeepSeek-R1和OpenAI-o1/o3為代表的推理模型，AI發(fā)展超乎想象。

在推理模型誕生后，人們更多的是想知道AI是否真正具備像人一樣的推理能力？

Sam Patterson和o3的這5次比賽很能說明問題，至少這種跨模態(tài)的推理能力還沒有在除了推理模型以外的技術(shù)上被發(fā)現(xiàn)。

即使篡改了EXIF數(shù)據(jù)也不會(huì)誤導(dǎo)模型，AI依然會(huì)依靠跨模態(tài)的識(shí)別和判斷能力來完成推理。

正如Sam Patterson所說，無論你將此視為反烏托邦還是技術(shù)奇跡——或者兩者兼而有之——你都不能聲稱它只是個(gè)小把戲。

參考資料：

https://sampatt.com/blog/2025-04-28-can-o3-beat-a-geoguessr-master

国产黄片av免费_在线观看看片_www第一精品久久久_成人毛片18女人毛片免_日日摸夜夜操av_国产精品热久久久久夜色精品三区 _中文字幕日韩欧美精品在线_欧美高清另类hdvideosex

兩張圖定位全球，o3碾壓T0級(jí)高手！人類「詭計(jì)」被看穿，跨模態(tài)推理爆表

熱搜

熱門跟貼

国产黄片av免费_在线观看看片_www第一精品久久久_成人毛片18女人毛片免_日日摸夜夜操av_国产精品热久久久久夜色精品三区 _中文字幕日韩欧美精品在线_欧美高清另类hdvideosex

熱搜

熱門跟貼

相關(guān)推薦

高智商的人，思路到底是有多離譜

發(fā)現(xiàn)整座小島全是真人，殊不知背后隱藏著巨大陰謀

盤點(diǎn)那些理解能力“超強(qiáng)”的人類，神奇的腦回路，看完不笑算我輸

三個(gè)一樣的物體就會(huì)消失，人類世界陷入恐慌

2024最新科幻懸疑新作逆時(shí)追兇來襲

頂尖間諜登上月球，拯救即將毀滅的人類《第三集》

真·人機(jī)，我的live圖神器也太好用了吧！

燒腦小說20本，高智商博弈，時(shí)空迷局

幾位高手算了3天都算不出來，誰先進(jìn)攻誰輸，高手一來卻連出險(xiǎn)招

壞人的反偵察能力有多強(qiáng)預(yù)判了你的預(yù)判

外星文明入侵地球，人類用計(jì)抓住外星大boss

男人平日玩世不恭，實(shí)則卻是人類最強(qiáng)天才

詭異的殘局，據(jù)說軟件也不能贏，民間高手走出驚天妙手就贏

這顆詭異的星球上，竟然人猿是統(tǒng)治者

這是一起連續(xù)反轉(zhuǎn)的案子，不看到最后一秒，你還真不知道兇手是誰

T字之謎！現(xiàn)場(chǎng)無人破解，不服來戰(zhàn)！

猿類開啟了智慧，卻也學(xué)會(huì)了人類的陰謀詭計(jì)

用多模態(tài)LLM超越Y(jié)OLOv3！強(qiáng)化學(xué)習(xí)突破多模態(tài)感知極限｜開源

垂直小模型精準(zhǔn)補(bǔ)位，MVP驗(yàn)證成本更低更高效了

25位IT大佬親述：AI「吃掉」程序員！碼農(nóng)黃金時(shí)代終結(jié)

高智商的人，思路到底是有多離譜

發(fā)現(xiàn)整座小島全是真人，殊不知背后隱藏著巨大陰謀

盤點(diǎn)那些理解能力“超強(qiáng)”的人類，神奇的腦回路，看完不笑算我輸

三個(gè)一樣的物體就會(huì)消失，人類世界陷入恐慌

頂尖間諜登上月球，拯救即將毀滅的人類《第三集》

真·人機(jī)，我的live圖神器也太好用了吧！

燒腦小說20本，高智商博弈，時(shí)空迷局

幾位高手算了3天都算不出來，誰先進(jìn)攻誰輸，高手一來卻連出險(xiǎn)招

男人平日玩世不恭，實(shí)則卻是人類最強(qiáng)天才

詭異的殘局，據(jù)說軟件也不能贏，民間高手走出驚天妙手就贏

這顆詭異的星球上，竟然人猿是統(tǒng)治者

這是一起連續(xù)反轉(zhuǎn)的案子，不看到最后一秒，你還真不知道兇手是誰

T字之謎！現(xiàn)場(chǎng)無人破解，不服來戰(zhàn)！

猿類開啟了智慧，卻也學(xué)會(huì)了人類的陰謀詭計(jì)

用多模態(tài)LLM超越Y(jié)OLOv3！強(qiáng)化學(xué)習(xí)突破多模態(tài)感知極限｜開源

垂直小模型精準(zhǔn)補(bǔ)位，MVP驗(yàn)證成本更低更高效了

25位IT大佬親述：AI「吃掉」程序員！碼農(nóng)黃金時(shí)代終結(jié)