夢晨 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

ChatGPT新玩法,讓程序員大佬Simon Willison直呼太反烏托邦了,像科幻突然變成現(xiàn)實(shí):

只需一張照片,靠帶圖深度思考就能猜出地理位置。

打開網(wǎng)易新聞 查看精彩圖片

這種玩法很簡單,隨手拍一張風(fēng)景,沒有任何明顯的地標(biāo)即可,也不需要復(fù)雜的提示詞,只需要問“猜猜這張照片是在哪里拍的?”(需要o3/o4-mini的帶圖思考,先關(guān)閉所有記憶功能)。

打開網(wǎng)易新聞 查看精彩圖片

只見ChatGPT從山看到植物,從建筑細(xì)節(jié)分析到車輛,運(yùn)行代碼截取放大車牌數(shù)次。

最終得出結(jié)果,離準(zhǔn)確答案只差200-300公里,相當(dāng)于從北京到河北,這么近那么美。

打開網(wǎng)易新聞 查看精彩圖片

ChatGPT的策略是先猜個(gè)大概,再根據(jù)畫面細(xì)節(jié)一步步縮小范圍鎖定結(jié)論,給出的依據(jù)如下:

打開網(wǎng)易新聞 查看精彩圖片

首先車牌是加州樣式→基本確定在加州。

打開網(wǎng)易新聞 查看精彩圖片

很多加州常見植物和標(biāo)志性藍(lán)天→典型的加州中部沿海植被和氣候。

打開網(wǎng)易新聞 查看精彩圖片

低矮的淡色海灘小屋,配有白色尖樁籬笆和繩索和柱子搭建的露臺(tái)欄桿→圣克魯斯和皮斯莫之間的海灘小鎮(zhèn)的常見建筑。

打開網(wǎng)易新聞 查看精彩圖片

城鎮(zhèn)后面連綿起伏的綠色海岸山脈(沒有高峰,沒有雪)→符合圣盧西亞/圣克魯斯沿海丘陵。

打開網(wǎng)易新聞 查看精彩圖片

最終ChatGPT給出結(jié)論:

  • 綜合起來,這張照片指向一號公路邊上的一個(gè)小村莊。村舍林立,背靠群山,頗有加州坎布里亞(莫羅灣和卡尤科斯以北)的風(fēng)情。我猜你是在坎布里亞西村的一家咖啡館露臺(tái)上拍的這張照片,離月光石海灘大道大概一兩個(gè)街區(qū)遠(yuǎn)。
  • (如果我錯(cuò)了,備選答案是半月灣到更北邊的埃爾格拉納達(dá),但坎布里亞是我的第一直覺?。?/li>

正確答案正是在埃爾格拉納達(dá)附近的一家露天酒吧里拍的,ChatGPT只靠一小段道路、一棟無名的房子和背景中的小山猜得非常接近。

看到這里,論壇上專門玩猜照片位置的競技級玩家也不得不服氣,承認(rèn)AI能記住的信息遠(yuǎn)超人類大腦能力。

打開網(wǎng)易新聞 查看精彩圖片

一張照片裁剪放大25次

作者Simon Willison分享了完整的對話記錄,包括6分鐘的完整深度思考記錄。

雖然ChatGPT能猜得很接近,但過程還是很波折。

首先是一個(gè)開幕雷擊,AI突然“瞎”了認(rèn)為自己無法直接看到圖片。

可能是訓(xùn)練數(shù)據(jù)包含太多之前單模態(tài)語言模型的數(shù)據(jù)太多了,不過絲毫不影響后面繼續(xù)發(fā)揮。

打開網(wǎng)易新聞 查看精彩圖片

現(xiàn)瀏覽一下整體,ChatGPT心里就已經(jīng)大致有數(shù),后面都是尋找證據(jù)。

打開網(wǎng)易新聞 查看精彩圖片

放大車牌這一步動(dòng)用了代碼工具,

打開網(wǎng)易新聞 查看精彩圖片

基本鎖定了加州作為大方向,開始進(jìn)一步分析細(xì)節(jié)。

打開網(wǎng)易新聞 查看精彩圖片

接下來反復(fù)裁剪、放大照片的某個(gè)區(qū)域,思考它所看到的內(nèi)容,將其與之前的觀察結(jié)果進(jìn)行比較,然后再次裁剪、放大和分析。

它就這樣持續(xù)思考了6分多鐘,期間也有裁剪錯(cuò)位置。

打開網(wǎng)易新聞 查看精彩圖片

不過每一次都能退回上一步重來。

打開網(wǎng)易新聞 查看精彩圖片

在深度思考的結(jié)尾,ChatGPT甚至嘗試把范圍縮小到一個(gè)具體的餐廳。

打開網(wǎng)易新聞 查看精彩圖片

整個(gè)過程看下來,作者Simon Willison懷疑模型的視覺輸入分辨率很低,所以裁剪到更靠近車牌的位置會(huì)對思考過程產(chǎn)生重大影響。

但對一張照片裁剪操作25次還是有些夸張了。

打開網(wǎng)易新聞 查看精彩圖片

o3不是唯一一個(gè)能根據(jù)照片猜測地理位置的AI模型,但它的獨(dú)特之處就在于工具使用被集成到推理階段。

預(yù)計(jì)其他模型開發(fā)商也會(huì)跟進(jìn)這個(gè)特性。

后面Simon Willison還發(fā)現(xiàn)一點(diǎn)小疏忽,ChatGPT應(yīng)用其實(shí)能獲取使用者的大致位置信息,可能是為了改進(jìn)聯(lián)網(wǎng)搜索結(jié)果加上的。

不過這不影響試驗(yàn)的結(jié)果,如果ChatGPT知道位置信息,就不會(huì)把真正的答案埃爾格拉納達(dá)放到備選結(jié)果里。

為了驗(yàn)證這一點(diǎn),作者還試驗(yàn)了兩張?jiān)跀?shù)千公里外旅行時(shí)的照片,且通過截圖抹除照片的EXIF信息,o3也都猜對了。

試試你能不能猜出來這兩張照片分別在哪里?

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

ChatGPT悄悄更新,但是不知道更新了什么

就在這半個(gè)周末,ChatGPT再次悄悄更新,GPT-4o的智力和個(gè)性都得到升級。

打開網(wǎng)易新聞 查看精彩圖片

不過只有奧特曼的一句話,到底更新的是APP呢還是API呢還是都升級了呢,還要靠員工來補(bǔ)充:只有ChatGPT應(yīng)用上升級了。

打開網(wǎng)易新聞 查看精彩圖片

OpenAI這種越來越不透明的現(xiàn)象也被更多人批評。

打開網(wǎng)易新聞 查看精彩圖片

更詳細(xì)的信息(也不太詳細(xì))發(fā)布在ChatGPT幫助中心的更新日志里。

打開網(wǎng)易新聞 查看精彩圖片

有人感覺到GPT-4o升級之后有什么變化么?歡迎在評論區(qū)分享。

參考鏈接:
[1]https://simonwillison.net/2025/Apr/26/o3-photo-locations/
[2]https://news.ycombinator.com/item?id=43803243
[3]https://x.com/sama/status/1915902652703248679
[4]https://help.openai.com/en/articles/9624314-model-release-notes