打開網(wǎng)易新聞 查看精彩圖片

編輯 | 楊文

今天凌晨,大洋彼岸可真夠熱鬧的。

OpenAI 推出了 GPT-4o 動(dòng)嘴生圖、P 圖的功能,而谷歌則直接祭出了號(hào)稱「最智能的模型」Gemini 2.5。

據(jù)谷歌首席科學(xué)家 Jeff Dean 介紹,首個(gè)版本 Gemini 2.5 Pro Experimental 已集成「思考能力」,是迄今為止性能最強(qiáng)大的 Gemini 模型,尤其擅長(zhǎng)高級(jí)推理和編碼,并在 @lmarena_ai 排行榜上拿下第一。

打開網(wǎng)易新聞 查看精彩圖片

到底有多智能?

先來(lái)欣賞幾個(gè)官方給出的 demo。

Prompt:p5js to explore a Mandelbrot set。

提示詞:用 p5.js 探索曼德博集合。

 以一敵五、屠榜登頂?shù)墓雀鐶emini 2.5,居然栽在小學(xué)數(shù)學(xué)題上
打開網(wǎng)易新聞 查看更多視頻
以一敵五、屠榜登頂?shù)墓雀鐶emini 2.5,居然栽在小學(xué)數(shù)學(xué)題上

Prompt:Create an animated bubble chart using Plotly Express of how economic and health indicators have evolved over the years for each continent.

提示詞:使用 Plotly Express 創(chuàng)建動(dòng)畫氣泡圖,展示各大洲經(jīng)濟(jì)和健康指標(biāo)隨時(shí)間變化。

 以一敵五、屠榜登頂?shù)墓雀鐶emini 2.5,居然栽在小學(xué)數(shù)學(xué)題上
打開網(wǎng)易新聞 查看更多視頻
以一敵五、屠榜登頂?shù)墓雀鐶emini 2.5,居然栽在小學(xué)數(shù)學(xué)題上

Prompt:Make me a captivating endless runner gameKey instructions on the screen. p5js scene ,no HTML. l like pixelated dinosaurs and interesting backgrounds.

提示詞:用 p5.js 創(chuàng)作一個(gè)迷人的無(wú)盡跑酷游戲,畫面上有關(guān)鍵操作提示。場(chǎng)景像素風(fēng),主角是恐龍,背景要有趣。

 以一敵五、屠榜登頂?shù)墓雀鐶emini 2.5,居然栽在小學(xué)數(shù)學(xué)題上
打開網(wǎng)易新聞 查看更多視頻
以一敵五、屠榜登頂?shù)墓雀鐶emini 2.5,居然栽在小學(xué)數(shù)學(xué)題上

Prompt:Create a beautiful, interactive p5js demo (no HTML).l like fish and nebulaeShow me what the fish are thinking.

提示詞:用 p5.js 做個(gè)好看的互動(dòng)演示,別用 HTML。我喜歡魚和星云,能不能展現(xiàn)出魚的想法。

 以一敵五、屠榜登頂?shù)墓雀鐶emini 2.5,居然栽在小學(xué)數(shù)學(xué)題上
打開網(wǎng)易新聞 查看更多視頻
以一敵五、屠榜登頂?shù)墓雀鐶emini 2.5,居然栽在小學(xué)數(shù)學(xué)題上

Prompt: p5.js (no HTML) swarm of 30 colorful boids swimming inside a rotating hexagon.like supernova nebulae.

提示詞:用 p5.js 做一個(gè)無(wú) HTML 的演示:30 只彩色的 “boids” 在一個(gè)旋轉(zhuǎn)的六邊形內(nèi)游動(dòng),效果像超新星星云。

 以一敵五、屠榜登頂?shù)墓雀鐶emini 2.5,居然栽在小學(xué)數(shù)學(xué)題上
打開網(wǎng)易新聞 查看更多視頻
以一敵五、屠榜登頂?shù)墓雀鐶emini 2.5,居然栽在小學(xué)數(shù)學(xué)題上

效果甚是驚艷。

而且谷歌一出手就是免費(fèi)!

現(xiàn)在普通用戶可以在 AI Studio 中免費(fèi)使用 Gemini 2.5 Pro,Gemini App 中的 Gemini 高級(jí)用戶也能使用它。

鏈接直達(dá):http://aistudio.google.com/app/prompts/

一手實(shí)測(cè)

現(xiàn)在只要發(fā)布新模型,言必稱自家的最智能、最強(qiáng)大,然后佐以各種跑分結(jié)果。

對(duì)于普通用戶來(lái)說(shuō),分?jǐn)?shù)、排名都不重要,真正重要的是,它在實(shí)際生活中到底好不好使。

既然谷歌稱 Gemini 2.5 是目前地表最強(qiáng),那我們就來(lái)場(chǎng)大亂斗,將它和 o3-mini、GPT-4.5、Claude3.7 Sonnet、Grok3、DeepSeek R1 拉出來(lái)同臺(tái)競(jìng)技。

1. 一根 10 米長(zhǎng)的竹竿能通過(guò)高 4.5 米、寬 3.8 米的城門嗎?

如果按照常規(guī)的數(shù)學(xué)邏輯來(lái)思考,10 米長(zhǎng)的竹竿確實(shí)無(wú)法通過(guò)這個(gè)尺寸的城門,但是在現(xiàn)實(shí)生活中,我們可以讓竹竿與地面平行穿過(guò)城門。

萬(wàn)萬(wàn)沒想到,這么一道簡(jiǎn)單的竹竿過(guò)城門,讓這群曾號(hào)稱最強(qiáng)的大模型全軍覆沒。

它們不約而同地想到了勾股定理,也把數(shù)值算對(duì)了,卻忽略了現(xiàn)實(shí)是個(gè)三維空間。

打開網(wǎng)易新聞 查看精彩圖片

來(lái)看看各家大模型的具體表現(xiàn)。

Gemini 2.5:

打開網(wǎng)易新聞 查看精彩圖片

o3-mini:

打開網(wǎng)易新聞 查看精彩圖片

GPT-4.5:

打開網(wǎng)易新聞 查看精彩圖片

Claude 3.7 Sonnet:

打開網(wǎng)易新聞 查看精彩圖片

Grok3:

打開網(wǎng)易新聞 查看精彩圖片

DeepSeek R1:

打開網(wǎng)易新聞 查看精彩圖片

2. 我有 6 個(gè)雞蛋,碎了 2 個(gè),煎了 2 個(gè),吃了 2 個(gè),最多還剩幾個(gè)?

這道題目的關(guān)鍵在于理解這些動(dòng)作之間的關(guān)系。

如果把每個(gè)動(dòng)作視為獨(dú)立事件,那將一個(gè)雞蛋也不剩。

但題目問的是最多還剩幾個(gè),這表明可能有重疊的情況,碎的 2 個(gè)雞蛋正好煎了、吃了,因此在最佳情況下,最多還剩 4 個(gè)雞蛋。

Gemini 2.5 和 DeepSeek R1 思考一番后,抓住了問題關(guān)鍵,最終回答正確。

o3-mini、GPT-4.5 和 Claude3.7 考慮到了動(dòng)作重疊的情況,但沒有扣住「最多」這個(gè)條件,因此回答錯(cuò)誤。

最搞笑的就是馬斯克家的 Grok3,答案對(duì)了,但腦回路清奇,它是從完整的雞蛋里拿出 2 個(gè)煎了、吃了,所以最后還剩 2 個(gè)完整的雞蛋和 2 個(gè)碎雞蛋。

來(lái)看看各家大模型的具體表現(xiàn)。

打開網(wǎng)易新聞 查看精彩圖片

Gemini 2.5:

打開網(wǎng)易新聞 查看精彩圖片

o3-mini:

打開網(wǎng)易新聞 查看精彩圖片

GPT-4.5:

打開網(wǎng)易新聞 查看精彩圖片

Claude3.7 Sonnet:

打開網(wǎng)易新聞 查看精彩圖片

Grok3:

打開網(wǎng)易新聞 查看精彩圖片

DeepSeek R1:

打開網(wǎng)易新聞 查看精彩圖片

3. 兩個(gè)人同時(shí)來(lái)到了河邊,都想過(guò)河,但只有一條小船,而且小船只能載一個(gè)人。請(qǐng)問:他們能否都過(guò)河?

這道題目很容易讓人陷入思維定勢(shì)。

同時(shí)來(lái)到河邊的倆人不一定在河的同一邊,只要抓住這個(gè)關(guān)鍵點(diǎn),這道題目就迎刃而解了。

Gemini 2.5、Claude3.7 Sonnet 思路清晰,回答正確。

o3-mini 和 GPT-4.5 雖然都說(shuō)可以同時(shí)過(guò)河,但給出的解釋非常牽強(qiáng),GPT-4.5 甚至說(shuō)讓船空著漂回去,所以不算對(duì)。

Grok3 和 DeepSeek R1 則回答錯(cuò)誤。

打開網(wǎng)易新聞 查看精彩圖片

各家大模型具體表現(xiàn)如下。

Gemini 2.5:

打開網(wǎng)易新聞 查看精彩圖片

o3-mini:

打開網(wǎng)易新聞 查看精彩圖片

GPT-4.5:

打開網(wǎng)易新聞 查看精彩圖片

Claude3.7 Sonnet:

打開網(wǎng)易新聞 查看精彩圖片

Grok3:

打開網(wǎng)易新聞 查看精彩圖片

DeepSeek R1:

打開網(wǎng)易新聞 查看精彩圖片

4. 張三去水果店買蘋果,蘋果進(jìn)價(jià)為 20 元,賣價(jià)是 30 元。張三付給老板 100 元,老板沒有零錢,就在賣鞋的人那里換了 100 元零錢,找給張三 70 元。后來(lái)賣鞋的人發(fā)現(xiàn)那 100 元是假幣,于是找老板換回了 100 元。請(qǐng)問水果店老板損失了多少錢?

別看這道題目出現(xiàn)了如此多的數(shù)字,故事情節(jié)也曲折,但其實(shí)水果店老板損失的錢只有兩部分 —— 蘋果進(jìn)價(jià) 20 元和找給買家的 70 元,因此答案時(shí) 90 元。

Gemini 2.5、Claude3.7 Sonnet、Grok3 和 DeepSeek R1 都回答正確。

o3-mini 和 GPT-4.5 糾結(jié)了半天,徹底被繞進(jìn)去了,最終得出錯(cuò)誤答案。

打開網(wǎng)易新聞 查看精彩圖片

Gemini 2.5:

打開網(wǎng)易新聞 查看精彩圖片

o3-mini:

打開網(wǎng)易新聞 查看精彩圖片

GPT-4.5:

打開網(wǎng)易新聞 查看精彩圖片

Claude3.7 Sonnet:

打開網(wǎng)易新聞 查看精彩圖片

Grok3:

打開網(wǎng)易新聞 查看精彩圖片

DeepSeek R1:

打開網(wǎng)易新聞 查看精彩圖片

5. 多模態(tài)測(cè)試題,杯子有多高?

打開網(wǎng)易新聞 查看精彩圖片

對(duì)于這道題,大模型們要先識(shí)別圖像,然后進(jìn)行計(jì)算。

Gemini 2.5、Claude3.7 Sonnet 和 Grok3 回答正確。

而 o3-mini、GPT4.5 全程胡說(shuō)八道。

DeepSeek R1 雖然可以上傳圖片,但它只能識(shí)別圖片中的文字,無(wú)法真正讀懂圖,因此回答錯(cuò)誤。

打開網(wǎng)易新聞 查看精彩圖片

各家大模型的具體表現(xiàn)如下。

Gemini 2.5:

打開網(wǎng)易新聞 查看精彩圖片

o3-mini:

打開網(wǎng)易新聞 查看精彩圖片

GPT-4.5:

打開網(wǎng)易新聞 查看精彩圖片

Claude 3.7 Sonnet:

打開網(wǎng)易新聞 查看精彩圖片

Grok3:

打開網(wǎng)易新聞 查看精彩圖片

DeepSeek R1:

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

根據(jù)以上測(cè)試,我們發(fā)現(xiàn) Gemini 2.5 雖然也會(huì)翻車,但正確率達(dá) 80%,總體來(lái)說(shuō)數(shù)學(xué)邏輯推理能力還是挺能打的。

Claude 3.7 Sonnet 稍遜一籌,5 道題目錯(cuò)了倆。

最慘的就是 OpenAI 家的兩大模型 o3mini 和 GPT-4.5,沒有一道題目是做對(duì)的,正確率為 0。

以后我們會(huì)帶來(lái)更多好玩有用的 AI 評(píng)測(cè),也歡迎大家進(jìn)群交流。

? THE END

轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)