克雷西 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
緊跟o4-mini,谷歌上新了Gemini 2.5 Flash preview版本。
作為更注重效率的Flash,在大模型競技場上排名并列第二,第一是自家的Gemini 2.5 Pro。
這樣的表現(xiàn),讓Gemini 2.5 Flash的性價(jià)比直接拉滿。
而且還是一款混合推理模型,可以自由設(shè)定思考深度,幫助預(yù)算不足的用戶進(jìn)一步控制推理成本。
目前,preview版本(不同于Gemini網(wǎng)頁版中的版本)已在Google AI Studio和Vertex AI的 API中上線。

主打性價(jià)比,思考深度自由調(diào)控
在大模型競技場上,經(jīng)過3000多輪對戰(zhàn),Gemini 2.5 Flash獲得了1392分的成績,與Grok-3、GPT-4.5等模型并列第二。
綜合成績僅次于自家的Pro版,這樣看來在競技場中戰(zhàn)勝谷歌的只有谷歌了。

并且在編程、復(fù)雜提示和長文本三個(gè)子榜單中,都和Pro版并列第一。

在大模型競技場推出的WebDev榜單里,Gemini 2.5 Flash位列第七,超過了前一代(2.0)的Pro版本。

此外谷歌還展示了Gemini 2.5 Flash在一系列高難度數(shù)據(jù)集上的表現(xiàn)。
其中包括由1000多名學(xué)者提出的“人類最后的考試”,這套測試集發(fā)布時(shí)沒有任何一個(gè)模型得分超過10%,現(xiàn)在Gemini 2.5 Flash的成績是12.1%。

作為Flash版本,Gemini 2.5 Flash在谷歌自家的模型中,是至今性價(jià)比最高的版本。
其價(jià)格為0.15/0.6/3.5美元每百萬輸入/輸出/推理Token,和o4-mini相比便宜了不少。

實(shí)際上,如果按照輸入輸出3:1的比例計(jì)算,在大模型競技場1400分附近,Gemini 2.5 Flash是最便宜的一款模型。

△請注意橫軸數(shù)字非單調(diào)下降
另外對于價(jià)格相對較高的推理過程,Gemini 2.5 Flash支持自由深度控制(甚至完全關(guān)閉),可以幫助預(yù)算不足的用戶節(jié)約成本。
如果不進(jìn)行設(shè)置,模型也會(huì)根據(jù)prompt自己判斷適宜的思考深度,避免在簡單的問題上過度思考,從而平衡成本。

o4-mini的競爭者?
在HackerNews上,Gemini 2.5 Flash引發(fā)了熱烈的討論。
有人認(rèn)為,谷歌不搞炒作,但實(shí)際上性價(jià)比非常高,谷歌正在贏得人工智能競賽。
也有人覺得,便宜是便宜,但是模型有時(shí)候會(huì)犯懶,不過這也在預(yù)料之中。
當(dāng)然,實(shí)際應(yīng)用還是要看具體任務(wù),不過可以確定的是,Gemini 2.5 Flash的性價(jià)比已經(jīng)獲得了部分人的認(rèn)可。

另外由于Gemini的Flash版本和OpenAI的mini類似,再加上上線時(shí)間鄰近,Gemini 2.5 Flash也被視為o4-mini的競爭者。
不過從谷歌官方發(fā)布的成績單上看,Gemini 2.5 Flash在一些難度較高的測試集中,表現(xiàn)是要稍遜于o4-mini的。
但如果考慮價(jià)格,這樣的差距似乎可以接受,而且實(shí)際任務(wù)當(dāng)中,也不總是需要模型能夠應(yīng)付這些最難的問題。

那么,在實(shí)際環(huán)境當(dāng)中,Gemini 2.5 Flash的表現(xiàn)又如何呢?首先看看編程能力。
先安排一下著名的小球測試變體——一個(gè)大五邊形中包含了三個(gè)缺一邊的小五邊形,之間互不交叉,小球在其中按照物理規(guī)律運(yùn)動(dòng)。
五邊形的部分Gemini 2.5 Flash,正確繪制出來了,但對于小球則是完全已讀亂回,經(jīng)過了反復(fù)調(diào)整之后依然翻車。
再看o4-mini,運(yùn)行結(jié)果符合提示詞要求,并且代碼更加精簡,僅128行,而Gemini版本超過了500行。
這一輪,o4-mini勝。
再看數(shù)據(jù)分析能力。
我們找來了最近某班次航班的飛行記錄,包含了起飛到降落過程中各時(shí)間點(diǎn)的位置、高度、速度、航向等信息,一共有1700余個(gè)數(shù)據(jù)點(diǎn)。
給出的任務(wù)則是繪制出高度和速度隨時(shí)間變化的折線圖,并且涉及到了時(shí)區(qū)和計(jì)量單位的換算(原始數(shù)據(jù)中時(shí)間為UTC時(shí)間、高度為英尺、速度為節(jié),需要換算成北京時(shí)間、高度單位為米、速度單位為公里每小時(shí))。
雖然我們上傳了數(shù)據(jù)文件,但一開始Gemini沒有選擇外掛,而是把數(shù)據(jù)全都寫進(jìn)了Python代碼,導(dǎo)致代碼非常冗長。
經(jīng)過提示之后,Gemini對代碼進(jìn)行了改進(jìn),得到了正確的圖像。

o4-mini這邊,雖然結(jié)果也對,但是沒有考慮清楚坐標(biāo)軸文本的長度,導(dǎo)致橫軸上所有標(biāo)簽都擠成一團(tuán)。
而且相比之下,Gemini的版本還帶有網(wǎng)格線,能夠更清晰地看出各點(diǎn)對應(yīng)的大致數(shù)值。
這一輪,Gemini勝。

最后一輪,來看下兩款模型的多模態(tài)理解能力。
這是英偉達(dá)最近一個(gè)月的股票形勢圖,我們讓兩款模型分別分析一下最佳的入手時(shí)機(jī)。

它們都從圖中正確發(fā)現(xiàn)了最低點(diǎn)和對應(yīng)的時(shí)間,至于回答質(zhì)量,還是直接看他們的輸出結(jié)果:

總的來說,如果不考慮價(jià)格,Gemini 2.5 Flash確實(shí)和o4-mini比還有些不盡如人意,但落地中考慮性價(jià)比,可能綜合競爭力就體現(xiàn)出來了。
參考鏈接:
https://developers.googleblog.com/en/start-building-with-gemini-25-flash
熱門跟貼