
谷歌 DeepMind 正式推出了他們迄今為止最智能的AI模型——Gemini 2.5。這次發(fā)布的第一個(gè)版本是Gemini 2.5 Pro 實(shí)驗(yàn)版 (Experimental),谷歌稱其為“思考型模型”,在多個(gè)主流基準(zhǔn)測(cè)試中實(shí)現(xiàn)了大幅領(lǐng)先,尤其在推理和代碼能力上表現(xiàn)驚人
劃重點(diǎn)
谷歌長(zhǎng)期探索提升AI推理能力的方法,比如強(qiáng)化學(xué)習(xí)(RL)和思維鏈(Chain-of-Thought)提示。之前的 Gemini 2.0 Flash Thinking 是首次嘗試,而Gemini 2.5 通過(guò)顯著增強(qiáng)的基礎(chǔ)模型和改進(jìn)的后訓(xùn)練技術(shù),將這種“思考”能力提升到了新高度,并直接內(nèi)建到模型中。這意味著未來(lái)的谷歌模型將能更好地處理復(fù)雜問(wèn)題,支持更強(qiáng)大的、具備上下文感知能力的AI智能體(Agents)
Gemini 2.5 Pro 實(shí)驗(yàn)版:性能炸裂,直接看數(shù)據(jù)!
這次的 2.5 Pro 實(shí)驗(yàn)版絕非浪得虛名,它在衡量人類偏好的LMArena 排行榜上直接登頂,且優(yōu)勢(shì)顯著,顯示出其強(qiáng)大的能力和高質(zhì)量的輸出風(fēng)格
以下是它在多個(gè)關(guān)鍵基準(zhǔn)測(cè)試中的單次嘗試(pass@1)成績(jī),對(duì)比了包括 OpenAI、Anthropic、Grok、DeepSeek 等友商模型(數(shù)據(jù)來(lái)源為谷歌官方及第三方榜單):

核心亮點(diǎn)解讀:
超強(qiáng)推理:在GPQA、AIME 2025 等高難度推理基準(zhǔn)上表現(xiàn)卓越。特別是Humanity's Last Exam 無(wú)工具 18.8%的成績(jī)
高級(jí)編碼:相比 2.0 有巨大飛躍,擅長(zhǎng)創(chuàng)建視覺(jué)效果好的Web應(yīng)用、代碼智能體應(yīng)用、代碼轉(zhuǎn)換和編輯。在行業(yè)標(biāo)準(zhǔn)SWE-Bench Verified 上,使用自定義智能體設(shè)置達(dá)到 63.8%
繼承并強(qiáng)化 Gemini 優(yōu)勢(shì):
?原生多模態(tài):依然能理解文本、音頻、圖像、視頻甚至代碼庫(kù)。
?超長(zhǎng)上下文窗口:發(fā)布即支持 100 萬(wàn) token,性能優(yōu)于前代,即將支持 200 萬(wàn) token!處理海量數(shù)據(jù)和復(fù)雜信息源的能力更強(qiáng)
我用三個(gè)提示測(cè)試了一下Gemini 2.5 Pro 的前端代碼能力表現(xiàn),總體感覺(jué)僅就前段來(lái)看Gemini 2.5 Pro不如deepseek v3 最新版,缺少了一些細(xì)節(jié)
提示1:幫我制作一個(gè)賽博朋克貪吃蛇游戲,在單個(gè)HTML中運(yùn)行
Gemini 2.5 實(shí)現(xiàn)效果
作為對(duì)比,這是deepseek v3 0324
提示2:Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions (e.g., a function or a set of buttons) to demonstrate the animations for each
Gemini 2.5 實(shí)現(xiàn)效果:
deepseek v3 0324 實(shí)現(xiàn)效果
提示3:模擬一個(gè)太陽(yáng)系行星運(yùn)動(dòng),在單個(gè)HTML中運(yùn)行
Gemini 2.5 實(shí)現(xiàn)效果
deepseek v3 0324 實(shí)現(xiàn)效果
如何體驗(yàn)
Gemini 2.5 Pro 實(shí)驗(yàn)版現(xiàn)在已經(jīng)可以在以下平臺(tái)體驗(yàn)
Google AI Studio:開發(fā)者和企業(yè)用戶可以立即開始試驗(yàn)

Gemini App (桌面和移動(dòng)端):Gemini Advanced 用戶可以在模型下拉菜單中選擇。
此外,未來(lái)幾周內(nèi):
? 將登陸Vertex AI平臺(tái)。
? 將公布定價(jià),并提供更高的速率限制,方便規(guī)模化生產(chǎn)使用
參考:
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking
?星標(biāo)AI寒武紀(jì),好內(nèi)容不錯(cuò)過(guò)?
用你的贊和在看告訴我~
求贊
熱門跟貼