
谷歌史上最強(qiáng)編程模型來(lái)了!
智東西5月7日消息,北京時(shí)間5月6日晚,谷歌DeepMind AI研究部門正式推出Gemini 2.5 Pro “I/O”特別版,回應(yīng)開發(fā)者社區(qū)對(duì)實(shí)際編程和界面設(shè)計(jì)效能的強(qiáng)烈需求,給全球用戶提前“嘗鮮”。
WebDev Arena Leaderboard基準(zhǔn)測(cè)試最新榜單顯示,自2022年底ChatGPT引爆生成式AI競(jìng)賽以來(lái),谷歌首次在關(guān)鍵編程基準(zhǔn)測(cè)試中超越Claude,實(shí)現(xiàn)全面領(lǐng)先。新版模型代號(hào)“Gemini-2.5-pro-preview-05-06”已取代03-25版本,目前可通過Gemini API、Vertex AI、AI Studio平臺(tái)獲取,普通用戶可以通過Gemini聊天機(jī)器人應(yīng)用體驗(yàn)。


▲數(shù)據(jù)來(lái)源于Imarena.AI
新模型定價(jià)與Gemini 2.5 Pro模型相同,每百萬(wàn)token輸入和輸出費(fèi)用分別為1.25美元和10美元(約合人民幣9元和72元)(支持20萬(wàn)token上下文),相較Anthropic的Claude 3.7 Sonnet模型的3美元和15美元(約合人民幣22元和108元)更具性價(jià)比。
谷歌DeepMind首席執(zhí)行官戴密斯·哈薩比斯(Demis Hassabis)在海外社交媒體X平臺(tái)盛贊其為“我們迄今構(gòu)建的最強(qiáng)編程模型”。

一、編程能力首次超越Claude,AI編程“頭把交椅”或?qū)⒁字?/p>
這次的特別款是三月發(fā)布的大熱模型Gemini 2.5 Pro的升級(jí)新版本,谷歌Gemini API高級(jí)產(chǎn)品經(jīng)理Logan Kilpatrick在技術(shù)博客中確認(rèn),本次升級(jí)重點(diǎn)優(yōu)化了函數(shù)調(diào)用功能,降低錯(cuò)誤率并提升觸發(fā)可靠性。據(jù)谷歌博客內(nèi)容,Gemini 2.5 Pro“I/O”特別版在編程和構(gòu)建交互式網(wǎng)頁(yè)應(yīng)用方面的能力有“顯著”提升,在代碼轉(zhuǎn)換(即修改代碼以實(shí)現(xiàn)特定目標(biāo))等任務(wù)上的表現(xiàn)也更好。

▲數(shù)據(jù)來(lái)源于WebDev Arena Leaderboard
博客文章中提到了Gemini 2.5 Pro“I/O”特別版在WebDev Arena Leaderboard基準(zhǔn)測(cè)試(衡量模型創(chuàng)建美觀且功能完備的網(wǎng)頁(yè)應(yīng)用的能力)中的表現(xiàn)。在最新排名中,Gemini 2.5 Pro Preview (05-06)以1419.95分超越Claude 3.7 Sonnet(1357.10分)登頂,相較前代03-25版本1272.96分的表現(xiàn),新版實(shí)現(xiàn)了146.99分的提升。
谷歌DeepMind首席執(zhí)行官哈薩比斯對(duì)此十分自豪,還狠狠“凡爾賽”了一番:

此外,本次升級(jí)最突出的能力在于根據(jù)單條文本提示生成完整交互式網(wǎng)頁(yè)應(yīng)用或模擬程序。Gemini應(yīng)用內(nèi)的演示顯示,用戶可將視覺圖案或主題提示直接轉(zhuǎn)化為可用代碼,大幅降低設(shè)計(jì)導(dǎo)向型開發(fā)者的入門門檻。
二、視頻理解超強(qiáng),領(lǐng)跑視覺基準(zhǔn)測(cè)試
Gemini 2.5 Pro“I/O”特別版在視頻理解方面也具備超高性能,谷歌在其博客中稱該版本在VideoMME基準(zhǔn)測(cè)試中獲得84.8%的分?jǐn)?shù),占據(jù)榜首。據(jù)谷歌官方博客透露,該模型還驅(qū)動(dòng)著Gemini移動(dòng)應(yīng)用的Canvas畫布等核心功能。

▲數(shù)據(jù)來(lái)源于Imarena.AI
在Gemini 95等應(yīng)用中,新模型能自動(dòng)統(tǒng)一視覺元素的風(fēng)格匹配。其工作流支持將YouTube視頻轉(zhuǎn)化為功能完備的學(xué)習(xí)應(yīng)用,并可快速生成響應(yīng)式視頻播放器、動(dòng)態(tài)聽寫界面等高度風(fēng)格化組件,幾乎無(wú)需手動(dòng)編寫CSS代碼。
結(jié)語(yǔ):谷歌Gemini模型向?qū)嵱蒙a(chǎn)力工具轉(zhuǎn)型
AI編程工具企業(yè)Cursor的首席執(zhí)行官M(fèi)ichael Truell透露,內(nèi)部測(cè)試顯示Gemini 2.5 Pro“I/O”特別版的工具調(diào)用失敗率顯著下降。目前Cursor已將Gemini 2.5 Pro集成至其code agent系統(tǒng)。
代碼托管平臺(tái)公司Replit的總裁Michele Catasta也評(píng)價(jià)稱該模型是“平衡性能與延遲的最先進(jìn)模型”。
雖然谷歌未公開Gemini 2.5 Pro的架構(gòu)細(xì)節(jié),但其核心目標(biāo)始終是提供更快速、更直觀的開發(fā)體驗(yàn)。通過強(qiáng)化代碼生成和多模態(tài)輸入優(yōu)勢(shì),Gemini 2.5 Pro正從研究性創(chuàng)新轉(zhuǎn)向解決實(shí)際編程挑戰(zhàn)的生產(chǎn)力工具。此次提前發(fā)布讓谷歌DeepMind在重大會(huì)議前滿足開發(fā)者需求、保持市場(chǎng)勢(shì)頭的意圖更加明確。
來(lái)源:TechCrunch,VentureBeat,Google Blog,Imarena.AI
熱門跟貼