打開網(wǎng)易新聞 查看精彩圖片

谷歌AI拿下三連冠

科技巨頭谷歌突然開大,在AI領(lǐng)域掀起了滔天巨浪。

近日,谷歌提前放出了全新升級(jí)的Gemini 2.5 Pro Preview(I/O版),新模型一舉拿下三連冠,登頂LMeana。

同時(shí),它也成為首個(gè)橫掃文本、視覺、WebDev Arena基準(zhǔn)的SOTA模型。

進(jìn)一步說,這也是自2022年底ChatGPT引爆生成式AI熱潮以來,谷歌首次在關(guān)鍵的代碼生成評(píng)估指標(biāo)上全面領(lǐng)先,擊敗所有競(jìng)爭(zhēng)對(duì)手。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

圖源:Google

此次發(fā)布的版本是今年3月發(fā)布的多模態(tài)大語言模型Gemini 2.5 Pro的重大升級(jí)版。

谷歌在表示,本來計(jì)劃在谷歌I/O上發(fā)布這個(gè)更新,但看到大家對(duì)這款模型的熱情高漲,所以決定提前放出,讓所有人能盡早開發(fā)使用。

目前,該模型已向Google AI Studio的獨(dú)立開發(fā)者、Vertex AI云平臺(tái)的企業(yè)用戶以及Gemini應(yīng)用的普通用戶開放。

同時(shí),谷歌表示,其并未調(diào)整模型定價(jià)或速率限制:目前使用Gemini 2.5 Pro的用戶將自動(dòng)切換至新模型,價(jià)格仍為每百萬輸入token收費(fèi)1.25美元,每百萬輸出token收費(fèi)10美元,最多支持20萬token的上下文窗口。

相較于Claude 3.7 Sonnet的15美元,很顯然谷歌模型更具價(jià)格優(yōu)勢(shì)。并且,企業(yè)用戶還可通過Canvas工具實(shí)現(xiàn)低代碼開發(fā)流程。

打開網(wǎng)易新聞 查看精彩圖片

圖源:Google

公開數(shù)據(jù)表明,谷歌新模型得分為1499.95,遠(yuǎn)高于Sonnet 3.7的1377.10,編碼性能碾壓Claude 3.7 Sonnet。

打開網(wǎng)易新聞 查看精彩圖片

圖源:微博

此前,舊版本的Gemini 2.5 Pro(03-25)得分為1278.96,排名位列第三。當(dāng)然,這也意味著新版本實(shí)現(xiàn)了221分的大幅躍升。

同時(shí),DeepMind CEO德米斯·哈薩比斯也表示,“非常高興能與大家分享我們有史以來構(gòu)建的最佳編程模型!今天,我們發(fā)布了 Gemini 2.5 Pro Preview I/O 版,編程能力得到了大幅提升。此版本在 LMArena 編程類別中排名第一,在 WebDev Arena 排行榜上同樣領(lǐng)先。

打開網(wǎng)易新聞 查看精彩圖片

圖源:微博

可以說,頭把交椅的易主,盡顯谷歌的實(shí)力與野心。

打開網(wǎng)易新聞 查看精彩圖片

新模型的三大亮點(diǎn)解讀

當(dāng)然,從谷歌公布的各項(xiàng)初步基準(zhǔn)測(cè)試結(jié)果來看,外界對(duì)新模型的盛譽(yù)也并非夸大其詞。那么,我們來聊一聊有哪些讓人眼前一亮的提升。

首先,Gemini 2.5 Pro Preview(I/O版)重點(diǎn)突破在于:只需通過一條提示即可構(gòu)建完整、可交互的網(wǎng)頁應(yīng)用或模擬程序。

對(duì)此,谷歌表示,用戶可以輸入視覺模式或主題性提示,將其直接轉(zhuǎn)化為可運(yùn)行的代碼,這顯著降低了設(shè)計(jì)導(dǎo)向型開發(fā)者或創(chuàng)新團(tuán)隊(duì)的入門門檻。

打開網(wǎng)易新聞 查看精彩圖片

圖源:Google

換句話說,作為普通用戶,即便沒有編程基礎(chǔ),也能通過Gemini 2.5 Pro Preview(I/O版)快速構(gòu)建復(fù)雜應(yīng)用。

例如,用戶只需用自然語言描述需求,或上傳一張手繪草圖,Gemini 2.5 Pro I/O版就能自動(dòng)識(shí)別草圖布局并生成響應(yīng)式代碼,若用戶繪制了一個(gè)麥克風(fēng)圖標(biāo),系統(tǒng)不僅會(huì)生成錄音按鈕,還會(huì)配套動(dòng)態(tài)波形動(dòng)畫和暫停邏輯,最后自動(dòng)生成功能完備的Web應(yīng)用。

打開網(wǎng)易新聞 查看精彩圖片

圖源:微博

同時(shí),用戶添加新功能時(shí),模型能繼承現(xiàn)有項(xiàng)目的視覺風(fēng)格,避免“拼貼感”,例如在已有React項(xiàng)目中新增組件時(shí),CSS類名和動(dòng)畫曲線會(huì)自動(dòng)對(duì)齊。

對(duì)此功能,AI藝術(shù)工具EverArt首席執(zhí)行官彼得羅·斯基拉諾測(cè)試后直接表示,新版Gemini 2.5 Pro I/O能夠通過一個(gè)提示就生成互動(dòng)模擬游戲,完美還原了“1只大猩猩大戰(zhàn)100人”的社交媒體梗。

打開網(wǎng)易新聞 查看精彩圖片

圖源:微博

同時(shí),Hyperbolic聯(lián)合創(chuàng)始人兼CTO Yuchen Jin也寫道:“Gemini 2.5 Pro Preview(05-06)現(xiàn)已成為我的首選編程模型。在多個(gè)高難度提示詞測(cè)試中,它已超越o3(GPT-4o)和Claude 3.7 Sonnet。以編寫模擬水桶來回晃動(dòng)的水體效果這個(gè)提示為例,其表現(xiàn)完全碾壓另外兩個(gè)模型。谷歌,這完全夠格稱為Gemini 3了!

打開網(wǎng)易新聞 查看精彩圖片

圖源:微博

此外,某位X用戶“RameshR”(@rezmeram)也測(cè)試并展示了該模型在不到一分鐘內(nèi)生成的一款互動(dòng)式俄羅斯方塊風(fēng)格拼圖游戲,并配有真實(shí)音效,他在帖文中寫道:“休閑游戲行業(yè)要完蛋了!”

除了單條文本提示便能生成完整應(yīng)用這一亮點(diǎn)以外,Gemini 2.5 Pro I/O版還將視頻理解能力推向新高度。

打開網(wǎng)易新聞 查看精彩圖片

圖源:微博

憑借在VideoMME等基準(zhǔn)測(cè)試中高達(dá)84.8%的SOTA視頻理解能力,Gemini 2.5 Pro能夠?qū)⒁曨l內(nèi)容直接轉(zhuǎn)化為交互式學(xué)習(xí)應(yīng)用,為教育、產(chǎn)品演示等領(lǐng)域開辟了新途徑。

在前端開發(fā)流程中,Gemini 2.5 Pro致力于智能化“設(shè)計(jì)稿到代碼”的過程。它能更好地理解設(shè)計(jì)風(fēng)格,自動(dòng)生成匹配的CSS代碼,例如在現(xiàn)有應(yīng)用風(fēng)格基礎(chǔ)上添加新功能時(shí),能自動(dòng)匹配整體視覺設(shè)計(jì),從而簡化開發(fā)。

此外,模型在快速將概念轉(zhuǎn)化為兼具功能與美感的應(yīng)用方面也展現(xiàn)出潛力。

例如,在谷歌DeepMind研究員Ali Eslami發(fā)布的另一個(gè)演示中,用Gemini 2.5 Pro“氛圍編程”功能進(jìn)行了芝加哥藝術(shù)學(xué)院收藏品的3D導(dǎo)覽。

打開網(wǎng)易新聞 查看精彩圖片

圖源:微博

最后,針對(duì)企業(yè)級(jí)開發(fā)的痛點(diǎn),Gemini 2.5 Pro I/O版還展現(xiàn)出了優(yōu)越的代碼維護(hù)能力。

一方面,其支持跨框架遷移,如React轉(zhuǎn)Vue,能夠自動(dòng)更新依賴項(xiàng)并修復(fù)兼容性問題。例如,有團(tuán)隊(duì)將10萬行代碼庫從Angular遷移到Next.js,錯(cuò)誤率僅0.3%。

另一方面,針對(duì)長期困擾開發(fā)者的“AI幻覺”問題,新一代模型通過強(qiáng)化學(xué)習(xí)機(jī)制將API調(diào)用錯(cuò)誤率壓到了40%。例如,其在支付功能開發(fā)場(chǎng)景中,系統(tǒng)會(huì)智能規(guī)避虛構(gòu)接口陷阱,直接調(diào)用Stripe等經(jīng)過驗(yàn)證的官方SDK,減少代碼坑害。

進(jìn)一步說,Gemini 2.5 Pro I/O版更令人驚艷的是其注釋優(yōu)化能力,可以自動(dòng)生成符合JSDoc規(guī)范的注釋,并支持一鍵過濾冗余說明,使得技術(shù)審查效率提升三倍以上。

綜上,Gemini 2.5 Pro I/O版的更新,實(shí)現(xiàn)了簡單提示詞生成代碼、圖片和視頻轉(zhuǎn)化為交互式網(wǎng)頁。

也就是說,AI已經(jīng)不僅僅是為用戶生成答案的搜索引擎,甚至可以直接充當(dāng)主體的角色,進(jìn)行創(chuàng)作、數(shù)據(jù)分析、編程等,因此,直接弱化了工具與創(chuàng)造者的界限。

盡管在抽象思維層面尚未突破人類天花板,但其在具體場(chǎng)景中展現(xiàn)的效能已足夠顛覆傳統(tǒng)開發(fā)流程。

對(duì)于普通用戶而言,個(gè)體不再需要掌握編程語言,只需想象力和清晰的目的,就可以借助AI進(jìn)行內(nèi)容創(chuàng)作,全民AI的藍(lán)圖無疑更加清晰。

同時(shí),效率的提升必然會(huì)從個(gè)人應(yīng)用場(chǎng)景蔓延至團(tuán)隊(duì)工作場(chǎng)景,再影響企業(yè)的戰(zhàn)略規(guī)劃,最終形成社會(huì)化的生產(chǎn)力要素來進(jìn)行價(jià)值釋放。

這也意味著,這次更新,不僅是科技巨頭谷歌像外界展示大招,更意味著,人類在使用AI工具時(shí)的角色進(jìn)一步轉(zhuǎn)變。

不過,對(duì)此也有網(wǎng)友變現(xiàn)出部分負(fù)面看法,認(rèn)為這將嚴(yán)重?cái)D壓平庸人在社會(huì)經(jīng)濟(jì)中的勞動(dòng)附加值,也就是說,未來面對(duì)替代危機(jī)的,可能不僅僅是依賴簡單重復(fù)性勞動(dòng)的群體。

或許,Gemini 2.5 Pro的霸榜或許只是序章,隨著科技巨頭的持續(xù)迭代,一個(gè)由AI驅(qū)動(dòng)、人機(jī)共創(chuàng)的軟件工程新時(shí)代正在加速到來,讓我們拭目以待。

作者 | 宋輝