5月7日消息,AI編程領(lǐng)域迎來了新的王者:谷歌DeepMind人工智能研究部門周二發(fā)布了全新升級的Gemini 2.5 Pro “I/O”版,這是其今年3月推出、大受歡迎的多模態(tài)大語言模型Gemini 2.5 Pro的最新版本。DeepMind首席執(zhí)行官德米斯·哈薩比斯(Demis Hassabis)在社交媒體上表示,這是“我們構(gòu)建過的最佳編程模型!”

谷歌公布的初步基準(zhǔn)測試結(jié)果印證了這一說法。數(shù)據(jù)顯示,自2022年底ChatGPT正式掀起生成式人工智能熱潮以來,谷歌首次在關(guān)鍵編程基準(zhǔn)測試中超越所有其他模型,躍居榜首。

此次更新的模型版本編號為“gemini-2.5-pro-preview-05-06”,已取代之前的03-25版本,并已面向Google AI Studio的獨立開發(fā)者、Vertex AI云平臺的企業(yè)用戶,以及Gemini移動應(yīng)用的個人用戶全面開放。谷歌在官方博文中表示,該模型還驅(qū)動Gemini移動應(yīng)用中的Canvas等多項功能。

新版本為Gemini 95等應(yīng)用的功能開發(fā)提供支持,其模型可自動匹配跨組件的視覺風(fēng)格。該版本還支持將YouTube視頻轉(zhuǎn)化為全功能學(xué)習(xí)應(yīng)用等復(fù)雜工作流,并能創(chuàng)建高度樣式化的組件——如響應(yīng)式視頻播放器或動畫聽寫界面——幾乎無需手動編寫CSS代碼。

作為專有模型,企業(yè)需付費并通過谷歌的網(wǎng)絡(luò)服務(wù)訪問。不過本次更新未調(diào)整價格與調(diào)用限制:當(dāng)前Gemini 2.5 Pro用戶將自動升級至新版本,定價仍為每百萬tokens輸入/輸出分別1.25/10美元(支持20萬tokens的上下文長度),相較Claude 3.7 Sonnet的3/15美元定價具有優(yōu)勢。

打開網(wǎng)易新聞 查看精彩圖片

谷歌選擇在年度I/O開發(fā)者大會(5月20-21日于山景城及線上舉行)前夕推出更新,官方表示這是對開發(fā)者社區(qū)關(guān)于Gemini在實際代碼生成和界面設(shè)計中實用性的強烈反饋的回應(yīng)。Gemini API與Google AI Studio高級產(chǎn)品經(jīng)理洛根·基爾帕特里克(Logan Kilpatrick)在開發(fā)者博客中確認,本次更新有效回應(yīng)了開發(fā)者關(guān)于函數(shù)調(diào)用的關(guān)鍵反饋,在減少錯誤和提升觸發(fā)可靠性方面取得顯著改進。

在人類評分員的網(wǎng)頁應(yīng)用生成任務(wù)中排名第一

在第三方評估標(biāo)準(zhǔn)WebDev Arena排行榜中,Gemini 2.5 Pro Preview(05-06)在生成美觀且實用的網(wǎng)頁應(yīng)用方面獲得了最高人類評分,成功超越Anthropic的Claude 3.7 Sonnet,躍居第一。

新版本模型得分為1499.95,顯著高于Sonnet 3.7的1377.10。前代Gemini 2.5 Pro(03-25)以1278.96分位列第三,I/O版相比之下提升了221分。

正如AI領(lǐng)域資深用戶“Lisan al Gaib”在X上指出的,即使是OpenAI新發(fā)布的GPT-4o(“o3”)都未能動搖Sonnet 3.7的地位,足見Gemini此次躍升的突破性。

這一性能躍升體現(xiàn)在生成內(nèi)容的可靠性、美觀性與實用性等方面的全面提升。

獲得開發(fā)者廣泛好評

Gemini 2.5 Pro Preview(05-06)迅速獲得開發(fā)者社群廣泛好評,多位行業(yè)領(lǐng)袖稱其可靠性和生產(chǎn)場景應(yīng)用表現(xiàn)遠超以往:

人工智能初創(chuàng)公司Cognition聯(lián)合創(chuàng)始人塞拉斯·阿爾貝蒂(Silas Alberti)指出,Gemini 2.5 Pro是首個成功完成復(fù)雜后端路由系統(tǒng)重構(gòu)的AI模型,展現(xiàn)出類似資深開發(fā)者的判斷與決策能力。

AI編程平臺Cursor首席執(zhí)行官邁克爾·特魯爾(Michael Truell)稱,內(nèi)部測試顯示工具調(diào)用失敗率明顯下降,過去這一問題飽受詬病。他認為用戶將在真實開發(fā)環(huán)境中明顯感受到新版本效能提升。Cursor已將Gemini 2.5 Pro集成進其編程智能體中,顯示出開發(fā)者已將其視為智能開發(fā)工作流中的組件。

云端協(xié)同開發(fā)平臺Replit總裁米歇爾·卡塔斯塔(Michele Catasta)認為,Gemini 2.5 Pro是在模型性能與響應(yīng)速度之間實現(xiàn)最佳平衡的前沿模型。他的評價暗示,Replit正在考慮將該模型納入自身工具體系中,特別是在需要響應(yīng)速度與穩(wěn)定性的任務(wù)場景中。

AI教育者兼BlueShell私有AI聊天機器人創(chuàng)始人保羅·庫弗特(Paul Couvert)表示:“Gemini 2.5 Pro的代碼與用戶界面生成能力令人驚艷。”

AI藝術(shù)工具EverArt首席執(zhí)行官彼得羅·斯基拉諾(Pietro Schirano)稱,Gemini 2.5 Pro I/O版能夠根據(jù)單個提示詞生成互動模擬,如近期社交媒體流行的“1只大猩猩對戰(zhàn)100名人類”迷因。

X用戶“RameshR”(@rezmeram)還展示了該模型在不到一分鐘內(nèi)生成的一款互動式俄羅斯方塊風(fēng)格游戲,并配有音效,他在帖文中寫道:“休閑游戲行業(yè)已經(jīng)完了??!”

這些正面的行業(yè)認可增強了DeepMind關(guān)于模型實際性能提升的說法,也可能進一步推動其在開發(fā)者平臺中的廣泛應(yīng)用。

單個提示即可生成完整應(yīng)用程序

此次更新的亮點之一是:用戶可通過簡單提示生成完整的互動網(wǎng)頁應(yīng)用或模擬程序,這完美契合DeepMind簡化原型設(shè)計與開發(fā)流程的愿景。

Gemini應(yīng)用內(nèi)的演示顯示,用戶可以將視覺模式或主題提示直接轉(zhuǎn)化為可用代碼,大幅降低設(shè)計導(dǎo)向開發(fā)團隊的技術(shù)門檻,為嘗試新想法的團隊提供高效工具。

盡管谷歌尚未公開Gemini 2.5 Pro的底層架構(gòu)與內(nèi)部改動,但其重點顯然是提供更快、更直觀的開發(fā)體驗。

通過強化代碼生成能力與多模態(tài)輸入整合,Gemini 2.5 Pro不再是實驗型產(chǎn)品,而成為應(yīng)對實際開發(fā)挑戰(zhàn)的強大工具。此次提前發(fā)布也表明,谷歌DeepMind有意在I/O大會前積極響應(yīng)開發(fā)者需求,并持續(xù)保持發(fā)展勢頭。(小小)