5月7日消息,AI編程領(lǐng)域迎來(lái)了新的王者:谷歌DeepMind人工智能研究部門(mén)周二發(fā)布了全新升級(jí)的Gemini 2.5 Pro “I/O”版,這是其今年3月推出、大受歡迎的多模態(tài)大語(yǔ)言模型Gemini 2.5 Pro的最新版本。DeepMind首席執(zhí)行官德米斯·哈薩比斯(Demis Hassabis)在社交媒體上表示,這是“我們構(gòu)建過(guò)的最佳編程模型!”
谷歌公布的初步基準(zhǔn)測(cè)試結(jié)果印證了這一說(shuō)法。數(shù)據(jù)顯示,自2022年底ChatGPT正式掀起生成式人工智能熱潮以來(lái),谷歌首次在關(guān)鍵編程基準(zhǔn)測(cè)試中超越所有其他模型,躍居榜首。
此次更新的模型版本編號(hào)為“gemini-2.5-pro-preview-05-06”,已取代之前的03-25版本,并已面向Google AI Studio的獨(dú)立開(kāi)發(fā)者、Vertex AI云平臺(tái)的企業(yè)用戶,以及Gemini移動(dòng)應(yīng)用的個(gè)人用戶全面開(kāi)放。谷歌在官方博文中表示,該模型還驅(qū)動(dòng)Gemini移動(dòng)應(yīng)用中的Canvas等多項(xiàng)功能。
新版本為Gemini 95等應(yīng)用的功能開(kāi)發(fā)提供支持,其模型可自動(dòng)匹配跨組件的視覺(jué)風(fēng)格。該版本還支持將YouTube視頻轉(zhuǎn)化為全功能學(xué)習(xí)應(yīng)用等復(fù)雜工作流,并能創(chuàng)建高度樣式化的組件——如響應(yīng)式視頻播放器或動(dòng)畫(huà)聽(tīng)寫(xiě)界面——幾乎無(wú)需手動(dòng)編寫(xiě)CSS代碼。
作為專(zhuān)有模型,企業(yè)需付費(fèi)并通過(guò)谷歌的網(wǎng)絡(luò)服務(wù)訪問(wèn)。不過(guò)本次更新未調(diào)整價(jià)格與調(diào)用限制:當(dāng)前Gemini 2.5 Pro用戶將自動(dòng)升級(jí)至新版本,定價(jià)仍為每百萬(wàn)tokens輸入/輸出分別1.25/10美元(支持20萬(wàn)tokens的上下文長(zhǎng)度),相較Claude 3.7 Sonnet的3/15美元定價(jià)具有優(yōu)勢(shì)。

谷歌選擇在年度I/O開(kāi)發(fā)者大會(huì)(5月20-21日于山景城及線上舉行)前夕推出更新,官方表示這是對(duì)開(kāi)發(fā)者社區(qū)關(guān)于Gemini在實(shí)際代碼生成和界面設(shè)計(jì)中實(shí)用性的強(qiáng)烈反饋的回應(yīng)。Gemini API與Google AI Studio高級(jí)產(chǎn)品經(jīng)理洛根·基爾帕特里克(Logan Kilpatrick)在開(kāi)發(fā)者博客中確認(rèn),本次更新有效回應(yīng)了開(kāi)發(fā)者關(guān)于函數(shù)調(diào)用的關(guān)鍵反饋,在減少錯(cuò)誤和提升觸發(fā)可靠性方面取得顯著改進(jìn)。
在人類(lèi)評(píng)分員的網(wǎng)頁(yè)應(yīng)用生成任務(wù)中排名第一
在第三方評(píng)估標(biāo)準(zhǔn)WebDev Arena排行榜中,Gemini 2.5 Pro Preview(05-06)在生成美觀且實(shí)用的網(wǎng)頁(yè)應(yīng)用方面獲得了最高人類(lèi)評(píng)分,成功超越Anthropic的Claude 3.7 Sonnet,躍居第一。
新版本模型得分為1499.95,顯著高于Sonnet 3.7的1377.10。前代Gemini 2.5 Pro(03-25)以1278.96分位列第三,I/O版相比之下提升了221分。
正如AI領(lǐng)域資深用戶“Lisan al Gaib”在X上指出的,即使是OpenAI新發(fā)布的GPT-4o(“o3”)都未能動(dòng)搖Sonnet 3.7的地位,足見(jiàn)Gemini此次躍升的突破性。
這一性能躍升體現(xiàn)在生成內(nèi)容的可靠性、美觀性與實(shí)用性等方面的全面提升。
獲得開(kāi)發(fā)者廣泛好評(píng)
Gemini 2.5 Pro Preview(05-06)迅速獲得開(kāi)發(fā)者社群廣泛好評(píng),多位行業(yè)領(lǐng)袖稱(chēng)其可靠性和生產(chǎn)場(chǎng)景應(yīng)用表現(xiàn)遠(yuǎn)超以往:
人工智能初創(chuàng)公司Cognition聯(lián)合創(chuàng)始人塞拉斯·阿爾貝蒂(Silas Alberti)指出,Gemini 2.5 Pro是首個(gè)成功完成復(fù)雜后端路由系統(tǒng)重構(gòu)的AI模型,展現(xiàn)出類(lèi)似資深開(kāi)發(fā)者的判斷與決策能力。
AI編程平臺(tái)Cursor首席執(zhí)行官邁克爾·特魯爾(Michael Truell)稱(chēng),內(nèi)部測(cè)試顯示工具調(diào)用失敗率明顯下降,過(guò)去這一問(wèn)題飽受詬病。他認(rèn)為用戶將在真實(shí)開(kāi)發(fā)環(huán)境中明顯感受到新版本效能提升。Cursor已將Gemini 2.5 Pro集成進(jìn)其編程智能體中,顯示出開(kāi)發(fā)者已將其視為智能開(kāi)發(fā)工作流中的組件。
云端協(xié)同開(kāi)發(fā)平臺(tái)Replit總裁米歇爾·卡塔斯塔(Michele Catasta)認(rèn)為,Gemini 2.5 Pro是在模型性能與響應(yīng)速度之間實(shí)現(xiàn)最佳平衡的前沿模型。他的評(píng)價(jià)暗示,Replit正在考慮將該模型納入自身工具體系中,特別是在需要響應(yīng)速度與穩(wěn)定性的任務(wù)場(chǎng)景中。
AI教育者兼BlueShell私有AI聊天機(jī)器人創(chuàng)始人保羅·庫(kù)弗特(Paul Couvert)表示:“Gemini 2.5 Pro的代碼與用戶界面生成能力令人驚艷。”
AI藝術(shù)工具EverArt首席執(zhí)行官彼得羅·斯基拉諾(Pietro Schirano)稱(chēng),Gemini 2.5 Pro I/O版能夠根據(jù)單個(gè)提示詞生成互動(dòng)模擬,如近期社交媒體流行的“1只大猩猩對(duì)戰(zhàn)100名人類(lèi)”迷因。
X用戶“RameshR”(@rezmeram)還展示了該模型在不到一分鐘內(nèi)生成的一款互動(dòng)式俄羅斯方塊風(fēng)格游戲,并配有音效,他在帖文中寫(xiě)道:“休閑游戲行業(yè)已經(jīng)完了??!”
這些正面的行業(yè)認(rèn)可增強(qiáng)了DeepMind關(guān)于模型實(shí)際性能提升的說(shuō)法,也可能進(jìn)一步推動(dòng)其在開(kāi)發(fā)者平臺(tái)中的廣泛應(yīng)用。
單個(gè)提示即可生成完整應(yīng)用程序
此次更新的亮點(diǎn)之一是:用戶可通過(guò)簡(jiǎn)單提示生成完整的互動(dòng)網(wǎng)頁(yè)應(yīng)用或模擬程序,這完美契合DeepMind簡(jiǎn)化原型設(shè)計(jì)與開(kāi)發(fā)流程的愿景。
Gemini應(yīng)用內(nèi)的演示顯示,用戶可以將視覺(jué)模式或主題提示直接轉(zhuǎn)化為可用代碼,大幅降低設(shè)計(jì)導(dǎo)向開(kāi)發(fā)團(tuán)隊(duì)的技術(shù)門(mén)檻,為嘗試新想法的團(tuán)隊(duì)提供高效工具。
盡管谷歌尚未公開(kāi)Gemini 2.5 Pro的底層架構(gòu)與內(nèi)部改動(dòng),但其重點(diǎn)顯然是提供更快、更直觀的開(kāi)發(fā)體驗(yàn)。
通過(guò)強(qiáng)化代碼生成能力與多模態(tài)輸入整合,Gemini 2.5 Pro不再是實(shí)驗(yàn)型產(chǎn)品,而成為應(yīng)對(duì)實(shí)際開(kāi)發(fā)挑戰(zhàn)的強(qiáng)大工具。此次提前發(fā)布也表明,谷歌DeepMind有意在I/O大會(huì)前積極響應(yīng)開(kāi)發(fā)者需求,并持續(xù)保持發(fā)展勢(shì)頭。(小?。?/p>
熱門(mén)跟貼