剛剛在拉斯維加斯召開的谷歌云下一步(Google Cloud Next '25)大會(huì)上,谷歌向世界展示了其在人工智能領(lǐng)域的強(qiáng)大野心,通過一系列重磅公告試圖在日益激烈的云 AI 市場(chǎng)中鞏固自己的領(lǐng)導(dǎo)地位。從全新設(shè)計(jì)的芯片到革命性的互操作性協(xié)議,從新的推理模型到無代碼代理開發(fā)工具,谷歌在會(huì)議上釋放了其近期最全面的 AI 攻勢(shì)。
今年的谷歌云大會(huì)主題明確指向了 AI 發(fā)展的新階段,谷歌將其定義為“推理時(shí)代”(age of inference)——AI 不再僅僅是對(duì)用戶請(qǐng)求做出即時(shí)響應(yīng),而是能夠主動(dòng)檢索和生成數(shù)據(jù),協(xié)作提供見解和解答。谷歌云 CEO Thomas Kurian 在大會(huì)上強(qiáng)調(diào),他們的戰(zhàn)略是“承諾提供世界級(jí)的基礎(chǔ)設(shè)施、模型、平臺(tái)和代理;提供開放、多云平臺(tái)以實(shí)現(xiàn)靈活性和選擇;并構(gòu)建互操作性”。
根據(jù)谷歌在今年 1 月發(fā)布的財(cái)報(bào),其 2024 年第四季度云業(yè)務(wù)收入達(dá)到 120 億美元,同比增長 30%。谷歌高管表示,AI Studio 和 Gemini API 的活躍用戶僅在過去一個(gè)月就增長了 80%,在此強(qiáng)勁勢(shì)頭下,谷歌連續(xù)發(fā)布多項(xiàng)創(chuàng)新技術(shù),試圖重新定義 AI 基礎(chǔ)設(shè)施和應(yīng)用的未來發(fā)展方向。

Ironwood:專為推理模型設(shè)計(jì)的全新 TPU 芯片
在一系列發(fā)布中,最吸引人眼球的無疑是谷歌的第七代張量處理單元(TPU)——Ironwood。與之前同時(shí)兼顧訓(xùn)練和推理的 TPU 不同,Ironwood 是谷歌首款專為推理工作負(fù)載設(shè)計(jì)的芯片,標(biāo)志著其 AI 芯片設(shè)計(jì)理念的根本性轉(zhuǎn)變。
“Ironwood 是我們迄今為止最強(qiáng)大、最具擴(kuò)展性和能源效率的 TPU,專為規(guī)模化部署思考型、推理型 AI 模型而設(shè)計(jì),“谷歌機(jī)器學(xué)習(xí)、系統(tǒng)和云 AI 副總裁兼總經(jīng)理 Amin Vahdat 在發(fā)布會(huì)上表示?!八鼧?biāo)志著 AI 發(fā)展和支持其進(jìn)步的基礎(chǔ)設(shè)施的重大轉(zhuǎn)變,從提供實(shí)時(shí)信息供人解讀的響應(yīng)式 AI 模型,轉(zhuǎn)向提供主動(dòng)式見解生成和解釋的模型。”

為支撐這種高級(jí) AI 能力,Ironwood 在多項(xiàng)技術(shù)指標(biāo)上實(shí)現(xiàn)了大幅提升。首先,在核心的計(jì)算性能方面,當(dāng)配置為包含 9216 顆芯片的完整計(jì)算集群時(shí),據(jù)谷歌公布的數(shù)據(jù),Ironwood 能夠提供高達(dá) 42.5 Exaflops 的 FP8(8 位浮點(diǎn))峰值計(jì)算力。谷歌將其與當(dāng)前世界領(lǐng)先的超級(jí)計(jì)算機(jī)之一 El Capitan 進(jìn)行了對(duì)比,稱其算力達(dá)到后者的 24 倍以上,但需要注意這種比較基于特定的精度(FP8)和潛在的理想化條件,且超級(jí)計(jì)算機(jī)通常針對(duì)不同的科學(xué)計(jì)算負(fù)載進(jìn)行優(yōu)化。即便如此,42.5 Exaflops 的 FP8 算力對(duì)于大規(guī)模部署需要高吞吐量和低延遲的推理任務(wù)而言,仍是一個(gè)相當(dāng)可觀的數(shù)字。單顆 Ironwood 芯片的峰值 FP8 算力也達(dá)到了 4614 TFLOPS。

其次,Ironwood 在內(nèi)存子系統(tǒng)方面進(jìn)行了大幅升級(jí)。每顆芯片配備了 192GB 的高帶寬內(nèi)存(HBM),這一容量是其上一代 TPU Trillium(配備 95GB HBM)的兩倍多,相較于更早的 TPU v4(配備 32GB HBM)更是提升了六倍。同時(shí),內(nèi)存帶寬也提升至 7.2 Tbps,相比 Trillium 的 2.8 Tbps 有了顯著增長。更大的內(nèi)存容量意味著可以在芯片本地緩存更大規(guī)模的模型參數(shù)和更長的上下文信息,減少對(duì)外部存儲(chǔ)的訪問;更高的帶寬則能更快地將數(shù)據(jù)喂給計(jì)算單元,這兩者對(duì)于降低推理延遲、提升復(fù)雜模型處理效率具有直接作用。
再者,能源效率也是 Ironwood 設(shè)計(jì)的關(guān)鍵考量。谷歌表示,Ironwood 的每瓦性能(performance per watt)相較于 Trillium 提升了約兩倍,并且比 2018 年推出的第一代谷歌云 TPU 的能效高出近 30 倍。在數(shù)據(jù)中心能耗日益成為瓶頸和主要運(yùn)營成本的背景下,能效的提升對(duì)于 AI 技術(shù)的可持續(xù)發(fā)展和大規(guī)模經(jīng)濟(jì)化部署具有重要價(jià)值。谷歌還強(qiáng)調(diào)了其配套的先進(jìn)液冷散熱技術(shù),旨在確保芯片在高負(fù)載下能夠穩(wěn)定、高效地運(yùn)行。
谷歌還強(qiáng)調(diào) Ironwood 將與其機(jī)器學(xué)習(xí)運(yùn)行時(shí) Pathways 配合使用,使開發(fā)者能夠輕松地利用數(shù)萬個(gè) Ironwood TPU 的組合計(jì)算能力。對(duì)企業(yè)客戶而言,Ironwood 將提供兩種配置:256 芯片配置和 9,216 芯片配置,計(jì)劃于今年晚些時(shí)候推出。

Agent2Agent:AI 代理互操作性的新標(biāo)準(zhǔn)
如果說 Ironwood 代表了谷歌在 AI 算力基礎(chǔ)上的持續(xù)深耕,那么 Agent2Agent (A2A) 協(xié)議的發(fā)布則體現(xiàn)了其試圖構(gòu)建一個(gè)開放、協(xié)作的 AI 應(yīng)用生態(tài)的戰(zhàn)略意圖。
當(dāng)前,隨著不同企業(yè)和開發(fā)者構(gòu)建出大量針對(duì)特定領(lǐng)域或任務(wù)的 AI Agent,一個(gè)日益嚴(yán)重的問題是這些 Agent 往往運(yùn)行在隔離的平臺(tái)、框架或數(shù)據(jù)環(huán)境中。這種“碎片化”狀態(tài)嚴(yán)重限制了 Agent 之間進(jìn)行有效協(xié)作的可能性,使得實(shí)現(xiàn)跨系統(tǒng)、跨業(yè)務(wù)流程的復(fù)雜自動(dòng)化任務(wù)變得困難重重。
為應(yīng)對(duì)這一挑戰(zhàn),谷歌聯(lián)合了超過 50 家技術(shù)合作伙伴與服務(wù)提供商(包括 Atlassian、Salesforce、SAP、ServiceNow、Cohere、Langchain 等軟件公司,以及 Accenture、Deloitte、PwC 等咨詢服務(wù)機(jī)構(gòu)),共同發(fā)起并推出了一個(gè)全新的開放協(xié)議——Agent2Agent (A2A)。
A2A 的核心目標(biāo)是定義一套標(biāo)準(zhǔn)的通信規(guī)范和互操作框架,使得由不同供應(yīng)商開發(fā)、基于不同技術(shù)棧構(gòu)建的 AI Agent 能夠相互發(fā)現(xiàn)、安全地交換信息、協(xié)調(diào)行動(dòng)并協(xié)同完成任務(wù)。該協(xié)議的設(shè)計(jì)圍繞幾個(gè)關(guān)鍵原則展開:首先是能力發(fā)現(xiàn)(Capability Discovery),A2A 允許每個(gè) Agent 通過一個(gè)結(jié)構(gòu)化的“Agent Card”(以 JSON 格式定義)來描述自身的功能、可處理的任務(wù)類型、輸入輸出要求等信息。這使得一個(gè)需要幫助的“客戶端 Agent”能夠查詢并識(shí)別出最適合執(zhí)行某項(xiàng)特定子任務(wù)的“遠(yuǎn)程 Agent”。

其次是任務(wù)管理(Task Management),A2A 將 Agent 間的交互聚焦于完成最終用戶的請(qǐng)求。協(xié)議定義了一個(gè)明確的“任務(wù)(task)”對(duì)象及其生命周期管理機(jī)制。通信流程圍繞任務(wù)的創(chuàng)建、執(zhí)行、狀態(tài)更新和完成進(jìn)行。這套機(jī)制既能支持可以立即響應(yīng)的短時(shí)任務(wù),也能支持需要較長時(shí)間運(yùn)行(可能數(shù)小時(shí)甚至數(shù)天)、涉及多輪交互甚至可能需要人工介入的復(fù)雜研究或處理流程。協(xié)議確保了參與同一任務(wù)的多個(gè) Agent 能夠就任務(wù)進(jìn)展保持同步,并能可靠地傳遞任務(wù)的最終產(chǎn)出物,這些產(chǎn)出物在協(xié)議中被稱為“artifact”。
第三是協(xié)作與通信(Collaboration),A2A 定義了 Agent 之間發(fā)送結(jié)構(gòu)化消息的規(guī)范,用以傳遞必要的上下文信息、中間步驟的回復(fù)、最終的“artifacts”以及來自用戶的具體指令或修正。
第四是用戶體驗(yàn)協(xié)商(User Experience Negotiation),認(rèn)識(shí)到 Agent 交互的多樣性,A2A 協(xié)議的設(shè)計(jì)超越了純文本交互。它支持 Agent 之間就最適合向用戶或調(diào)用方呈現(xiàn)信息的方式進(jìn)行協(xié)商。例如,一個(gè) Agent 可能生成了圖像數(shù)據(jù),另一個(gè) Agent 可能需要處理視頻流,或者需要在用戶界面嵌入一個(gè) Web 表單(iframe)以收集用戶輸入。A2A 的消息結(jié)構(gòu)設(shè)計(jì)(包含帶有明確內(nèi)容類型定義的“parts”)允許進(jìn)行這種靈活的格式與交互方式協(xié)商。
最后,A2A 協(xié)議強(qiáng)調(diào)基于現(xiàn)有標(biāo)準(zhǔn)與安全性。它構(gòu)建在如 HTTP、Server-Sent Events (SSE)、JSON-RPC 等廣泛應(yīng)用的網(wǎng)絡(luò)協(xié)議和數(shù)據(jù)交換格式之上,旨在降低與現(xiàn)有企業(yè) IT 基礎(chǔ)設(shè)施集成的難度。同時(shí),協(xié)議在設(shè)計(jì)之初就考慮了企業(yè)級(jí)的安全需求,計(jì)劃提供與 OpenAPI 規(guī)范相當(dāng)?shù)恼J(rèn)證和授權(quán)機(jī)制支持。
值得注意的是,A2A 與我們所熟知的 Anthropic 的模型上下文協(xié)議(Model Context Protocol,MCP)是不同的。谷歌官方及技術(shù)社區(qū)的普遍觀點(diǎn)認(rèn)為兩者是互補(bǔ)而非競(jìng)爭的關(guān)系。MCP 主要關(guān)注 Agent 與其所處環(huán)境的交互,即 Agent 如何發(fā)現(xiàn)并調(diào)用外部工具、訪問 API 或獲取數(shù)據(jù)資源。而 A2A 則專注于 Agent 與 Agent 之間的直接通信與協(xié)作流程。簡而言之,可以理解為 MCP 幫助 Agent 具備“做事的能力”,而 A2A 則幫助 Agent“找到合適的伙伴一起做事”。谷歌在其新發(fā)布的 Agent Development Kit (ADK) 中同時(shí)包含了對(duì)這兩種協(xié)議的支持,也印證了其認(rèn)為兩者在構(gòu)建復(fù)雜多 Agent 系統(tǒng)中各自具有不可或缺的價(jià)值。
A2A 還包含一些 MCP 所沒有的重要概念,例如任務(wù)準(zhǔn)備度和長時(shí)間運(yùn)行任務(wù)的狀態(tài)追蹤,使一個(gè)代理可以給另一個(gè)代理一個(gè)任務(wù),幾天后完成,并通過 webhook 或輪詢獲得通知。這種功能對(duì)于企業(yè)環(huán)境中的復(fù)雜工作流程尤為重要。
谷歌已將 A2A 協(xié)議的規(guī)范草案作為開源項(xiàng)目發(fā)布,并設(shè)立了明確的貢獻(xiàn)途徑。公司表示正在與合作伙伴合作,計(jì)劃在今年晚些時(shí)候推出該協(xié)議的生產(chǎn)就緒版本。

谷歌的整合 AI 生態(tài)戰(zhàn)略:從智能模型到開發(fā)工具
在 Ironwood TPU 和 A2A 協(xié)議這兩大重點(diǎn)發(fā)布之外,谷歌還推出了一系列相互關(guān)聯(lián)的 AI 創(chuàng)新,共同構(gòu)建了一個(gè)從模型到開發(fā)工具的完整生態(tài)系統(tǒng)。這些創(chuàng)新彼此銜接,形成了谷歌完整的“推理時(shí)代”戰(zhàn)略布局。
首先,谷歌擴(kuò)展了其 Gemini 模型系列,推出了 Gemini 2.5 Flash,這是其前不久所推出的旗艦 AI Gemini 2.5 Pro 的高效版本,同樣具備谷歌所強(qiáng)調(diào)的推理能力。Gemini 2.5 Flash 的一個(gè)特點(diǎn)是能夠根據(jù)輸入提示的復(fù)雜度動(dòng)態(tài)調(diào)整其推理深度,從而在響應(yīng)速度和結(jié)果質(zhì)量之間取得平衡,適用于對(duì)成本和延遲較為敏感的日常應(yīng)用場(chǎng)景。
為了使這些模型能夠真正發(fā)揮作用,谷歌同時(shí)推出了一系列代理開發(fā)工具。公司推出了代理開發(fā)套件(Agent Development Kit,ADK),允許開發(fā)者用不到 100 行代碼構(gòu)建多代理系統(tǒng)。對(duì)于非技術(shù)用戶,谷歌增強(qiáng)了其 Agent Space 平臺(tái),添加了 Agent Gallery(提供可用代理的單一視圖)和 Agent Designer(創(chuàng)建自定義代理的無代碼界面)功能。這些工具充分利用了 A2A 協(xié)議的能力,使不同代理之間能夠無縫協(xié)作。
在內(nèi)容創(chuàng)作領(lǐng)域,谷歌進(jìn)一步擴(kuò)展了其模型的多模態(tài)生成能力,更新了 Imagen(圖像生成)、Veo(視頻)、Chirp(音頻),并新推出了文本到音樂生成的模型 Lyria。

谷歌還通過 Cloud WAN 服務(wù)向企業(yè)開放其龐大的全球網(wǎng)絡(luò)基礎(chǔ)設(shè)施,使企業(yè)能夠訪問谷歌長達(dá) 200 萬英里的光纖網(wǎng)絡(luò)——與支持 YouTube 和 Gmail 等消費(fèi)者服務(wù)的網(wǎng)絡(luò)相同。與客戶管理的網(wǎng)絡(luò)相比,Cloud WAN 將網(wǎng)絡(luò)性能提高多達(dá) 40%,同時(shí)將總擁有成本降低相同比例。這一基礎(chǔ)設(shè)施升級(jí)為運(yùn)行 AI 工作負(fù)載的企業(yè)提供了更高效、更經(jīng)濟(jì)的全球網(wǎng)絡(luò)連接,是谷歌全棧 AI 戰(zhàn)略的關(guān)鍵組成部分。

總結(jié):谷歌全面押注“推理時(shí)代”
綜合來看,谷歌云 Next '25 大會(huì)發(fā)布的系列內(nèi)容,全面地展現(xiàn)了谷歌意圖構(gòu)建一個(gè)覆蓋從底層硬件(定制 TPU、全球網(wǎng)絡(luò))到核心模型(Gemini 系列)、再到開發(fā)者生態(tài)(A2A 協(xié)議、ADK 工具)直至上層應(yīng)用(Workspace 集成、行業(yè)解決方案)的全棧式 AI 能力體系。
尤其是,Ironwood TPU 的推出及其對(duì)“推理時(shí)代”的明確側(cè)重,也反映出當(dāng)前 AI 發(fā)展的一個(gè)重要趨勢(shì):隨著模型能力的增強(qiáng),行業(yè)關(guān)注點(diǎn)正逐漸從單純追求更大的模型規(guī)模和更快的訓(xùn)練速度,轉(zhuǎn)向如何更高效、更經(jīng)濟(jì)地部署這些模型以執(zhí)行實(shí)際任務(wù),以及如何讓模型具備更強(qiáng)的自主解決問題的能力。推理成本和效率正成為衡量 AI 技術(shù)成熟度和商業(yè)可行性的關(guān)鍵指標(biāo)。
而 Agent2Agent (A2A) 協(xié)議的提出,也顯示了谷歌試圖在日益復(fù)雜和多元化的 AI Agent 市場(chǎng)中扮演“連接者”和“標(biāo)準(zhǔn)制定者”角色的戰(zhàn)略意圖。通過倡導(dǎo)并聯(lián)合業(yè)界伙伴共同構(gòu)建一個(gè)開放的互操作性協(xié)議,谷歌希望能夠打破當(dāng)前存在的“技術(shù)孤島”,降低不同 AI 系統(tǒng)之間集成的復(fù)雜度和成本,從而促進(jìn)一個(gè)更繁榮、更具活力的協(xié)作式 AI 生態(tài)系統(tǒng)的形成。這不僅可能加速 AI 技術(shù)在各行各業(yè)的滲透和應(yīng)用創(chuàng)新,也可能為谷歌自身的云平臺(tái)和 AI 服務(wù)帶來更廣闊的市場(chǎng)空間和更強(qiáng)的用戶粘性。面對(duì)來自微軟(Azure、OpenAI 合作)、亞馬遜(AWS、Anthropic 合作、自研芯片)等主要競(jìng)爭對(duì)手的激烈競(jìng)爭,谷歌通過其獨(dú)特的垂直整合能力(自研 TPU)和推動(dòng)開放標(biāo)準(zhǔn)的策略,試圖形成差異化優(yōu)勢(shì)。
但另一方面,這種全線出擊的策略也意味著巨大的資源投入和執(zhí)行風(fēng)險(xiǎn)。何況,谷歌內(nèi)部也并非歲月靜好,用我們之前說過的一句話作為總結(jié),“對(duì)谷歌來說,最大的挑戰(zhàn)可能不是技術(shù)本身,而是如何將這些技術(shù)轉(zhuǎn)化為可持續(xù)的商業(yè)模式,同時(shí)應(yīng)對(duì)監(jiān)管壓力、維護(hù)用戶信任,并保持創(chuàng)新速度?!?/p>
谷歌云 Next '25 無疑投下了重磅砝碼,但這場(chǎng)關(guān)乎未來的 AI 競(jìng)賽,才剛剛進(jìn)入更復(fù)雜的深水區(qū)。
參考資料:
1.https://cloud.google.com/blog/topics/google-cloud-next/welcome-to-google-cloud-next25
2.https://blog.google/products/google-cloud/ironwood-tpu-age-of-inference/
3.https://developers.googleblog.com/en/a2a-a-new-era-of-agent-interoperability/
4.https://venturebeat.com/ai/google-cloud-next-25-new-ai-chips-and-agent-ecosystem-challenge-microsoft-and-amazon/
5.https://techcrunch.com/2025/04/09/google-unveils-ironwood-a-new-ai-accelerator-chip/
熱門跟貼