
論文作者包括來自上海交通大學(xué)的楊瀅軒、柴化燦、宋源祎、齊思遠(yuǎn)、溫睦寧、李寧、廖俊威、胡浩毅、林江浩、劉衛(wèi)文、溫穎、俞勇、張偉楠,以及 ANP 社區(qū)發(fā)起人常高偉。
隨著大語言模型 (LLM) 技術(shù)的迅猛發(fā)展,基于 LLM 的智能智能體在客戶服務(wù)、內(nèi)容創(chuàng)作、數(shù)據(jù)分析甚至醫(yī)療輔助等多個(gè)行業(yè)領(lǐng)域得到廣泛應(yīng)用。然而,不同智能體系統(tǒng)間的碎片化通信標(biāo)準(zhǔn)已成為制約其進(jìn)一步發(fā)展的瓶頸。上海交通大學(xué)團(tuán)隊(duì)與 ANP 社區(qū)合作推出了首個(gè)全面系統(tǒng)的 AI 智能體協(xié)議綜述《A Survey of AI Agent Protocols》,為解決這一關(guān)鍵挑戰(zhàn)提供了清晰的指導(dǎo)框架。


- ArXiv 論文鏈接:https://arxiv.org/abs/2504.16736
- Github 倉庫地址:https://github.com/zoe-yyx/Awesome-AIAgent-Protocol
交互碎片化:阻礙智能智能體發(fā)展的關(guān)鍵瓶頸
正如早期互聯(lián)網(wǎng)面臨的通信標(biāo)準(zhǔn)分散問題,當(dāng)前的智能智能體生態(tài)系統(tǒng)同樣遭遇協(xié)議不統(tǒng)一的困境。研究團(tuán)隊(duì)指出,隨著應(yīng)用場(chǎng)景擴(kuò)展和不同供應(yīng)商、不同結(jié)構(gòu)的智能體涌現(xiàn),智能體與實(shí)體之間的交互規(guī)則變得越來越復(fù)雜。這種協(xié)議標(biāo)準(zhǔn)化缺失的問題體現(xiàn)在兩個(gè)方面:一方面,它阻礙了智能體與外部工具和數(shù)據(jù)源的互操作性;另一方面,它限制了不同提供商或架構(gòu)背景的智能體之間的無縫協(xié)作,從而限制了智能體網(wǎng)絡(luò)的可擴(kuò)展性,最終制約了智能智能體解決復(fù)雜實(shí)際問題的能力。

首創(chuàng)二維分類框架,清晰梳理智能體協(xié)議生態(tài)
論文創(chuàng)新性地提出了一個(gè)二維分類體系,將現(xiàn)有智能體協(xié)議分類為:
1. 對(duì)象導(dǎo)向維度:
- 上下文導(dǎo)向協(xié)議:專注于智能體與外部工具 / 數(shù)據(jù)源的通信,如 Anthropic 的 MCP 協(xié)議
- 智能體間協(xié)議:關(guān)注多個(gè)智能體之間的通信與協(xié)作,如 ANP、A2A 協(xié)議
2. 應(yīng)用場(chǎng)景維度:
- 通用目的協(xié)議:適用于廣泛場(chǎng)景的通用協(xié)議
- 領(lǐng)域特定協(xié)議:針對(duì)特定場(chǎng)景優(yōu)化的專用協(xié)議,如 LOKA 用于人機(jī)交互,CrowdES 用于機(jī)器人智能體交互

這一分類法涵蓋了主流協(xié)議,包括 Anthropic 的 MCP、Google 的 A2A、ANP 社區(qū)的 ANP、NEAR 基金會(huì)的 AITP、Eclipse 基金會(huì)的 LMOS 等十余種協(xié)議。詳細(xì)分類表格中,論文還對(duì)每種協(xié)議的提出者、應(yīng)用場(chǎng)景、關(guān)鍵技術(shù)和開發(fā)階段進(jìn)行了全面梳理,為開發(fā)者選擇合適協(xié)議提供了清晰指引。

七大維度多角度評(píng)估,全面對(duì)比協(xié)議性能
研究團(tuán)隊(duì)從以下七個(gè)關(guān)鍵維度對(duì)各類協(xié)議進(jìn)行了全面評(píng)估:
1.效率:評(píng)估延遲、吞吐量和資源利用率,包括大語言模型智能體特有的 token 消耗成本
2.可擴(kuò)展性:衡量節(jié)點(diǎn)擴(kuò)展性、鏈接擴(kuò)展性和能力協(xié)商機(jī)制,提出了「能力協(xié)商得分」(CNS) 評(píng)估指標(biāo)
3.安全性:分析認(rèn)證模式多樣性、角色 / 訪問控制粒度和上下文脫敏機(jī)制
4.可靠性:檢驗(yàn)包重傳、流量控制和持久連接機(jī)制,引入「自動(dòng)重試計(jì)數(shù)」(ARC) 等評(píng)估指標(biāo)
5.可擴(kuò)展性:評(píng)估向后兼容性、靈活適應(yīng)性和定制擴(kuò)展能力
6.可操作性:測(cè)量協(xié)議棧代碼量、部署配置復(fù)雜度和可觀測(cè)性
7.互操作性:分析跨系統(tǒng)、跨瀏覽器、跨網(wǎng)絡(luò)和跨平臺(tái)適應(yīng)性

論文特別強(qiáng)調(diào),理想的智能體協(xié)議應(yīng)平衡低延遲通信、資源消耗和任務(wù)完成速度,同時(shí)適應(yīng)多智能體系統(tǒng)的復(fù)雜性。研究還通過 MCP 從 v1.0 到 v1.2 的迭代演進(jìn)案例,以及從 MCP 到 ANP 再到 A2A 的協(xié)議系統(tǒng)演化案例,展示了智能體協(xié)議在功能、性能和安全性方面的多維度權(quán)衡。
真實(shí)案例解析:
四大協(xié)議在旅行規(guī)劃中的應(yīng)用對(duì)比
論文通過一個(gè)「策劃北京到紐約的五日旅行」的真實(shí)用例,論文生動(dòng)展示了四種不同協(xié)議架構(gòu)的實(shí)際應(yīng)用差異:

1.MCP(單一智能體調(diào)用工具):集中式架構(gòu),單一 MCP Travel Client 通過 Client-Server 結(jié)構(gòu)依次調(diào)用 Flight Server、Hotel Server 和 Weather Server 等工具,所有通信必須經(jīng)過中央智能體
2.A2A(多智能體復(fù)雜協(xié)作):分布式架構(gòu),將智能分散到多個(gè)專業(yè)智能體,如 Flight Agent、Hotel Agent 和 Weather Agent,智能體間可直接通信,A2A Travel Planner 作為非中心協(xié)調(diào)器主要收集最終結(jié)果
3.ANP(跨域智能體通信):跨域架構(gòu),通過標(biāo)準(zhǔn)化的跨域交互促進(jìn)獨(dú)立智能體間協(xié)作,明確劃分航空公司、酒店和天氣網(wǎng)站等不同組織邊界,實(shí)現(xiàn)基于協(xié)議的跨域請(qǐng)求和響應(yīng)
4.Agora(自然語言到協(xié)議生成):用戶中心架構(gòu),將自然語言請(qǐng)求直接轉(zhuǎn)換為標(biāo)準(zhǔn)化協(xié)議,引入三階段處理過程(自然語言理解、協(xié)議生成、協(xié)議分發(fā)),使專業(yè)智能體專注于核心能力
這一案例分析幫助開發(fā)者根據(jù)實(shí)際需求(智能體自主性、通信靈活性、接口標(biāo)準(zhǔn)化和任務(wù)復(fù)雜性)選擇最適合的協(xié)議方案。
未來展望
論文對(duì)智能體協(xié)議的發(fā)展前景進(jìn)行了短期、中期和長期預(yù)測(cè):
短期展望:從靜態(tài)到可進(jìn)化
- 評(píng)估與基準(zhǔn)測(cè)試:開發(fā)統(tǒng)一的評(píng)估框架,超越任務(wù)成功率,納入通信效率、環(huán)境變化適應(yīng)性等方面
- 隱私保護(hù)協(xié)議:探索允許智能體交換信息同時(shí)最小化內(nèi)部狀態(tài)或個(gè)人數(shù)據(jù)暴露的協(xié)議
- 智能體網(wǎng)格協(xié)議:開發(fā)受人類群聊啟發(fā)的通信模型,實(shí)現(xiàn)智能體組內(nèi)通信透明度和共享訪問
- 可進(jìn)化協(xié)議:將協(xié)議視為智能體自適應(yīng)能力的動(dòng)態(tài)、模塊化和可學(xué)習(xí)組件
中期展望:從規(guī)則到生態(tài)系統(tǒng)
- 內(nèi)置協(xié)議知識(shí):通過訓(xùn)練將協(xié)議內(nèi)容和結(jié)構(gòu)集成到大語言模型參數(shù)中,實(shí)現(xiàn)無需明確提示的協(xié)議兼容行為
- 分層協(xié)議架構(gòu):借鑒經(jīng)典網(wǎng)絡(luò)協(xié)議設(shè)計(jì),將低級(jí)傳輸和同步機(jī)制與高級(jí)語義和任務(wù)相關(guān)交互分離,改善異構(gòu)智能體間的模塊化和可擴(kuò)展性
長期展望:從協(xié)議到智能基礎(chǔ)設(shè)施
- 集體智能與擴(kuò)展定律:探索大規(guī)模、互聯(lián)智能體群體中集體智能的涌現(xiàn),研究智能體數(shù)量、通信拓?fù)浜蛥f(xié)議配置如何共同塑造系統(tǒng)級(jí)行為
- 智能體數(shù)據(jù)網(wǎng)絡(luò):構(gòu)建專用于自主智能體通信和協(xié)調(diào)的基礎(chǔ)數(shù)據(jù)基礎(chǔ)設(shè)施,支持結(jié)構(gòu)化、意圖驅(qū)動(dòng)和符合協(xié)議的智能體間信息交換
這項(xiàng)研究不僅系統(tǒng)梳理了當(dāng)前 AI 智能體協(xié)議的發(fā)展現(xiàn)狀,更為未來智能智能體互聯(lián)互通的網(wǎng)絡(luò)構(gòu)建提供了理論基礎(chǔ)和技術(shù)路線圖。正如 TCP/IP 和 HTTP 協(xié)議的標(biāo)準(zhǔn)化推動(dòng)了全球信息革命,統(tǒng)一的 AI 智能體協(xié)議有望催生一個(gè)全新的智能協(xié)作時(shí)代,實(shí)現(xiàn)不同形式的智能在系統(tǒng)間流動(dòng),工具與智能體無縫交互,形成超越單個(gè)組件能力的集體智能。
熱門跟貼