英偉達(dá)創(chuàng)始人兼 CEO 黃仁勛在 CES 2025 大會(huì)上曾經(jīng)表示:“世界上有 10 億知識(shí)工作者,AI 智能體(Agent)可能是下一個(gè)機(jī)器人行業(yè),很可能是一個(gè)價(jià)值數(shù)萬(wàn)億美元的機(jī)會(huì)?!边@一判斷引起人們對(duì)未來(lái) AI 智能體形態(tài)更深入的思考。

AI 智能體有望徹底改變?nèi)藱C(jī)交互方式,或許我們將處于這樣的場(chǎng)景:手機(jī)中只需要一個(gè)高度智能化的“超級(jí)數(shù)字助手”,而不再需要安裝繁雜種類的 APP。

用戶僅需通過(guò)自然語(yǔ)言對(duì)話,就能完成訂機(jī)票、撰寫(xiě)文檔、發(fā)送郵件甚至社交溝通等復(fù)雜任務(wù),實(shí)現(xiàn)真正意義上的自然交互。

近期,美國(guó) AI 初創(chuàng)公司 TensorOpera 的研究人員提出了一套名為超級(jí)智能體系統(tǒng)(Super Agent System)的完整解決方案 [1]。

這套系統(tǒng)不僅僅是概念設(shè)想,而是一整套真實(shí)運(yùn)行的基礎(chǔ)設(shè)施體系,其核心模塊包括意圖路由與自動(dòng)規(guī)劃、任務(wù)專用智能體、智能模型選擇系統(tǒng)和端云混合部署。

圖丨超級(jí)智能體系統(tǒng)概述(來(lái)源:arXiv)
打開(kāi)網(wǎng)易新聞 查看精彩圖片
圖丨超級(jí)智能體系統(tǒng)概述(來(lái)源:arXiv)

Super Agent System 為 AI 智能體的實(shí)際應(yīng)用提供了可靠的技術(shù)支撐,有望部署在手機(jī)、機(jī)器人等終端設(shè)備,并加速智能家居設(shè)備之間協(xié)同工作,完成復(fù)雜的任務(wù)。

例如,當(dāng)用戶回到家時(shí),系統(tǒng)僅通過(guò)一個(gè) Agent 自動(dòng)協(xié)調(diào)各類設(shè)備:燈光智能開(kāi)啟,窗戶自動(dòng)關(guān)閉,關(guān)閉涉及隱私敏感的攝像頭;當(dāng)用戶離開(kāi)家時(shí),系統(tǒng)又智能重啟相關(guān)設(shè)備。

當(dāng)系統(tǒng)集成掃地機(jī)器人等設(shè)備后,可主動(dòng)感知用戶狀態(tài),在檢測(cè)到用戶外出時(shí)主動(dòng)詢問(wèn)是否啟動(dòng)清潔功能,進(jìn)而有望實(shí)現(xiàn)全屋設(shè)備真正的自動(dòng)化協(xié)同管理。

圖丨姚宇航(來(lái)源:姚宇航)
打開(kāi)網(wǎng)易新聞 查看精彩圖片
圖丨姚宇航(來(lái)源:姚宇航)

日前,相關(guān)論文以《面向混合人工智能路由器的超級(jí)代理系統(tǒng)》(Toward Super Agent System with Hybrid AI Routers)為題發(fā)表在預(yù)印本網(wǎng)站arXiv上 [1]。TensorOpera 研究科學(xué)家姚宇航是第一作者,TensorOpera 的 CEO 何朝陽(yáng)擔(dān)任通訊作者。

圖丨相關(guān)論文(來(lái)源:arXiv)
打開(kāi)網(wǎng)易新聞 查看精彩圖片
圖丨相關(guān)論文(來(lái)源:arXiv)

姚宇航本科畢業(yè)于上海交通大學(xué) IEEE 試點(diǎn)班,后在美國(guó)卡內(nèi)基梅隆大學(xué)獲得博士學(xué)位。專注于 AI 智能體、大模型推理和聯(lián)邦學(xué)習(xí)系統(tǒng)的研究。

他指出,大模型本身并不能直接應(yīng)用于實(shí)際場(chǎng)景,而 Super Agent System 的突破性意義在于,搭建了從基礎(chǔ)模型到實(shí)際應(yīng)用的完整橋梁。這種端到端的智能解決方案不僅可提升家居自動(dòng)化水平,更開(kāi)啟了人機(jī)協(xié)作的新范式。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

提升效率的關(guān)鍵:選“對(duì)的”模型,比選“大”模型更重要

隨著大語(yǔ)言模型技術(shù)的快速發(fā)展,超級(jí)智能體(Super Agent)正在成為連接用戶意圖與實(shí)際任務(wù)執(zhí)行的重要橋梁。

然而,打造一個(gè)真正泛化、可靠的智能體系統(tǒng),并非簡(jiǎn)單調(diào)用大模型就能實(shí)現(xiàn)。

早期的模型部署技術(shù)在應(yīng)對(duì)高并發(fā)請(qǐng)求時(shí)表現(xiàn)不佳,效率問(wèn)題凸顯。這需要解決包括模型選擇、任務(wù)分配、系統(tǒng)容錯(cuò)等在內(nèi)的一系列復(fù)雜的技術(shù)挑戰(zhàn)。

姚宇航解釋說(shuō)道:“每個(gè) Agent 都‘各有千秋’,它們分別承擔(dān)了特定的功能,就像是擁有不同專長(zhǎng)的人。當(dāng)系統(tǒng)接到某項(xiàng)任務(wù)時(shí),需要智能地判斷是交給某個(gè) Agent 單獨(dú)完成,還是交給多個(gè) Agent 共同協(xié)同工作?!?/p>

有句廣告語(yǔ)“只選對(duì)的,不選貴的”,對(duì)于模型的選擇也同樣適用。盡管 DeepSeek、ChatGPT 等大模型擁有強(qiáng)大的性能,但對(duì)于總結(jié)文檔、日常聊天等簡(jiǎn)單任務(wù),利用小模型或調(diào)用經(jīng)過(guò)微調(diào)的專家模型往往更高效。

該團(tuán)隊(duì)所開(kāi)發(fā)的 TensorOpera Router(以下簡(jiǎn)稱為“Router”)[2] 本質(zhì)上是一個(gè)“Prompt-to-Model”分類系統(tǒng)。其通過(guò)谷歌的 BERT 等語(yǔ)義理解模型和監(jiān)督學(xué)習(xí)方法,通過(guò)分析任務(wù)需求,動(dòng)態(tài)選擇最適合的專家模型對(duì)相關(guān)請(qǐng)求進(jìn)行處理。

(來(lái)源:arXiv)
打開(kāi)網(wǎng)易新聞 查看精彩圖片
(來(lái)源:arXiv)

Router 系統(tǒng)的技術(shù)優(yōu)勢(shì)體現(xiàn)在多個(gè)維度:

首先,它能精準(zhǔn)識(shí)別任務(wù)的復(fù)雜度。例如面對(duì)數(shù)學(xué)問(wèn)題時(shí),系統(tǒng)可以識(shí)別“1+1=2”這類簡(jiǎn)單計(jì)算無(wú)需調(diào)用大模型,而對(duì)看似簡(jiǎn)短實(shí)則復(fù)雜的問(wèn)題則能匹配專家模型。

其次,系統(tǒng)整合了生物、金融等領(lǐng)域的微調(diào)專家模型,通過(guò)智能路由實(shí)現(xiàn)最優(yōu)模型組合,為高效智能地進(jìn)行多模型選擇提供了新方案,而這種智能的路由方式是之前靜態(tài)路由所無(wú)法實(shí)現(xiàn)的。

更重要的是,Router 創(chuàng)新性地解決了模型選擇中準(zhǔn)確率、效率和成本的“不可能三角”問(wèn)題。

在 8 臺(tái) NVIDIA DGX H100 GPU 的實(shí)驗(yàn)條件下,相比于固定模型推理,Router 實(shí)現(xiàn)了最高 30% 成本下降(基于真實(shí)商業(yè)定價(jià)模型),以及 40% 的吞吐量提升。即便面對(duì)模型服務(wù)商動(dòng)態(tài)調(diào)整計(jì)費(fèi)策略(如按 API 調(diào)用次數(shù)收費(fèi))的情況,系統(tǒng)仍能保持高效運(yùn)行。

考慮到真實(shí)高并發(fā)場(chǎng)景(如每秒數(shù)萬(wàn)次請(qǐng)求)下單點(diǎn)故障的情況,研究人員設(shè)計(jì)了一種冗余機(jī)制:當(dāng)某次請(qǐng)求失敗時(shí),系統(tǒng)可自動(dòng)切換到備用節(jié)點(diǎn)重新發(fā)起請(qǐng)求,以保障系統(tǒng)的持續(xù)正常運(yùn)行。

在技術(shù)指標(biāo)方面,模型選擇性能接近最優(yōu)模型選擇,BERT 相似度評(píng)分提升達(dá) 10%;在邊緣-云混合部署架構(gòu)中,Router 系統(tǒng)能夠有效將大部分請(qǐng)求分配到如 Fox-1.6B 等邊緣小模型上,僅將復(fù)雜任務(wù)交給 GPT-4o 等云端模型,從而實(shí)現(xiàn)了推理效率與資源調(diào)度的最佳配置。

(來(lái)源:arXiv)
打開(kāi)網(wǎng)易新聞 查看精彩圖片
(來(lái)源:arXiv)

目前,該技術(shù)已在實(shí)際應(yīng)用場(chǎng)景中展現(xiàn)出顯著價(jià)值。例如,TensorOpera 與高通合作,成功將 Router 部署在高通顯卡上,顯著提升了能效比和性價(jià)比。

另一個(gè)典型案例是某大型聊天網(wǎng)站,通過(guò) Router 架構(gòu)每天高效處理 300 萬(wàn)次訪問(wèn)請(qǐng)求?!拔覀儍H用少量 GPU 資源就滿足了他們的業(yè)務(wù)需求,這充分證明了智能路由系統(tǒng)的商業(yè)價(jià)值?!币τ詈奖硎?。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

解決 Agent 實(shí)際部署難題:四大核心模塊,構(gòu)建超級(jí)智能體的操作系統(tǒng)

在 Router 基礎(chǔ)上,研究人員通過(guò)開(kāi)發(fā) Super Agent System 實(shí)現(xiàn)了技術(shù)架構(gòu)的進(jìn)一步擴(kuò)展。

Super Agent System 采用模塊化設(shè)計(jì)理念,由四大核心組件構(gòu)成一個(gè)完整的智能體生態(tài)系統(tǒng)。

1. 意圖路由與自動(dòng)規(guī)劃(Intent Router + Planner)

用戶只需輸入自然語(yǔ)言請(qǐng)求,系統(tǒng)會(huì)自動(dòng)識(shí)別其意圖并路由到合適的任務(wù) Agent(如財(cái)務(wù)分析、代碼生成、內(nèi)容檢索等)。

圖丨通過(guò)函數(shù)調(diào)用對(duì)用戶意圖進(jìn)行分類(來(lái)源:arXiv)
打開(kāi)網(wǎng)易新聞 查看精彩圖片
圖丨通過(guò)函數(shù)調(diào)用對(duì)用戶意圖進(jìn)行分類(來(lái)源:arXiv)

值得關(guān)注的是,系統(tǒng)還能自動(dòng)生成多 Agent 協(xié)作的執(zhí)行計(jì)劃。以用戶需要寫(xiě)一篇關(guān)于不穩(wěn)定關(guān)稅交易策略的文章為例,該系統(tǒng)會(huì)自動(dòng)規(guī)劃并協(xié)調(diào)三個(gè) Agent 構(gòu)成完整的流程,它們分別負(fù)責(zé):查找實(shí)時(shí)關(guān)稅信息、設(shè)計(jì)金融策略,以及實(shí)現(xiàn) C++ 代碼。

姚宇航表示:“整個(gè)流程完全自動(dòng)化,不需要手動(dòng)編寫(xiě)代碼。Planner 就像一名項(xiàng)目經(jīng)理,能自主完成任務(wù)分解,并智能分配給不同的 Agent 完成,實(shí)現(xiàn)高效地解決問(wèn)題。”

這種協(xié)作還可以無(wú)限擴(kuò)展,據(jù)介紹,現(xiàn)階段研究人員正在嘗試更大規(guī)模的 Agent 協(xié)作,嘗試讓 1000 個(gè) Agent 進(jìn)行協(xié)作和交流,共同完成蓋房子等更復(fù)雜的任務(wù)。

圖丨自動(dòng)代理工作流計(jì)劃(來(lái)源:arXiv)
打開(kāi)網(wǎng)易新聞 查看精彩圖片
圖丨自動(dòng)代理工作流計(jì)劃(來(lái)源:arXiv)

2. 任務(wù)專用智能體(Task Agents):專業(yè) Agent 專注完成特定任務(wù)

每個(gè) Task Agent 都是一個(gè)“任務(wù)專家”,集成了記憶(Memory)、工具使用能力(Tool Use)與檢索增強(qiáng)生成能力(RAG,Retrieval-Augmented Generation)。

它們可調(diào)用數(shù)據(jù)庫(kù)、執(zhí)行 API 操作,甚至與物理世界進(jìn)行交互,從而實(shí)現(xiàn)從數(shù)字到物理的復(fù)雜任務(wù)自動(dòng)化。

圖丨任務(wù)代理的示例(來(lái)源:arXiv)
打開(kāi)網(wǎng)易新聞 查看精彩圖片
圖丨任務(wù)代理的示例(來(lái)源:arXiv)

3. 智能模型選擇系統(tǒng)(Model Router):選擇“最優(yōu)解”模型

不同廠商的模型在架構(gòu)、參數(shù)規(guī)模和優(yōu)化目標(biāo)上存在差異。面對(duì)種類繁多的大模型,如何選擇最合適的模型來(lái)處理當(dāng)前任務(wù)?

智能模型選擇系統(tǒng) Router 作為 Super Agent System 核心模塊之一,通過(guò)對(duì)提示語(yǔ)語(yǔ)義的理解,自動(dòng)選擇在準(zhǔn)確率、響應(yīng)速度與成本三者中最優(yōu)的模型,動(dòng)態(tài)路由任務(wù)請(qǐng)求。

圖丨具有成本優(yōu)化配置的模型路由器(來(lái)源:arXiv)
打開(kāi)網(wǎng)易新聞 查看精彩圖片
圖丨具有成本優(yōu)化配置的模型路由器(來(lái)源:arXiv)

即便是金融分析或?qū)懘a等同類任務(wù),由于任務(wù)的難度不同,需要根據(jù)任務(wù)的復(fù)雜程度選擇不同的模型。

姚宇航舉例說(shuō)道:“對(duì)于復(fù)雜的任務(wù),我們可以使用滿血版的 DeepSeek 模型;而對(duì)于簡(jiǎn)單的任務(wù),我們可以使用 Fox 等小模型。這樣能夠在準(zhǔn)確率、響應(yīng)速度和成本之間找到最佳平衡?!?/p>

4. 端云混合部署(Edge-Cloud Hybrid):讓 AI 智能體運(yùn)行在手機(jī)上

該團(tuán)隊(duì)認(rèn)為,未來(lái)超級(jí)智能體將運(yùn)行在終端設(shè)備(如手機(jī)、機(jī)器人)上,結(jié)合小語(yǔ)言模型與云端大模型協(xié)同工作,既保障了隱私性和實(shí)時(shí)性,又確保了復(fù)雜任務(wù)的處理能力。

特別是在當(dāng)下火熱的具身智能領(lǐng)域,機(jī)器人可以依托本地算力完成常規(guī)任務(wù),僅在必要時(shí)尋求云端支持,實(shí)現(xiàn)了計(jì)算資源的最優(yōu)配置。這樣,機(jī)器人既可以利用本地的強(qiáng)大能力,又能通過(guò)云端獲取更廣泛的支持。

(來(lái)源:arXiv)
打開(kāi)網(wǎng)易新聞 查看精彩圖片
(來(lái)源:arXiv)

需要了解的是,Super Agent System 并非傳統(tǒng)的單體架構(gòu),而是采用模塊化、插件化的設(shè)計(jì)理念,為不同場(chǎng)景需求提供靈活可配置的解決方案。這種設(shè)計(jì)理念為未來(lái)智能體開(kāi)發(fā)開(kāi)辟了新的技術(shù)路徑,有望加速 AI 應(yīng)用在各行業(yè)的落地進(jìn)程。

該架構(gòu)為開(kāi)發(fā)者帶來(lái)了新的可能性:開(kāi)發(fā)者只需定義任務(wù)意圖與流程規(guī)劃,系統(tǒng)可自動(dòng)分配 Agent 執(zhí)行;其次,可根據(jù)實(shí)際場(chǎng)景靈活部署在本地、邊緣或云端;最后,系統(tǒng)組件具備極強(qiáng)的“系統(tǒng)演化能力”,可隨著模型更新動(dòng)態(tài)替換,進(jìn)而具備持續(xù)進(jìn)化的能力。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

ScaleLLM:大模型推理不只是加速,而是系統(tǒng)級(jí)重構(gòu)

要構(gòu)建一個(gè)真正具備實(shí)用價(jià)值的智能體系統(tǒng),單純依靠“模型本體”的性能是遠(yuǎn)遠(yuǎn)不夠的。系統(tǒng)級(jí)的延遲控制、吞吐量?jī)?yōu)化和并發(fā)處理能力,才是決定其能否實(shí)現(xiàn)大規(guī)模部署的關(guān)鍵因素。

針對(duì)這一技術(shù)挑戰(zhàn),該團(tuán)隊(duì)創(chuàng)新性地開(kāi)發(fā)了 ScaleLLM[3]——一個(gè)專為真實(shí)世界智能體服務(wù)場(chǎng)景設(shè)計(jì)的高性能端到端推理框架。

該系統(tǒng)采用多層級(jí)機(jī)制進(jìn)行部署,通過(guò)自動(dòng)擴(kuò)展機(jī)制,在真實(shí)負(fù)載下實(shí)現(xiàn)了對(duì)主流推理引擎的顯著提升:在 64 并發(fā)請(qǐng)求場(chǎng)景下,與 vLLM(Virtual Large Language Model)相比,性能提升 4.3 倍,吞吐量提升 1.5 倍。

其突破性源于多種技術(shù)創(chuàng)新在:首先,系統(tǒng)采用 Rust 語(yǔ)言編寫(xiě)高性能網(wǎng)關(guān),徹底規(guī)避了 Python 全局解釋器鎖的性能限制;其次,集成 FlashAttention、PagedAttention 等前沿技術(shù),顯著優(yōu)化了鍵值緩存(Key-Value Cache)管理和動(dòng)態(tài)批處理效率。

圖丨 ScaleLLM 服務(wù)系統(tǒng)概述(來(lái)源:arXiv)
打開(kāi)網(wǎng)易新聞 查看精彩圖片
圖丨 ScaleLLM 服務(wù)系統(tǒng)概述(來(lái)源:arXiv)

談及技術(shù)的未來(lái)發(fā)展,姚宇航表示,當(dāng)前的模型部署模式與賈揚(yáng)青創(chuàng)立的 Lepton AI 公司有相似之處,但智能體系統(tǒng)因其解決實(shí)際問(wèn)題的能力,有望創(chuàng)造更高的商業(yè)價(jià)值。

總體來(lái)說(shuō),研究人員正在構(gòu)建完整的超級(jí)智能體基礎(chǔ)設(shè)施體系:從智能意圖識(shí)別到動(dòng)態(tài)模型調(diào)度,再?gòu)?ScaleLLM 高性能推理系統(tǒng)到端云協(xié)同架構(gòu)。

這種系統(tǒng)級(jí)創(chuàng)新徹底改變了傳統(tǒng)的人機(jī)交互模式——用戶的一條簡(jiǎn)單提示背后,不再是單一模型生成應(yīng)答,而是一整套智能體系統(tǒng)在幕后完成復(fù)雜的任務(wù)分解、協(xié)作和執(zhí)行流程。這種變革預(yù)示著:在不久的將來(lái),運(yùn)行在個(gè)人終端設(shè)備中的超級(jí)智能體,有望成為人類與數(shù)字世界交互的全新范式。

參考資料:

1.https://arxiv.org/html/2504.10519v1

2.Dimitris Stripelis, Zhaozhuo Xu, Zijian Hu, Alay Dilipbhai Shah, Han Jin, Yuhang Yao, Jipeng Zhang, Tong Zhang, Salman Avestimehr, and Chaoyang He. 2024. TensorOpera Router: A Multi-Model Router for Efficient LLM Inference. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: Industry Track, pages 452–462, Miami, Florida, US. Association for Computational Linguistics.

3.Yuhang Yao, Han Jin, Alay Dilipbhai Shah, Shanshan Han, Zijian Hu, Dimitris Stripelis, Yide Ran, Zhaozhuo Xu, Salman Avestimehr, and Chaoyang He. 2024. ScaleLLM: A Resource-Frugal LLM Serving Framework by Optimizing End-to-End Efficiency. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: Industry Track, pages 279–289, Miami, Florida, US. Association for Computational Linguistics.

4.https://finance.yahoo.com/news/nvidia-jensen-huang-says-ai-044815659.html?guccounter=1

運(yùn)營(yíng)/排版:何晨龍