從 OpenAI 于 3 月 27 日宣布全面支持 MCP 協(xié)議開始,市面上的 MCP Server 數(shù)量,在不到一個(gè)月的時(shí)間里,逼近了 10,000 大關(guān)。接下來, Google 在 4 月 10 日為 Gemini 系列模型添加了對(duì) MCP 協(xié)議的支持,稱其為“AI Agent 時(shí)代的開放標(biāo)準(zhǔn)”,同時(shí)推出 A2A 協(xié)議(Agent-to-Agent Protocol)與 MCP 形成互補(bǔ),聚焦智能體間協(xié)作。
至此,從模型到 Agents,Agents 之間的多點(diǎn)協(xié)作,在通信協(xié)議層面,已經(jīng)完全就緒,AI 推理業(yè)務(wù)至此完成了在 2025 年的“二級(jí)加速”,可以預(yù)見的是,其云用量即將迎來迅猛上漲。

但對(duì)于 AI Infra 來說,仍面對(duì)很大挑戰(zhàn)。從技術(shù)產(chǎn)品上,整個(gè) AI Infra 屬于迭代更新的初期,還有大量面對(duì)推理的調(diào)優(yōu)亟待完成,比如模型下載的策略優(yōu)化等。
本質(zhì)上,預(yù)訓(xùn)練業(yè)務(wù)與推理業(yè)務(wù),對(duì) AI Infra 的需求,有著非常大的不同。預(yù)訓(xùn)練對(duì)單卡性能和顯存帶寬要求極高,需適配大規(guī)模專家并行系統(tǒng)。但推理業(yè)務(wù)更看重推理數(shù)據(jù)傳輸效率、全鏈條的低延遲,以及穩(wěn)定性、可觀測(cè)等方面。
基于以上行業(yè)變化,云廠商紛紛處于“技術(shù)解題”階段,最新交卷的火山引擎 AI 云原生,給出了一份讓客戶推理更強(qiáng)、更省的解決方案。
我們?cè)撊绾卫斫?ServingKit 推理套件
4 月 17 日,在杭州火山引擎 Force Link 大會(huì)上,火山引擎推出 AI 云原生推理套件 ServingKit,目標(biāo)是為企業(yè)提供從模型部署、推理優(yōu)化到運(yùn)維觀測(cè)的一站式解決方案。套件內(nèi)涉及多項(xiàng)服務(wù),包括鏡像服務(wù)、算子加速器、AI 網(wǎng)關(guān) 等等。
應(yīng)該說,2025 年,各家云廠商的一個(gè)主要任務(wù),就是對(duì) AI 推理業(yè)務(wù)的基礎(chǔ)設(shè)施進(jìn)行升級(jí)。
但以全鏈路服務(wù)套件的形式推出,目前來看,僅有火山引擎一家。
火山引擎云基礎(chǔ)產(chǎn)品負(fù)責(zé)人羅浩對(duì) InfoQ 分享了背后的思考:
在服務(wù)客戶的過程中,火山引擎發(fā)現(xiàn),有一類客戶,原本就是做企業(yè)服務(wù)的,他們可能在開發(fā) AI 中間件,甚至正在推動(dòng) AI 平臺(tái)類產(chǎn)品的誕生。這類客戶可能會(huì)有模型開發(fā)和定制服務(wù)。
還有一類客戶是大體量的 C 端互聯(lián)網(wǎng)公司,他們往往具有很強(qiáng)的科研驅(qū)動(dòng)力。
第三類客戶像金融行業(yè)、汽車行業(yè),可能會(huì)組建 AI 相關(guān)業(yè)務(wù)部門,專注 AI 帶來的業(yè)務(wù)效率提升與品牌增值效果。
因此不同客戶群體對(duì) AI 技術(shù)的底層需求完全不同,可能會(huì)用三種不同的工具來實(shí)現(xiàn) AI 的能力。且不想將自己的能力完全綁定在某個(gè)技術(shù)提供方身上,這是可以理解的。所以今天的 AI Infra 升級(jí),不僅需要為客戶提供資源層面的能力,還需要提供解決方案層面的能力和服務(wù)。
從技術(shù)上要看懂 ServingKit ,也不麻煩。簡(jiǎn)單來說,就是推理業(yè)務(wù)的主要流程,在各個(gè)核心節(jié)點(diǎn)做優(yōu)化。
總體來說,在推理服務(wù)啟動(dòng)前,需完成模型倉庫調(diào)度與異構(gòu)資源適配:即從 Hugging Face 拉取模型文件及依賴庫,通過分級(jí)緩存策略(如火山引擎 ServingKit 的 Onion 鏡像權(quán)重加速引擎)加速分發(fā)。
模型加載與預(yù)熱完成后,來自公網(wǎng)或私網(wǎng)的推理請(qǐng)求流量,通過智能網(wǎng)關(guān)進(jìn)行分發(fā)與治理。
與此同時(shí)也要注意資源的運(yùn)維和調(diào)度,包括將 Prefill 預(yù)填充與 Decoder 生成階段解耦,按負(fù)載獨(dú)立擴(kuò)縮容器實(shí)例。通過統(tǒng)一的 KV Cache 管理將高頻訪問的 Cache 常駐 GPU 顯存低頻模型動(dòng)態(tài)卸載至主機(jī)內(nèi)存、SSD 或遠(yuǎn)程存儲(chǔ)等。
在 ServingKit 中,鏡像服務(wù)提供對(duì)推理引擎鏡像的加載提速,同時(shí)用 VKE、APIG、GPU 算子加速器、KV Cache 來分別解決模型加載預(yù)熱、流量調(diào)度、推理執(zhí)行流水線等環(huán)節(jié)的工作。
最終實(shí)現(xiàn)兩項(xiàng)核心成績(jī):
部署提速:拉取 DeepSeek-R1 滿血版(671B 參數(shù))模型僅需 109 秒,40 秒完成集群內(nèi)模型緩存預(yù)熱,13 秒加載至多節(jié)點(diǎn) GPU 顯存。
推理優(yōu)化:TPS 提升 2.4 倍,首字節(jié)響應(yīng)時(shí)間(TTFT)降低 60%,長(zhǎng)文本推理 KV Cache 命中率提升十倍。

這里提到的 DeepSeek-R1 滿血版模型部署時(shí)間,幾乎是業(yè)界第一次給出秒級(jí)的時(shí)間承諾。羅浩對(duì) InfoQ 表示,參數(shù)規(guī)模為 671B 的模型約 700G 大小,將它從核心配置上下載之后再分發(fā)到每個(gè)推理節(jié)點(diǎn)上,如果不做任何加速,可能需要幾個(gè)小時(shí)的時(shí)間。
按此推算,在以往不做加速的情況下,做模型部署,需要的時(shí)間基本是按天計(jì)算的,很難評(píng)價(jià)這對(duì)企業(yè)效率造成了多大的影響。
火山引擎將對(duì)模型部署階段的加速能力,對(duì)外抽象成了 Onion 工具集。Onion 的內(nèi)核在于實(shí)現(xiàn)了多線程資源下載的成熟方案。
此外,Onion 采用兩級(jí)緩存架構(gòu),覆蓋模型分發(fā)全鏈路:
中心緩存層:基于對(duì)象存儲(chǔ)(如火山引擎 TOS)構(gòu)建模型倉庫,支持多種開源模型權(quán)重緩存和更新。
節(jié)點(diǎn)緩存層:利用 GDKV Server 在集群內(nèi)實(shí)現(xiàn)模型權(quán)重分布式緩存。
另外一個(gè)重要的提速手段在于通過 GDR(GPU Direct RDMA)實(shí)現(xiàn)模型加載加速,允許 GPU 繞過 CPU 直接訪問緩存的模型權(quán)重文件。
三者相加,最終使得 ServingKit 在大模型部署提速這件事兒上卓有成效。
而對(duì)整個(gè)推理階段的加速,則涉及更多的技術(shù)環(huán)節(jié),尤以 KV Cache 命中率和 GPU 算子加速器提升最為引人關(guān)注。原因也很直觀:這幾乎是每個(gè)云廠商都在攻堅(jiān)的技術(shù)項(xiàng)目,但最終的技術(shù)實(shí)現(xiàn)效果卻千差萬別。
火山引擎優(yōu)化 KV Cache 命中率的核心方式是提供統(tǒng)一的 KV Cache 管理方案,從而節(jié)省更多的推理 GPU 算力。傳統(tǒng)的單機(jī)本地 Cache 往往僅能夠支持較少時(shí)間段的 KV Cache, 隨著本地緩存不斷釋放,整體緩存命中率較低,而火山引擎 EIC 提供的高性能分布式 KV Cache 服務(wù),能通過內(nèi)存和 SSD 資源構(gòu)建大規(guī)模 KV Cache 資源池,實(shí)現(xiàn) KV Cache 以存代算,提升推理吞吐并降低推理時(shí)延,實(shí)現(xiàn)更高的 KV Cache 命中率。
同時(shí)還會(huì)通過在流量調(diào)度過程中增加 Prefix Cache 感知調(diào)度和 Session 親和調(diào)度,進(jìn)一步提升 KV Cache 命中率。
在智能流量調(diào)度,以及 P/D 獨(dú)立擴(kuò)縮容的問題上,火山引擎同樣保持著技術(shù)優(yōu)勢(shì)。
ServingKit 套件里包含了 APIG 和 VKE。APIG 支持根據(jù)支持推理引擎負(fù)載和 KV Cache 分布調(diào)度流量,降低 TTFT ,提升 KV Cache 命中率,而 VKE 支持跨物理機(jī)、私有云、公有云的混合資源池管理,通過「節(jié)點(diǎn)池」機(jī)制實(shí)現(xiàn)異構(gòu) GPU/CPU 資源的統(tǒng)一編排,可以助力實(shí)現(xiàn)秒級(jí)的故障切換。
而另外一大優(yōu)勢(shì),在于火山引擎云基礎(chǔ)產(chǎn)品團(tuán)隊(duì)自身極強(qiáng)的研發(fā)能力。
例如,GPU 算子加速器,每一家廠商都在做,但很難做好。
一方面,不同 GPU 型號(hào),不同架構(gòu),對(duì)應(yīng)的 GPU 并行計(jì)算能力和顯存帶寬都有差異。另一方面,不同模型,其模型架構(gòu)也有差異。算子優(yōu)化時(shí)候需要充分 GPU 硬件特性和模型特性進(jìn)行優(yōu)化。火山引擎 ServingKit 的 GPU 算子加速器,適配了多種開源的推理引擎框架,并且針對(duì) SGLang/vLLM 等框架,充分借鑒了 DeepSeek 開源算子,結(jié)合字節(jié)內(nèi)部經(jīng)驗(yàn),自研了系列算子。例如 TP 并行下,優(yōu)化 Fused MoE 算子,多 Token 預(yù)測(cè)特性;DP+EP 并行,優(yōu)化 Group GEMM 算子等,提升單卡 TPS。
經(jīng)過火山引擎優(yōu)化后的單卡 R1 滿血版 TPS 比原生 SGLang 提升了 2.4 倍。
當(dāng)前行業(yè)變化極快,新模型層出不窮,量化參數(shù)各有差異,對(duì)算子的適配和優(yōu)化幾乎永無止境。所以這不光是個(gè)技術(shù)活,也與研發(fā)效能息息相關(guān)。需要相關(guān)的公有云團(tuán)隊(duì),孜孜不倦地在算子優(yōu)化這一工作上長(zhǎng)期投入。
字節(jié)跳動(dòng)為業(yè)界津津樂道的,也是其組織文化的高效特質(zhì)?;鹕揭嬖苹A(chǔ)團(tuán)隊(duì)同樣在快速變化的行業(yè)需求中敏捷迭代,總是能將“務(wù)實(shí)”和“浪漫”結(jié)合得很好。
因此火山引擎云基礎(chǔ)業(yè)務(wù)總能在保證業(yè)務(wù)增長(zhǎng)的同時(shí),在技術(shù)戰(zhàn)略上取得一定領(lǐng)先優(yōu)勢(shì)。去年發(fā)布 GDR 時(shí)如此,如今發(fā)布 ServingKit 時(shí),在可觀測(cè)領(lǐng)域,也是如此。
火山的速度,很難被復(fù)制
將這種領(lǐng)先放在可觀測(cè)技術(shù)上,會(huì)體現(xiàn)得尤為明顯。
相比于最時(shí)髦的、與業(yè)務(wù)表現(xiàn)直接相關(guān)的技術(shù)棧,可觀測(cè)這種偏運(yùn)維場(chǎng)景的、關(guān)乎研發(fā)效能的能力,總顯得有些底氣不足。
因此可觀測(cè)技術(shù)的流行,幾乎比熱門技術(shù)遲滯 1-3 年以上。
比如國(guó)內(nèi)微服務(wù)架構(gòu)的規(guī)?;涞刂饕性?2015-2018 年,到 2018 年,Kubernetes 和 Istio 已經(jīng)全面普及,生態(tài)蓬勃發(fā)展。
微服務(wù)也造成了一些問題,當(dāng)一個(gè)服務(wù)被拆分成數(shù)個(gè)黑盒的、虛擬的微服務(wù),故障排除徹底成為一種折磨??捎^測(cè)問題的興起,很大程度上就是要解決微服務(wù)架構(gòu)的維護(hù)問題。
實(shí)際上,可觀測(cè)技術(shù)在國(guó)內(nèi)的興起,差不多要等到 2021 年前后,中間已經(jīng)過了三年。
ServingKit 中可觀測(cè)套件的上架,打破了這一規(guī)律。AI 推理業(yè)務(wù)從去年至現(xiàn)在剛剛興起,來自火山云基礎(chǔ)的可觀測(cè)技術(shù)組件就已經(jīng)完成了升級(jí)——以 APM & VMP 為核心。APM & VMP 通過告警、Trace ID、Trace 分析、問題定位等核心功能,實(shí)現(xiàn)了全鏈路觀測(cè),同時(shí)對(duì)業(yè)務(wù)沒有侵入性。
羅浩對(duì) InfoQ 分享了其中的關(guān)鍵:我們的可觀測(cè)能力,源于之前在云原生微服務(wù)架構(gòu)中使用的方法——字節(jié)跳動(dòng)在線微服務(wù)數(shù)量超過 10 萬,我們致力做好可觀測(cè),因?yàn)橄M麡I(yè)務(wù)團(tuán)隊(duì)可以將主要精力關(guān)注在業(yè)務(wù)邏輯、業(yè)務(wù)創(chuàng)新,而非基礎(chǔ)架構(gòu)及其運(yùn)維。
不但是對(duì)內(nèi)提供的核心能力,也是較早經(jīng)過打磨可對(duì)外提供的服務(wù)之一,這種在面對(duì)業(yè)務(wù)的務(wù)實(shí),讓火山引擎云基礎(chǔ)服務(wù),變相取得了 To B 產(chǎn)品服務(wù)的領(lǐng)先。
4 月 10 日,國(guó)際數(shù)據(jù)公司(IDC)發(fā)布的《中國(guó)公有云大模型服務(wù)市場(chǎng)格局分析,1Q2025》顯示,2024 年中國(guó)公有云上大模型調(diào)用量達(dá) 114.2 萬億 tokens,火山引擎以 46.4% 的市場(chǎng)份額位居中國(guó)市場(chǎng)第一。作為底層的技術(shù)支撐,火山引擎 AI 云原生云基礎(chǔ)設(shè)施自有過人之處。
但比階段性的成績(jī)更重要的是,在國(guó)內(nèi),無論是 AI Infra 市場(chǎng),還是 AI 應(yīng)用市場(chǎng),都已經(jīng)步入中場(chǎng)階段,頭部玩家的優(yōu)勢(shì)正在被放大,火山引擎在此刻發(fā)布 ServingKit ,等同于對(duì)服務(wù) AI 推理業(yè)務(wù)的基礎(chǔ)設(shè)施的一次“熱升級(jí)”,提高了 AI infra 提供者的服務(wù)水平,降低了企業(yè)落地 AI 的使用門檻,進(jìn)一步加速了 AI 應(yīng)用在國(guó)內(nèi)的發(fā)展。
熱門跟貼