打開(kāi)網(wǎng)易新聞 查看精彩圖片

機(jī)器之心發(fā)布

機(jī)器之心編輯部

當(dāng)前 AI 領(lǐng)域呈現(xiàn)「端云并發(fā)」的發(fā)展態(tài)勢(shì),端側(cè)與云側(cè)大模型各展所長(zhǎng),共同推動(dòng)著智能發(fā)展與應(yīng)用落地的邊界。端側(cè)模型實(shí)現(xiàn)本地毫秒級(jí)實(shí)時(shí)響應(yīng),云側(cè)模型依托強(qiáng)大算力支持復(fù)雜大規(guī)模推理,而兩者都離不開(kāi)高效的推理系統(tǒng)支撐。

在 GTC 2025 上,NVIDIA CEO 黃仁勛強(qiáng)調(diào),大模型計(jì)算正從預(yù)訓(xùn)練轉(zhuǎn)向推理優(yōu)化階段。隨著產(chǎn)業(yè)落地加速,推理計(jì)算需求正呈現(xiàn)爆發(fā)式增長(zhǎng),如何在性能、成本和響應(yīng)速度間取得平衡成為關(guān)鍵工程挑戰(zhàn),推理系統(tǒng)正是解決這一問(wèn)題的核心

近日,無(wú)問(wèn)芯穹發(fā)起了一次推理系統(tǒng)開(kāi)源節(jié),連續(xù)開(kāi)源了三個(gè)推理工作,包括加速端側(cè)推理速度的 SpecEE、計(jì)算分離存儲(chǔ)融合的 PD 半分離調(diào)度新機(jī)制 Semi-PD、低計(jì)算侵入同時(shí)通信正交的計(jì)算通信重疊新方法 FlashOverlap,為高效的推理系統(tǒng)設(shè)計(jì)提供多層次助力。下面讓我們一起來(lái)對(duì)這三個(gè)工作展開(kāi)一一解讀:

Day 1|SpecEE:基于推測(cè)的 Early Exiting 機(jī)制,讓 AI PC 推理速度起飛

  • 官方知乎:https://zhuanlan.zhihu.com/p/1899766212109510455
  • 開(kāi)源倉(cāng)庫(kù):https://github.com/infinigence/SpecEE
  • 論文地址:https://arxiv.org/abs/2504.08850

隨著 DeepSeek 等開(kāi)源模型表現(xiàn)出越來(lái)越強(qiáng)悍的性能,在 PC 端本地部署大模型的需求持續(xù)增長(zhǎng)。盡管許多情況下使用云端模型更加便利,但本地部署仍在數(shù)據(jù)隱私、網(wǎng)絡(luò)限制或者成本限制的條件下具有不可替代的優(yōu)勢(shì)。

然而,端側(cè)設(shè)備往往受限于算力、電量和存儲(chǔ),且 CPU、GPU、NPU 三類異構(gòu)處理器的算力、架構(gòu)差異顯著,產(chǎn)生許多不必要調(diào)度和通信開(kāi)銷。將模型安裝到 PC 端本地環(huán)境后,推理速度太慢,能達(dá)到使用標(biāo)準(zhǔn)的場(chǎng)景也就比較有限了。

無(wú)問(wèn)芯穹第一天開(kāi)源的 SpecEE 推理引擎框架,就是為了解決端側(cè)計(jì)算、存儲(chǔ)與異構(gòu)處理器協(xié)同挑戰(zhàn)而生。相關(guān)工作被收錄于 ISCA 2025(International Symposium on Computer Architecture,計(jì)算機(jī)體系結(jié)構(gòu)領(lǐng)域的頂級(jí)會(huì)議),論文已在 arXiv 公開(kāi)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

相比云場(chǎng)景,端側(cè)設(shè)備的場(chǎng)景特征是「單用戶、少請(qǐng)求」,而單用戶下大模型推理是底庫(kù)很大的搜索分類問(wèn)題。

不同于傳統(tǒng)的 Early Exiting 技術(shù),SpecEE 從搜索空間的角度探索 Early Exiting 的優(yōu)化策略,并提出基于推測(cè)模型對(duì) Early Exiting 搜索空間進(jìn)行縮減,推動(dòng)精度與速度的帕累托前沿。在 AI PC 場(chǎng)景下,可以獲得超過(guò) 2 倍的性能提升。

由于其角度的獨(dú)特性,SpecEE 的算法可以無(wú)感兼容任何輕量化優(yōu)化技術(shù)。為了將核心思想進(jìn)一步推進(jìn)應(yīng)用在 Early Exiting 預(yù)測(cè)器上,研究團(tuán)隊(duì)針對(duì)預(yù)測(cè)器開(kāi)展了三層面的優(yōu)化:在算法層面通過(guò)輕量化預(yù)測(cè)器設(shè)計(jì)實(shí)現(xiàn)低開(kāi)銷高精度預(yù)測(cè);在系統(tǒng)層面通過(guò)自適應(yīng)調(diào)度引擎實(shí)現(xiàn)預(yù)測(cè)器彈性激活;在映射層面,則通過(guò)重構(gòu)推測(cè)解碼 Early Exiting 機(jī)制實(shí)現(xiàn)線性復(fù)雜度映射。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

無(wú)問(wèn)芯穹展示了 SpecEE 在聯(lián)想拯救者 Y7000(搭載 NVIDIA RTX 4060 Laptop GPU 與 Intel Core I7-13650HX)上的實(shí)測(cè)推理速度比較,運(yùn)行 ReLU-llama-7B 最高可實(shí)現(xiàn) 14.83 token/s 的推理速度,相比 PowerInfer 12.41 token/s 的速度,實(shí)現(xiàn)了近 20% 的提升。相比于常用端側(cè)部署框架 llama.cpp,SpecEE 則能夠在 AI PC 上實(shí)現(xiàn)高達(dá) 2.43 倍的加速。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

視頻鏈接:

https://mp.weixin.qq.com/s/vecJX1J8sFoRK8ZudFfzaA

值得一提的是,SpecEE 由于其動(dòng)態(tài)性,也適合在單用戶云端場(chǎng)景下的推理,并且由于其方法的正交性可以與現(xiàn)有的一些優(yōu)化方法進(jìn)行集成,可無(wú)感兼容任何端側(cè)加速方案,進(jìn)一步推動(dòng)了端側(cè)模型推理精度和速度的帕累托前沿。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

Day 2|Semi-PD:第三代 PD 半分離架構(gòu),推理系統(tǒng)的全新選擇

  • 官方知乎:https://zhuanlan.zhihu.com/p/1900135208373716494
  • 開(kāi)源倉(cāng)庫(kù):https://github.com/infinigence/Semi-PD
  • 技術(shù)報(bào)告:https://github.com/infinigence/Semi-PD/blob/main/docs/_static/paper/arxiv_semi_PD.pdf

第一代 P/D 融合架構(gòu)采用資源統(tǒng)一分配的策略,Prefill(預(yù)填充)和 Decode(解碼)階段共享計(jì)算和存儲(chǔ)資源,整個(gè)推理流程在同一個(gè)實(shí)例上完成。第二代 P/D 分離架構(gòu)將 Prefill 和 Decode 階段的計(jì)算與存儲(chǔ)資源解耦,請(qǐng)求在 Prefill 實(shí)例上完成 Prefill 階段計(jì)算后,傳輸 KV cache 至 Decode 實(shí)例進(jìn)行后續(xù)計(jì)算,解耦了 TTFT 和 TPOT 的優(yōu)化目標(biāo),消除了 P/D 之間的干擾,被月之暗面、DeepSeek 等公司紛紛采用,NVIDIA 也將其作為下一代 LLM 服務(wù)系統(tǒng)的核心技術(shù)方向。無(wú)問(wèn)芯穹第二個(gè)開(kāi)源項(xiàng)Semi-PD——第三代 PD 半分離架構(gòu),在消除 P/D 干擾的同時(shí),保留了融合式的存儲(chǔ)效率,實(shí)現(xiàn)在給定資源和 SLO 的前提下,最大化「Goodput」(有效吞吐量)

打開(kāi)網(wǎng)易新聞 查看精彩圖片

Semi-PD 混合架構(gòu)采用了「計(jì)算分離、存儲(chǔ)融合」的設(shè)計(jì)理念。不同于傳統(tǒng)方案將 Prefill 和 Decode 任務(wù)分別放在不同實(shí)例上,Semi-PD 讓 Prefill 進(jìn)程和 Decode 進(jìn)程共享同一個(gè)實(shí)例,各自占用部分計(jì)算資源(可以想象為「半張卡」)。同時(shí),兩個(gè)進(jìn)程通過(guò) IPC 機(jī)制,模型權(quán)重和 KV cache 只需存儲(chǔ)一份,同時(shí)能夠「看到」所有的存儲(chǔ)資源。

這種設(shè)計(jì)可以靈活調(diào)整 P 和 D 的資源占比,從而更細(xì)粒度地調(diào)優(yōu)首次 token 延遲(TTFT)和每個(gè)輸出 token 的時(shí)間(TPOT)。考慮到實(shí)際服務(wù)中 Prefill 和 Decode 的負(fù)載往往動(dòng)態(tài)變化的,固定資源分配會(huì)導(dǎo)致資源利用率低,為此,研發(fā)團(tuán)隊(duì)創(chuàng)新性地引入了服務(wù)級(jí)別目標(biāo)(SLO)感知的動(dòng)態(tài)資源調(diào)整機(jī)制。該機(jī)制通過(guò)實(shí)時(shí)監(jiān)控系統(tǒng)負(fù)載,動(dòng)態(tài)調(diào)整 Prefill 和 Decode 的資源配比(x, y),以更好地滿足延遲約束和系統(tǒng)吞吐的雙重目標(biāo)。在滿足 SLO 要求的同時(shí),最大化有效吞吐量的性能突破

打個(gè)比方,如果說(shuō) PD 分離架構(gòu)讓備菜師傅專注處理食材(Prefill),炒菜師傅只管烹飪(Decode),那么 Semi-PD 混合架構(gòu)則像配備了智能變形功能的現(xiàn)代化廚房,通過(guò)可移動(dòng)的智能隔斷,廚房空間可以動(dòng)態(tài)劃分:早上備菜多就多給備菜區(qū),午市炒菜忙就多給烹飪區(qū)。最巧妙的是,兩個(gè)區(qū)域共享同一套智能廚具系統(tǒng)(統(tǒng)一存儲(chǔ)),既避免了重復(fù)購(gòu)置設(shè)備,又能通過(guò)資源動(dòng)態(tài)分配實(shí)現(xiàn)效率最大化。

相比于開(kāi)源的 SOTA 實(shí)現(xiàn),Semi-PD 的 Goodput 提升了 1.55-1.72 倍,單請(qǐng)求平均端到端時(shí)延提升 1.27-2.58 倍。

llama 系列模型結(jié)果:

其中 vllm-S 對(duì)應(yīng) splitfuse schedule,vllm-D 對(duì)應(yīng) default schedule 即 Prefill 優(yōu)先

打開(kāi)網(wǎng)易新聞 查看精彩圖片

Deepseek 系列模型結(jié)果:

打開(kāi)網(wǎng)易新聞 查看精彩圖片

Day 3|FlashOverlap:計(jì)算零干擾,基于信號(hào)的通信重疊

  • 官方知乎:https://zhuanlan.zhihu.com/p/1900488778407211472
  • 開(kāi)源倉(cāng)庫(kù):https://github.com/infinigence/FlashOverlap
  • 論文地址:https://arxiv.org/abs/2504.19519

第三天,無(wú)問(wèn)芯穹放出了一個(gè)非常有意思的工作「FlashOverlap」,這是一個(gè)基于控制信號(hào)的計(jì)算通信重疊新思路。主要出發(fā)點(diǎn)在于提供一種低侵入矩陣乘法、無(wú)侵入通信的方式完成細(xì)粒度計(jì)算通信重疊,可以無(wú)縫適配矩陣乘法和各種常見(jiàn)的通信原語(yǔ),包括但不限于 AllReduce、ReduceScatter、All2All 等。對(duì)于通信瓶頸顯著的低端消費(fèi)卡來(lái)講優(yōu)化效果尤為明顯,可以達(dá)到高達(dá) 1.65 倍的性能提升。

研究團(tuán)隊(duì)首先指出,一個(gè)低開(kāi)發(fā)成本高性能收益的計(jì)算和通信重疊方案,需要至少滿足以下三個(gè)方面:

  • 支持 Tile 粒度的重合和調(diào)度,以最大化重疊效果;
  • 重疊方案要盡可能少的侵入計(jì)算部分,以最小化對(duì)計(jì)算部分的傷害;
  • 重疊方案要盡可能對(duì)不同的通信原語(yǔ)和基于拓?fù)涞膬?yōu)化技術(shù)正交,以最小化對(duì)通信部分的傷害,以及最小化不同通信原語(yǔ)的適配成本。

為此,我們提出一種基于信號(hào)的計(jì)算通信重疊技術(shù),可以完美契合上面提到的三個(gè)準(zhǔn)則。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

就好比參加接力跑比賽需要訓(xùn)練一套團(tuán)隊(duì)?wèi)?zhàn)術(shù)——交接棒時(shí)要往前多送一段,最大化重疊效果;接棒時(shí)要站在整體最短路徑上,最小化對(duì)競(jìng)速部分的傷害;交接時(shí)統(tǒng)一右手交右手接,最小化對(duì)大部分運(yùn)動(dòng)員左右手習(xí)慣的適配成本。FlashOverlap 就像是一套最先進(jìn)的接力賽戰(zhàn)術(shù),能夠讓整體團(tuán)隊(duì)都省力的同時(shí),跑出最快的速度。

如何能減少對(duì)計(jì)算的侵入性,同時(shí)又能和通信都正交是實(shí)現(xiàn)基于信號(hào)控制做通信的難點(diǎn)。FlashOverlap 的核心 idea 是,讓計(jì)算 Kernel 能夠在完成一部分計(jì)算結(jié)果之后自動(dòng)發(fā)出一個(gè)就緒的信號(hào),然后接收到該信號(hào)之后再發(fā)起一次針對(duì)就緒部分?jǐn)?shù)據(jù)的 NCCL 的通信。最終基于信號(hào)的計(jì)算通信重疊架構(gòu)如下圖:

打開(kāi)網(wǎng)易新聞 查看精彩圖片

FlashOverlap 的實(shí)驗(yàn)結(jié)果分為兩部分:第一部分是針對(duì)矩陣乘法和 AllReduce、ReduceScatter 和 All2All 三個(gè)通信算子,在 A800 和 4090 的優(yōu)化效果;第二部分以 AllReduce 為例,分析 M、N、K 變化時(shí)優(yōu)化效果的變化。

整體上看,F(xiàn)lashOverlap 可以獲得 1.07-1.31 倍性能提升,而且大多數(shù)情況下都優(yōu)于其他 SOTA 工作。具體如下圖所示,研究團(tuán)隊(duì)測(cè)試了小面表格中大量的矩陣乘法形狀,柱狀圖代表表格中所有矩陣乘法形狀下的平均性能,線狀圖分別代表性能最差情況和最優(yōu)情況。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

為了更進(jìn)一步展開(kāi),研究團(tuán)隊(duì)在 4090 上針對(duì) TP=2 下做 ReduceScatter,在 A800 上針對(duì) TP=4 下做 AllReduce,這兩種場(chǎng)景不同矩陣乘法形狀 MKN 的性能結(jié)果。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

研究團(tuán)隊(duì)表示,開(kāi)源這一方案,希望能幫助到各個(gè)生成式大模型訓(xùn)練和推理場(chǎng)景,降低大規(guī)模計(jì)算帶來(lái)的通信開(kāi)銷。

軟硬協(xié)同驅(qū)動(dòng)高效推理系統(tǒng)發(fā)展

無(wú)問(wèn)芯穹 2023 年就曾推出過(guò)一個(gè)驚艷業(yè)界的推理加速方法 FlashDecoding++(機(jī)器之心曾獨(dú)家報(bào)道:GPU 推理提速 4 倍,256K 上下文全球最長(zhǎng):無(wú)問(wèn)芯穹刷新大模型優(yōu)化記錄),通過(guò)異步方法實(shí)現(xiàn)注意力計(jì)算的真正并行,并針對(duì)「矮胖」矩陣乘優(yōu)化加速 Decode 階段的計(jì)算,將國(guó)際主流 GPU 推理速度提升了 2-4 倍。隨后將這套軟硬件協(xié)同設(shè)計(jì)能力逐個(gè)應(yīng)用在國(guó)產(chǎn)計(jì)算卡上,取得了十余種計(jì)算卡的最佳優(yōu)化效果,搭建了 GPU 云「異構(gòu)云」,支持在多種國(guó)產(chǎn)芯片上完成大模型推理任務(wù)。

近日,無(wú)問(wèn)芯穹聯(lián)合創(chuàng)始人、CEO 夏立雪在出席活動(dòng)時(shí)表示:「此次開(kāi)源無(wú)問(wèn)芯穹新一代大模型端、云推理系統(tǒng)相關(guān)工作,是希望以開(kāi)源方案為橋梁,助力大模型產(chǎn)業(yè)落地在保障質(zhì)量的基礎(chǔ)上實(shí)現(xiàn)效率躍升與成本優(yōu)化,加速技術(shù)普惠與產(chǎn)業(yè)升級(jí)進(jìn)程?!?/p>

推理系統(tǒng)是技術(shù)協(xié)同的中樞,也是產(chǎn)業(yè)價(jià)值的放大器。在縱向維度上,推理系統(tǒng)向上連接著 AI 模型、工具和各類應(yīng)用場(chǎng)景,向下對(duì)接硬件資源,能充分發(fā)揮不同硬件優(yōu)勢(shì);在橫向維度上,高效推理系統(tǒng)的應(yīng)用,將全面激活大模型在端側(cè)的應(yīng)用潛能以及在云側(cè)的生產(chǎn)力效能,推動(dòng) AI 技術(shù)的價(jià)值向更多行業(yè)和人群輻射滲透。