
從數(shù)據(jù)流芯片切入,走異于英偉達的道路是國內(nèi)機會點所在。
作者丨朱可軒
編輯丨陳彩嫻
近期,上海交通大學與 AI Infra 創(chuàng)企魔形智能聯(lián)合研究團隊在由 IEEE 計算機協(xié)會主辦的 HPCA 2025(International Symposium on High-Performance Computer Architecture)會議上,發(fā)表了論文《VQ-LLM: High-performance Code Generation for Vector Quantization Augmented LLM Inference》。
論文提出的 VQ-LLM 框架通過分層代碼本緩存和代碼本中心計算引擎兩大核心技術(shù),成功實現(xiàn)了超過 50% 的推理延遲降低,性能超越同比特寬度的傳統(tǒng)逐元素量化方法。
這一突破為向量量化(VQ)技術(shù)的實際部署提供了可行方案,在保持大語言模型高精度的同時,顯著提升了推理效率。
當前,業(yè)界前沿在大模型壓縮方面涌現(xiàn)出不少研究成果,不過很大一部分都聚焦于單元素量化,而向量量化的好處則在于,極限、等效的比特壓縮位寬會低很多,這也是論文研究所考慮的核心點。
而這篇論文工作的主要負責人為上海期智研究院 PI、上海交通大學計算機科學與工程系教授冷靜文,他于 2010 年 7 月畢業(yè)于上海交通大學,獲得學士學位。此后,其又在 2016 年 12 月從德州大學奧斯汀分校電子與計算機工程系畢業(yè)并獲得博士學位,博士期間的主攻方向為 GPU 處理器的體系結(jié)構(gòu)優(yōu)化。

冷靜文
當前,冷靜文和團隊的主要研究興趣點還聚焦在芯片架構(gòu)和硬件互聯(lián)方面,包括數(shù)據(jù)流的芯片內(nèi)部設計以及類似于超節(jié)點的高速互聯(lián)域的硬件設計。此前,其團隊也發(fā)布了基于數(shù)據(jù)流和底層算子的一系列優(yōu)化組件。
DeepSeek 之后國產(chǎn)芯片實現(xiàn) FP8 的相關(guān)問題引發(fā)了業(yè)內(nèi)廣泛關(guān)注,對此,冷靜文表示,“之前沒有大模型的時候,大家覺得芯片里的算力已經(jīng)夠用了,再做 FP8、FP4 算力就冗余了,所以沒有像英偉達那樣提前把低位寬的算力把它堆上去,這一代的芯片都可能有同樣的問題。”
而對于國產(chǎn)芯片的發(fā)展,他認為,“如果大家只是照抄英偉達的設計方法會永遠落后于他們,還是得有一些原創(chuàng)性的思考。”這也是冷靜文團隊側(cè)重于研究數(shù)據(jù)流芯片的思考之一。
在他看來,“從國內(nèi)角度來看,GPU 實際上已經(jīng)存在幾十年了,紅利快走到盡頭了,再往后芯片的架構(gòu)以及芯片的編程方法怎么去設計,我們想通過數(shù)據(jù)流的方式來解決問題。”
以下是 AI 科技評論與冷靜文的對話:
1
向量量化與大模型壓縮
AI 科技評論:你們團隊和魔形智能合作在 HPCA 2025 上發(fā)表了一篇論文工作,可以介紹一下您和魔形智能此次合作的這篇論文工作嗎?你們最初思考去做這篇工作的出發(fā)點是什么?
冷靜文:我們認為現(xiàn)階段大模型很重要,并且大模型的計算量比較大,消耗的存儲空間也比較大,所以現(xiàn)在有個很熱門的研究方向是做大模型壓縮,有一系列的代表性的工作是在大模型的量化上,比如把單個元素從原來的 FP16 壓縮到 4 比特的 FP 或者 4 比特的 INT,在這個壓縮方法里很多人沒有考慮到的點在于不同的元素之間可能存在一定的相關(guān)性,這個相關(guān)性如何挖掘就是我們的研究動機。
我們做的是原來在向量數(shù)據(jù)庫中的向量量化,把一個 Vector 劃分成更小的 Group,然后去挖掘 Group 內(nèi)元素的相關(guān)性,這樣就可以更高效地進行壓縮。
而向量量化相比于原來單個元素量化的好處在于,它極限、等效的比特壓縮位寬可能比原來的單元素量化要低很多,我們分析包括業(yè)界也有不少人指出來,單元素的量化做到 4 比特差不多就基本上做到盡頭了,那這些就要用向量量化,向量化現(xiàn)在做到兩三個比特基本上還是能用的,改進它的一些量化算法。
AI 科技評論:在這篇論文工作中您和魔形智能的團隊參與其中分別負責了哪部分內(nèi)容?
冷靜文:我們交大團隊主要提出了這個想法,后面包括實驗機器以及實驗環(huán)境、模型等都是和魔形智能的團隊合作,雙方合作比較緊密,我們也簽了一個校企合作的項目,在大模型的基礎設施這塊一起做前沿研究。

https://arxiv.org/abs/2503.02236
AI 科技評論:您過往的論文工作幾乎都是和系統(tǒng)研究相關(guān)的,您的這些經(jīng)驗對于當前 LLM 相關(guān)論文工作來講,能提供什么樣的參考?
冷靜文:系統(tǒng)的很多優(yōu)化方法都可以來指導大模型的設計,比較重要的方向是找到系統(tǒng)當前的一些瓶頸,然后結(jié)合模型的特點來進行聯(lián)合設計,這當中我們做的工作是去挖掘了一下大模型的參數(shù),或者說它的 KV 緩存里細粒度不同的部分之間存在什么內(nèi)在關(guān)聯(lián),怎么利用它們的相關(guān)性去做到比較極致的壓縮,這是可供參考的。
未來顯存容量、通信帶寬也都是瓶頸的話,那怎么結(jié)合這些瓶頸去讓模型更好地適配系統(tǒng),前段時間大家討論比較激烈的 NSA 工作也是在這個方向上的。
AI 科技評論:具體來講,您覺得 NSA 這一工作有什么亮點?給行業(yè)帶來了哪些價值?
冷靜文:之前大家覺得稀疏是很重要的,只不過方法是需要去做靜態(tài)的基于規(guī)則的裁剪、減枝等,NSA 的價值在于就把稀疏設計原生帶入到模型的架構(gòu)中去,有點像 MoE架構(gòu),他也是第一個在注意力機制上能夠做端到端學習的工作,說明我們之后設計模型的時候,需要把效率優(yōu)先的原則帶入到模型結(jié)構(gòu)里去。
AI 科技評論:你們的研究為向量量化技術(shù)的實際部署提供了可行方案,在保持大語言模型高精度的同時,顯著提升了推理效率,具體是怎么解決的?解決推理延遲問題的過程中你們也沒有遇到過難點問題?
冷靜文:整個工作從一開始做 motivation 到后面的具體實現(xiàn),都還是比較順利的,因為我們先抓了一個點,先確定向量量化到底是不是比原來的單元素量化更有價值,我們在算法領(lǐng)域找到佐證,自己做了一些實驗也得到比較好的效果,后面的系統(tǒng)實現(xiàn)都是我們的強項,沒有特別難的問題,最開始的難點在于怎么樣找到用向量量化的方法來壓縮大模型。
AI 科技評論:您觀察看來,海內(nèi)外還有哪些是比較有價值的探索向量量化突破的前沿工作?和你們的做法又有什么差異?目前在向量量化這塊的研究方面還存在哪些優(yōu)化空間?
冷靜文:目前海內(nèi)外向量量化用在大模型壓縮里的工作分成兩種,一種是只做壓縮,然后計算的時候還是恢復成原來的方法來做計算,還有一種是直接基于壓縮后的方式來做計算。我們當前還只是做到了壓縮,但是在壓縮和計算的聯(lián)合優(yōu)化上我們還要繼續(xù)做,然后現(xiàn)在其實量化只是用在了推理上,需要考慮是不是可以把量化也和訓練的過程集成起來。
AI 科技評論:你們的工作目前是已經(jīng)從學術(shù)成果落地到行業(yè)內(nèi)了嗎?感覺目前業(yè)界的解法和學術(shù)界最前沿的研究間還存在多大差距?
冷靜文:目前論文工作內(nèi)容模型那邊已經(jīng)正在落在相關(guān)的產(chǎn)品里面。但是另外一個角度來講,學術(shù)界關(guān)注前沿研究,更具有前瞻性,要比行業(yè)落地早幾年。可能現(xiàn)在做的東西如果五年后大家覺得有用再去考慮落地,這會更有前瞻性一些,以此為目標去做學術(shù)研究,而不是說現(xiàn)在什么火就去做什么。
2
DeepSeek 帶來的思考
AI 科技評論:您認為 DeepSeek 這種 671B 的 MoE 模型量化起來會有什么難點?這么大參數(shù)的稀疏模型該如何在盡量減少精度損失的同時提升推理效率?你們的論文工作對此有什么參考價值嗎?
冷靜文:目前 DeepSeek 最大的難點在于要跑起來 671B 參數(shù)的模型,對機器要求比較高,量化起來速度比較慢,所以我們一般是在小一點的模型上去驗證一下方法的有效性。
其中有個比較重要的點在于,671B 的 MoE 模型的每個專家不是每次推理都被會被激活的,現(xiàn)在的一些量化方法其實需要有一些專家被激活后,拿到中間結(jié)果后再進行量化壓縮,所以最大的問題在于這種 MoE 模型不是每次都激活專家,那么怎么去量化算法,怎么去考慮因素進行相應的調(diào)整,除此之外,DeepSeek 的模型跟之前的其他模型也沒有太大區(qū)別。
AI 科技評論:您如何評價 DeepSeek 訓練大模型是軟硬一體協(xié)同的?包括現(xiàn)在有觀點認為,模型其實還是需要根據(jù)現(xiàn)有的硬件結(jié)構(gòu)做調(diào)整的,您怎么看?
冷靜文:我覺得模型在結(jié)構(gòu)上沒有太多根據(jù)硬件結(jié)構(gòu)做的思考,不過也有一些底層思考是在軟硬件一體方面,現(xiàn)在的模型架構(gòu)告訴我們可以通過做 Attention 來挖掘一些有效的信息,包括訓練和當前的 prompt 里面的信息,Attention 是最主要的方式。
那么形成 Attention 的計算方法,我們現(xiàn)在還是要逐個元素做內(nèi)積,但是需要考慮到這是不是最有效的方法,有沒有更高效的方法去做 Attention 的,比如說,我們現(xiàn)在考慮的就是基于向量量化,如果多個向量的 Group 之間沒有快速做 Attention 的計算方式,不一定要逐個元素相乘然后做內(nèi)積,這方面上海交大也提出過塊狀稀疏的模型架構(gòu),在未來會更高效一些。
AI 科技評論:前陣子關(guān)于 MaaS 的討論也很激烈,您如何評價這個問題?這是否只能是大廠的生意,對于小廠來講注定虧損?
冷靜文:我看了 DeepSeek 自己估算的成本,他們給出來的方案能夠?qū)崿F(xiàn)比較低的成本,我覺得從歷史的經(jīng)驗來判斷,最終要商用肯定是有利潤空間的,只是說最終硬件不一定是以現(xiàn)在這種 GPU 的方式來部署,有沒有更高效的硬件部署方法,類似于大家之前用蘋果 Mac 的 studio,它有一個很大的 unified memory,用這種硬件架構(gòu)來部署,通過一個很大的 memory 降低較大成本。
所以這當中的優(yōu)化空間是有的,但都是從商業(yè)成本的角度去考慮,甚至包括現(xiàn)在大家做的以存代算的工作,因為不僅要做 serving,Cache 那層也要做好,不是說每一個請求都要算的,中間還要命中一些歷史結(jié)果,以存換算也是這當中可以優(yōu)化的點,如果能把模型的部署成本降到極致是能做下去的。
AI 科技評論:小廠能夠復現(xiàn)DeepSeek官方的部署優(yōu)化方案比如專家并行(Expert Parallelism,EP)的話,是否能有一線生機?現(xiàn)在也有廠商已經(jīng)做到了,您覺得當中會有什么難點?
冷靜文:專家并行要做到多 GPU 之間的通信比較難,現(xiàn)在不做 EP,做原來的 DP、TP 等都有官方寫好的集合通訊庫來調(diào)用,做 EP 的話有很多點對點的通信,通信和計算之間的 Overlab 都會比較難,而且英偉達本身也還沒有推出比較好的方法來實現(xiàn) EP,導致現(xiàn)在大家都不太好做,而且目前大家也都是基于英偉達的生態(tài)來做,沒有國產(chǎn)生態(tài)可以做這些。
AI 科技評論:DeepSeek 也開源了一系列代碼庫,幾乎都在圍繞英偉達 GPU 展開,這給你們的研究工作帶來了哪些有價值的參考?
冷靜文:DeepSeek 開源的一系列內(nèi)容中我比較關(guān)注算子生成這一步,因為主要聚焦在單個 GPU 的研究,這當中有些借鑒意義。另外,在多 GPU 的編程上我們團隊目前也在開展一些研究,不是基于 GPU 的設計來。
我們團隊的芯片架構(gòu)研究主要集中于數(shù)據(jù)流芯片,不是做 GPU 上的控制流的方法,海外像 Cerebras 做的大芯片、Tenstorrent 的芯片也是類似于數(shù)據(jù)流的,但是國外大家都能買到英偉達的 GPU,所以大家不一定會去購買他們,而從國內(nèi)角度來看,GPU 實際上已經(jīng)存在幾十年了,紅利快走到盡頭了,再往后芯片的架構(gòu)以及芯片的編程方法怎么去設計,我們想通過數(shù)據(jù)流的方式來解決問題。
3
國產(chǎn)芯片的機會點
AI 科技評論:你們目前為止在數(shù)據(jù)流方面都做了哪些相關(guān)工作?已經(jīng)解決了哪些業(yè)內(nèi)難點問題?
冷靜文:我們對標于 GPU 的 CUDA 編程生態(tài),用的抽象機是基于單指令、多線程的架構(gòu),我們可以在 GPU 上做很多開發(fā),它有很好的生態(tài)。我們做的數(shù)據(jù)流芯片是在先考慮了抽象機的設計,我們也發(fā)表了一篇中文期刊文章,闡述我們在數(shù)據(jù)流的抽象機上用基于代碼塊的、比較細膩度的數(shù)據(jù)流方式,同時能夠去兼容 CUDA 的抽象機,我們能解決的問題是未來設計 AI 芯片的話,AI 芯片底下的抽象模型不一定非得做成英偉達 GPU 的架構(gòu),而是可以用代碼塊的數(shù)據(jù)流方式來解決。

http://engine.scichina.com/doi/10.1360/SSI-2024-0343
AI 科技評論:數(shù)據(jù)流芯片的設計研究有何難點?
冷靜文:數(shù)據(jù)流芯片造出來是比較好造的,關(guān)鍵難點是在這上面怎么樣去建立一個可以對標 CUDA 的生態(tài),我們的方法是從底層的抽象機開始入手,去構(gòu)建抽象模型,然后基于此去做編程語言上的工作和編程工具的開發(fā)。
目前來看,數(shù)據(jù)流的學習成本是比較高的,數(shù)據(jù)流做起來編程方法和思考路徑和原本的控制流馮諾伊曼架構(gòu)是不一樣的,門檻比較高,所以后續(xù)怎么較低學習成本是現(xiàn)階段最需要思考的問題。
AI 科技評論:大集群優(yōu)化也是個比較難的系統(tǒng)問題,在您看來,這當中有什么難點?你們有在做這方面的研究嗎?解決了什么問題?
冷靜文:現(xiàn)階段萬卡集群、千卡集群都已經(jīng)研究得比較好了,主要就是做容錯以及高效的 4D 并行等,現(xiàn)在大集群的演進方向,GPU 的高速互聯(lián)域會做得越來越大。
就像英偉達的 GB200 的 NVL72 或者 NVL144 這種方案,就是在一個高速互聯(lián)域里面集成 72 個 GPU 或者集成 144 個 GPU,這種大集群國內(nèi)目前還是買不到的,一機八卡的 H100 國內(nèi)有,大家可以在上面研究,多臺服務器做 Scale-out 做成萬卡也都可以,但是英偉達不是在這個技術(shù)路線上演進,他們做的有點像華為提的超節(jié)點概念,這種節(jié)點的優(yōu)化未來會變得更加重要。
AI 科技評論:華為云前段時間也發(fā)布了 CloudMatrix 384 超節(jié)點,號稱能夠與英偉達的 NVL72 比肩,在您看來 CloudMatrix 384 有什么亮點?帶來了哪些突破性進展?給國內(nèi)生態(tài)帶來了哪些助力?
冷靜文:他們能和英偉達 NVL72 幾乎同步發(fā)布,說明國內(nèi)的思考是走在國際前列的。技術(shù)上的亮點在于互聯(lián)的結(jié)構(gòu),華為做了一個統(tǒng)一的、互聯(lián)的結(jié)構(gòu),可以讓碎片化的通信統(tǒng)一,在編程生態(tài)上會有不少的幫助,不過我們現(xiàn)在也沒有拿到這個超節(jié)點去使用,后續(xù)可能會在上面做更多研究。
AI 科技評論:目前,只有英偉達的芯片才能靈活實現(xiàn) FP8 訓練并收斂,國產(chǎn)芯片仍掙扎在 BF16/FP32 收斂困難的路上,新的 FP8/BF16/FP32 混合訓練又給國產(chǎn)芯片設計加了一道新難關(guān),從您這段時間的觀察來看,國產(chǎn)芯片在 DeepSeek 之后突破進展如何了?還有哪些難題亟待突破?
冷靜文:目前國內(nèi)做AI芯片的包括兩條路線,一種是類 CUDA 的架構(gòu),還有一些就是以相當于 CPU 去擴展做 CND的方法,如果大家只是照抄英偉達的設計方法會永遠落后于他們,還是得有一些原創(chuàng)性的思考,做一些提前布局,可能在每一代的英偉達芯片里面大家都沒有太關(guān)注過 BF16、FP16 這些,因為之前沒有大模型的時候,大家覺得芯片里的算力已經(jīng)夠用了,再做 FP8、FP4 算力就冗余了,所以沒有像英偉達那樣提前把低位寬的算力把它堆上去,這一代的芯片都可能有同樣的問題。
另外是在編程生態(tài)上,因為英偉達的生態(tài)比較開放,有很多開源社區(qū),很多學者都在里面做優(yōu)化,包括 DeepSeek繞過 CUDA 用 PTX 也是英偉達基于底下開放的虛擬指令集實現(xiàn)的。但是國產(chǎn)大家還是停留在推自己的方案,不希望讓其他人去了解底下的設計、優(yōu)化細節(jié),所以我覺得國產(chǎn)要做起來,硬件是護城河,但是開放的生態(tài)也要做起來。
AI 科技評論:目前還有哪些系統(tǒng)問題是比較難且亟待解決的?你們后續(xù)的研究重點主要會聚焦于哪一塊?
冷靜文:系統(tǒng)方面目前比較難解決的問題一是在于大模型要做成 Agent 智能體的方式,會涉及到多次的調(diào)用,這當中會涉及到系統(tǒng)如何去支持的問題,包括思維鏈疊加上強化學習搜索的方法未來如何去做系統(tǒng)支持,但我們后續(xù)的研究重點可能不能那么側(cè)重于系統(tǒng),未來還是想聚焦于做芯片架構(gòu)和硬件互聯(lián),包括數(shù)據(jù)流的芯片內(nèi)部設計以及類似于超節(jié)點的高速互聯(lián)域的硬件設計,目前這種硬件設計還在開發(fā)過程中。
AI 科技評論:那您覺得國內(nèi)芯片廠商、系統(tǒng)廠商能給模型廠商帶來哪些助力?DeepSeek 之后,國內(nèi)該如何發(fā)揮各自所長推動大模型進一步發(fā)展呢?
冷靜文:未來芯片、系統(tǒng)和模型廠商的協(xié)同會在兩個方面。一是在新的模型架構(gòu)的設計上,包括 MoE、NSA 模型以及塊狀稀疏模型、記憶體立方模型等等,這些在學術(shù)界都有新的進展,但是要做訓練的話,還有很多文本、訓練集還有機器規(guī)模的問題,現(xiàn)在學術(shù)界還做不到,所以做芯片、系統(tǒng)的還可以結(jié)合新的模型架構(gòu)來嘗試一下。另外就是繼續(xù)推模型的小型化、輕量化,模型廠商可以反饋給芯片廠商一些新的設計思路和理念,可以進一步推動降本。
AI 科技評論:近期,英偉達 H20 出口受限也引發(fā)了大量關(guān)注,如果連最低端的英偉達芯片都進不來,國內(nèi)會受到什么樣的影響?針對于此,國產(chǎn)芯片廠商又能做些什么?
冷靜文:大家買 H20 還是在于一是 CUDA 生態(tài),二是 H20 有很高的帶寬,在大模型的推理場景能夠發(fā)揮很好的作用,這給國內(nèi)芯片廠商帶來兩個啟發(fā),首先要注重于生態(tài)的構(gòu)建,做一個統(tǒng)一的開源生態(tài),另外是要解決 HBM 的問題,我們需要更好的、高帶寬的內(nèi)存設計方法,比如可以考慮類似于 CXL 的互聯(lián)方式可不可以去代替當前的 HBM,或者做 3D 堆疊芯片,在芯片上堆疊大的 SRAM 緩解 HBM 的需求。


更多內(nèi)容,點擊下方關(guān)注:
未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!
公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。
熱門跟貼