DeepSeek挑起的模型價格戰(zhàn),沖擊了市場對英偉達的信仰。黃仁勛的公開回擊是,一邊向DeepSeek、月之暗面與字節(jié)跳動等中國企業(yè)致敬,一邊將其開源的優(yōu)化思路,封裝在自己的Dynamo中,促進創(chuàng)新的民主化。
黃仁勛將Dynamo稱為AI工廠的操作系統(tǒng)。 ,這兩年已經(jīng)被黃仁勛說了無數(shù)遍,它是生產(chǎn)token的地方;DeepSeek出現(xiàn)后,黃仁勛要回答的是,自己如何比其他AI工廠,更有性價比地生產(chǎn)token。
黃仁勛試圖證明杰文斯悖論成立,給出了一組簡單粗暴的數(shù)據(jù):推理模型的“思維鏈”消耗的token,是之前對話的10倍;但是人們不會愿意等這10倍的處理時間。所以,推理時代的AI算力需求提升了100倍。人們既要快速得到結(jié)果,又要結(jié)果準(zhǔn)確。
他在臺上反復(fù)說明,“既要又要”的最佳性價比,就藏在單位時間token吞吐能耗(下圖,縱軸)和單用戶推理速度(橫軸)的最優(yōu)函數(shù)中,也就是英偉達最新的Dynamo驅(qū)動的NVL72。他用一張五彩斑斕的黑的PPT,以及一段金光閃閃的曲線,標(biāo)注了它的位置。

(來源:GTC25)
在正式介紹Dynamo前,黃仁勛直接致敬了DeepSeek。他讓Llama-3.3-70B與DeepSeek-R1-671B比上一比,看誰能更合乎禮節(jié)地回答婚禮餐桌座位安排問題。前者花了439個token,但是錯了;后者花了8559個token,正確。
黃仁勛引申說,有人以為R1小,它可不小,有6710億參數(shù)規(guī)模呢,以后,這類模型可能達到萬億參數(shù)級別。要把如此龐大的模型和工作負載,合理分配到GPU上,中間涉及到流水線并行、張量并行和專家并行,可都不容易。有時候需要優(yōu)化延遲,有時候需要優(yōu)化吞吐量,有時候又需要對批處理方式進行優(yōu)化。這都得靠一個叫做Dynamo的操作系統(tǒng)來協(xié)調(diào)。
這是對DeepSeek的第二次致敬。雖然黃仁勛在演講中沒有直接提到這一點,但是我們要說,任何關(guān)注 ,都會非常熟悉Dynamo的技術(shù)。
目前業(yè)內(nèi)還沒有對Dynamo實際性能的完整測評。據(jù)Github上的產(chǎn)品文檔介紹,它的架構(gòu)與特性,包括:
1,將預(yù)填充和解碼推理分開處理,以最大化GPU吞吐量,同時平衡吞吐量和延遲。 2,動態(tài)調(diào)度GPU,根據(jù)需求變化優(yōu)化性能。 3,智能路由大模型請求,避免重復(fù)計算KV緩存。 4,加快數(shù)據(jù)傳輸,通過NIXL縮短推理等待時間。 5,將KV緩存分擔(dān)出去,利用多層內(nèi)存提升系統(tǒng)吞吐量。
半導(dǎo)體及AI研究機構(gòu)Semianalysis分析稱:智能路由,實現(xiàn)了預(yù)填充階段與解碼階段的負載平衡;動態(tài)調(diào)度GPU,實現(xiàn)了預(yù)填充和解碼階段的MoE模型不同專家間的負載平衡;要從預(yù)填充節(jié)點傳輸?shù)浇獯a節(jié)點,需要低延遲高帶寬通信傳輸庫,NCCL與NIXL就是負責(zé)這個的;KV緩存卸載管理,可以釋放預(yù)填充節(jié)點的容量來處理更多傳入數(shù)據(jù)量,或者可以減少所需的預(yù)填充部署規(guī)模。這些聽起來是不是有些耳熟能詳。
再來回顧一下,DeepSeek年初開源周都介紹了什么:
1,F(xiàn)lashMLA,針對可變長度序列和分頁KV緩存進行優(yōu)化的GPU解碼內(nèi)核。 2,DeepEP,面向MoE模型,優(yōu)化了通信速度和效率。 3,DeepGEMM,兼顧數(shù)據(jù)精度的同時,提升矩陣乘法性能,間接支持推理效率。 4,DualPipe,雙向數(shù)據(jù)流設(shè)計減少流水線空閑,提升GPU利用率。 5,EPLB,智能流量調(diào)度,確?;旌蠈<邑撦d均勻分布,降低通信開銷。 6,Profile-data,分析計算與通信重疊狀態(tài),幫助優(yōu)化效率。 7,3FS,高效數(shù)據(jù)訪問和KV緩存管理的并行文件系統(tǒng)。
簡言之,兩者在優(yōu)化GPU利用率、通信效率和數(shù)據(jù)處理的目標(biāo)一致,思路相近。事實上,在英偉達Dynamo的產(chǎn)品文檔上,確實點名提到了DeepSeek對KV緩存問題的貢獻。
KV緩存是對之前發(fā)生過的問題和響應(yīng)等中間結(jié)果的緩存。以往,大模型推理對KV緩存的管理不夠精細,導(dǎo)致了頻繁重復(fù)計算。這是對資源的浪費。 ,并在R1中進一步改進,極限壓榨算力。在開源周中提到的FlashMLA與3FS,也都涉及KV緩存優(yōu)化相關(guān)內(nèi)容。
目前,DeepSeek對輸入時緩存未命中的API定價(標(biāo)準(zhǔn)時間內(nèi),R1模型百萬token為$0.55),要比命中時高出3倍左右(標(biāo)準(zhǔn)時間內(nèi),R1模型百萬token為$0.14)。
在DeepSeek額外的第6天的開源日中,研究人員披露了更多運營數(shù)據(jù)。市場的注意力都被 吸引去了,選擇性地忽略了DeepSeeK公布的KV緩存命中率高達56.3%。
可以說,優(yōu)化KV緩存等技術(shù)創(chuàng)新,是DeepSeek開啟大模型商品化的關(guān)鍵。更低的推理成本,既可以轉(zhuǎn)化為AI應(yīng)用的利潤率,也可以通過AI應(yīng)用廠商的讓利,轉(zhuǎn)化為AI應(yīng)用的用戶規(guī)模。
Semianalysis感嘆道,英偉達推出Dynamo,本質(zhì)上是DeepSeek技術(shù)創(chuàng)新的民主化。當(dāng)英偉達發(fā)布更多Dynamo官方技術(shù)文檔的時候,人們將更快更多地了解,這些技術(shù)創(chuàng)新究竟意味著什么。
不妨再往前推一步。DeepSeek是中國大模型時代開源的領(lǐng)先者,但不是唯一。阿里巴巴的Qwen系列模型已經(jīng)成為HuggingFace上最受歡迎的。在DeepSeek的推動下,更多中國大模型企業(yè)正在加入到開源生態(tài)之中。

(來源:dynamo/docs/architecture.md at main · ai-dynamo/dynamo · GitHub)
在英偉達Dynamo的官方文檔里,還有不少小彩蛋。Dynamo參考了另一家中國大模型初創(chuàng)企業(yè)在內(nèi)存瓶頸方面的思考,以及字節(jié)跳動的開源項目。
其中,Mooncake,是月之暗面的底層推理服務(wù)平臺,技術(shù)框架于去年12月開源。AIBrix,原本是字節(jié)跳動為企業(yè)內(nèi)部多個業(yè)務(wù)用例打造的一款可擴展、經(jīng)濟高效的推理優(yōu)化的云原生解決方案,于今年2月正式開源。
英偉達的芯片正在失去中國市場。中國開源生態(tài)與技術(shù)創(chuàng)新正在通過英偉達擴散至全球。
熱門跟貼