
大周末的,DeepSeek悄么聲放了個大招。
他們知乎官號發(fā)了一篇雄文,披露了【如何對DeepSeek V3/R1的推理系統(tǒng)進行優(yōu)化】,文章有2大核心內(nèi)容↓
一、如何通過優(yōu)化架構(gòu),讓模型推理獲得更大的吞吐和更低的延遲
簡單概括就是三板斧↓
① 大規(guī)??绻?jié)點專家并行
② 計算-通信重疊優(yōu)化
③ 多級負載均衡策略
前兩步可以提升吞吐、降低延遲,而第三步用于優(yōu)化GPU的占用率。

DeepSeek在線推理系統(tǒng)架構(gòu)圖
二、測算一下:在這種優(yōu)化架構(gòu)下,按照目前DeepSeek官方的收費策略,一天能賺多少錢
DeepSeek在文中給出了這樣一個典型“優(yōu)化推理”系統(tǒng)的投入產(chǎn)出比,也就是說,成本多少錢,能賺多少錢。
這些數(shù)據(jù)是基于正在運營的線上系統(tǒng)實測得來的,可參考性極高。
看第一張圖,最近24小時內(nèi)(2月27日12點-2月28日12點),DeepSeek V3 和 R1 推理服務(wù)占用GPU節(jié)點總和↓

峰值占用為278個節(jié)點,平均占用 226.75個節(jié)點(每節(jié)點為 8個H800GPU)。
如果按每GPU租金2美金/小時來計算,總成本為2×226.75×8×24=$87,072/天。
而在對應(yīng)的時間內(nèi),產(chǎn)生的Tokens數(shù)量和收入是多少呢?
總輸入:608B(其中56.3%命中硬盤中的KVCache);總輸出:168B
平均每臺H800服務(wù)器的吞吐量為:73.7k tokens/s (輸入)、14.8k tokens/s(輸出)。
不得不說,DeepSeek優(yōu)化完的推理系統(tǒng)性能真是高??!
各家一體機廠商可以自己比一比,只有幾K甚至幾百tokens的單機還好意思拿出來么?

接下就是收入估算,在這24小時里,理論總收入是$562027(折合人民幣約409萬),成本利潤率高達545%!
(當(dāng)然DeepSeek官方也說了,實際收入沒有這么多,因為web版目前免費、API夜間還打折,還有V3比R1便宜)
但是,這個收益已經(jīng)足夠震撼!
只能說,DeepSeek真太牛了。
有圈內(nèi)人士說,DeepSeek這個發(fā)布,為實際項目帶來了極大的參考價值!
就是別瞎來!
因為,接下來對算力黃牛來說,挑戰(zhàn)來了——
這個數(shù)字幾乎是算力生意ROI的天花板,大家再畫餅的時候,不要要超過這個數(shù)哦,否則這餅就不圓了。
熱門跟貼