一體機(jī)是DeepSeek交付的最佳方式嗎?
恰恰相反,一體機(jī)是阻礙DeepSeek提升推理性能的最大絆腳石。

為啥?
只因DeepSeek這個(gè)模型有點(diǎn)特殊,它是個(gè)高稀疏度的MoE模型。
MoE這種混合專(zhuān)家模型,設(shè)計(jì)的初衷是通過(guò)“激活一堆專(zhuān)家中的少量專(zhuān)家”,來(lái)達(dá)到減少計(jì)算量、提升推理效率的目標(biāo)。
舉個(gè)例子,MoE模型好比是一個(gè)超級(jí)大飯店的后廚,這個(gè)后廚里有幾百個(gè)大廚,每個(gè)大廚擅長(zhǎng)做不同菜系川菜廚子、魯菜廚子、湘菜廚子…
這些廚子就相當(dāng)于不同領(lǐng)域的專(zhuān)家。

其中有個(gè)人是廚師長(zhǎng),廚師長(zhǎng)不負(fù)責(zé)炒菜,他清楚地知道每個(gè)廚師擅長(zhǎng)做什么菜。
這個(gè)廚師長(zhǎng)就是MoE模型中的門(mén)控網(wǎng)絡(luò)。

每次顧客點(diǎn)菜的時(shí)候,廚師長(zhǎng)(門(mén)控網(wǎng)絡(luò))會(huì)根據(jù)顧客點(diǎn)菜的需求以及自己對(duì)廚師能力的了解,安排擅長(zhǎng)做這些菜的廚子炒菜。

這樣,酒店的后廚就不必為每位廚師安排灶眼,只需少量灶眼(比如8個(gè)),供那些需要上崗炒菜(被激活)的廚師使用就可以了。
這就相當(dāng)于MoE的原理:只激活少量專(zhuān)家,從而大幅降低計(jì)算量。

是不是看起來(lái)很不錯(cuò),但是有一點(diǎn)很重要:不參與炒菜的廚子們雖然不占用灶眼,但是還是要擠在后廚隨時(shí)等待召喚。
也就是說(shuō),MoE模型里那些未激活專(zhuān)家,雖然不消耗算力,但它們的參數(shù)量仍然要占用顯存/內(nèi)存,帶來(lái)巨大的存儲(chǔ)開(kāi)銷(xiāo)和調(diào)度復(fù)雜性。

回過(guò)頭來(lái),我們?cè)賮?lái)看DeepSeek-R1/V3,是稀疏度極高的MoE模型(總參數(shù)量6710億,激活量370億)。
按照DeepSeek官方的最新披露,模型每層256個(gè)專(zhuān)家,只有8個(gè)被激活(V3的Transformer 層數(shù)設(shè)置為 61 層)。
好比你的飯店有60多個(gè)后廚房間,每個(gè)屋里放256個(gè)廚師,同時(shí)只有8個(gè)廚師干活,其他待命。
你想想,恐怕只有新東方廚師專(zhuān)修學(xué)院才這么干吧。

這就意味著,你需要配置超高的一體機(jī)(大顯存、大內(nèi)存),才能夠運(yùn)行滿(mǎn)血版DeepSeek。
事實(shí)證明,目前的狀況也的確如此,市面上的“真·滿(mǎn)血DeepSeek一體機(jī)”價(jià)格都是100萬(wàn)起,甚至要大幾百萬(wàn)。

把MoE模型裝進(jìn)一體機(jī)的不科學(xué)之處在于↓
我花了大錢(qián)買(mǎi)了一堆不能同時(shí)干活的專(zhuān)家,只為他們可以減少計(jì)算量。
然而,這種一體機(jī)部署模式算力是我買(mǎi)斷的,難道不應(yīng)該讓他們盡量都干活,從而讓算力最大化使用嗎?
我的顯存/內(nèi)存/硬盤(pán)都是為了裝下6710億參數(shù),但實(shí)際干活只有370億參數(shù)…
所以,我們的觀(guān)點(diǎn)是:
一體機(jī)其實(shí)是運(yùn)行DeepSeek這種MoE模型的最差選擇,更適合運(yùn)行那些非MoE的全參數(shù)激活模型。
這一點(diǎn),大家如果仔細(xì)看上周DeepSeek官方在知乎披露的推理優(yōu)化架構(gòu)就明白了。
人家說(shuō)的很清楚,要想獲得“更大的吞吐、更低的延遲”,核心就是要使用「大規(guī)模跨節(jié)點(diǎn)專(zhuān)家并行」。
你一體機(jī)就單個(gè)節(jié)點(diǎn)、8張卡,勉強(qiáng)裝下所有專(zhuān)家,還并行個(gè)毛線(xiàn)啊?
按照DeepSeek給出的官方參考推理架構(gòu)(專(zhuān)家并行、數(shù)據(jù)并行、PD分離):
Prefill階段:部署單元4節(jié)點(diǎn)(32張H800),32路專(zhuān)家并行和數(shù)據(jù)并行。
Decode階段:部署單元18節(jié)點(diǎn)(144張H800),144路專(zhuān)家并行和數(shù)據(jù)并行。
這就意味著,一個(gè)22節(jié)點(diǎn)的集群(176張卡),才能發(fā)揮出最優(yōu)的推理吞吐和延遲。(讓每個(gè)專(zhuān)家獲得足夠的輸入,都忙活起來(lái),而不是“占著茅坑不拉屎

正因?yàn)檫@種采用這種大規(guī)模并行架構(gòu),DeepSeek官方給出的單服務(wù)器平均推理性能才高得離譜(輸入:73.7k tokens/s,輸出14.8k tokens/s)。
而一體機(jī)廠(chǎng)商們給出的性能,輸出+輸入的總和最多也不過(guò)4k tokens/s。

當(dāng)然,我們并不是要否定大模型一體機(jī),只是一體機(jī)不適合部署MoE模型,讓它跑個(gè)稠密模型,不需要大規(guī)模并行的,還是很好的。
眼下DeepSeek一體機(jī)滿(mǎn)天飛,更多的還是滿(mǎn)足客戶(hù)的情緒價(jià)值:本地化、開(kāi)箱即用、專(zhuān)屬性……

尤其在數(shù)據(jù)隱私方面,一體機(jī)有著無(wú)與倫比的優(yōu)勢(shì),不只是合規(guī),更能切實(shí)有效的保護(hù)數(shù)據(jù)不出域。
比如,很多通過(guò)API、WEB或APP提供DeepSeek服務(wù)的供應(yīng)商,在他們的用戶(hù)協(xié)議里可能赫然寫(xiě)著“…我們可能會(huì)將服務(wù)所收集的輸入及對(duì)應(yīng)輸出,用于本協(xié)議下服務(wù)的優(yōu)化…”。

這對(duì)于大部分企業(yè)級(jí)客戶(hù)來(lái)說(shuō),這都是無(wú)法接受的,所以本地化部署肯定是剛需,這也是目前DeepSeek一體機(jī)火爆的原因(即便性能不佳)。
其實(shí),很多企業(yè)過(guò)去兩年自己囤過(guò)算力,此時(shí)參考DeepSeek的大規(guī)模并行架構(gòu),部署起來(lái),相信會(huì)有不錯(cuò)的效果。
而滿(mǎn)血版的DeepSeek一體機(jī),企業(yè)可以量預(yù)算而行,不要硬上:
第一,蒸餾版,體積小性能好,效果差點(diǎn)不耽誤練手;
第二,最近新模型層出不窮,可以嘗試下非MoE架構(gòu)的小體積新模型;
第三,相信不久的將來(lái)下一代DeepSeek就會(huì)發(fā)布,屆時(shí)再下手也不遲。
大模型的前方是星辰大海,但我們,才剛剛上路呢。

熱門(mén)跟貼