打開網(wǎng)易新聞 查看精彩圖片

商機(jī)飆漲數(shù)十倍甚至百倍。

作者|王藝???

編輯|栗子

“至少有一億元的AI推理一體機(jī)硬件需求沒有被滿足?!薄癉eepSeek出來之后,云服務(wù)廠商的電話已經(jīng)被打爆了,全都是咨詢DeepSeek一體機(jī)的。”

這是「甲子光年」最近聽到最多的兩句話。

DeepSeek在2025年春節(jié)期間火出圈后,掀起了中國(guó)企業(yè)本地化部署的風(fēng)潮,也帶火了一款新的產(chǎn)品——DeepSeek一體機(jī)。

怎樣形容DeepSeek一體機(jī)的火爆程度呢?

這么說吧,去年我們?cè)诤芏嗫萍籍a(chǎn)業(yè)大會(huì)上看到最多的產(chǎn)品是機(jī)器人。而今年初在一些科技產(chǎn)業(yè)大會(huì)的外部展覽區(qū),機(jī)器人的展位有所減少,放眼望去,大片映入眼簾的,是各家廠商推出的DeepSeek一體機(jī)。

打開網(wǎng)易新聞 查看精彩圖片

一體機(jī)產(chǎn)品 ,圖片來源:「甲子光年」拍攝

也有服務(wù)器廠商的工作人員告訴我們,從春節(jié)期間DeepSeek火出圈到現(xiàn)在,每天都有鋪天蓋地的電話打進(jìn)來,都是來咨詢一體機(jī)或者本地部署DeepSeek大模型的,有時(shí)候銷售和售前要一天拜訪三波客戶去做交流和講解。

交易市場(chǎng)的火熱還只是其次。在風(fēng)起云涌的二級(jí)市場(chǎng),甚至出現(xiàn)了“一體機(jī)概念股”,首都在線、天璣科技、恒為科技、紫光股份、云從科技、廣電運(yùn)通等公司的股票都在近期迎來了不同程度的上漲。

為什么在短時(shí)間內(nèi)出現(xiàn)了DeepSeek一體機(jī)的大爆發(fā)?服務(wù)器、云廠商、芯片、軟件、集成商……各個(gè)領(lǐng)域的科技企業(yè)都推出了一體機(jī),它們之間的差別是什么,客戶應(yīng)該怎么選購(gòu)合適自己的產(chǎn)品?搭載了國(guó)產(chǎn)AI芯片的一體機(jī)跑滿血版DeepSeek模型的效果又究竟怎樣?

1.DeepSeek帶火一體機(jī)產(chǎn)品

所謂“一體機(jī)”,指的是一種專門為人工智能大模型應(yīng)用和部署而設(shè)計(jì)的集成計(jì)算設(shè)備,通常包含中央處理器(CPU)、圖形處理器(GPU)、存儲(chǔ)器、操作系統(tǒng)、AI平臺(tái)軟件及各類模型算法等軟硬組件,可以看成是“大模型+服務(wù)器”的“1+1”產(chǎn)品。

換句話說,它是一個(gè)“AI工具箱”,里面塞滿了硬件、軟件和行業(yè)專用工具,具有數(shù)據(jù)本地處理、部署周期短、成本低等優(yōu)點(diǎn),非常適合政府、銀行、醫(yī)院等對(duì)隱私要求高的行業(yè)和單位。

其實(shí),一體機(jī)并不是新的概念,早在DeepSeek爆火之前,就有大模型一體機(jī)產(chǎn)品被部分政府和企業(yè)應(yīng)用在了私有化部署等場(chǎng)景中。相較于大型的服務(wù)器集群,一體機(jī)成本更低、操作更便捷,也更適合中小企業(yè)或個(gè)人等小規(guī)模的業(yè)務(wù)需求。

既然一體機(jī)并不是一個(gè)新東西,那為什么DeepSeek發(fā)布后,一體機(jī)這一產(chǎn)品才迅速躥紅呢?這與DeepSeek-R1模型本身的技術(shù)優(yōu)勢(shì)、政府號(hào)召、開源策略和資本市場(chǎng)的推波助瀾密切相關(guān):

DeepSeek-R1發(fā)布后,由于它的MoE架構(gòu)、MLA算法大幅降低了模型對(duì)算力的需求,加之不同版本蒸餾小模型的推出,讓模型部署變得更加容易,無需花重金購(gòu)置服務(wù)器集群就能將模型部署到本地,極大提升了全民部署DeepSeek的熱情;

自上而下的號(hào)召也很關(guān)鍵。春節(jié)后黨政機(jī)關(guān)引入DeepSeek的需求井噴,北京、廣州等多地政務(wù)系統(tǒng)宣布全面啟用DeepSeek大模型,首批“AI公務(wù)員”正式上崗,覆蓋文件處理、政策咨詢等場(chǎng)景;

而在2月19日國(guó)資委召開“AI+”專項(xiàng)行動(dòng)深化部署會(huì)后,大模型的本地部署成為剛需,一體機(jī)的本地化部署方案恰恰有效解決了金融、政務(wù)等敏感領(lǐng)域的數(shù)據(jù)合規(guī)問題,于是多家央國(guó)企紛紛加入一體機(jī)采購(gòu)的浪潮;

與此同時(shí),DeepSeek的模型是開源的 ,企業(yè)可基于其開發(fā)定制化的解決方案,結(jié)合國(guó)產(chǎn)芯片構(gòu)建軟硬一體的生態(tài),DeepSeek一體機(jī)讓想做數(shù)字化轉(zhuǎn)型、但技術(shù)能力欠缺的企業(yè)無需支付高昂的模型授權(quán)費(fèi)、通過簡(jiǎn)單的部署就能用上大模型;加之二級(jí)市場(chǎng)DeepSeek概念股大漲,眾多企業(yè)為了自己的股價(jià)和估值,也紛紛采購(gòu)一體機(jī)部署DeepSeek……上述種種因素,都推動(dòng)了DeepSeek一體機(jī)的爆發(fā)。

我們預(yù)計(jì),兩年內(nèi)、在百人以上的組織里,大模型的滲透率會(huì)達(dá)到40%-50%,而一體機(jī)會(huì)是他們最優(yōu)先的選擇。”公眾號(hào)“算力百科”主理人、深圳未來智算科技有限公司創(chuàng)始人陳嬌嬌對(duì)「甲子光年」表示。

究竟有多少公司在做一體機(jī)呢?目前除了互聯(lián)網(wǎng)公司和做硬件的廠商,那些原來做集成商的、做軟件的、做組裝廠的、做交換機(jī)的企業(yè)也都推出了一體機(jī)。“只要是IT行業(yè)相關(guān)的公司都在做,即使不是自己研發(fā)的,也會(huì)OEM一個(gè)。”陳嬌嬌表示。

從分類上看,目前,市面上的DeepSeek一體機(jī)分為推理一體機(jī)訓(xùn)推一體機(jī)兩大類。

推理一體機(jī)主要面向需要高效推理計(jì)算的企業(yè),內(nèi)置DeepSeek-R1 滿血版671B、70B、32B等不同尺寸的模型,價(jià)格從幾十萬到數(shù)百萬不等,適用于對(duì)數(shù)據(jù)安全性要求較高的企業(yè);

訓(xùn)推一體機(jī)則適用于需要進(jìn)行模型訓(xùn)練和推理的場(chǎng)景,其價(jià)格更高、主要用于預(yù)訓(xùn)練和微調(diào)大模型,能夠支持更復(fù)雜的訓(xùn)練、推理任務(wù)。根據(jù)硬件配置和軟件調(diào)優(yōu)程度的不同,價(jià)格在幾十萬到幾百萬不等。

「甲子光年」根據(jù)公開資料,對(duì)部分推出DeepSeek一體機(jī)的廠商做了統(tǒng)計(jì),情況如下所示:

打開網(wǎng)易新聞 查看精彩圖片

DeepSeek一體機(jī)發(fā)布情況,制圖:甲子光年

根據(jù)浙商證券研報(bào),目前,已有23%的央企有大模型部署,未來大模型的普及率預(yù)計(jì)會(huì)進(jìn)一步增加;而隨著DeepSeek帶動(dòng)大模型的快速部署需求,一體機(jī)的部署占比有望持續(xù)增長(zhǎng),浙商證券預(yù)計(jì),2025—2027 年,一體機(jī)采購(gòu)量將分別達(dá)到15、39、72萬臺(tái),DeepSeek一體機(jī)在央國(guó)企的市場(chǎng)空間有望達(dá)到1236、2937、5208億元。

2.央國(guó)企要國(guó)產(chǎn),民企要H20

那么,這些廠商推出的一體機(jī)都賣給誰了呢?

政府和央國(guó)企顯然是這一波DeepSeek一體機(jī)上新潮的最大客戶。

近年來,中國(guó)持續(xù)推進(jìn)信創(chuàng)產(chǎn)業(yè)和國(guó)產(chǎn)替代戰(zhàn)略,要求關(guān)鍵領(lǐng)域(如政府、金融、能源等)優(yōu)先采用國(guó)產(chǎn)技術(shù),降低對(duì)外依賴。DeepSeek作為本土AI企業(yè),其產(chǎn)品天然符合這一政策導(dǎo)向。

加之政府和央國(guó)企涉及大量政務(wù)數(shù)據(jù)、民生數(shù)據(jù)和國(guó)家基礎(chǔ)設(shè)施數(shù)據(jù),對(duì)數(shù)據(jù)安全和隱私保護(hù)的要求極高,DeepSeek一體機(jī)的本地化部署和封閉式架構(gòu),不僅能滿足政府和央國(guó)企對(duì)數(shù)據(jù)和隱私的合規(guī)要求,而且開箱即用、無需雇傭龐大的運(yùn)維團(tuán)隊(duì),因此成為了政府和央國(guó)企的首選。

有數(shù)據(jù)統(tǒng)計(jì),截至2月21日,已經(jīng)有45%的央企完成了對(duì)DeepSeek模型的部署,而這其中不少企業(yè)都選擇了一體機(jī)的方案。

從不到一個(gè)月的時(shí)間內(nèi),如此高比例的央企實(shí)現(xiàn)了對(duì)開源模型的快速覆蓋,這一速度在過去是難以想象的。

除了政府和央國(guó)企,民營(yíng)企業(yè)也是部署DeepSeek大模型的重要玩家。

由于百度、阿里等互聯(lián)網(wǎng)巨頭自己就是云服務(wù)商、自己就售賣一體機(jī)產(chǎn)品,因此購(gòu)買一體機(jī)的多是有資金實(shí)力的大型民企中的個(gè)別業(yè)務(wù)部門,或者有數(shù)字化轉(zhuǎn)型需求的中小民營(yíng)企業(yè)。

“購(gòu)買我們一體機(jī)的金融類客戶比較多,因?yàn)橐惑w機(jī)首先就主打線下私有化交互,而這些客戶首先強(qiáng)調(diào)的就是數(shù)據(jù)不出域。除了金融類客戶,政務(wù)類客戶和之前的頭部大KA也是購(gòu)買一體機(jī)的主力客戶?!本〇|云PaaS業(yè)務(wù)部產(chǎn)品負(fù)責(zé)人賀皓告訴「甲子光年」。

「甲子光年」了解到,在打算購(gòu)買一體機(jī)的企業(yè)中,大型央國(guó)企的預(yù)算較高,一般在200萬-500萬之間;中小型政府機(jī)關(guān)、央國(guó)企和民營(yíng)企業(yè)的比較容易批下來的預(yù)算一般在100萬以內(nèi);而在這100萬中,又根據(jù)預(yù)算金額的不同,分為50萬-100萬、10萬-50萬、10萬以內(nèi)三個(gè)區(qū)間。

目前,客戶預(yù)算集中在10萬-50萬的區(qū)間內(nèi),這與客戶對(duì)部署大模型“嘗鮮”的需求和企業(yè)的預(yù)算審批制度高度相關(guān)。

有的部門,領(lǐng)導(dǎo)手里的權(quán)限就是50萬,領(lǐng)導(dǎo)簽個(gè)字這50萬就能批出來,所以一體機(jī)廠商大部分也都是圍繞這個(gè)價(jià)格來定價(jià)的。”陳嬌嬌說。

而具體到模型的選擇上,90%以上的客戶都在咨詢滿血版DeepSeek大模型的一體機(jī)部署方案。

“首先從實(shí)際效果來說,滿血版肯定是最優(yōu)的;其次,有一小部分客戶有明確的業(yè)務(wù)使用場(chǎng)景,因此他們希望先部署滿血版,有了滿血版模型之后再去研究能對(duì)接什么樣的應(yīng)用場(chǎng)景。比如金融機(jī)構(gòu)之前一直在做投研分析報(bào)告等東西,他們其實(shí)原來也是用大模型做,DeepSeek出來之后,他們就想用滿血版來看一下, 驗(yàn)證一下DeepSeek滿血版的性能和效果是不是更好。”賀皓說。

盡管人人都想部署滿血版,但不是人人都有實(shí)力買得起滿血版?!讣鬃庸饽辍箯母饕惑w機(jī)廠商的市場(chǎng)和銷售人員處了解到,在廣大的中小企業(yè)客戶中,成單量最高的是70B的模型。

預(yù)算有限肯定是首要原因。但這其中還有一個(gè)原因是,絕大多數(shù)企業(yè)還處于對(duì)大模型的“試驗(yàn)”和“嘗鮮”階段,70B的模型(下文簡(jiǎn)稱70B)足以應(yīng)對(duì)辦公場(chǎng)景的需求。其中,知識(shí)庫(kù)、辦公助手、 智能客服等是最為高頻的應(yīng)用場(chǎng)景。

“70B是性價(jià)比最高的,企業(yè)如果直接部署了滿血版,萬一這個(gè)東西不好用,硬件成本怎么回收也是一個(gè)問題。而70B可以直接擴(kuò)容到滿血版(通過增加機(jī)器臺(tái)數(shù)的方式)。”潞晨科技市場(chǎng)經(jīng)理趙一飛表示。

四通集團(tuán)產(chǎn)品經(jīng)理戴歧航也表示,部署滿血版大模型的價(jià)格對(duì)絕大多數(shù)中小企業(yè)來說還是太高了:“70B買我們的設(shè)備的話20萬可以,671B的話要120萬以上。針對(duì)一般企業(yè)辦公類的使用場(chǎng)景,70B足夠了?!?/p>

企業(yè)選擇一體機(jī),最看重的是其內(nèi)置的GPU芯片。

由于DeepSeek-R1模型的推理只激活671B參數(shù)中的37B參數(shù),降低了對(duì)算力的要求,但其大規(guī)模并行的架構(gòu)對(duì)芯片的顯存提出了更高的要求。因此算力被“閹割”、但有著較大顯存和帶寬的H20成為了運(yùn)行DeepSeek推理模型最有性價(jià)比的選擇——兩臺(tái)96G版本的8卡H20一體機(jī)就能運(yùn)行滿血版大模型。

這也是DeepSeek模型火出圈后,H20的市場(chǎng)行情從“賣不出去”轉(zhuǎn)為“供不應(yīng)求”的原因,一臺(tái)96G版本8卡H20服務(wù)器的市場(chǎng)價(jià)格也從原來的100萬上升到了110萬左右。

打開網(wǎng)易新聞 查看精彩圖片

英偉達(dá)部分顯卡的參數(shù)規(guī)格,制圖:甲子光年

2025年2月,為了應(yīng)對(duì)DeepSeek帶來的大顯存需求,英偉達(dá)“趁熱打鐵”,推出了H20的升級(jí)版本——擁有141G顯存的H20。新升級(jí)的H20不僅顯存容量更大了,而且顯存帶寬也從原來的4TB/s提升到了4.8TB/s,能夠?qū)崿F(xiàn)更快的數(shù)據(jù)傳輸速度。

相較于原來96G顯存版本的8卡H20一體機(jī)需要兩臺(tái)才能跑DeepSeek滿血版大模型,141G顯存版本的8卡H20一體機(jī)只需要一臺(tái)就能跑滿血版,極大降低了企業(yè)的模型部署成本。搭載了H20芯片的DeepSeek一體機(jī)也成為了絕大多數(shù)有資金實(shí)力的民營(yíng)企業(yè)部署滿血版DeepSeek大模型的最優(yōu)選擇。

然而,由于目前H20 141G的版本剛剛推出、正在批量交付,市場(chǎng)上的現(xiàn)貨并不多;加之是閹割版的芯片、央國(guó)企不允許購(gòu)買,因此正式被投入到企業(yè)中使用的141G顯存版H20一體機(jī)并不多,真正出貨量較多的還是搭載了H100、H200等芯片的一體機(jī)。

此外,這波DeepSeek浪潮也帶動(dòng)了國(guó)產(chǎn)芯片的出貨,和國(guó)產(chǎn)芯片一體機(jī)銷量的增長(zhǎng)。

正如前文所提,在國(guó)家政策的要求下,不少政府和央國(guó)企都需要在本地部署大模型,于是搭載了華為、摩爾線程、沐曦等國(guó)產(chǎn)AI芯片的DeepSeek一體機(jī)則成為了政府和央國(guó)企滿足數(shù)據(jù)安全、高效算力和簡(jiǎn)易部署的第一選擇。也因此,不少一體機(jī)廠家都在主推搭載了國(guó)產(chǎn)AI芯片的一體機(jī),“單機(jī)跑滿血版”更是成為了一部分廠家的主打賣點(diǎn)。

目前,包括三大運(yùn)營(yíng)商和華為、浪潮信息、聯(lián)想集團(tuán)、京東云等在內(nèi),眾多IT廠商都推出了包含國(guó)產(chǎn)芯片的一體機(jī)產(chǎn)品,比如聯(lián)想聯(lián)合沐曦發(fā)布了基于DeepSeek大模型的首個(gè)國(guó)產(chǎn)一體機(jī)解決方案;華為與中國(guó)移動(dòng)、華鯤振宇、寶德、神州鯤泰、長(zhǎng)江計(jì)算等20余家廠商合作推出了基于昇騰芯片的DeepSeek一體機(jī),覆蓋金融、醫(yī)療等領(lǐng)域;海光、壁仞、天數(shù)、摩爾線程、算能等國(guó)內(nèi)芯片廠商也通過合作或自研的方式推出了自己的一體機(jī)產(chǎn)品。

但相較于英偉達(dá)的H20,國(guó)產(chǎn)一體機(jī)并不是性價(jià)比最高的選擇。

以滿血版DeepSeek大模型的部署為例,目前市面上一臺(tái)141G顯存的8卡H20一體機(jī)的價(jià)格約為140萬元,更高端一點(diǎn)的8卡H200一體機(jī)的價(jià)格約為200萬元;而國(guó)產(chǎn)機(jī)方面,一臺(tái)搭載了8卡昇騰910B的一體機(jī)價(jià)格約為130萬元,如果是64G顯存的訓(xùn)推卡部署滿血版DeepSeek至少需要兩臺(tái)機(jī)器,如果是32G的推理卡則至少需要四臺(tái)。

也就是說,如果選擇昇騰卡來部署滿血版DeepSeek,那么至少需要花260萬-520萬不等,性價(jià)比遠(yuǎn)不及英偉達(dá)的140萬。

然而,即使性價(jià)比遠(yuǎn)不如英偉達(dá),在國(guó)家的信創(chuàng)政策和安全性、隱私性等因素的考量下,大量政府、央國(guó)企和金融企業(yè)仍然選擇購(gòu)買國(guó)產(chǎn)芯片的一體機(jī)。

3月7日,沐曦集成電路發(fā)布消息稱,他們與聯(lián)想集團(tuán)合作的國(guó)產(chǎn)DeepSeek一體機(jī)累計(jì)發(fā)貨量已經(jīng)突破千臺(tái),配備沐曦國(guó)產(chǎn)GPU卡近萬張,覆蓋醫(yī)療、教育、制造等十余個(gè)核心行業(yè);另?yè)?jù)相關(guān)媒體報(bào)道,華為昇騰DeepSeek一體機(jī)今年一季度的銷售任務(wù)已被提前完成。

最近也有昇騰相關(guān)專家對(duì)外公開表示,在國(guó)產(chǎn)卡一體機(jī)里,昇騰卡的占比達(dá)到了70%以上。同時(shí),昇騰GPU的今年出貨量在75萬到80萬張之間,其中910B約為35萬張,910C約為40萬;而在需求結(jié)構(gòu)上,地方算力中心10萬張,運(yùn)營(yíng)商20萬張,互聯(lián)網(wǎng)企業(yè)40-50萬張。這其中,一體機(jī)形式的約為5-10萬張,以政企需求為主,已經(jīng)快要接近智算中心對(duì)昇騰GPU的需求量。

而由于政企數(shù)字化市場(chǎng)容量巨大,且相對(duì)碎片化,不存在一家通吃的情況,因此短期內(nèi),國(guó)內(nèi)的大小科技公司都有機(jī)會(huì)在DeepSeek一體機(jī)這個(gè)市場(chǎng)上賺到錢。這也是服務(wù)器、算力、軟件、IT系統(tǒng)集成等各行各業(yè)的科技公司都來?yè)胶汀癉eepSeek一體機(jī)”這件事的原因。

那么,國(guó)產(chǎn)一體機(jī)跑滿血版大模型,究竟靠譜嗎?

3.國(guó)產(chǎn)卡一體機(jī)跑滿血版,靠譜嗎?

衡量大模型推理性能的有兩個(gè)指標(biāo),分別是系統(tǒng)吞吐(TPS,Tokens Per Second)并發(fā)數(shù)(Concurrency)。其中,系統(tǒng)吞吐指的是單位時(shí)間內(nèi)模型處理的Token數(shù)量,它直接影響實(shí)時(shí)交互場(chǎng)景的流暢性;而并發(fā)數(shù)則是模型同時(shí)處理多個(gè)請(qǐng)求的能力,它直接影響系統(tǒng)的擴(kuò)展性。

如果要將衡量指標(biāo)更進(jìn)一步細(xì)化,那么可以再加上TTFT(Time to First Token,生成首個(gè)Token所需時(shí)間)TPOT(Time Per Output Token,每生成一個(gè)Token所需的時(shí)間)。模型的整體推理延遲(Latency)就可以根據(jù)這兩個(gè)指標(biāo)計(jì)算出來(計(jì)算公式為:Latency=TTFT+TPOT×生成Token數(shù))。

打開網(wǎng)易新聞 查看精彩圖片

大模型推理服務(wù)流程,圖片來源:無問芯穹

一般而言,TTFT要小于5秒-10秒,而在1秒-1.4秒之間是大部分用戶能夠接受的延遲;而20token/s的每秒生成Token數(shù)能滿足一個(gè)用戶的正常閱讀需求。

「甲子光年」了解到,目前大部分國(guó)產(chǎn)芯片一體機(jī)跑DeepSeek滿血版大模型的時(shí)間大概是10 token/s,其中某國(guó)產(chǎn)芯片廠商在自己的文檔中寫道月底會(huì)將數(shù)據(jù)優(yōu)化到25Token/s。

而英偉達(dá)的數(shù)據(jù)是什么樣呢?

某國(guó)產(chǎn)AI Infra廠商用141G顯存的8卡H20一體機(jī)做了測(cè)試。通過硬件調(diào)優(yōu)、算子優(yōu)化、混合并行、多token預(yù)測(cè)等多方面的工程實(shí)踐,在單路并發(fā)、268tokens輸入、2869tokens輸出的情況下,英偉達(dá)8卡H20一體機(jī)實(shí)現(xiàn)了單用戶吞吐最高32.9 tokens/s、平均TTFT 191.72ms的表現(xiàn);

打開網(wǎng)易新聞 查看精彩圖片

8卡141GH20單路并發(fā)測(cè)試日志 圖片來源:公眾號(hào) IT技術(shù)分享-老張

而在1024路并發(fā)、1000/1000的輸入/輸出長(zhǎng)度的情況下,英偉達(dá)8卡H20一體機(jī)實(shí)現(xiàn)了3975.76 tokens/s的總設(shè)備吞吐。

打開網(wǎng)易新聞 查看精彩圖片

1024路并發(fā)性能測(cè)試日志,圖片來源:公眾號(hào) IT技術(shù)分享-老張

也有工程師使用配置為八張141G顯存的H20GPU、兩張英特爾至強(qiáng)Platinum 8480+CPU、2T DDR5內(nèi)存和3.84TB的機(jī)器做了測(cè)試,結(jié)果顯示,英偉達(dá)的GPU在單路并發(fā)、128tokens輸入、1024tokens輸出的情況下上跑出了平均用戶吞吐率23.68tokens/s、平均 TTFT 174.51ms的成績(jī)。

打開網(wǎng)易新聞 查看精彩圖片

圖片來源:贊奇科技

而在NEOLINK LABS的測(cè)試中,兩臺(tái)8卡96G顯存的H20運(yùn)行DeepSeek-R1滿血版實(shí)現(xiàn)了高達(dá)6279.08tokens/s的峰值總吞吐。

打開網(wǎng)易新聞 查看精彩圖片

圖片來源:公眾號(hào)“NEOLINK LABS”

可以看到,在系統(tǒng)吞吐和并發(fā)率兩個(gè)指標(biāo)上,國(guó)產(chǎn)AI芯片一體機(jī)嚴(yán)重落后于搭載了英偉達(dá)芯片的一體機(jī)。

盡管有些國(guó)產(chǎn)廠家聲稱自己家的一體機(jī)單機(jī)就能跑DeepSeek大模型、實(shí)現(xiàn)不輸2400tokens/s的總吞吐(這一數(shù)值約為4臺(tái)H800一體機(jī)集群跑DeepSeek滿血版的吞吐量),但這是在調(diào)整模型精度的情況下進(jìn)行的。

打開網(wǎng)易新聞 查看精彩圖片

圖片來源:某廠商DeepSeek一體機(jī)宣傳圖

“有些廠家說自己?jiǎn)螜C(jī)就能跑DeepSeek滿血版,吞吐和并發(fā)還很高,但他們跑的是量化版。很多廠商所謂的‘優(yōu)化’都是在降低模型智商的情況下進(jìn)行的,很多國(guó)產(chǎn)卡一體機(jī)如果要在智商不下降的情況下運(yùn)行滿血版大模型,連單用戶10token/s的吞吐都跑不到。”陳嬌嬌說。

陳嬌嬌所說的“量化版”,指的是在原生FP8數(shù)據(jù)精度的671B模型基礎(chǔ)上,通過動(dòng)態(tài)量化技術(shù),將模型精度降低,提高模型吞吐,降低了所需硬件資源開銷的模型。

目前市面上的滿血版模型分為三種,分別是數(shù)據(jù)精度為DeepSeek原生的FP8、顯存占用671G的“原生滿血版”;數(shù)據(jù)精度為BF16或FP16、顯存需求未量化1342G的“轉(zhuǎn)譯滿血版”;數(shù)據(jù)精度為INT8(Q8)、INT4(Q4,顯存335G)、Q2、Q1的“量化滿血版”。只有原生滿血版是最符合DeepSeek官方智商水平的模型,其他兩個(gè)版本的模型都有一定程度的“智商下降”。至于智商下降多少,則取決于技術(shù)團(tuán)隊(duì)做轉(zhuǎn)譯和量化時(shí)候的取舍和操作。

陳嬌嬌表示,還有些國(guó)產(chǎn)芯片一體機(jī)廠商根本不公布輸入和輸出長(zhǎng)度,就直接說自己的產(chǎn)品跑671B大模型能輸出多少Token、達(dá)到多少并發(fā)。

“英偉達(dá)所有的結(jié)果都是有標(biāo)準(zhǔn)測(cè)試條件的,很多國(guó)產(chǎn)卡一體機(jī)廠商為了數(shù)據(jù)好看把測(cè)試條件全刪了,然后說自己的數(shù)據(jù)比英偉達(dá)還好”,陳嬌嬌說,“我認(rèn)為所有不公布輸入、輸出長(zhǎng)度的性能測(cè)試都是耍流氓。

某大廠高層也透露,自家公司出的一體機(jī)只是宣傳的數(shù)據(jù)很好,但是實(shí)際跑起來的效果并不好,會(huì)出現(xiàn)各種毛病,時(shí)不時(shí)就要公司的業(yè)務(wù)人員前去維護(hù)?!熬退闩艿氖橇炕娴哪P?,效果都很爛”。同時(shí),該高管還告訴「甲子光年」,截止到目前,這款單機(jī)能跑滿血版的一體機(jī)銷售額只有幾千萬,以150萬/臺(tái)的最高單價(jià)計(jì)算,出貨量不過幾十臺(tái)。

為什么國(guó)產(chǎn)卡一體機(jī)跑滿血版DeepSeek大模型的情況不如英偉達(dá)呢?

數(shù)據(jù)精度不匹配是第一個(gè)原因。DeepSeek模型采用FP8混合精度訓(xùn)練,但目前公開市場(chǎng)上僅有三款國(guó)產(chǎn)AI芯片支持FP8,分別是算能SC1x、瀚博VA1x摩爾線程S5x,除此之外其他國(guó)產(chǎn)芯片均不支持FP8。這也就造成了想要跑DeepSeek大模型,必須要將模型轉(zhuǎn)譯成FP16或BF16精度,或者通過動(dòng)態(tài)量化技術(shù)將模型將模型變成量化版。轉(zhuǎn)譯成FP16或者BF16需要在原來基礎(chǔ)上兩倍的顯存,而將模型變成量化版則需要損失一定的精度。

據(jù)陳嬌嬌表示,在能跑FP8的國(guó)產(chǎn)芯片中,其中有一家的表現(xiàn)尤為突出,因?yàn)樗麄冊(cè)谀米鲞^去成功的經(jīng)驗(yàn)做AI芯片項(xiàng)目——立項(xiàng)的時(shí)候就押注MoE模型、大顯存和低算力成本這三個(gè)點(diǎn),而DeepSeek爆發(fā)后這三個(gè)點(diǎn)全部踩上了。

然而,由于被列入了實(shí)體清單,這家廠商只生產(chǎn)出來了少量的樣品,盡管賭對(duì)了技術(shù)方向,但仍然無法大規(guī)模批量生產(chǎn)。

國(guó)產(chǎn)卡一體機(jī)的性能不足是第二個(gè)原因。而性能,是由內(nèi)置GPU芯片的顯存、制程互聯(lián)三個(gè)方面決定的:

  • 目前國(guó)產(chǎn)AI芯片中,可以查詢到的顯存規(guī)格最大的芯片是昇騰910B,訓(xùn)練卡擁有64G顯存,推理卡擁有32G顯存,而即使是8卡的64G顯存規(guī)格昇騰芯片一體機(jī),也無法滿足滿血版的顯存要求。而英偉達(dá)H20普通版就有96G顯存,升級(jí)版更是將顯存提高到了141G,單機(jī)就可運(yùn)行滿血版;

  • 制程方面,國(guó)產(chǎn)AI芯片當(dāng)前制程能力以7-12納米為主,并在28納米及以上成熟制程占據(jù)市場(chǎng)優(yōu)勢(shì),但在5納米及以下先進(jìn)制程領(lǐng)域仍需突破技術(shù)和設(shè)備限制。而國(guó)外的AI芯片已經(jīng)將制程突破到了3納米,并且在2025年正式進(jìn)入2納米工藝元年;

  • 互聯(lián)方面,國(guó)產(chǎn)卡由于顯存不足,仍然需要依靠多機(jī)互聯(lián)來跑滿血版大模型。目前英偉達(dá)的NVLink、NVSwitch互聯(lián)帶寬可達(dá)900GB/s以上,且支持大規(guī)模并行計(jì)算和低延遲通信;而國(guó)內(nèi)仍然主要依賴PCIe 4.0/5.0或以太網(wǎng)互聯(lián),帶寬和延遲均表現(xiàn)弱于NVLink。即使有的國(guó)產(chǎn)芯片廠商會(huì)選擇InfiniBand(IB)或者高速以太網(wǎng)RoCE實(shí)現(xiàn)互聯(lián),但這些方案的通信延遲很大,這也會(huì)影響最終部署的效果。

盡管昆侖芯新推出的P800一體機(jī)據(jù)說單卡有96G的顯存,可以實(shí)現(xiàn)單機(jī)跑滿血版大模型,沐曦和摩爾線程也分別推出了時(shí)空互聯(lián)(推測(cè)200–600GB/s)和MT-Link 2.0(480GB/s)技術(shù),但是國(guó)產(chǎn)一體機(jī)由于軟件層面的優(yōu)化不足,跑滿血版的表現(xiàn)仍然欠佳。這也是國(guó)產(chǎn)卡一體機(jī)效果不如英偉達(dá)的第三個(gè)原因。

“市場(chǎng)上那么多做大模型一體機(jī)的,硬件扒開來看可能也就是那幾個(gè)服務(wù)器廠商出的,大家差異化的點(diǎn)主要是在軟件,包括底層架構(gòu)的優(yōu)化,推理引擎的優(yōu)化,操作系統(tǒng)內(nèi)核級(jí)的優(yōu)化等,換句話說,大家都在比拼在同等硬件配置、同等規(guī)模參數(shù)的情況下,誰能提供提供更多的系統(tǒng)吞吐和并發(fā)?!辟R皓說。

而陳嬌嬌和他所在公司的的主營(yíng)業(yè)務(wù)除了幫助政企客戶做一體機(jī)的選型,還有一塊很大的業(yè)務(wù)就是幫客戶做一體機(jī)的部署和調(diào)優(yōu)。

一體機(jī)不同廠商之間其實(shí)就是在競(jìng)爭(zhēng)兩個(gè)點(diǎn),一個(gè)點(diǎn)是對(duì)性能的優(yōu)化,就是要在保證模型智商不下降、或者下降最小情況下的性能最優(yōu);第二個(gè)點(diǎn)則是應(yīng)用做的好不好。”陳嬌嬌說。

陳嬌嬌將當(dāng)前市場(chǎng)上的一體機(jī)分為了ABC三類:

  • A類是純硬件,就是AI卡+機(jī)頭的模式,更適合有開發(fā)能力的客戶;

  • B類是在硬件的基礎(chǔ)上加上了模型和開發(fā)平臺(tái),如Dify、DBgpt等,更適合有實(shí)施能力的客戶;

  • C類是在B類的基礎(chǔ)上疊加了一些應(yīng)用作為整體產(chǎn)品輸出,比如知識(shí)庫(kù)等,更適合想要開箱即用的用戶。

打開網(wǎng)易新聞 查看精彩圖片

圖片來源:公眾號(hào)“算力百科”

基于上述分類邏輯,陳嬌嬌也認(rèn)同一體機(jī)之間的競(jìng)爭(zhēng)主要是在軟件。而由于一體機(jī)太火,市場(chǎng)上很多投機(jī)的人也進(jìn)來做一體機(jī)了,但他們的軟件調(diào)優(yōu)能力是不足的,因此他們瘋狂給那些預(yù)算有限的客戶推銷搭載了32B、70B等蒸餾版DeepSeek模型的一體機(jī),銷售出去后就不再提供后續(xù)的安裝和維護(hù)服務(wù)。

“很多廠商可能把一體機(jī)定價(jià)定的比較低,比如賣到30萬左右。但是在30萬的硬件上,他們只能干70B,干不了滿血版。不是所有團(tuán)隊(duì)都有足夠的軟件能力駕馭671B大模型的,在十萬或者幾十萬的硬件上,把671B滿血版大模型跑到10tokens/s或者15 tokens/s以上是需要功底的,大部分人做不了。即使能勉強(qiáng)做滿血版,并發(fā)也不太夠,比如現(xiàn)在客戶要求20個(gè)人、50個(gè)人同時(shí)使用的話,就完成不了。于是他們跟客戶說你用個(gè)70B吧,70B的計(jì)算量小、并發(fā)高。看起來是甲方企業(yè)技術(shù)能力的問題,其實(shí)根本上還是乙方的問題?!标悑蓩烧f。

陳嬌嬌表示,現(xiàn)在很多市場(chǎng)上做一體機(jī)的廠商專門給客戶推70B或者更低參數(shù)的一體機(jī),只強(qiáng)調(diào)并發(fā)量,不保證實(shí)際性能,至于能不能用的起來概不負(fù)責(zé),等客戶買單后就結(jié)束服務(wù)。一旦客戶覺得不好用了,就讓客戶接著再買“升級(jí)版”的下一代產(chǎn)品。

“我還知道有些廠商,專門就給客戶推32B的低價(jià)一體機(jī),他們會(huì)說‘預(yù)算一定的情況下,我讓合作伙伴多賺點(diǎn)錢不香嗎’?!标悑蓩烧f。

4.DeepSeek最好的部署方式,并不是一體機(jī)

盡管目前幾乎各家IT廠商都在做一體機(jī),市場(chǎng)上也有價(jià)格不等、規(guī)格各異的一體機(jī)產(chǎn)品能滿足客戶各種各樣的需求,但是DeepSeek大模型最好的部署方式并不是一體機(jī)。

這與DeepSeek的模型架構(gòu)有關(guān)。

DeepSeek-R1模型采用了MoE架構(gòu),每次只激活一堆專家里的少量專家。根據(jù)DeepSeek最新發(fā)布的文章,每層256個(gè)專家僅激活其中8個(gè),相當(dāng)于只激活了671B參數(shù)里的37B參數(shù),因而極大降低了計(jì)算量。

但是,MoE模型里那些未激活專家,雖然不消耗算力,但它們的參數(shù)量仍然要占用顯存/內(nèi)存,帶來巨大的存儲(chǔ)開銷和調(diào)度復(fù)雜性。也就是說,必須要有很大的總batch size,才能給每個(gè)專家提供足夠的expert batch size,從而實(shí)現(xiàn)更大的吞吐、更低的延遲。

運(yùn)行數(shù)據(jù)精度為FP8的 671B滿血版模型需要多大的內(nèi)存呢?根據(jù)行業(yè)內(nèi)的計(jì)算公式,我們首先可以得出不同精度數(shù)據(jù)下,1B參數(shù)內(nèi)存的大?。?/p>

打開網(wǎng)易新聞 查看精彩圖片

參考資料:IT技術(shù)分享-老張 制圖:甲子光年

以FP8精度的滿血版DeepSeek-R1 671B為例,假設(shè)batch size=30,輸入Token數(shù)=2048,輸出Token數(shù)=2048,層數(shù)=61,hidden_size=7168;

按照“DeepSeek推理所需顯存=模型參數(shù)部分+激活參數(shù)部分+KV Cache”的公式計(jì)算,總的顯存容量=671×1GB+37x1G+30×(2048+2048)×2×61×7168×1Bytes=671GB+100.08GB=808.08GB

此外,模型推理的上下文長(zhǎng)度(Context Length)不同會(huì)對(duì)KV Cache的顯存占用影響很大,不同的廠商對(duì)顯存大小的推薦也略有不同,下圖是某大廠對(duì)DeepSeek不同模型參數(shù)量&模型精度的顯存推薦:

打開網(wǎng)易新聞 查看精彩圖片

參考資料:IT技術(shù)分享-老張,某大廠;制圖:甲子光年

這也就意味著,如果要實(shí)現(xiàn)在一體機(jī)上運(yùn)行滿血版DeepSeek大模型,就必須把參數(shù)、配置拉滿,起碼顯存要做到808-846GB,機(jī)器才能裝得下6710億參數(shù)。然而,由于每次真正激活的參數(shù)只有370億,剩余參數(shù)的存放對(duì)于顯存、內(nèi)存、硬盤來說是極大的浪費(fèi),因此一體機(jī)并不適合運(yùn)行DeepSeek這種MoE模型,而是更適合那些非MoE的全參數(shù)激活模型。

DeepSeek官方在其推理系統(tǒng)概覽文章里也說,要實(shí)現(xiàn)更大的吞吐、更低的延遲就需要需要大規(guī)模的跨節(jié)點(diǎn)專家并行(Expert Parallelism / EP)。也就是說,對(duì)企業(yè)來說,多機(jī)多卡的大規(guī)模的并行集群才是DeepSeek官方推薦的路線。

打開網(wǎng)易新聞 查看精彩圖片

圖片來源:DeepSeek知乎官方賬號(hào)

正因?yàn)檫@種采用了這種大規(guī)模并行架構(gòu),DeepSeek才實(shí)現(xiàn)了令人驚訝的的單服務(wù)器平均推理性能。英偉達(dá)官方實(shí)測(cè)顯示,DeepSeek-V3/R1使用H800集群(單節(jié)點(diǎn)8卡),在FP8混合精度下實(shí)現(xiàn)輸入吞吐73.7k tokens/s(含緩存命中)和輸出吞吐14.8k tokens/s。而國(guó)產(chǎn)一體機(jī)廠商們給出的性能指標(biāo),輸出+輸入的吞吐量總和最多也不過4k tokens/s。

而在目前絕大多數(shù)中小企業(yè)預(yù)算有限、對(duì)采購(gòu)的第一影響因素仍然是“性價(jià)比”的當(dāng)下,一體機(jī)真實(shí)的銷售情況也并未像市場(chǎng)中傳言的那樣火爆。

「甲子光年」從多位一體機(jī)銷售處了解到,今年2月到3月的一體機(jī)市場(chǎng)情況并不佳,大部分企業(yè)仍然以比價(jià)和觀望為主,問的多、買的少;而即使有政策要求購(gòu)買國(guó)產(chǎn)卡的一體機(jī),但是部分央國(guó)企為了“嘗鮮”,仍然會(huì)選擇在某一個(gè)部門部署一到兩臺(tái)英偉達(dá)芯片的一體機(jī),對(duì)此監(jiān)管部門也會(huì)睜一只眼閉一只眼。

“客戶預(yù)算有限,都想先用我們的機(jī)器測(cè)一測(cè)性能,但是我們現(xiàn)在只有運(yùn)營(yíng)商這種比較大的客戶才能給他們配機(jī)器測(cè)試一下,不然很多人測(cè)完了不買都是白嫖?!背圩冧N售經(jīng)理孟令廣表示。

或許也是看到了當(dāng)前的一體機(jī)運(yùn)行DeepSeek大模型的技術(shù)局限,近日,昇騰推出了大規(guī)??绻?jié)點(diǎn)專家并行(大EP)集群推理方案,并和科大訊飛合作實(shí)現(xiàn)了基于昇騰算力的8機(jī)64卡DeepSeek大規(guī)??绻?jié)點(diǎn)專家并行集群推理。這是繼DeepSeek公布其MoE模型訓(xùn)練推理方案后,業(yè)界首個(gè)基于自研算力的全新解決方案。

昇騰大EP方案采用了MoE負(fù)載均衡、PD分離部署、雙流/多維混合并行、MLAPO融合算子、MTP(多Token預(yù)測(cè))等技術(shù),實(shí)現(xiàn)了MoE模型專家之間的負(fù)載均衡——專家數(shù)據(jù)交換效率提升40%,降低跨機(jī)流量60%,卡間負(fù)載差異小于10%,集群吞吐提升30%;此外,推理集群的性能和吞吐量也得以提升——單卡靜態(tài)內(nèi)存占用縮減至雙機(jī)部署的1/4,效率提升75%,專家計(jì)算密度增加4倍,推理吞吐提升3.2倍,端到端時(shí)延降低50%。

緊隨DeepSeek的“號(hào)召”,升級(jí)后的昇騰大EP方案,可支持從幾十卡到幾千卡甚至更大規(guī)模的推理集群。而企業(yè)之前采購(gòu)的一體機(jī),也可以通過軟件升級(jí),擴(kuò)展為大EP的推理方案。

「甲子光年」從某大廠高管處獲悉,目前大部分企業(yè)都已經(jīng)結(jié)束了“嘗鮮”,正式進(jìn)入了采購(gòu)和部署階段,而部分企業(yè)的采購(gòu)決策也從開箱即用的DeepSeek一體機(jī),轉(zhuǎn)向了可支撐高并發(fā)、低時(shí)延的大規(guī)模專家并行(EP)推理集群。這也是DeepSeek開源自己的技術(shù)方案后給市場(chǎng)帶來的改變。

但是,這并不意味著一體機(jī)就是一個(gè)很差的產(chǎn)品形態(tài)。對(duì)于預(yù)算有限或者業(yè)務(wù)場(chǎng)景對(duì)AI需求不大的企業(yè),一體機(jī)仍然是他們嘗試AI、初步探索大模型賦能業(yè)務(wù)場(chǎng)景的最佳選擇。

對(duì)這些企業(yè)來說,無論是搭載了蒸餾版DeepSeek模型的一體機(jī),還是搭載了非MoE架構(gòu)的小體積新模型的一體機(jī),都足以應(yīng)對(duì)現(xiàn)有業(yè)務(wù)的AI部署需求。而在DeepSeek R2推出之后,還將會(huì)有更多公司基于新的模型推出一體機(jī)或其他的硬件產(chǎn)品,屆時(shí)再部署或許也將能實(shí)現(xiàn)更高的投入產(chǎn)出比。

無論算力產(chǎn)品形態(tài)如何演變,長(zhǎng)期看,唯有國(guó)產(chǎn)芯片在算力密度、互聯(lián)技術(shù)和開源生態(tài)上實(shí)現(xiàn)突破,一體機(jī)才能越來越才能真正打破“性能妥協(xié)”與“國(guó)產(chǎn)合規(guī)”的二律背反,讓DeepSeek的“中國(guó)式爆發(fā)”不止于熱鬧,而是沉淀為一場(chǎng)扎實(shí)的產(chǎn)業(yè)進(jìn)化。

(封面圖來源:AI工具生成)