久久精品亚洲精品久久久sex,中文字幕亚洲欧美,99久高清在线视频观看,好男人官网在线观看视频高清,精品不卡av在线

商機(jī)飆漲數(shù)十倍甚至百倍。

作者｜王藝???

編輯｜栗子

“至少有一億元的AI推理一體機(jī)硬件需求沒有被滿足?！薄癉eepSeek出來之后，云服務(wù)廠商的電話已經(jīng)被打爆了，全都是咨詢DeepSeek一體機(jī)的。”

這是「甲子光年」最近聽到最多的兩句話。

DeepSeek在2025年春節(jié)期間火出圈后，掀起了中國(guó)企業(yè)本地化部署的風(fēng)潮，也帶火了一款新的產(chǎn)品——DeepSeek一體機(jī)。

怎樣形容DeepSeek一體機(jī)的火爆程度呢？

這么說吧，去年我們?cè)诤芏嗫萍籍a(chǎn)業(yè)大會(huì)上看到最多的產(chǎn)品是機(jī)器人。而今年初在一些科技產(chǎn)業(yè)大會(huì)的外部展覽區(qū)，機(jī)器人的展位有所減少，放眼望去，大片映入眼簾的，是各家廠商推出的DeepSeek一體機(jī)。

一體機(jī)產(chǎn)品，圖片來源：「甲子光年」拍攝

也有服務(wù)器廠商的工作人員告訴我們，從春節(jié)期間DeepSeek火出圈到現(xiàn)在，每天都有鋪天蓋地的電話打進(jìn)來，都是來咨詢一體機(jī)或者本地部署DeepSeek大模型的，有時(shí)候銷售和售前要一天拜訪三波客戶去做交流和講解。

交易市場(chǎng)的火熱還只是其次。在風(fēng)起云涌的二級(jí)市場(chǎng)，甚至出現(xiàn)了“一體機(jī)概念股”，首都在線、天璣科技、恒為科技、紫光股份、云從科技、廣電運(yùn)通等公司的股票都在近期迎來了不同程度的上漲。

為什么在短時(shí)間內(nèi)出現(xiàn)了DeepSeek一體機(jī)的大爆發(fā)？服務(wù)器、云廠商、芯片、軟件、集成商……各個(gè)領(lǐng)域的科技企業(yè)都推出了一體機(jī)，它們之間的差別是什么，客戶應(yīng)該怎么選購(gòu)合適自己的產(chǎn)品？搭載了國(guó)產(chǎn)AI芯片的一體機(jī)跑滿血版DeepSeek模型的效果又究竟怎樣？

1.DeepSeek帶火一體機(jī)產(chǎn)品

所謂“一體機(jī)”，指的是一種專門為人工智能大模型應(yīng)用和部署而設(shè)計(jì)的集成計(jì)算設(shè)備，通常包含中央處理器（CPU）、圖形處理器（GPU）、存儲(chǔ)器、操作系統(tǒng)、AI平臺(tái)軟件及各類模型算法等軟硬組件，可以看成是“大模型+服務(wù)器”的“1+1”產(chǎn)品。

換句話說，它是一個(gè)“AI工具箱”，里面塞滿了硬件、軟件和行業(yè)專用工具，具有數(shù)據(jù)本地處理、部署周期短、成本低等優(yōu)點(diǎn)，非常適合政府、銀行、醫(yī)院等對(duì)隱私要求高的行業(yè)和單位。

其實(shí)，一體機(jī)并不是新的概念，早在DeepSeek爆火之前，就有大模型一體機(jī)產(chǎn)品被部分政府和企業(yè)應(yīng)用在了私有化部署等場(chǎng)景中。相較于大型的服務(wù)器集群，一體機(jī)成本更低、操作更便捷，也更適合中小企業(yè)或個(gè)人等小規(guī)模的業(yè)務(wù)需求。

既然一體機(jī)并不是一個(gè)新東西，那為什么DeepSeek發(fā)布后，一體機(jī)這一產(chǎn)品才迅速躥紅呢？這與DeepSeek-R1模型本身的技術(shù)優(yōu)勢(shì)、政府號(hào)召、開源策略和資本市場(chǎng)的推波助瀾密切相關(guān)：

DeepSeek-R1發(fā)布后，由于它的MoE架構(gòu)、MLA算法大幅降低了模型對(duì)算力的需求，加之不同版本蒸餾小模型的推出，讓模型部署變得更加容易，無需花重金購(gòu)置服務(wù)器集群就能將模型部署到本地，極大提升了全民部署DeepSeek的熱情；

自上而下的號(hào)召也很關(guān)鍵。春節(jié)后黨政機(jī)關(guān)引入DeepSeek的需求井噴，北京、廣州等多地政務(wù)系統(tǒng)宣布全面啟用DeepSeek大模型，首批“AI公務(wù)員”正式上崗，覆蓋文件處理、政策咨詢等場(chǎng)景；

而在2月19日國(guó)資委召開“AI+”專項(xiàng)行動(dòng)深化部署會(huì)后，大模型的本地部署成為剛需，一體機(jī)的本地化部署方案恰恰有效解決了金融、政務(wù)等敏感領(lǐng)域的數(shù)據(jù)合規(guī)問題，于是多家央國(guó)企紛紛加入一體機(jī)采購(gòu)的浪潮；

與此同時(shí)，DeepSeek的模型是開源的，企業(yè)可基于其開發(fā)定制化的解決方案，結(jié)合國(guó)產(chǎn)芯片構(gòu)建軟硬一體的生態(tài)，DeepSeek一體機(jī)讓想做數(shù)字化轉(zhuǎn)型、但技術(shù)能力欠缺的企業(yè)無需支付高昂的模型授權(quán)費(fèi)、通過簡(jiǎn)單的部署就能用上大模型；加之二級(jí)市場(chǎng)DeepSeek概念股大漲，眾多企業(yè)為了自己的股價(jià)和估值，也紛紛采購(gòu)一體機(jī)部署DeepSeek……上述種種因素，都推動(dòng)了DeepSeek一體機(jī)的爆發(fā)。

“我們預(yù)計(jì)，兩年內(nèi)、在百人以上的組織里，大模型的滲透率會(huì)達(dá)到40%-50%，而一體機(jī)會(huì)是他們最優(yōu)先的選擇。”公眾號(hào)“算力百科”主理人、深圳未來智算科技有限公司創(chuàng)始人陳嬌嬌對(duì)「甲子光年」表示。

究竟有多少公司在做一體機(jī)呢？目前除了互聯(lián)網(wǎng)公司和做硬件的廠商，那些原來做集成商的、做軟件的、做組裝廠的、做交換機(jī)的企業(yè)也都推出了一體機(jī)。“只要是IT行業(yè)相關(guān)的公司都在做，即使不是自己研發(fā)的，也會(huì)OEM一個(gè)。”陳嬌嬌表示。

從分類上看，目前，市面上的DeepSeek一體機(jī)分為推理一體機(jī)和訓(xùn)推一體機(jī)兩大類。

推理一體機(jī)主要面向需要高效推理計(jì)算的企業(yè)，內(nèi)置DeepSeek-R1 滿血版671B、70B、32B等不同尺寸的模型，價(jià)格從幾十萬到數(shù)百萬不等，適用于對(duì)數(shù)據(jù)安全性要求較高的企業(yè)；

訓(xùn)推一體機(jī)則適用于需要進(jìn)行模型訓(xùn)練和推理的場(chǎng)景，其價(jià)格更高、主要用于預(yù)訓(xùn)練和微調(diào)大模型，能夠支持更復(fù)雜的訓(xùn)練、推理任務(wù)。根據(jù)硬件配置和軟件調(diào)優(yōu)程度的不同，價(jià)格在幾十萬到幾百萬不等。

「甲子光年」根據(jù)公開資料，對(duì)部分推出DeepSeek一體機(jī)的廠商做了統(tǒng)計(jì)，情況如下所示：

DeepSeek一體機(jī)發(fā)布情況，制圖：甲子光年

根據(jù)浙商證券研報(bào)，目前，已有23%的央企有大模型部署，未來大模型的普及率預(yù)計(jì)會(huì)進(jìn)一步增加；而隨著DeepSeek帶動(dòng)大模型的快速部署需求，一體機(jī)的部署占比有望持續(xù)增長(zhǎng)，浙商證券預(yù)計(jì)，2025—2027 年，一體機(jī)采購(gòu)量將分別達(dá)到15、39、72萬臺(tái)，DeepSeek一體機(jī)在央國(guó)企的市場(chǎng)空間有望達(dá)到1236、2937、5208億元。

2.央國(guó)企要國(guó)產(chǎn)，民企要H20

那么，這些廠商推出的一體機(jī)都賣給誰了呢？

政府和央國(guó)企顯然是這一波DeepSeek一體機(jī)上新潮的最大客戶。

近年來，中國(guó)持續(xù)推進(jìn)信創(chuàng)產(chǎn)業(yè)和國(guó)產(chǎn)替代戰(zhàn)略，要求關(guān)鍵領(lǐng)域（如政府、金融、能源等）優(yōu)先采用國(guó)產(chǎn)技術(shù)，降低對(duì)外依賴。DeepSeek作為本土AI企業(yè)，其產(chǎn)品天然符合這一政策導(dǎo)向。

加之政府和央國(guó)企涉及大量政務(wù)數(shù)據(jù)、民生數(shù)據(jù)和國(guó)家基礎(chǔ)設(shè)施數(shù)據(jù)，對(duì)數(shù)據(jù)安全和隱私保護(hù)的要求極高，DeepSeek一體機(jī)的本地化部署和封閉式架構(gòu)，不僅能滿足政府和央國(guó)企對(duì)數(shù)據(jù)和隱私的合規(guī)要求，而且開箱即用、無需雇傭龐大的運(yùn)維團(tuán)隊(duì)，因此成為了政府和央國(guó)企的首選。

有數(shù)據(jù)統(tǒng)計(jì)，截至2月21日，已經(jīng)有45%的央企完成了對(duì)DeepSeek模型的部署，而這其中不少企業(yè)都選擇了一體機(jī)的方案。

從不到一個(gè)月的時(shí)間內(nèi)，如此高比例的央企實(shí)現(xiàn)了對(duì)開源模型的快速覆蓋，這一速度在過去是難以想象的。

除了政府和央國(guó)企，民營(yíng)企業(yè)也是部署DeepSeek大模型的重要玩家。

由于百度、阿里等互聯(lián)網(wǎng)巨頭自己就是云服務(wù)商、自己就售賣一體機(jī)產(chǎn)品，因此購(gòu)買一體機(jī)的多是有資金實(shí)力的大型民企中的個(gè)別業(yè)務(wù)部門，或者有數(shù)字化轉(zhuǎn)型需求的中小民營(yíng)企業(yè)。

“購(gòu)買我們一體機(jī)的金融類客戶比較多，因?yàn)橐惑w機(jī)首先就主打線下私有化交互，而這些客戶首先強(qiáng)調(diào)的就是數(shù)據(jù)不出域。除了金融類客戶，政務(wù)類客戶和之前的頭部大KA也是購(gòu)買一體機(jī)的主力客戶?！本〇|云PaaS業(yè)務(wù)部產(chǎn)品負(fù)責(zé)人賀皓告訴「甲子光年」。

「甲子光年」了解到，在打算購(gòu)買一體機(jī)的企業(yè)中，大型央國(guó)企的預(yù)算較高，一般在200萬-500萬之間；中小型政府機(jī)關(guān)、央國(guó)企和民營(yíng)企業(yè)的比較容易批下來的預(yù)算一般在100萬以內(nèi)；而在這100萬中，又根據(jù)預(yù)算金額的不同，分為50萬-100萬、10萬-50萬、10萬以內(nèi)三個(gè)區(qū)間。

目前，客戶預(yù)算集中在10萬-50萬的區(qū)間內(nèi)，這與客戶對(duì)部署大模型“嘗鮮”的需求和企業(yè)的預(yù)算審批制度高度相關(guān)。

“有的部門，領(lǐng)導(dǎo)手里的權(quán)限就是50萬，領(lǐng)導(dǎo)簽個(gè)字這50萬就能批出來，所以一體機(jī)廠商大部分也都是圍繞這個(gè)價(jià)格來定價(jià)的。”陳嬌嬌說。

而具體到模型的選擇上，90%以上的客戶都在咨詢滿血版DeepSeek大模型的一體機(jī)部署方案。

“首先從實(shí)際效果來說，滿血版肯定是最優(yōu)的；其次，有一小部分客戶有明確的業(yè)務(wù)使用場(chǎng)景，因此他們希望先部署滿血版，有了滿血版模型之后再去研究能對(duì)接什么樣的應(yīng)用場(chǎng)景。比如金融機(jī)構(gòu)之前一直在做投研分析報(bào)告等東西，他們其實(shí)原來也是用大模型做，DeepSeek出來之后，他們就想用滿血版來看一下，驗(yàn)證一下DeepSeek滿血版的性能和效果是不是更好。”賀皓說。

盡管人人都想部署滿血版，但不是人人都有實(shí)力買得起滿血版?！讣鬃庸饽辍箯母饕惑w機(jī)廠商的市場(chǎng)和銷售人員處了解到，在廣大的中小企業(yè)客戶中，成單量最高的是70B的模型。

預(yù)算有限肯定是首要原因。但這其中還有一個(gè)原因是，絕大多數(shù)企業(yè)還處于對(duì)大模型的“試驗(yàn)”和“嘗鮮”階段，70B的模型（下文簡(jiǎn)稱70B）足以應(yīng)對(duì)辦公場(chǎng)景的需求。其中，知識(shí)庫(kù)、辦公助手、智能客服等是最為高頻的應(yīng)用場(chǎng)景。

“70B是性價(jià)比最高的，企業(yè)如果直接部署了滿血版，萬一這個(gè)東西不好用，硬件成本怎么回收也是一個(gè)問題。而70B可以直接擴(kuò)容到滿血版（通過增加機(jī)器臺(tái)數(shù)的方式）。”潞晨科技市場(chǎng)經(jīng)理趙一飛表示。

四通集團(tuán)產(chǎn)品經(jīng)理戴歧航也表示，部署滿血版大模型的價(jià)格對(duì)絕大多數(shù)中小企業(yè)來說還是太高了：“70B買我們的設(shè)備的話20萬可以，671B的話要120萬以上。針對(duì)一般企業(yè)辦公類的使用場(chǎng)景，70B足夠了?！?/p>

企業(yè)選擇一體機(jī)，最看重的是其內(nèi)置的GPU芯片。

由于DeepSeek-R1模型的推理只激活671B參數(shù)中的37B參數(shù)，降低了對(duì)算力的要求，但其大規(guī)模并行的架構(gòu)對(duì)芯片的顯存提出了更高的要求。因此算力被“閹割”、但有著較大顯存和帶寬的H20成為了運(yùn)行DeepSeek推理模型最有性價(jià)比的選擇——兩臺(tái)96G版本的8卡H20一體機(jī)就能運(yùn)行滿血版大模型。

這也是DeepSeek模型火出圈后，H20的市場(chǎng)行情從“賣不出去”轉(zhuǎn)為“供不應(yīng)求”的原因，一臺(tái)96G版本8卡H20服務(wù)器的市場(chǎng)價(jià)格也從原來的100萬上升到了110萬左右。

英偉達(dá)部分顯卡的參數(shù)規(guī)格，制圖：甲子光年

2025年2月，為了應(yīng)對(duì)DeepSeek帶來的大顯存需求，英偉達(dá)“趁熱打鐵”，推出了H20的升級(jí)版本——擁有141G顯存的H20。新升級(jí)的H20不僅顯存容量更大了，而且顯存帶寬也從原來的4TB/s提升到了4.8TB/s，能夠?qū)崿F(xiàn)更快的數(shù)據(jù)傳輸速度。

相較于原來96G顯存版本的8卡H20一體機(jī)需要兩臺(tái)才能跑DeepSeek滿血版大模型，141G顯存版本的8卡H20一體機(jī)只需要一臺(tái)就能跑滿血版，極大降低了企業(yè)的模型部署成本。搭載了H20芯片的DeepSeek一體機(jī)也成為了絕大多數(shù)有資金實(shí)力的民營(yíng)企業(yè)部署滿血版DeepSeek大模型的最優(yōu)選擇。

然而，由于目前H20 141G的版本剛剛推出、正在批量交付，市場(chǎng)上的現(xiàn)貨并不多；加之是閹割版的芯片、央國(guó)企不允許購(gòu)買，因此正式被投入到企業(yè)中使用的141G顯存版H20一體機(jī)并不多，真正出貨量較多的還是搭載了H100、H200等芯片的一體機(jī)。

此外，這波DeepSeek浪潮也帶動(dòng)了國(guó)產(chǎn)芯片的出貨，和國(guó)產(chǎn)芯片一體機(jī)銷量的增長(zhǎng)。

正如前文所提，在國(guó)家政策的要求下，不少政府和央國(guó)企都需要在本地部署大模型，于是搭載了華為、摩爾線程、沐曦等國(guó)產(chǎn)AI芯片的DeepSeek一體機(jī)則成為了政府和央國(guó)企滿足數(shù)據(jù)安全、高效算力和簡(jiǎn)易部署的第一選擇。也因此，不少一體機(jī)廠家都在主推搭載了國(guó)產(chǎn)AI芯片的一體機(jī)，“單機(jī)跑滿血版”更是成為了一部分廠家的主打賣點(diǎn)。

目前，包括三大運(yùn)營(yíng)商和華為、浪潮信息、聯(lián)想集團(tuán)、京東云等在內(nèi)，眾多IT廠商都推出了包含國(guó)產(chǎn)芯片的一體機(jī)產(chǎn)品，比如聯(lián)想聯(lián)合沐曦發(fā)布了基于DeepSeek大模型的首個(gè)國(guó)產(chǎn)一體機(jī)解決方案；華為與中國(guó)移動(dòng)、華鯤振宇、寶德、神州鯤泰、長(zhǎng)江計(jì)算等20余家廠商合作推出了基于昇騰芯片的DeepSeek一體機(jī)，覆蓋金融、醫(yī)療等領(lǐng)域；海光、壁仞、天數(shù)、摩爾線程、算能等國(guó)內(nèi)芯片廠商也通過合作或自研的方式推出了自己的一體機(jī)產(chǎn)品。

但相較于英偉達(dá)的H20，國(guó)產(chǎn)一體機(jī)并不是性價(jià)比最高的選擇。

以滿血版DeepSeek大模型的部署為例，目前市面上一臺(tái)141G顯存的8卡H20一體機(jī)的價(jià)格約為140萬元，更高端一點(diǎn)的8卡H200一體機(jī)的價(jià)格約為200萬元；而國(guó)產(chǎn)機(jī)方面，一臺(tái)搭載了8卡昇騰910B的一體機(jī)價(jià)格約為130萬元，如果是64G顯存的訓(xùn)推卡部署滿血版DeepSeek至少需要兩臺(tái)機(jī)器，如果是32G的推理卡則至少需要四臺(tái)。

也就是說，如果選擇昇騰卡來部署滿血版DeepSeek，那么至少需要花260萬-520萬不等，性價(jià)比遠(yuǎn)不及英偉達(dá)的140萬。

然而，即使性價(jià)比遠(yuǎn)不如英偉達(dá)，在國(guó)家的信創(chuàng)政策和安全性、隱私性等因素的考量下，大量政府、央國(guó)企和金融企業(yè)仍然選擇購(gòu)買國(guó)產(chǎn)芯片的一體機(jī)。

3月7日，沐曦集成電路發(fā)布消息稱，他們與聯(lián)想集團(tuán)合作的國(guó)產(chǎn)DeepSeek一體機(jī)累計(jì)發(fā)貨量已經(jīng)突破千臺(tái)，配備沐曦國(guó)產(chǎn)GPU卡近萬張，覆蓋醫(yī)療、教育、制造等十余個(gè)核心行業(yè)；另?yè)?jù)相關(guān)媒體報(bào)道，華為昇騰DeepSeek一體機(jī)今年一季度的銷售任務(wù)已被提前完成。

最近也有昇騰相關(guān)專家對(duì)外公開表示，在國(guó)產(chǎn)卡一體機(jī)里，昇騰卡的占比達(dá)到了70%以上。同時(shí)，昇騰GPU的今年出貨量在75萬到80萬張之間，其中910B約為35萬張，910C約為40萬；而在需求結(jié)構(gòu)上，地方算力中心10萬張，運(yùn)營(yíng)商20萬張，互聯(lián)網(wǎng)企業(yè)40-50萬張。這其中，一體機(jī)形式的約為5-10萬張，以政企需求為主，已經(jīng)快要接近智算中心對(duì)昇騰GPU的需求量。

而由于政企數(shù)字化市場(chǎng)容量巨大，且相對(duì)碎片化，不存在一家通吃的情況，因此短期內(nèi)，國(guó)內(nèi)的大小科技公司都有機(jī)會(huì)在DeepSeek一體機(jī)這個(gè)市場(chǎng)上賺到錢。這也是服務(wù)器、算力、軟件、IT系統(tǒng)集成等各行各業(yè)的科技公司都來?yè)胶汀癉eepSeek一體機(jī)”這件事的原因。

那么，國(guó)產(chǎn)一體機(jī)跑滿血版大模型，究竟靠譜嗎？

3.國(guó)產(chǎn)卡一體機(jī)跑滿血版，靠譜嗎？

衡量大模型推理性能的有兩個(gè)指標(biāo)，分別是系統(tǒng)吞吐（TPS，Tokens Per Second）和并發(fā)數(shù)（Concurrency）。其中，系統(tǒng)吞吐指的是單位時(shí)間內(nèi)模型處理的Token數(shù)量，它直接影響實(shí)時(shí)交互場(chǎng)景的流暢性；而并發(fā)數(shù)則是模型同時(shí)處理多個(gè)請(qǐng)求的能力，它直接影響系統(tǒng)的擴(kuò)展性。

如果要將衡量指標(biāo)更進(jìn)一步細(xì)化，那么可以再加上TTFT（Time to First Token，生成首個(gè)Token所需時(shí)間）和TPOT（Time Per Output Token，每生成一個(gè)Token所需的時(shí)間）。模型的整體推理延遲（Latency）就可以根據(jù)這兩個(gè)指標(biāo)計(jì)算出來（計(jì)算公式為：Latency=TTFT+TPOT×生成Token數(shù)）。

大模型推理服務(wù)流程，圖片來源：無問芯穹

一般而言，TTFT要小于5秒-10秒，而在1秒-1.4秒之間是大部分用戶能夠接受的延遲；而20token/s的每秒生成Token數(shù)能滿足一個(gè)用戶的正常閱讀需求。

「甲子光年」了解到，目前大部分國(guó)產(chǎn)芯片一體機(jī)跑DeepSeek滿血版大模型的時(shí)間大概是10 token/s，其中某國(guó)產(chǎn)芯片廠商在自己的文檔中寫道月底會(huì)將數(shù)據(jù)優(yōu)化到25Token/s。

而英偉達(dá)的數(shù)據(jù)是什么樣呢？

某國(guó)產(chǎn)AI Infra廠商用141G顯存的8卡H20一體機(jī)做了測(cè)試。通過硬件調(diào)優(yōu)、算子優(yōu)化、混合并行、多token預(yù)測(cè)等多方面的工程實(shí)踐，在單路并發(fā)、268tokens輸入、2869tokens輸出的情況下，英偉達(dá)8卡H20一體機(jī)實(shí)現(xiàn)了單用戶吞吐最高32.9 tokens/s、平均TTFT 191.72ms的表現(xiàn)；

8卡141GH20單路并發(fā)測(cè)試日志圖片來源：公眾號(hào) IT技術(shù)分享-老張

而在1024路并發(fā)、1000/1000的輸入/輸出長(zhǎng)度的情況下，英偉達(dá)8卡H20一體機(jī)實(shí)現(xiàn)了3975.76 tokens/s的總設(shè)備吞吐。

1024路并發(fā)性能測(cè)試日志，圖片來源：公眾號(hào) IT技術(shù)分享-老張

也有工程師使用配置為八張141G顯存的H20GPU、兩張英特爾至強(qiáng)Platinum 8480+CPU、2T DDR5內(nèi)存和3.84TB的機(jī)器做了測(cè)試，結(jié)果顯示，英偉達(dá)的GPU在單路并發(fā)、128tokens輸入、1024tokens輸出的情況下上跑出了平均用戶吞吐率23.68tokens/s、平均 TTFT 174.51ms的成績(jī)。

圖片來源：贊奇科技

而在NEOLINK LABS的測(cè)試中，兩臺(tái)8卡96G顯存的H20運(yùn)行DeepSeek-R1滿血版實(shí)現(xiàn)了高達(dá)6279.08tokens/s的峰值總吞吐。

圖片來源：公眾號(hào)“NEOLINK LABS”

可以看到，在系統(tǒng)吞吐和并發(fā)率兩個(gè)指標(biāo)上，國(guó)產(chǎn)AI芯片一體機(jī)嚴(yán)重落后于搭載了英偉達(dá)芯片的一體機(jī)。

盡管有些國(guó)產(chǎn)廠家聲稱自己家的一體機(jī)單機(jī)就能跑DeepSeek大模型、實(shí)現(xiàn)不輸2400tokens/s的總吞吐（這一數(shù)值約為4臺(tái)H800一體機(jī)集群跑DeepSeek滿血版的吞吐量），但這是在調(diào)整模型精度的情況下進(jìn)行的。

圖片來源：某廠商DeepSeek一體機(jī)宣傳圖

“有些廠家說自己?jiǎn)螜C(jī)就能跑DeepSeek滿血版，吞吐和并發(fā)還很高，但他們跑的是量化版。很多廠商所謂的‘優(yōu)化’都是在降低模型智商的情況下進(jìn)行的，很多國(guó)產(chǎn)卡一體機(jī)如果要在智商不下降的情況下運(yùn)行滿血版大模型，連單用戶10token/s的吞吐都跑不到。”陳嬌嬌說。

陳嬌嬌所說的“量化版”，指的是在原生FP8數(shù)據(jù)精度的671B模型基礎(chǔ)上，通過動(dòng)態(tài)量化技術(shù)，將模型精度降低，提高模型吞吐，降低了所需硬件資源開銷的模型。

目前市面上的滿血版模型分為三種，分別是數(shù)據(jù)精度為DeepSeek原生的FP8、顯存占用671G的“原生滿血版”；數(shù)據(jù)精度為BF16或FP16、顯存需求未量化1342G的“轉(zhuǎn)譯滿血版”；數(shù)據(jù)精度為INT8(Q8)、INT4（Q4，顯存335G）、Q2、Q1的“量化滿血版”。只有原生滿血版是最符合DeepSeek官方智商水平的模型，其他兩個(gè)版本的模型都有一定程度的“智商下降”。至于智商下降多少，則取決于技術(shù)團(tuán)隊(duì)做轉(zhuǎn)譯和量化時(shí)候的取舍和操作。

陳嬌嬌表示，還有些國(guó)產(chǎn)芯片一體機(jī)廠商根本不公布輸入和輸出長(zhǎng)度，就直接說自己的產(chǎn)品跑671B大模型能輸出多少Token、達(dá)到多少并發(fā)。

“英偉達(dá)所有的結(jié)果都是有標(biāo)準(zhǔn)測(cè)試條件的，很多國(guó)產(chǎn)卡一體機(jī)廠商為了數(shù)據(jù)好看把測(cè)試條件全刪了，然后說自己的數(shù)據(jù)比英偉達(dá)還好”，陳嬌嬌說，“我認(rèn)為所有不公布輸入、輸出長(zhǎng)度的性能測(cè)試都是耍流氓。”

某大廠高層也透露，自家公司出的一體機(jī)只是宣傳的數(shù)據(jù)很好，但是實(shí)際跑起來的效果并不好，會(huì)出現(xiàn)各種毛病，時(shí)不時(shí)就要公司的業(yè)務(wù)人員前去維護(hù)?！熬退闩艿氖橇炕娴哪Ｐ?，效果都很爛”。同時(shí)，該高管還告訴「甲子光年」，截止到目前，這款單機(jī)能跑滿血版的一體機(jī)銷售額只有幾千萬，以150萬/臺(tái)的最高單價(jià)計(jì)算，出貨量不過幾十臺(tái)。

為什么國(guó)產(chǎn)卡一體機(jī)跑滿血版DeepSeek大模型的情況不如英偉達(dá)呢？

數(shù)據(jù)精度不匹配是第一個(gè)原因。DeepSeek模型采用FP8混合精度訓(xùn)練，但目前公開市場(chǎng)上僅有三款國(guó)產(chǎn)AI芯片支持FP8，分別是算能SC1x、瀚博VA1x和摩爾線程S5x，除此之外其他國(guó)產(chǎn)芯片均不支持FP8。這也就造成了想要跑DeepSeek大模型，必須要將模型轉(zhuǎn)譯成FP16或BF16精度，或者通過動(dòng)態(tài)量化技術(shù)將模型將模型變成量化版。轉(zhuǎn)譯成FP16或者BF16需要在原來基礎(chǔ)上兩倍的顯存，而將模型變成量化版則需要損失一定的精度。

據(jù)陳嬌嬌表示，在能跑FP8的國(guó)產(chǎn)芯片中，其中有一家的表現(xiàn)尤為突出，因?yàn)樗麄冊(cè)谀米鲞^去成功的經(jīng)驗(yàn)做AI芯片項(xiàng)目——立項(xiàng)的時(shí)候就押注MoE模型、大顯存和低算力成本這三個(gè)點(diǎn)，而DeepSeek爆發(fā)后這三個(gè)點(diǎn)全部踩上了。

然而，由于被列入了實(shí)體清單，這家廠商只生產(chǎn)出來了少量的樣品，盡管賭對(duì)了技術(shù)方向，但仍然無法大規(guī)模批量生產(chǎn)。

國(guó)產(chǎn)卡一體機(jī)的性能不足是第二個(gè)原因。而性能，是由內(nèi)置GPU芯片的顯存、制程和互聯(lián)三個(gè)方面決定的：

目前國(guó)產(chǎn)AI芯片中，可以查詢到的顯存規(guī)格最大的芯片是昇騰910B，訓(xùn)練卡擁有64G顯存，推理卡擁有32G顯存，而即使是8卡的64G顯存規(guī)格昇騰芯片一體機(jī)，也無法滿足滿血版的顯存要求。而英偉達(dá)H20普通版就有96G顯存，升級(jí)版更是將顯存提高到了141G，單機(jī)就可運(yùn)行滿血版；
制程方面，國(guó)產(chǎn)AI芯片當(dāng)前制程能力以7-12納米為主，并在28納米及以上成熟制程占據(jù)市場(chǎng)優(yōu)勢(shì)，但在5納米及以下先進(jìn)制程領(lǐng)域仍需突破技術(shù)和設(shè)備限制。而國(guó)外的AI芯片已經(jīng)將制程突破到了3納米，并且在2025年正式進(jìn)入2納米工藝元年；
互聯(lián)方面，國(guó)產(chǎn)卡由于顯存不足，仍然需要依靠多機(jī)互聯(lián)來跑滿血版大模型。目前英偉達(dá)的NVLink、NVSwitch互聯(lián)帶寬可達(dá)900GB/s以上，且支持大規(guī)模并行計(jì)算和低延遲通信；而國(guó)內(nèi)仍然主要依賴PCIe 4.0/5.0或以太網(wǎng)互聯(lián)，帶寬和延遲均表現(xiàn)弱于NVLink。即使有的國(guó)產(chǎn)芯片廠商會(huì)選擇InfiniBand（IB）或者高速以太網(wǎng)RoCE實(shí)現(xiàn)互聯(lián)，但這些方案的通信延遲很大，這也會(huì)影響最終部署的效果。

盡管昆侖芯新推出的P800一體機(jī)據(jù)說單卡有96G的顯存，可以實(shí)現(xiàn)單機(jī)跑滿血版大模型，沐曦和摩爾線程也分別推出了時(shí)空互聯(lián)（推測(cè)200–600GB/s）和MT-Link 2.0（480GB/s）技術(shù)，但是國(guó)產(chǎn)一體機(jī)由于軟件層面的優(yōu)化不足，跑滿血版的表現(xiàn)仍然欠佳。這也是國(guó)產(chǎn)卡一體機(jī)效果不如英偉達(dá)的第三個(gè)原因。

“市場(chǎng)上那么多做大模型一體機(jī)的，硬件扒開來看可能也就是那幾個(gè)服務(wù)器廠商出的，大家差異化的點(diǎn)主要是在軟件，包括底層架構(gòu)的優(yōu)化，推理引擎的優(yōu)化，操作系統(tǒng)內(nèi)核級(jí)的優(yōu)化等，換句話說，大家都在比拼在同等硬件配置、同等規(guī)模參數(shù)的情況下，誰能提供提供更多的系統(tǒng)吞吐和并發(fā)?！辟R皓說。

而陳嬌嬌和他所在公司的的主營(yíng)業(yè)務(wù)除了幫助政企客戶做一體機(jī)的選型，還有一塊很大的業(yè)務(wù)就是幫客戶做一體機(jī)的部署和調(diào)優(yōu)。

“一體機(jī)不同廠商之間其實(shí)就是在競(jìng)爭(zhēng)兩個(gè)點(diǎn)，一個(gè)點(diǎn)是對(duì)性能的優(yōu)化，就是要在保證模型智商不下降、或者下降最小情況下的性能最優(yōu)；第二個(gè)點(diǎn)則是應(yīng)用做的好不好。”陳嬌嬌說。

陳嬌嬌將當(dāng)前市場(chǎng)上的一體機(jī)分為了ABC三類：

A類是純硬件，就是AI卡+機(jī)頭的模式，更適合有開發(fā)能力的客戶；
B類是在硬件的基礎(chǔ)上加上了模型和開發(fā)平臺(tái)，如Dify、DBgpt等，更適合有實(shí)施能力的客戶；
C類是在B類的基礎(chǔ)上疊加了一些應(yīng)用作為整體產(chǎn)品輸出，比如知識(shí)庫(kù)等，更適合想要開箱即用的用戶。

圖片來源：公眾號(hào)“算力百科”

基于上述分類邏輯，陳嬌嬌也認(rèn)同一體機(jī)之間的競(jìng)爭(zhēng)主要是在軟件。而由于一體機(jī)太火，市場(chǎng)上很多投機(jī)的人也進(jìn)來做一體機(jī)了，但他們的軟件調(diào)優(yōu)能力是不足的，因此他們瘋狂給那些預(yù)算有限的客戶推銷搭載了32B、70B等蒸餾版DeepSeek模型的一體機(jī)，銷售出去后就不再提供后續(xù)的安裝和維護(hù)服務(wù)。

“很多廠商可能把一體機(jī)定價(jià)定的比較低，比如賣到30萬左右。但是在30萬的硬件上，他們只能干70B，干不了滿血版。不是所有團(tuán)隊(duì)都有足夠的軟件能力駕馭671B大模型的，在十萬或者幾十萬的硬件上，把671B滿血版大模型跑到10tokens/s或者15 tokens/s以上是需要功底的，大部分人做不了。即使能勉強(qiáng)做滿血版，并發(fā)也不太夠，比如現(xiàn)在客戶要求20個(gè)人、50個(gè)人同時(shí)使用的話，就完成不了。于是他們跟客戶說你用個(gè)70B吧，70B的計(jì)算量小、并發(fā)高。看起來是甲方企業(yè)技術(shù)能力的問題，其實(shí)根本上還是乙方的問題?！标悑蓩烧f。

陳嬌嬌表示，現(xiàn)在很多市場(chǎng)上做一體機(jī)的廠商專門給客戶推70B或者更低參數(shù)的一體機(jī)，只強(qiáng)調(diào)并發(fā)量，不保證實(shí)際性能，至于能不能用的起來概不負(fù)責(zé)，等客戶買單后就結(jié)束服務(wù)。一旦客戶覺得不好用了，就讓客戶接著再買“升級(jí)版”的下一代產(chǎn)品。

“我還知道有些廠商，專門就給客戶推32B的低價(jià)一體機(jī)，他們會(huì)說‘預(yù)算一定的情況下，我讓合作伙伴多賺點(diǎn)錢不香嗎’?！标悑蓩烧f。

4.DeepSeek最好的部署方式，并不是一體機(jī)

盡管目前幾乎各家IT廠商都在做一體機(jī)，市場(chǎng)上也有價(jià)格不等、規(guī)格各異的一體機(jī)產(chǎn)品能滿足客戶各種各樣的需求，但是DeepSeek大模型最好的部署方式并不是一體機(jī)。

這與DeepSeek的模型架構(gòu)有關(guān)。

DeepSeek-R1模型采用了MoE架構(gòu)，每次只激活一堆專家里的少量專家。根據(jù)DeepSeek最新發(fā)布的文章，每層256個(gè)專家僅激活其中8個(gè)，相當(dāng)于只激活了671B參數(shù)里的37B參數(shù)，因而極大降低了計(jì)算量。

但是，MoE模型里那些未激活專家，雖然不消耗算力，但它們的參數(shù)量仍然要占用顯存/內(nèi)存，帶來巨大的存儲(chǔ)開銷和調(diào)度復(fù)雜性。也就是說，必須要有很大的總batch size，才能給每個(gè)專家提供足夠的expert batch size，從而實(shí)現(xiàn)更大的吞吐、更低的延遲。

運(yùn)行數(shù)據(jù)精度為FP8的 671B滿血版模型需要多大的內(nèi)存呢？根據(jù)行業(yè)內(nèi)的計(jì)算公式，我們首先可以得出不同精度數(shù)據(jù)下，1B參數(shù)內(nèi)存的大?。?/p>

參考資料：IT技術(shù)分享-老張制圖：甲子光年

以FP8精度的滿血版DeepSeek-R1 671B為例，假設(shè)batch size=30，輸入Token數(shù)=2048，輸出Token數(shù)=2048，層數(shù)=61，hidden_size=7168；

按照“DeepSeek推理所需顯存=模型參數(shù)部分+激活參數(shù)部分+KV Cache”的公式計(jì)算，總的顯存容量=671×1GB+37x1G+30×(2048+2048)×2×61×7168×1Bytes=671GB+100.08GB=808.08GB

此外，模型推理的上下文長(zhǎng)度（Context Length）不同會(huì)對(duì)KV Cache的顯存占用影響很大，不同的廠商對(duì)顯存大小的推薦也略有不同，下圖是某大廠對(duì)DeepSeek不同模型參數(shù)量&模型精度的顯存推薦：

參考資料：IT技術(shù)分享-老張，某大廠；制圖：甲子光年

這也就意味著，如果要實(shí)現(xiàn)在一體機(jī)上運(yùn)行滿血版DeepSeek大模型，就必須把參數(shù)、配置拉滿，起碼顯存要做到808-846GB，機(jī)器才能裝得下6710億參數(shù)。然而，由于每次真正激活的參數(shù)只有370億，剩余參數(shù)的存放對(duì)于顯存、內(nèi)存、硬盤來說是極大的浪費(fèi)，因此一體機(jī)并不適合運(yùn)行DeepSeek這種MoE模型，而是更適合那些非MoE的全參數(shù)激活模型。

DeepSeek官方在其推理系統(tǒng)概覽文章里也說，要實(shí)現(xiàn)更大的吞吐、更低的延遲就需要需要大規(guī)模的跨節(jié)點(diǎn)專家并行（Expert Parallelism / EP）。也就是說，對(duì)企業(yè)來說，多機(jī)多卡的大規(guī)模的并行集群才是DeepSeek官方推薦的路線。

圖片來源：DeepSeek知乎官方賬號(hào)

正因?yàn)檫@種采用了這種大規(guī)模并行架構(gòu)，DeepSeek才實(shí)現(xiàn)了令人驚訝的的單服務(wù)器平均推理性能。英偉達(dá)官方實(shí)測(cè)顯示，DeepSeek-V3/R1使用H800集群（單節(jié)點(diǎn)8卡），在FP8混合精度下實(shí)現(xiàn)輸入吞吐73.7k tokens/s（含緩存命中）和輸出吞吐14.8k tokens/s。而國(guó)產(chǎn)一體機(jī)廠商們給出的性能指標(biāo)，輸出+輸入的吞吐量總和最多也不過4k tokens/s。

而在目前絕大多數(shù)中小企業(yè)預(yù)算有限、對(duì)采購(gòu)的第一影響因素仍然是“性價(jià)比”的當(dāng)下，一體機(jī)真實(shí)的銷售情況也并未像市場(chǎng)中傳言的那樣火爆。

「甲子光年」從多位一體機(jī)銷售處了解到，今年2月到3月的一體機(jī)市場(chǎng)情況并不佳，大部分企業(yè)仍然以比價(jià)和觀望為主，問的多、買的少；而即使有政策要求購(gòu)買國(guó)產(chǎn)卡的一體機(jī)，但是部分央國(guó)企為了“嘗鮮”，仍然會(huì)選擇在某一個(gè)部門部署一到兩臺(tái)英偉達(dá)芯片的一體機(jī)，對(duì)此監(jiān)管部門也會(huì)睜一只眼閉一只眼。

“客戶預(yù)算有限，都想先用我們的機(jī)器測(cè)一測(cè)性能，但是我們現(xiàn)在只有運(yùn)營(yíng)商這種比較大的客戶才能給他們配機(jī)器測(cè)試一下，不然很多人測(cè)完了不買都是白嫖?！背圩冧N售經(jīng)理孟令廣表示。

或許也是看到了當(dāng)前的一體機(jī)運(yùn)行DeepSeek大模型的技術(shù)局限，近日，昇騰推出了大規(guī)?？绻?jié)點(diǎn)專家并行（大EP）集群推理方案，并和科大訊飛合作實(shí)現(xiàn)了基于昇騰算力的8機(jī)64卡DeepSeek大規(guī)?？绻?jié)點(diǎn)專家并行集群推理。這是繼DeepSeek公布其MoE模型訓(xùn)練推理方案后，業(yè)界首個(gè)基于自研算力的全新解決方案。

昇騰大EP方案采用了MoE負(fù)載均衡、PD分離部署、雙流/多維混合并行、MLAPO融合算子、MTP（多Token預(yù)測(cè)）等技術(shù)，實(shí)現(xiàn)了MoE模型專家之間的負(fù)載均衡——專家數(shù)據(jù)交換效率提升40%，降低跨機(jī)流量60%，卡間負(fù)載差異小于10%，集群吞吐提升30%；此外，推理集群的性能和吞吐量也得以提升——單卡靜態(tài)內(nèi)存占用縮減至雙機(jī)部署的1/4，效率提升75%，專家計(jì)算密度增加4倍，推理吞吐提升3.2倍，端到端時(shí)延降低50%。

緊隨DeepSeek的“號(hào)召”，升級(jí)后的昇騰大EP方案，可支持從幾十卡到幾千卡甚至更大規(guī)模的推理集群。而企業(yè)之前采購(gòu)的一體機(jī)，也可以通過軟件升級(jí)，擴(kuò)展為大EP的推理方案。

「甲子光年」從某大廠高管處獲悉，目前大部分企業(yè)都已經(jīng)結(jié)束了“嘗鮮”，正式進(jìn)入了采購(gòu)和部署階段，而部分企業(yè)的采購(gòu)決策也從開箱即用的DeepSeek一體機(jī)，轉(zhuǎn)向了可支撐高并發(fā)、低時(shí)延的大規(guī)模專家并行（EP）推理集群。這也是DeepSeek開源自己的技術(shù)方案后給市場(chǎng)帶來的改變。

但是，這并不意味著一體機(jī)就是一個(gè)很差的產(chǎn)品形態(tài)。對(duì)于預(yù)算有限或者業(yè)務(wù)場(chǎng)景對(duì)AI需求不大的企業(yè)，一體機(jī)仍然是他們嘗試AI、初步探索大模型賦能業(yè)務(wù)場(chǎng)景的最佳選擇。

對(duì)這些企業(yè)來說，無論是搭載了蒸餾版DeepSeek模型的一體機(jī)，還是搭載了非MoE架構(gòu)的小體積新模型的一體機(jī)，都足以應(yīng)對(duì)現(xiàn)有業(yè)務(wù)的AI部署需求。而在DeepSeek R2推出之后，還將會(huì)有更多公司基于新的模型推出一體機(jī)或其他的硬件產(chǎn)品，屆時(shí)再部署或許也將能實(shí)現(xiàn)更高的投入產(chǎn)出比。

無論算力產(chǎn)品形態(tài)如何演變，長(zhǎng)期看，唯有國(guó)產(chǎn)芯片在算力密度、互聯(lián)技術(shù)和開源生態(tài)上實(shí)現(xiàn)突破，一體機(jī)才能越來越才能真正打破“性能妥協(xié)”與“國(guó)產(chǎn)合規(guī)”的二律背反，讓DeepSeek的“中國(guó)式爆發(fā)”不止于熱鬧，而是沉淀為一場(chǎng)扎實(shí)的產(chǎn)業(yè)進(jìn)化。

（封面圖來源：AI工具生成）