
忽如一夜春風(fēng)來,千樹萬樹“DeepSeek”開。春節(jié)過后,曾經(jīng)猶豫不決的用戶開始擁抱人工智能,整個AI產(chǎn)業(yè)鏈都渴望接下“潑天的富貴”,沒有人愿錯過久違的春天。

這是充滿希望的季節(jié),也是躁動不安的時刻。低成本大模型顯著降低了AI應(yīng)用的門檻,讓“下沉”市場有機會嘗到技術(shù)普惠的紅利,但多數(shù)企業(yè)缺乏專業(yè)的技術(shù)團隊和成熟的部署經(jīng)驗,更依賴“開箱即用”的產(chǎn)品和解決方案——其中難免魚龍混雜,甚至存在誤區(qū)和陷阱。
例如:那些迷信“一接就靈”的用戶,已被某些低配版的DeepSeek一體機弄得苦不堪言。他們理解的“低成本”就是使用蒸餾版本,不必在乎底層硬件的穩(wěn)定性以及推理速度、準(zhǔn)確率等重要指標(biāo),而實際部署完成后才發(fā)現(xiàn)無法滿足業(yè)務(wù)需求,前期投入也打了水漂。此外,還有些用戶采用多機部署的方案,雖然做到了“滿血”,卻大幅增加部署成本,后期運維也跟不上,投入產(chǎn)出比明顯偏低。
事實上,上述做法既沒有理解DeepSeek的真正價值,又忽視了算力與算法、算力基礎(chǔ)設(shè)施與大模型協(xié)同進化的底層邏輯。DeepSeek的爆火不僅因為“以低成本訓(xùn)練搞出了比肩世界一流性能的大模型”,而且其改變了先設(shè)計算法再做工程優(yōu)化的傳統(tǒng)模式,即在初始階段就面向硬件特征設(shè)計算法,讓算法與算力形成彼此適應(yīng)、相互促進的良性關(guān)系,為AI應(yīng)用的順利落地奠定堅實基礎(chǔ)。
顯而易見,為了充分釋放DeepSeek的潛能,基于單機部署實現(xiàn)671B全參數(shù)大模型推理,才是降低企業(yè)采購成本與運維難度,達(dá)成最佳資源規(guī)劃目標(biāo)的有效路徑;同時,還應(yīng)借助軟硬協(xié)同優(yōu)化,使推理服務(wù)器滿足高吞吐等紛繁場景的苛刻要求,保障對外服務(wù)的效率與穩(wěn)定性。

正是在這樣的背景下,浪潮信息近日推出的元腦R1服務(wù)器成為業(yè)界矚目的焦點。其通過對推理服務(wù)器的煥新升級,重新定義了“算模協(xié)同”的核心特征,AI應(yīng)用的繁花有望綻放在春天里。
從“水漲船高”邁向“算模協(xié)同”
在DeepSeek誕生之前,大模型和算力之間更像是“水漲船高”的關(guān)系,模型性能提升的速度與算力投入的力度成正比,“一直游到海水變藍(lán)”,等待AGI時刻的到來。

基于面向硬件特征設(shè)計算法的理念,DeepSeek對算法架構(gòu)做出一系列創(chuàng)新,讓算力與算法演繹出全新的故事線。在注意力機制方面,MLA算法在適度降低計算精度的情況下,大幅減少推理時的KV cache占用;在MOE架構(gòu)方面,采用共享專家和路由專家相結(jié)合,并以更高的稀疏度節(jié)省訓(xùn)練和推理算力;GRPO算法則取消了強化學(xué)習(xí)經(jīng)典算法PPO中的價值模型,顯著減少內(nèi)存和計算開銷。
不難看出,在有限的算力資源條件下,實現(xiàn)算力消耗更低、訓(xùn)練和推理效果更優(yōu)的大模型開發(fā),已成為新的潮流——DeepSeek讓AI演進的長河發(fā)生了轉(zhuǎn)彎,但實際上這并非單一力量促成的結(jié)果,源自算力底座的變革同樣至關(guān)重要。
作為國內(nèi)領(lǐng)先的算力基礎(chǔ)設(shè)施與服務(wù)翹楚,浪潮信息通過算力與算法的協(xié)同創(chuàng)新,持續(xù)提升“模算效率”。自2021年發(fā)布大模型“源1.0”起,浪潮信息就致力于提高大模型訓(xùn)練算力效率,基于“張量并行+流水并行+數(shù)據(jù)并行”的訓(xùn)練方式,使算力利用率(MFU)達(dá)到44.8%,是當(dāng)時業(yè)界最高水準(zhǔn);2024年,混合專家模型(MoE)“源2.0-M32”開創(chuàng)性地提出“基于注意力機制的門控網(wǎng)絡(luò)”算法結(jié)構(gòu),再次顯著提升算力效率,降低訓(xùn)練、微調(diào)和推理成本,為行業(yè)客戶帶來更高效、經(jīng)濟的解決方案。
在改善“模算效率”道路上邁出的每一步,如今正轉(zhuǎn)化為通往“算模協(xié)同”終極目標(biāo)的里程碑。DeepSeek的東風(fēng)可謂恰逢其時,契合新趨勢的重量級算力新品呼之欲出。
探索AI部署需求爆發(fā)期的最優(yōu)算力模式
根據(jù)第三方研究機構(gòu)的預(yù)測,2025~2027年,DeepSeek 快速部署需求將帶動算力設(shè)備需求量飆升,對應(yīng)市場空間將分別高達(dá)1236億、2937億、5208億元。

這是DeepSeek“破圈”的衍生效應(yīng)——大模型應(yīng)用門檻的降低讓更多中小客戶能親身體驗最新的科技成果,嘗試將業(yè)務(wù)與AI相結(jié)合的各種可能性,算力需求的爆發(fā)也就順理成章。從近段時間的市場反饋來看,注重AI私有化部署的政企客戶明顯加快了行動步伐,很多傳統(tǒng)行業(yè)也成為AI的擁躉。
需求“下沉”帶來的市場增量固然可喜,但由于中小客戶通常缺乏專業(yè)的技術(shù)團隊和豐富的部署經(jīng)驗,其對服務(wù)器的易用性和部署簡便性要求頗高,希望廠商能提供“開箱即用”的解決方案,并在低成本、高性能、易運維之間找到最佳平衡點——多機部署顯然不是最優(yōu)解,能兼顧客戶多元需求且性價比較高的單機部署模式更受青睞。
從某種意義上講,DeepSeek R1 671B模型是單機部署模式的試金石。一些低配版的一體機想以蒸餾模型“取巧”,而最終還是會被覺醒的客戶拋棄。作為全參數(shù)基礎(chǔ)大模型,DeepSeek R1 671B具有更強的泛化能力和更好的上下文理解能力,但也對系統(tǒng)容量、帶寬和延遲等指標(biāo)提出更高要求,能經(jīng)受住考驗的單機解決方案才有望贏得客戶認(rèn)可。
針對671B模型的算力特征和系統(tǒng)需求,元腦R1推理服務(wù)器知難而上,單機能支持滿血版模型的多元訴求,以領(lǐng)先的顯存容量、顯存帶寬和通信速度,助力企業(yè)高效完成DeepSeek全參數(shù)模型的本地化部署。其中,元腦R1推理服務(wù)器NF5688G7原生搭載FP8計算引擎,針對671B模型部署速度快且無精度損失;NF5868G8則在業(yè)界首次實現(xiàn)單機支持16張標(biāo)準(zhǔn)PCIe雙寬卡,顯存容量高達(dá)1536GB,并創(chuàng)新研發(fā)基于PCIe Fabric的16卡全互連拓?fù)?,任意兩卡P2P通信帶寬可達(dá)128GB/s,降低通信延遲超60%,相較傳統(tǒng)2機8卡PCIe機型,將671B模型推理性能提升近40%。

值得關(guān)注的是,雖然NVLink等高速互連技術(shù)在訓(xùn)練場景中廣受認(rèn)可,但PCIe等通用接口在推理場景中也表現(xiàn)出低延遲等優(yōu)勢,元腦R1推理服務(wù)器找到了一條更包容、開闊的進化路徑。伴隨推理場景的日趨豐富,兼容多元算力和復(fù)雜技術(shù)變得愈發(fā)重要,元腦R1推理服務(wù)器的探索值得借鑒。
以軟硬協(xié)同、平臺催化加速AI全面落地
站在更長遠(yuǎn)的視角,推理服務(wù)器肩負(fù)著驅(qū)動大模型落地和AI應(yīng)用爆發(fā)的艱巨使命,必須通過軟硬協(xié)同、平臺催化的方式掃除征途中的所有障礙,為千行百業(yè)的智能涌現(xiàn)鋪平道路。
令人欣喜的是,率先突圍的推理服務(wù)器仍在不斷拓展自身的能力邊界。近日,元腦R1服務(wù)器完成對開源框架SGLang最新版本的深度適配,成功實現(xiàn)單機高性能運行DeepSeek R1 671B模型時,單用戶解碼最高33 tokens/s及最大用戶并發(fā)超1000的優(yōu)異性能表現(xiàn)。

在一系列數(shù)據(jù)背后,體現(xiàn)了對用戶體驗的持續(xù)優(yōu)化。以單用戶解碼最高33 tokens/s為例:首字響應(yīng)時間控制在1~1.4秒?yún)^(qū)間符合用戶心理預(yù)期,每秒生成18-20tokens可滿足其正常閱讀需求,33tokens/s則能為用戶帶來更即時的內(nèi)容反饋體驗。這是硬件調(diào)優(yōu)、算子優(yōu)化、混合并行、多token預(yù)測等技術(shù)“軟硬協(xié)同”的重大突破,使客戶單機即可達(dá)成預(yù)期目標(biāo),在節(jié)省采購和部署成本的同時也降低了運維難度。
對企業(yè)客戶而言,部署AI大模型只是業(yè)務(wù)創(chuàng)新的起點,其還需將公司數(shù)據(jù)與大模型深度結(jié)合,構(gòu)建準(zhǔn)確率高、安全穩(wěn)定的專屬智能應(yīng)用,進而實現(xiàn)真正的智能化躍遷。據(jù)了解,浪潮信息元腦企智EPAI企業(yè)大模型開發(fā)平臺已全面適配DeepSeek大模型,實測數(shù)據(jù)顯示,DeepSeek在元腦企智EPAI上開發(fā)的企業(yè)應(yīng)用回答準(zhǔn)確率高達(dá)95%,為化解AI落地“最后一公里”難題樹立了新標(biāo)桿。
算力、算法、數(shù)據(jù)是人工智能產(chǎn)業(yè)的三大基石,打通其間的屏障,實現(xiàn)各環(huán)節(jié)貫通,無疑將加速AI普惠的進程。從這個意義上講,元腦R1服務(wù)器的成功并非偶然——浪潮信息以算力為根基,在算法、數(shù)據(jù)等層面也開拓進取,為推理服務(wù)器的健康成長培植出肥沃的土壤。這里草長鶯飛,未來繁花似錦。
作者關(guān)健,《IT創(chuàng)事記》合伙人、主筆:曾任《電腦商報》常務(wù)副社長兼執(zhí)行總編、《中國計算機報》助理總編,媒體從業(yè)時間超過10年。
關(guān)健長期關(guān)注科技產(chǎn)業(yè)動態(tài)及趨勢,與逾百位高科技公司領(lǐng)導(dǎo)者進行過對話,亦在眾多科技會議與論壇中擔(dān)任嘉賓主持。

—— 越看越精彩 ——
【IT創(chuàng)事記】聚焦于企業(yè)級科技生態(tài)、策略及商業(yè)知識。你可以在各主流媒體平臺看到IT創(chuàng)事記的同名文字專欄和【IT創(chuàng)事記·短視頻】專欄。如果你有相應(yīng)的內(nèi)容希望分享,記得在公眾號留言告訴我們。
熱門跟貼