2025年的第一個季度,就這樣嗖地一下過完了~

作為算力圈的“老黃?!?,過去的一年,老丘生意可謂風(fēng)生水起。
可是轉(zhuǎn)過年來,老丘敏銳的感覺到:有點不對勁,生意明顯少多了。

這個不對勁的源頭,其實就是DeepSeek。
過去兩年,國內(nèi)各種大模型百花齊放,訓(xùn)練需求激增,大巨頭、小獨角、傳統(tǒng)IT大廠,甚至行業(yè)大甲方們,都想自己訓(xùn)練個模型出出風(fēng)頭。
所以,老丘的“賣鏟子”生意也很火。

可是,自從DeepSeek新春炸場以來,風(fēng)云突變,人們發(fā)現(xiàn)這市場上根本不需要那么多大模型,有兩三個好用的就夠了。
于是乎,很多大規(guī)模訓(xùn)練的需求,一夜之間退潮了,取而代之的大量的后訓(xùn)練和推理需求。

老丘很不幸成為這波退潮的“受害者”,他之前手里的那些智算中心,當(dāng)初建設(shè)的初衷都是打譜做預(yù)訓(xùn)練用的。
現(xiàn)在客戶上來就要推理,尤其還要看跑DeepSeek的效果,純搞訓(xùn)練不香了。

每次被客戶拷問,老丘都無言以對,眼看Q1就要結(jié)束了,也沒找到破局之道。
直到3月底,他去參加了一場會…
這場不同尋常的會,讓老丘的格局瞬間打開了。





這是一場怎樣的會議呢?
首先,舉辦的地點不尋常——
會議的舉辦地設(shè)在甘肅慶陽,瞬間就吊起了老丘的胃口。
下了車,老丘看到那一排排的數(shù)據(jù)中心機房和墻上那些熟悉的LOGO,就興奮起來了。

慶陽今非昔比,這里可是國家“東數(shù)西算”工程的八大樞紐節(jié)點之一。
作為“中國算谷”,慶陽的智算中心是如何應(yīng)對DeepSeek帶來的新需求?老丘覺的這肯定很值得借鑒。

第二、參觀的項目不尋常——
抵達的第一站,老丘要去參觀的是燧弘華創(chuàng)在慶陽樞紐的綠色智算中心。
要知道,燧弘華創(chuàng)是首家入駐慶陽的數(shù)據(jù)中心企業(yè),目前已經(jīng)投產(chǎn)2萬P高端算力,而且全部售罄。

老丘心里一邊羨慕著同行,一邊近距離觀摩拍照。

參觀過程中,老丘了解到,在智算中心的落地過程中,燧弘華創(chuàng)在技術(shù)研發(fā)層面深耕細作。
并與聯(lián)想?yún)f(xié)同創(chuàng)新,基于萬全異構(gòu)智算平臺,輸出融合、穩(wěn)定和高效的算力。
最終,大家的目光都被數(shù)據(jù)中心前廳的一組展示設(shè)備吸引,老丘也走過去圍觀。
原來這里展示的聯(lián)想為燧弘華創(chuàng)定制的,搭載了燧原國產(chǎn)算力卡的異構(gòu)智算服務(wù)器。

第三,會議的干貨不尋?!?/strong>
參觀結(jié)束,接下來進入干貨滿滿的會議階段。
以前開會,老丘就是捧個場,一落座就犯困。可這次,老丘是全程豎著耳朵從頭聽到尾,而且頻頻拍照。

聯(lián)想專家的分享,講到了老丘真正關(guān)注的兩大問題。
①如何優(yōu)化智算集群,滿足類似DeepSeek這樣“潑天”的推理需求。
②如何優(yōu)化智算一體機,滿足DeepSeek等大模型本地化部署的需求。
這兩方面,聯(lián)想都給出了深度實踐后的最佳答案。
▌第一,通過「聯(lián)想萬全異構(gòu)智算平臺」提升千卡、萬卡集群的可管理性和可伸縮性。
從而更加靈活地調(diào)度算力資源,滿足模型后訓(xùn)練、推理等業(yè)務(wù)對算力的新需求:突發(fā)性強、零散度高、彈性要求高。
同時,萬全異構(gòu)智算平臺支持豐富的GPU、AI加速卡生態(tài),通過“異構(gòu)”,可引入不同精度的算力,滿足當(dāng)下和未來推理場景對低精度算力的要求。
而且,萬全異構(gòu)智算平臺還支持智算、高性能計算異構(gòu),從而讓不同精度的算力都能最大化使用。

在現(xiàn)場,聯(lián)想專家還實操演示了燧弘華創(chuàng)基于萬全異構(gòu)智算平臺定制的管理平臺,142節(jié)點,1136張卡,納管、監(jiān)控、調(diào)度,一氣呵成。
老丘看罷直呼內(nèi)行,預(yù)訓(xùn)練時代大家為了秀肌肉,總喜歡整什么萬卡、十萬卡,現(xiàn)在到了推理時代,把千卡優(yōu)化好,效率最大化才是王道。

▌第二,用「混合精度量化」策略,提升推理速度。
其核心的原理就是:不是所有權(quán)重和激活都用同樣的精度,而是根據(jù)重要性使用不同的精度(FP16/BF16/FP8/INT8/INT4等)。
聯(lián)想可以根據(jù)不同模型的特點、智算中心算力卡的精度支持情況,為運營者制定一套推理效率最大化的量化策略。
簡單講就是在關(guān)鍵地方(離群點)保留高精度,在其他地方用低精度,配合圖結(jié)構(gòu)優(yōu)化和自動編譯工具,提升推理速度、減少算力消耗。
聯(lián)想給出了實測結(jié)果,經(jīng)過混合精度量化的DeepSeek 32B蒸餾模型,相比原模型吞吐提升近100%,端到端延遲降低50%,且模型性能近乎無損。

▌第三,通過「通信計算重疊」和「訪存優(yōu)化」,來提升算力利用率(MFU)。
通信計算重疊,就是在計算單元(CPU/GPU)執(zhí)行當(dāng)前任務(wù)的同時,后臺異步傳輸下一階段需要的數(shù)據(jù)(模型參數(shù)、中間結(jié)果等),讓通信和計算時間部分或完全重疊。
從而充分利用硬件并行能力,隱藏通信延遲,提升系統(tǒng)整體吞吐。
訪存優(yōu)化,尤其針對長序列場景,通過分塊計算和算子融合,就近緩存數(shù)據(jù),并采用按需重計算,顯著減少顯存開銷,降低通信延遲。
好比把大任務(wù)拆成小塊干,把常用的東西放手邊,不重要的結(jié)果就不存,等需要時再算,這樣能省很多空間,還能干活更快更流暢。
▌第四,通過「內(nèi)核態(tài)虛擬化」,精細化調(diào)度算力,并嚴格隔離故障。
聯(lián)想萬全異構(gòu)智算平臺,還提供了一項獨門絕技:內(nèi)核態(tài)虛擬化。
可實現(xiàn)顯存1MB粒度、算力1%精度隔離,虛擬化性能損失低于3%,并具備嚴格的故障隔離性。
這波操作,讓異構(gòu)智算平臺可以更細粒度地調(diào)度算力,滿足后DeepSeek時代大模型后訓(xùn)練和推理對算力小快靈的需求。
比如在會議現(xiàn)場,老丘就親眼目睹了聯(lián)想專家用單GPU運行100個模型任務(wù),效率跑滿,靈活性超強。

▌第五,通過極致優(yōu)化,提升DeepSeek一體機吞吐,滿足本地化部署需求。
在一體機層面,聯(lián)想也下足了功夫。
聯(lián)想專家現(xiàn)場演示,單機8卡運行滿血版DeepSeek R1,3000并發(fā)下,極限吞吐高達8000+ TPS。

更讓老丘佩服的一點在于,聯(lián)想的一體機測試,不僅限于展示并發(fā)和極限吞吐,還提供了與真實業(yè)務(wù)場景相匹配的模擬測試。
除了最通用的聊天會話場景,還包括了代碼生成、文檔翻譯、文檔解析、知識庫應(yīng)用等等,每種場景都給出了明確的指標。

就這樣,不管是智算集群優(yōu)化用于大規(guī)模運營,還是一體機優(yōu)化用于本地化部署,聯(lián)想都拿出了最優(yōu)解。
一天的會議下來,老丘徹底想明白接下來怎么玩了。
跟著聯(lián)想走,跟著萬全異構(gòu)智算的方案走,把自己手里的算力重新優(yōu)化,適配推理和后訓(xùn)練新需求……
2025,我又可以啦!
熱門跟貼