
多年以后,當我們看到AIDC里的服務(wù)器都不再是往昔的模樣,也許會想起2023年初的一次會面。那時,一家互聯(lián)網(wǎng)大客戶與服務(wù)器廠商的例行交流,扇動了“蝴蝶的翅膀”,一場波瀾壯闊的通用服務(wù)器變革由此拉開帷幕。

與炙手可熱的AI服務(wù)器相比,通用服務(wù)器看上去不溫不火,但實際上正暗流涌動——AIGC的爆發(fā)推動云計算業(yè)務(wù)回暖和企業(yè)數(shù)字化轉(zhuǎn)型加速,應(yīng)用場景的多元化帶來算力需求的差異化,客戶希望廠商能快速上線匹配不同場景的通用服務(wù)器產(chǎn)品,以應(yīng)對紛繁復(fù)雜的挑戰(zhàn)。
舉個例子:在容器化場景,客戶傾向于采用輕量化的服務(wù)器;而在高性能計算場景,客戶則更想使用配置多核心、高主頻CPU的服務(wù)器。伴隨業(yè)務(wù)創(chuàng)新的節(jié)奏越來越快,客戶當然期望能在更短時間內(nèi)完成服務(wù)器的迭代升級,并在不同場景間絲滑轉(zhuǎn)換。
這似乎是不可能完成的任務(wù)。在摩爾定律主導IT產(chǎn)業(yè)的幾十年時間里,“18個月”的換代速度似乎難以撼動,但云計算和人工智能的協(xié)同發(fā)力,使客戶對先進算力產(chǎn)生迫切需求,為打破既有游戲規(guī)則提供了契機,整個產(chǎn)業(yè)迎來產(chǎn)品架構(gòu)乃至產(chǎn)業(yè)鏈生態(tài)重塑的歷史性機遇。
正是在這樣的背景下,凝聚算力產(chǎn)業(yè)上中下游共識的國內(nèi)首個服務(wù)器計算模組設(shè)計標準規(guī)范OCM(Open Computing Module)于2024年應(yīng)運而生,旨在建立以處理器、內(nèi)存為核心的標準化算力模組單元,推動x86、ARM等不同架構(gòu)處理器兼容,真正讓不同算力共享統(tǒng)一平臺。

作為國內(nèi)服務(wù)器市場的翹楚,浪潮信息是OCM的首批成員,并第一個交出了OCM產(chǎn)品化的答卷——首款基于OCM的NF3290G8服務(wù)器正式面世,實現(xiàn)處理器算力模組部件化,有助于降低創(chuàng)新試錯和推廣適配成本,研發(fā)周期縮短至6~8個月,為快速匹配多元場景創(chuàng)造必要條件。
尋找“普羅米修斯火種”:重新定義服務(wù)器算力單元
猶如普羅米修斯為人類帶來了火種,CPU的部件化堪稱打造嶄新算力單元的“新火種”,模塊化解耦則是讓OCM夢想成真的具體路徑?;贠CM架構(gòu)的NF3290G8能同時支持Intel和AMD最新處理器,短時間內(nèi)完成產(chǎn)品化蛻變,離不開對模塊化解耦的積極探索。
來自物理層面的挑戰(zhàn)首當其沖。 為了實現(xiàn)多樣化場景的適配,主板、電源、風扇、BMC管理等不同模塊必須解耦,進行靈活組合,而這意味著主板布局將發(fā)生顛覆性的改變。根據(jù)測算,要把原來單路設(shè)計的計算主板面積從405mm×274mm減少到310mm×210mm,給其他模塊的創(chuàng)新布局騰出空間。在面積銳減41%的情況下,浪潮信息研發(fā)團隊率先設(shè)計出立體豎插形式的BMC管理板,不僅為NF3290G8機箱的硬盤存儲以及IO擴展提供更多靈活配置的空間,還兼容2塊計算板并排放置。
近乎極限的物理空間,也給電源設(shè)計(尤其是電壓轉(zhuǎn)化)帶來挑戰(zhàn)。 由于Intel和AMD芯片內(nèi)部核心數(shù)眾多,不同芯片功能區(qū)需要多達15組電壓的轉(zhuǎn)化,從0.9V到12V,恰似一條條溪水在不同山脈間攀爬流動,每一處變化均需精確調(diào)控。當計算主板的“地形”面積顯著縮小,把控高低起伏的變化就尤為困難。浪潮信息研發(fā)團隊使用分布式VR和集成式VR組合的設(shè)計,實現(xiàn)電壓高效轉(zhuǎn)化,并不斷優(yōu)化電源走線方向,既節(jié)約空間又增強電流信號的可靠性。同時,為了讓電流更加穩(wěn)定,研發(fā)團隊還對供電路徑進行優(yōu)化,解決了電源線路在極限空間的串擾問題。
“螺螄殼里做道場”固然難能可貴,但化解“雞同鴨講”的邏輯層面難題尤需智慧。 新的計算模組要支持不同類型芯片,而各個芯片的針腳數(shù)、互聯(lián)、協(xié)議、PIN、系統(tǒng)架構(gòu)差異明顯,想徹底打通屏障殊非易事。浪潮信息SI研發(fā)專家借助阻抗歸一化設(shè)計,保障互連通道的阻抗連續(xù)性及一致性,并針對各板卡系統(tǒng)間插入損耗等參數(shù)進行標準化設(shè)計,降低各模塊互連的風險,最終實現(xiàn)不同處理器共享統(tǒng)一對外接口的目標,且能兼容下一代PCIe6.0速率要求。

在歸一化的實踐道路上,管理協(xié)議歸一化的難度系數(shù)頗高。 以讀取CPU溫度為例:由于Intel和AMD分別使用PECI、APML協(xié)議,為實現(xiàn)一機多芯,服務(wù)器需要有個“翻譯本”幫忙。NF3290G8采用浪潮信息InBry開放固件管理平臺,能兼容適配不同協(xié)議,并根據(jù)配置要求按需加載。BMC固件會在編譯時自動切換不同處理器平臺的開關(guān),并將交互協(xié)議驅(qū)動編入codebase鏡像中。驅(qū)動層拿到溫度等信息后,硬件適配層會將信息統(tǒng)一抽象編碼,供上層程序調(diào)用,協(xié)議互通由此達成。
OCM產(chǎn)品化的“阿克琉斯之踵”與“雅典娜之盾”
當Intel和AMD在OCM算力模組中達成“世紀和解”,“一機多芯”的夢想開始照進現(xiàn)實。但不容回避的是,在攻克最大難題之后,OCM的產(chǎn)品化進程也并非一馬平川,全新的挑戰(zhàn)接踵而來。
在不同模塊和零部件重新組合、兼容多代最新CPU與GPU的前提下,散熱很可能成為OCM服務(wù)器的“阿克琉斯之踵”,構(gòu)建系統(tǒng)化、精細化的散熱路徑迫在眉睫。特別是針對各個高熱密度區(qū),需要在有限的空間內(nèi)找到統(tǒng)一解決方案,更加考驗散熱方案模塊化設(shè)計的靈活性和普適性。
直面上述痛點,浪潮信息散熱工程師設(shè)計出一種高效的EVAC散熱器,基于機箱結(jié)構(gòu)限制和散熱仿真測試打造散熱器主體以及遠端散熱鰭片,滿足不同芯片多樣化的散熱需求,并結(jié)合分區(qū)散熱技術(shù)對每個瓶頸點進行優(yōu)化。例如:將實時風扇轉(zhuǎn)速權(quán)重動態(tài)配比和多路徑風道技術(shù)相結(jié)合,有效降低BF3卡、DPU卡等模塊的散熱功耗,并通過3D局部發(fā)熱點監(jiān)控與策略優(yōu)化,即時調(diào)整風流資源分配,從而整體上提升散熱效率。
尤值一提的是,NF3290G8的內(nèi)部功耗監(jiān)控可精確采集硬盤、GPU、DPU等部件的用電分布,基于按需配電策略顯著降低功率浪費,再結(jié)合新材料和液冷等創(chuàng)新設(shè)計改善散熱性能,為OCM產(chǎn)品化落地掃清隱患。
除了要規(guī)避“阿克琉斯之踵”,基于OCM架構(gòu)的新一代通用服務(wù)器還必須擁有攻守兼?zhèn)涞摹把诺淠戎堋薄?/strong> 在大模型訓練與推理加速滲透的背景下,智能化管理即可扮演這樣的角色,一方面通過故障預(yù)警構(gòu)筑服務(wù)器的安全底線,另一方面借助多樣化手段促進AI場景化落地。

作為OCM架構(gòu)服務(wù)器的開路先鋒,NF3290G8對內(nèi)存、硬盤、風扇、電源的故障預(yù)警定位和管理進行全方位的智能化升級。 在智能預(yù)警方面,其基于對上萬臺服務(wù)器故障數(shù)據(jù)的建模分析和算法訓練,實現(xiàn)內(nèi)存故障提前預(yù)警、錯誤實時隔離及故障智能修復(fù),降低內(nèi)存導致宕機故障率80%;在智能管理方面,通過RTOS實時操作系統(tǒng),達成開機3秒內(nèi)智能管理調(diào)控風扇轉(zhuǎn)速,降低30%噪音且利于散熱——這是“雅典娜之盾”對“阿克琉斯之踵”的Call back,也解除了通用服務(wù)器全面躍遷的后顧之憂。
OCM持續(xù)進化的嶄新起點與遠大前程
不難看出,開創(chuàng)先河的NF3290G8不僅為OCM規(guī)范的落地樹立了頗具借鑒意義的標桿,而且突破性地實現(xiàn)核心CPU的兼容替換,大幅縮短通用服務(wù)器的迭代周期,為互聯(lián)網(wǎng)、金融、通信、能源、交通等行業(yè)用戶逐浪AI新時代提供了強勁支撐。
浪潮信息服務(wù)器產(chǎn)品線產(chǎn)品規(guī)劃經(jīng)理羅劍認為,這只是OCM漫長征途的新起點,前方還有更高的山峰需要跨越。比如:以O(shè)CM算力模組為牽引,向雙路、四路彈性擴展,為下一代元腦服務(wù)器開疆擴土奠定根基;同時,將OCM的兼容范疇拓展至X86以外的領(lǐng)域,為打造異構(gòu)芯片新生態(tài)添薪加柴。
站在更長遠的視角,構(gòu)建原生液冷OCM新標準,推進處理器與內(nèi)存完全解耦,也許是更具顛覆性的進化方向。 目前,在兩U服務(wù)器中,做到500~600瓦的CPU風冷散熱基本上已是業(yè)界極限,但未來滿足AI需求的服務(wù)器功耗可能高達3000瓦以上——用兩到三年時間,聚合液冷產(chǎn)業(yè)鏈打造OCM新標準勢在必行。此外,打破既有的“內(nèi)存墻”,深耕內(nèi)存資源池化技術(shù),實現(xiàn)處理器與內(nèi)存完全解耦,也是OCM更上層樓的可行路徑。
如果穿越到N年后,AIDC中的服務(wù)器可能是這樣的:在高密部署的環(huán)境中,大量OCM模塊占據(jù)整機柜的主要空間,解耦后的內(nèi)存則平鋪在主板的正面和背面,而原生式液冷設(shè)計悄然帶走整機熱量。如此“魔幻”的場景也許并不遙遠,高算力、低功耗的數(shù)智新世界值得期待。
作者關(guān)健,《IT創(chuàng)事記》合伙人、主筆:曾任《電腦商報》常務(wù)副社長兼執(zhí)行總編、《中國計算機報》助理總編,媒體從業(yè)時間超過10年。
關(guān)健長期關(guān)注科技產(chǎn)業(yè)動態(tài)及趨勢,與逾百位高科技公司領(lǐng)導者進行過對話,亦在眾多科技會議與論壇中擔任嘉賓主持。

—— 越看越精彩 ——
【IT創(chuàng)事記】聚焦于企業(yè)級科技生態(tài)、策略及商業(yè)知識。你可以在各主流媒體平臺看到IT創(chuàng)事記的同名文字專欄和【IT創(chuàng)事記·短視頻】專欄。如果你有相應(yīng)的內(nèi)容希望分享,記得在公眾號留言告訴我們。
熱門跟貼