通信世界網(wǎng)消息(CWW)大模型時(shí)代對(duì)算力的需求永無(wú)止境,大規(guī)模智算中心建設(shè)如火如荼。人工智能技術(shù)在各領(lǐng)域應(yīng)用的快速發(fā)展,以及Sora、Gemini1.5 Pro的面世,將進(jìn)一步提高算力基礎(chǔ)設(shè)施的建設(shè)要求,激活算力技術(shù)的不斷創(chuàng)新和迭代升級(jí)。如今,算力市場(chǎng)已形成龐大的生態(tài)系統(tǒng),涵蓋CPU、GPU、DPU、FPGA等專用芯片,各種形態(tài)的交換機(jī)、光模塊/線纜等連接介質(zhì),以及各服務(wù)提供商交付的算力運(yùn)營(yíng)、算力調(diào)度、算法交易平臺(tái)等。對(duì)企業(yè)而言,如何博各家之所長(zhǎng),構(gòu)建出多元融合的智算體系,是贏得未來(lái)競(jìng)爭(zhēng)、享受智算紅利的關(guān)鍵所在。

異構(gòu)算力網(wǎng)絡(luò)成為“必選項(xiàng)”

隨著智算熱度持續(xù)提升,以AI為核心的算力需求激增。為實(shí)現(xiàn)計(jì)算效力最大化,多元異構(gòu)算力將成為必然趨勢(shì)。異構(gòu)算力體系可以充分發(fā)揮各種計(jì)算設(shè)備的優(yōu)勢(shì),為客戶提高智算效率、降低采購(gòu)成本、提升系統(tǒng)安全性。但在實(shí)際應(yīng)用中,大多數(shù)客戶對(duì)于智算場(chǎng)景都是初次接觸,并不像傳統(tǒng)ICT基礎(chǔ)設(shè)施建設(shè)那樣可以輕車熟路地進(jìn)行規(guī)劃、采購(gòu)、部署。因此,解決異構(gòu)組件間的互聯(lián)問(wèn)題,是打通整體方案的重要前提,那么網(wǎng)絡(luò)是否做好了承擔(dān)重任的技術(shù)儲(chǔ)備?

用網(wǎng)絡(luò)打通異構(gòu)算力的關(guān)鍵能力要求

通過(guò)數(shù)十年信息技術(shù)的發(fā)展,以太網(wǎng)具備拉通和兼容多種不同終端的能力,這一點(diǎn)已經(jīng)被充分驗(yàn)證。面對(duì)智算的異構(gòu)需求,以太網(wǎng)一方面需在網(wǎng)絡(luò)側(cè)解決端口密度、設(shè)備形態(tài)、通道標(biāo)準(zhǔn)、傳輸介質(zhì)的擴(kuò)展性和兼容性;另一方面需在計(jì)算側(cè)篩選AI服務(wù)器網(wǎng)卡規(guī)格,為智算業(yè)務(wù)提供高性能算力,這種“多元可靠聯(lián)接”的能力正是打通異構(gòu)算力所需要的。

在高性能網(wǎng)絡(luò)領(lǐng)域,無(wú)損以太網(wǎng)(RoCE)是一個(gè)快速普及且被大眾認(rèn)可的技術(shù),其在成本、未來(lái)演進(jìn)和生態(tài)豐富度上具備天然優(yōu)勢(shì)。當(dāng)RoCE發(fā)展到智算網(wǎng)絡(luò)時(shí)代,連接非智能網(wǎng)卡、智能網(wǎng)卡、可編程智能網(wǎng)卡等不同能力的網(wǎng)卡時(shí),以“場(chǎng)景化網(wǎng)絡(luò)調(diào)優(yōu)”的模式解決Hash極化問(wèn)題,降低網(wǎng)絡(luò)擁堵風(fēng)險(xiǎn),成為構(gòu)建智算網(wǎng)絡(luò)無(wú)損能力的關(guān)鍵。

此外,智算網(wǎng)絡(luò)如果脫離了與算力的聯(lián)動(dòng),那就是孤立、被動(dòng)的,為確保智算業(yè)務(wù)平穩(wěn)有序地發(fā)展,網(wǎng)絡(luò)必須與算力調(diào)度平臺(tái)聯(lián)動(dòng)起來(lái)。而國(guó)內(nèi)大多數(shù)算力廠商沒(méi)有配套的網(wǎng)絡(luò)設(shè)備和平臺(tái),因此,想用網(wǎng)絡(luò)打通異構(gòu)算力,則必須具備與多家廠商的CCL(集合通信庫(kù))的兼容對(duì)接能力,將算力需求轉(zhuǎn)譯為網(wǎng)絡(luò)配置,也就是所謂的“異構(gòu)算網(wǎng)聯(lián)動(dòng)”。

綜上所述,要打通異構(gòu)算力之間的高速網(wǎng)絡(luò)通道,必須具備“多元可靠聯(lián)接、場(chǎng)景化網(wǎng)絡(luò)調(diào)優(yōu)、異構(gòu)算網(wǎng)聯(lián)動(dòng)”三大關(guān)鍵能力,這也是算力產(chǎn)業(yè)實(shí)現(xiàn)創(chuàng)新發(fā)展的重中之重。

聚焦異構(gòu)算力組網(wǎng)痛點(diǎn),新華三持續(xù)賦能智算新時(shí)代

作為數(shù)字化解決方案領(lǐng)導(dǎo)者,新華三集團(tuán)始終致力于成為客戶業(yè)務(wù)創(chuàng)新、數(shù)字化轉(zhuǎn)型值得信賴的合作伙伴。面對(duì)網(wǎng)算之間互相協(xié)同推進(jìn)的發(fā)展態(tài)勢(shì),新華三在“多元可靠聯(lián)接、場(chǎng)景化網(wǎng)絡(luò)調(diào)優(yōu)、異構(gòu)算網(wǎng)聯(lián)動(dòng)”等方面加速突破,積極探索打通異構(gòu)算力的開(kāi)放網(wǎng)絡(luò)。

●多元可靠聯(lián)接

新華三集團(tuán)進(jìn)行了豐富的智算產(chǎn)品布局,提供了開(kāi)放性、兼容性、擴(kuò)展性、穩(wěn)定性極強(qiáng)的網(wǎng)絡(luò)環(huán)境和端到端異構(gòu)連接保障,全方位滿足了客戶需求。

新華三長(zhǎng)期致力于推動(dòng)國(guó)內(nèi)高速網(wǎng)絡(luò)技術(shù)的發(fā)展,在100G/400G/800G產(chǎn)品的面世時(shí)間上都處于國(guó)內(nèi)乃至業(yè)界領(lǐng)先地位。在智算場(chǎng)景下,新華三的產(chǎn)品布局也是業(yè)內(nèi)最豐富的。從產(chǎn)品形態(tài)上看,新華三可提供從100G到800G多種形態(tài)的框式、盒式產(chǎn)品,端口密度覆蓋完善,能夠滿足不同規(guī)模智算客戶的組網(wǎng)需求。從1K GPU到512K GPU的場(chǎng)景下,客戶可以平滑地選用新華三的單框、盒盒、框盒、三層盒盒等不同的組網(wǎng)架構(gòu),實(shí)現(xiàn)成本與規(guī)模的最優(yōu)匹配。

從綠色節(jié)能角度來(lái)看,新華三產(chǎn)品可同時(shí)支持LPO和液冷技術(shù),LPO技術(shù)是指通過(guò)設(shè)備內(nèi)部的信號(hào)穩(wěn)定器件和設(shè)計(jì),替代光模塊中的DSP芯片,降低DSP帶來(lái)的功耗和時(shí)延,亦可規(guī)避DSP芯片的供應(yīng)風(fēng)險(xiǎn)。而液冷技術(shù)可將關(guān)鍵芯片產(chǎn)生的大量熱量通過(guò)液冷帶出設(shè)備,配套的風(fēng)扇僅用于其他非關(guān)鍵器件的散熱,轉(zhuǎn)速和耗電都將大幅降低。

此外,新華三擁有業(yè)界最開(kāi)放的生態(tài)合作環(huán)境,各條產(chǎn)品線都采用了多家合作伙伴的交付件,包括GPU、網(wǎng)卡、光模塊、交換芯片,由此也為新華三帶來(lái)了天然優(yōu)勢(shì)——能夠代替客戶驗(yàn)證異構(gòu)算力環(huán)境的兼容性。對(duì)客戶而言,選擇異構(gòu)方案最大的阻力來(lái)源于實(shí)施效果,能否互聯(lián)互通,以及互通后的性能、可靠性是否能支撐業(yè)務(wù)需求,這是實(shí)際存在的風(fēng)險(xiǎn)。而新華三的能力就是利用自身的生態(tài)優(yōu)勢(shì),為客戶提供端到端的異構(gòu)連接保障,確??蛻魪男氯A三驗(yàn)證過(guò)的交付件庫(kù)中選擇GPU、網(wǎng)卡、模塊、交換機(jī),即可在實(shí)際場(chǎng)景中放心互聯(lián)。

為此,新華三還設(shè)計(jì)了一套《智算網(wǎng)絡(luò)異構(gòu)連通專項(xiàng)測(cè)試》標(biāo)準(zhǔn),專門用于驗(yàn)證不同智算組件之間的互通性,豐富的測(cè)試?yán)采w了如下驗(yàn)證能力(如圖1所示)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖1測(cè)試?yán)采w的驗(yàn)證能力

●場(chǎng)景化網(wǎng)絡(luò)調(diào)優(yōu)

在“場(chǎng)景化網(wǎng)絡(luò)調(diào)優(yōu)”方面,新華三集團(tuán)通過(guò)端口對(duì)稱Hash技術(shù)LBN、動(dòng)態(tài)負(fù)載均衡技術(shù)DLB(如圖2所示)、鏈路噴灑技術(shù)SprayLink、全局負(fù)載均衡技術(shù)FGLB等滿足了客戶不同智算場(chǎng)景的技術(shù)需求,實(shí)現(xiàn)了數(shù)據(jù)中心超高帶寬利用率的無(wú)阻塞轉(zhuǎn)發(fā)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖2動(dòng)態(tài)負(fù)載均衡技術(shù)DLB示意

以“端口對(duì)稱Hash技術(shù)LBN”為例,對(duì)于智算網(wǎng)絡(luò)中的每一臺(tái)設(shè)備而言,網(wǎng)絡(luò)調(diào)優(yōu)的最終目標(biāo),就是下行端口接收的流量,能夠確保通過(guò)上行帶寬資源轉(zhuǎn)發(fā)出去。實(shí)現(xiàn)這個(gè)目標(biāo)最簡(jiǎn)單的方式是為每一個(gè)下行口指定一個(gè)同速率的上行口,其他下行口的流量不能從該上行口轉(zhuǎn)發(fā),形成獨(dú)占的上行資源,這項(xiàng)技術(shù)即為L(zhǎng)BN(如圖3所示)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖3 LBN技術(shù)示意

當(dāng)網(wǎng)絡(luò)和業(yè)務(wù)規(guī)模超出LBN可覆蓋的能力時(shí),需要通過(guò)“引入新變量”和“分割單一流”解決Hash極化問(wèn)題。所謂“引入新變量”,即為在Hash過(guò)程中引入出端口負(fù)載情況(隊(duì)列長(zhǎng)度),提升隊(duì)列更短的出端口優(yōu)先級(jí),就可以將流量更多地分?jǐn)偟娇臻e端口上;所謂“分割單一流”,即為在出端口Hash時(shí),針對(duì)子流做Hash,引入當(dāng)前出端口的負(fù)載,便可以將不同時(shí)間段到達(dá)的子流Hash到當(dāng)前最空閑的端口發(fā)送。

當(dāng)一條大流連續(xù)到達(dá)交換機(jī)的時(shí)候,“鏈路噴灑技術(shù)SprayLink”(如圖4所示)的價(jià)值便得到了彰顯。SprayLink通過(guò)實(shí)時(shí)監(jiān)控LACP/ECMP中各物理鏈路的帶寬利用率、出口隊(duì)列、緩存占用、傳輸時(shí)延等精細(xì)化數(shù)據(jù),對(duì)大流做到基于Per-Packet(逐包)方式的動(dòng)態(tài)負(fù)載均衡,將每個(gè)數(shù)據(jù)包分配到當(dāng)時(shí)資源最優(yōu)的鏈路上。通過(guò)實(shí)測(cè),采用SprayLink可以使多條鏈路的總帶寬利用率達(dá)到95%以上,比傳統(tǒng)H a s h方法提升明顯。但是SprayLink存在流量到達(dá)接收端的亂序問(wèn)題,需要接收端的網(wǎng)卡支持亂序重排技術(shù)才能匹配。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖4鏈路噴灑技術(shù)SprayLink示意

上述幾種負(fù)載均衡技術(shù),看似已完整覆蓋了所有場(chǎng)景,但其只能根據(jù)設(shè)備本地的負(fù)載情況進(jìn)行選擇,對(duì)于發(fā)出的數(shù)據(jù)在剩余路徑上的傳輸質(zhì)量,則沒(méi)有判斷依據(jù)。而新華三的全局負(fù)載均衡技術(shù)FGLB(如圖5所示),能夠讓每臺(tái)設(shè)備都擁有全局視角,了解自己接口的下一跳,乃至下一跳到再下一跳的鏈路負(fù)載情況,來(lái)輔助決策本地的負(fù)載結(jié)果。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖5全局負(fù)載均衡技術(shù)FGLB示意

眾所周知,實(shí)現(xiàn)全場(chǎng)景網(wǎng)絡(luò)調(diào)優(yōu)是企業(yè)提升鏈路效能的關(guān)鍵,新華三依托其領(lǐng)先的負(fù)載均衡技術(shù),通過(guò)豐富的現(xiàn)網(wǎng)實(shí)踐,總結(jié)出了以下場(chǎng)景化匹配應(yīng)用建議(如圖6所示)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖6場(chǎng)景化匹配應(yīng)用

●異構(gòu)算網(wǎng)聯(lián)動(dòng)

在“異構(gòu)算網(wǎng)聯(lián)動(dòng)”方面,新華三在“調(diào)整網(wǎng)卡QP能力與網(wǎng)絡(luò)聯(lián)動(dòng)”“算網(wǎng)主動(dòng)選路與路徑仿真技術(shù)”兩大方面進(jìn)行了實(shí)踐探索。

關(guān)于“調(diào)整網(wǎng)卡QP能力與網(wǎng)絡(luò)聯(lián)動(dòng)”(如圖7所示),新華三通過(guò)識(shí)別不同網(wǎng)卡的樣本能力(QP規(guī)格),結(jié)合當(dāng)前網(wǎng)絡(luò)可用路徑數(shù)量和帶寬的資源,以及自研的算法,提供了一種端到端的負(fù)載優(yōu)化機(jī)制。當(dāng)訓(xùn)練任務(wù)開(kāi)始時(shí),兩張網(wǎng)卡之間建立數(shù)據(jù)連接,在AI服務(wù)器內(nèi)部的agent就將報(bào)文特征等信息傳遞到控制器,同時(shí)控制器根據(jù)當(dāng)前網(wǎng)絡(luò)的資源,設(shè)置網(wǎng)卡的QP規(guī)格,為一對(duì)Peer建立多對(duì)QP,解決路徑中設(shè)備Hash不均問(wèn)題。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖7調(diào)整網(wǎng)卡QP能力與網(wǎng)絡(luò)聯(lián)動(dòng)示意

關(guān)于“算網(wǎng)主動(dòng)選路與路徑仿真技術(shù)”(如圖8所示),新華三通過(guò)算網(wǎng)協(xié)同機(jī)制,實(shí)現(xiàn)了一種主動(dòng)選路的功能。當(dāng)一個(gè)CCL發(fā)起新的互通請(qǐng)求時(shí),新華三的網(wǎng)絡(luò)分析器會(huì)收集當(dāng)前所有鏈路流量負(fù)載情況,并根據(jù)自研的智能選路算法,選出對(duì)于該互通連接最高效的路徑,將配置下發(fā)到交換機(jī),實(shí)現(xiàn)按策略的轉(zhuǎn)發(fā),避免傳統(tǒng)路由協(xié)議選路條件粗放的問(wèn)題。同時(shí)新華三還提供路徑仿真能力,對(duì)于主動(dòng)選路效果,可以在分析器內(nèi)部通過(guò)NFV的形式進(jìn)行真實(shí)流量模擬,來(lái)驗(yàn)證策略下發(fā)效果,驗(yàn)證后再下發(fā)到真實(shí)設(shè)備上。

圖8算網(wǎng)主動(dòng)選路與路徑仿真技術(shù)示意

面向未來(lái),在算力爆發(fā)的時(shí)代,新華三集團(tuán)將始終秉承開(kāi)放共贏的理念,通過(guò)多元可靠聯(lián)接、場(chǎng)景化網(wǎng)絡(luò)調(diào)優(yōu)、異構(gòu)算網(wǎng)聯(lián)動(dòng)三大核心能力,解決客戶在異構(gòu)算力組網(wǎng)過(guò)程中遇到的各種問(wèn)題,與生態(tài)合作伙伴、行業(yè)客戶一起,打造繁榮、開(kāi)放的智算生態(tài)體系。