金磊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

現(xiàn)在,跑準(zhǔn)萬(wàn)億參數(shù)的大模型,可以徹底跟英偉達(dá)Say Goodbye了。

完成此舉的,正是華為!

打開(kāi)網(wǎng)易新聞 查看精彩圖片

技術(shù)報(bào)告:arxiv.org/abs/2505.04519

要知道,在此之前,訓(xùn)練萬(wàn)億參數(shù)大模型這事,是有諸多“攔路虎”在身上的。

例如負(fù)載均衡難、通信開(kāi)銷(xiāo)大、訓(xùn)練效率低等等。

而華為盤(pán)古團(tuán)隊(duì)(包含諾亞方舟實(shí)驗(yàn)室、華為云等)基于昇騰國(guó)產(chǎn)算力平臺(tái),一舉攻破了上述所有的挑戰(zhàn)——

6000+塊昇騰NPU集群上完成了7180億(718B)參數(shù)MoE模型的長(zhǎng)期穩(wěn)定訓(xùn)練,并通過(guò)多項(xiàng)突破性系統(tǒng)優(yōu)化技術(shù)實(shí)現(xiàn)了顯著性能提升。

這些創(chuàng)新大幅提高了訓(xùn)練效率,支撐了行業(yè)頂尖水平模型的開(kāi)發(fā)!

打開(kāi)網(wǎng)易新聞 查看精彩圖片

不得不說(shuō),“國(guó)產(chǎn)”二字在大模型硬件上的含金量還在持續(xù)上升。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

純國(guó)產(chǎn)NPU,絲滑跑通準(zhǔn)萬(wàn)億參數(shù)大模型

純國(guó)產(chǎn)NPU,絲滑跑通準(zhǔn)萬(wàn)億參數(shù)大模型

在拆解華為一系列“黑科技”之前,我們先需要更深入地了解一下訓(xùn)練超大參數(shù)MoE模型背后的困難。

總體來(lái)看,在這條路上有“四大金剛”在嚴(yán)陣把守。

首先就是架構(gòu)參數(shù)優(yōu)化難題,需在眾多參數(shù)組合中探索最優(yōu)配置,設(shè)計(jì)適配昇騰NPU的大規(guī)模MoE架構(gòu),實(shí)現(xiàn)計(jì)算資源的高效利用。

其次是動(dòng)態(tài)負(fù)載均衡挑戰(zhàn),路由機(jī)制需要智能分配任務(wù),避免專(zhuān)家資源分配不均;這種不平衡不僅會(huì)因“木桶效應(yīng)”降低訓(xùn)練效率,更可能導(dǎo)致模型收斂異常,影響最終性能表現(xiàn)。

還有分布式通信的瓶頸,在近萬(wàn)億參數(shù)規(guī)模下,token在不同計(jì)算節(jié)點(diǎn)間的專(zhuān)家流轉(zhuǎn)會(huì)產(chǎn)生巨大通信開(kāi)銷(xiāo),“通信墻”問(wèn)題成為制約訓(xùn)練效率的關(guān)鍵因素。

最后就是硬件適配復(fù)雜度,實(shí)現(xiàn)MoE算法與昇騰NPU等專(zhuān)用AI加速器的深度協(xié)同,需要打通算法設(shè)計(jì)、軟件框架和硬件特性的全棧優(yōu)化,充分釋放硬件計(jì)算潛力。

針對(duì)這些問(wèn)題,華為的這份技術(shù)報(bào)告分別從模型架構(gòu)、MoE訓(xùn)練分析、系統(tǒng)優(yōu)化等方面,詳細(xì)介紹了其如何見(jiàn)招拆招。

首先就是MoE結(jié)構(gòu)選型與昇騰親和結(jié)構(gòu)優(yōu)化

團(tuán)隊(duì)先進(jìn)行先導(dǎo)實(shí)驗(yàn),確定了細(xì)粒度專(zhuān)家加上共享專(zhuān)家這樣的范式。隨后在模型選型的時(shí)候,考慮了多個(gè)方面的因素。

在計(jì)算與訪存親和方面,通過(guò)增大模型里的hidden size(隱藏層大?。瑫r(shí)降低激活參數(shù)量,這樣不僅能提升模型的計(jì)算量,還可以降低訪存量,提高了模型訓(xùn)練時(shí)對(duì)算力的利用率,以及推理時(shí)的吞吐量。

在多維并行親和方面,采用數(shù)量為2的指數(shù)級(jí)的專(zhuān)家數(shù)量,達(dá)成了TP8×EP4超融合并行的方式。

運(yùn)用TP-extend-EP技術(shù),避免因 TP 切分細(xì)粒度專(zhuān)家造成MatMul(矩陣乘法)等算子的效率下降,同時(shí)使用分組 AllToAll 通信技術(shù)來(lái)減少 EP 通信所產(chǎn)生的開(kāi)銷(xiāo)。

在 DaVinci 架構(gòu)親和方面,將張量按照256進(jìn)行對(duì)齊處理,使其能完美匹配16×16矩陣計(jì)算單元,充分釋放昇騰NPU的算力。

在流水線編排親和方面,采用PP(流水線并行)、VPP(可變流水線并行)、空層等技術(shù),實(shí)現(xiàn)PP和VPP的負(fù)載均衡,減少計(jì)算資源閑置(空泡)的情況。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

模型結(jié)構(gòu)仿真方面,團(tuán)隊(duì)根據(jù)硬件的適配特點(diǎn),對(duì)模型參數(shù)的選擇范圍進(jìn)行了大幅調(diào)整,把原本龐大的參數(shù)搜索空間縮小到了10000個(gè)左右。

為了能更準(zhǔn)確地知道不同模型的性能極限,團(tuán)隊(duì)開(kāi)發(fā)了一套專(zhuān)門(mén)的建模仿真工具。這個(gè)工具很厲害,它把模型結(jié)構(gòu)、運(yùn)行時(shí)采用的策略,還有硬件系統(tǒng),都拆分成了一個(gè)個(gè)小的參數(shù)。

通過(guò)對(duì)算子、Block、Layer這些層級(jí)的計(jì)算、數(shù)據(jù)傳輸和讀取操作進(jìn)行模擬,就能算出模型從頭到尾的整體性能。經(jīng)過(guò)和實(shí)際測(cè)試數(shù)據(jù)對(duì)比,發(fā)現(xiàn)這個(gè)仿真工具的準(zhǔn)確率能達(dá)到85%以上。

團(tuán)隊(duì)用這個(gè)建模仿真工具,把所有符合硬件適配要求的參數(shù)組合都測(cè)試了一遍,仔細(xì)評(píng)估它們?cè)谟?xùn)練和推理時(shí)的數(shù)據(jù)處理速度,最后找到了性能相對(duì)更好的模型結(jié)構(gòu),具體情況可以看下面的圖。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

接下來(lái),我們?cè)倏聪?strong>MoE訓(xùn)練的分析

在訓(xùn)練MoE模型的時(shí)候,和普通的稠密模型相比,有個(gè)特別讓人頭疼的問(wèn)題,就是負(fù)載不均衡。

打個(gè)比方,就像一群人干活,有的人忙得不可開(kāi)交,有的人卻閑著沒(méi)事干,這樣效率肯定高不了。

為了解決這個(gè)問(wèn)題,科研界從算法角度想了很多辦法,提出了各種各樣的輔助損失函數(shù),這些函數(shù)關(guān)注的均衡范圍不太一樣。

比如,早期有專(zhuān)門(mén)針對(duì)序列級(jí)別的均衡輔助損失,還有通義千問(wèn)提出的DP - Group(也就是全局批次大小)均衡輔助損失。

這些輔助損失函數(shù),就像是給MoE模型里的路由模塊(負(fù)責(zé)分配任務(wù)的部分)定了規(guī)矩,通過(guò)不同程度的約束,讓它把任務(wù)分配得更均勻一些。具體的約束情況,都整理在下面的表格里了。

△Balance BSZ表示用來(lái)計(jì)算專(zhuān)家選擇頻率的tokens個(gè)數(shù)

打開(kāi)網(wǎng)易新聞 查看精彩圖片

團(tuán)隊(duì)還研發(fā)出了一種全新的EP組負(fù)載均衡損失算法

和傳統(tǒng)的micro-batch輔助損失相比,它不會(huì)過(guò)度強(qiáng)求局部任務(wù)分配的絕對(duì)均衡,避免了“矯枉過(guò)正”;跟DP組的均衡損失比起來(lái),它在數(shù)據(jù)傳輸時(shí)耗費(fèi)的資源更少,能節(jié)省不少通信成本。

而且在對(duì)專(zhuān)家任務(wù)量的約束程度上,它處于兩者之間,是個(gè)更折中的方案。

為了驗(yàn)證這個(gè)新算法的效果,團(tuán)隊(duì)在一個(gè)總參數(shù)量達(dá)200億(20B)的先導(dǎo)MoE模型上,專(zhuān)門(mén)做了消融實(shí)驗(yàn),具體情況如下:

打開(kāi)網(wǎng)易新聞 查看精彩圖片

為了應(yīng)對(duì)專(zhuān)家負(fù)載不均的“木桶效應(yīng)”,MoE可以采用drop-and-pad的方式來(lái)提升訓(xùn)練的吞吐。

團(tuán)隊(duì)首先在一個(gè)20B的先導(dǎo)MoE上對(duì)比了不同專(zhuān)家總數(shù)下drop-and-pad和dropless的性能:

打開(kāi)網(wǎng)易新聞 查看精彩圖片

結(jié)果顯示,dropless總是優(yōu)于drop-and-pad方案。

并且這種性能的差距會(huì)隨著專(zhuān)家數(shù)變多、模型參數(shù)變大而進(jìn)一步放大。

因此在訓(xùn)練盤(pán)古Ultra MoE時(shí)采用了dropless的方案,并重點(diǎn)優(yōu)化了這一策略下的訓(xùn)練效率。

具體而言,團(tuán)隊(duì)從四個(gè)關(guān)鍵方向?qū)ΡP(pán)古Ultra MoE 模型進(jìn)行了全面優(yōu)化,包括改進(jìn)并行計(jì)算策略、優(yōu)化數(shù)據(jù)傳輸效率、提升顯存使用效果,以及讓任務(wù)分配更均勻。

在由6000+個(gè)昇騰NPU組成的大型計(jì)算集群上,模型的算力利用率(MFU,即Model FLOPs Utilization)達(dá)到了30.0%,和優(yōu)化前相比,提升幅度高達(dá)58.7%。

團(tuán)隊(duì)用一套能模擬全流程的模型仿真系統(tǒng),反復(fù)試驗(yàn)尋找最佳的并行計(jì)算方案。

最終確定的方案是:采用16路流水線并行、8路張量并行、4路專(zhuān)家并行、2路虛擬流水線并行,以及48路數(shù)據(jù)并行。

在專(zhuān)家并行這塊,團(tuán)隊(duì)用了TP拓展EP的策略。

簡(jiǎn)單來(lái)說(shuō),就是讓TP組來(lái)劃分專(zhuān)家數(shù)量,這樣做能避免因?yàn)門(mén)P組拆分專(zhuān)家參數(shù),導(dǎo)致GMM算子在處理小規(guī)模專(zhuān)家數(shù)據(jù)時(shí)效率暴跌的問(wèn)題。

整個(gè)系統(tǒng)里,專(zhuān)家組總數(shù)是32組(TP 和 EP 組合計(jì)算得出),一共劃分成256個(gè)專(zhuān)家。

虛擬流水線并行策略效果特別好,以前訓(xùn)練時(shí),計(jì)算資源閑置(空泡率)的情況占18.98%,用了新策略后,直接降到10.49% 。

同時(shí),通過(guò)合理分配MTP層和損失函數(shù)層的任務(wù),把任務(wù)分配不均衡導(dǎo)致的負(fù)載溢出,控制在5%以內(nèi),大大減少了任務(wù)分配不均帶來(lái)的負(fù)面影響。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

為了解決并行擴(kuò)展中的通信瓶頸,團(tuán)隊(duì)還設(shè)計(jì)了兩個(gè)主要技術(shù)。

首先就是Hierarchical EP Communication分級(jí)EP通信

相比機(jī)內(nèi)通信,跨機(jī)通信帶寬較低。團(tuán)隊(duì)采用分級(jí)EP通信,減少跨機(jī)通信量。

具體來(lái)說(shuō),采用跨機(jī)Allgather 通信將所有tokens同步到機(jī)內(nèi),然后在機(jī)內(nèi)對(duì)token排序并采用機(jī)內(nèi)AlltoAll通信對(duì)tokens重新分配。

機(jī)內(nèi)通信和機(jī)間通信都可以通過(guò)前反向通信掩蓋技術(shù)掩蓋,從下圖的通信量對(duì)比可以看到分級(jí)EP通信對(duì)跨機(jī)通信量減少的效果。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

其次是Adaptive Pipe Overlap Mechanism自適應(yīng)前反向掩蓋策略

即使采用分級(jí)EP通信策略,EP通信的耗時(shí)占比仍然很高。前反向的大部分EP通信與計(jì)算均具有依賴(lài)關(guān)系,自然掩蓋策略會(huì)暴露大部分EP通信。

如果采用通算融合算子等自掩蓋策略,又不可避免地會(huì)降低計(jì)算效率。

因此,團(tuán)隊(duì)采用基于VPP調(diào)度的自適應(yīng)前反向掩蓋策略,實(shí)現(xiàn)如下圖流程的前向計(jì)算掩蓋反向通信,反向計(jì)算掩蓋前向通信。

核心設(shè)計(jì)包括:利用機(jī)間與機(jī)內(nèi)通信鏈路帶寬獨(dú)立特點(diǎn)實(shí)現(xiàn)機(jī)內(nèi)通信與機(jī)間通信的互相掩蓋,利用算子的有效排布緩解host bound,將專(zhuān)家反向dw計(jì)算與dx計(jì)算分離做更細(xì)粒度的掩蓋。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

對(duì)顯存進(jìn)行優(yōu)化時(shí),團(tuán)隊(duì)采用了新的計(jì)算方式。

不再使用傳統(tǒng)的全重計(jì)算,而是對(duì)細(xì)粒度模塊,像MLA、Permute和激活函數(shù)進(jìn)行重新計(jì)算,這樣能避免額外的計(jì)算消耗。

同時(shí),運(yùn)用Tensor Swapping技術(shù),把重新計(jì)算不太劃算的激活值,先轉(zhuǎn)移到CPU那邊,等需要反向計(jì)算時(shí)再提前取回來(lái),讓NPU內(nèi)存得到更高效的利用。

團(tuán)隊(duì)還在研究新的顯存節(jié)省方法,準(zhǔn)備把多種優(yōu)化策略組合起來(lái),根據(jù)不同的設(shè)備配置,找到最適合的組合,既能提高顯存利用率,又不會(huì)降低模型性能。

讓每臺(tái)設(shè)備上專(zhuān)家處理的任務(wù)量(token 數(shù)量)盡量均勻,能大幅提升訓(xùn)練效率。

為此,團(tuán)隊(duì)設(shè)計(jì)了一套動(dòng)態(tài)的設(shè)備級(jí)負(fù)載均衡機(jī)制。

首先,規(guī)劃器就像一個(gè)“小管家”,通過(guò)觀察一段時(shí)間內(nèi)專(zhuān)家的工作負(fù)載情況,預(yù)測(cè)未來(lái)的任務(wù)量,再用貪心算法規(guī)劃出如何重新分配專(zhuān)家,讓設(shè)備間的任務(wù)更均衡。

然后,執(zhí)行器定期行動(dòng),把不同Transformer層的專(zhuān)家參數(shù)和優(yōu)化器狀態(tài)在設(shè)備間轉(zhuǎn)移。通過(guò)這種動(dòng)態(tài)調(diào)整,模型的MFU提高了10%。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

除了上面這些,團(tuán)隊(duì)還開(kāi)發(fā)了一些專(zhuān)門(mén)適配昇騰設(shè)備的技術(shù),包括主機(jī)端優(yōu)化、計(jì)算卸載與數(shù)據(jù)共享,以及融合算子。

  • 算子下發(fā)優(yōu)化:為了解決host端性能瓶頸問(wèn)題,團(tuán)隊(duì)減少了那些需要頻繁同步操作的算子,避免不必要的等待。同時(shí),使用細(xì)粒度CPU綁核技術(shù),讓CPU和NPU配合得更好,任務(wù)下發(fā)更順暢。
  • 計(jì)算卸載與數(shù)據(jù)共享:當(dāng)遇到NPU處理起來(lái)效率低的數(shù)據(jù)計(jì)算,或者在TP區(qū)域內(nèi)數(shù)據(jù)傳輸慢的情況,作者把這些不適合NPU的計(jì)算從主計(jì)算流程中分離出來(lái),交給CPU在數(shù)據(jù)加載時(shí)處理。再結(jié)合數(shù)據(jù)共享技術(shù),讓同一節(jié)點(diǎn)內(nèi)的計(jì)算和數(shù)據(jù)傳輸速度都大大提高。
  • 融合算子:除了盤(pán)古稠密模型里已有的FlashAttention 和 RMSNorm融合算子,團(tuán)隊(duì)在MoE模型里又加入了 GMMAdd、Permute和Umpermute融合算子。GMMAdd融合算子把GroupedMatMul的反向計(jì)算和梯度累加放在一起處理,利用并行和流水線技術(shù)減少調(diào)度時(shí)間。Permute和Unpermute融合算子整合了多種操作,能更快地讀寫(xiě)內(nèi)存。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果

在訓(xùn)練數(shù)據(jù)集構(gòu)建過(guò)程中,團(tuán)隊(duì)實(shí)施嚴(yán)格的數(shù)據(jù)質(zhì)量控制,并著重強(qiáng)調(diào)語(yǔ)料庫(kù)的多樣性、復(fù)雜性和全面性。

針對(duì)長(zhǎng)鏈思維樣本引入特殊標(biāo)記符號(hào)對(duì)推理軌跡與最終答案進(jìn)行結(jié)構(gòu)化分隔。

后訓(xùn)練階段采用指令微調(diào)策略,數(shù)據(jù)涵蓋領(lǐng)域廣泛,包含通用問(wèn)答、文本生成、語(yǔ)義分類(lèi)、代碼編程、數(shù)理邏輯推理及工具使用等。

特別將推理與非推理樣本比例設(shè)定為3:1,進(jìn)一步提升推理性能。

實(shí)驗(yàn)表明,盤(pán)古Ultra MoE對(duì)話版本在多領(lǐng)域均展現(xiàn)出卓越競(jìng)爭(zhēng)力,在大多數(shù)benchmark上與DeepSeek-R1表現(xiàn)相當(dāng)。比如通用理解任務(wù)(如CLUEWSC 94.8分、MMLU 91.5分)中展現(xiàn)卓越理解力,在數(shù)學(xué)推理與代碼生成等高難度測(cè)試(如AIME2024 81.3分、MBPP+ 81.2分)中表現(xiàn)優(yōu)異,具備突出的代碼與數(shù)學(xué)解題能力。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

團(tuán)隊(duì)還對(duì)盤(pán)古Ultra MoE進(jìn)行了專(zhuān)家專(zhuān)業(yè)度分析。

在不同任務(wù)中,同一網(wǎng)絡(luò)層的token會(huì)被優(yōu)先路由至不同專(zhuān)家,專(zhuān)家專(zhuān)業(yè)化程度存在顯著任務(wù)差異性。

這證實(shí)了盤(pán)古Ultra MoE已形成顯著的專(zhuān)家差異化,這種特性不僅增強(qiáng)了模型的表達(dá)能力,更為其卓越性能提供了關(guān)鍵支撐。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

盤(pán)古Ultra MoE的MoE層輸出由共享專(zhuān)家和路由專(zhuān)家共同貢獻(xiàn)的加權(quán)和構(gòu)成。

因此,保持二者輸出的平衡至關(guān)重要。

下圖中展示了路由專(zhuān)家在各網(wǎng)絡(luò)層均保持著與共享專(zhuān)家相當(dāng)?shù)呢暙I(xiàn)強(qiáng)度,這種均衡的協(xié)同作用有效提升了模型的整體表征能力。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

團(tuán)隊(duì)還分析了專(zhuān)家的共激活現(xiàn)象,激活分?jǐn)?shù)越高,說(shuō)明兩個(gè)專(zhuān)家之間的相關(guān)性越強(qiáng)。

在下圖中,除少數(shù)例外情況外,這三層中的專(zhuān)家之間并未出現(xiàn)明顯的共激活現(xiàn)象,這反映了盤(pán)古Ultra MoE的專(zhuān)家冗余度較低。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

以上便是華為國(guó)產(chǎn)NPU跑準(zhǔn)萬(wàn)億參數(shù)大模型背后的奧義了。

華為盤(pán)古Ultra MoE技術(shù)的突破,不僅標(biāo)志著國(guó)產(chǎn)算力平臺(tái)在AI大模型訓(xùn)練領(lǐng)域邁入世界領(lǐng)先行列,更彰顯了中國(guó)科技自主創(chuàng)新的強(qiáng)大實(shí)力。

它證明了中國(guó)企業(yè)在全球AI競(jìng)賽中已具備從跟跑到并跑,甚至領(lǐng)跑的實(shí)力。

未來(lái),隨著技術(shù)的持續(xù)迭代與應(yīng)用場(chǎng)景的拓展,盤(pán)古Ultra MoE將為千行百業(yè)的智能化轉(zhuǎn)型注入強(qiáng)勁動(dòng)力,助力中國(guó)在新一輪科技革命中占據(jù)制高點(diǎn),為人類(lèi)科技進(jìn)步貢獻(xiàn)更多“中國(guó)智慧”。

技術(shù)報(bào)告下載地址:
arxiv.org/abs/2505.04519