
新浪科技訊 5月7日晚間消息,新浪科技獲悉,騰訊技術(shù)團(tuán)隊(duì)針對(duì)DeepSeek開(kāi)源的DeepEP通信框架進(jìn)行深度優(yōu)化,使其在多種網(wǎng)絡(luò)環(huán)境下均實(shí)現(xiàn)顯著性能提升。經(jīng)測(cè)試,優(yōu)化后的通信框架性能在RoCE網(wǎng)絡(luò)環(huán)境提升100%,IB網(wǎng)絡(luò)環(huán)境提升30%,為企業(yè)開(kāi)展AI大模型訓(xùn)練提供更高效的解決方案。該技術(shù)方案獲得了DeepSeek公開(kāi)致謝,稱這是一次“huge speedup”代碼貢獻(xiàn)。
自今年2月DeepSeek開(kāi)源包括DeepEP在內(nèi)的五大代碼庫(kù)以來(lái),該團(tuán)隊(duì)便向業(yè)界展示了如何利用有限的硬件資源實(shí)現(xiàn)接近萬(wàn)卡集群的性能。在這些技術(shù)中,DeepEP憑借突破性的方法提升了300%的通信效率,成功解決了MoE架構(gòu)大模型對(duì)英偉達(dá)NCCL的依賴問(wèn)題。但該技術(shù)在成本較低、適用面更廣的RoCE網(wǎng)絡(luò)環(huán)境中表現(xiàn)不佳,限制了其在更廣泛場(chǎng)景的應(yīng)用。這一痛點(diǎn)引發(fā)了開(kāi)源社區(qū)的持續(xù)討論。
據(jù)悉,騰訊星脈網(wǎng)絡(luò)團(tuán)隊(duì)在DeepEP開(kāi)源后便展開(kāi)技術(shù)攻關(guān),發(fā)現(xiàn)兩大關(guān)鍵瓶頸:一是對(duì)于雙端口網(wǎng)卡帶寬利用率不足,二是CPU控制面交互存在時(shí)延。
在騰訊的技術(shù)優(yōu)化下,DeepEP不僅在RoCE網(wǎng)絡(luò)實(shí)現(xiàn)性能翻倍,反哺到IB(InfiniBand)網(wǎng)絡(luò)時(shí)更使原有通信效率再提升30%。
目前,該技術(shù)已全面開(kāi)源,并成功應(yīng)用于騰訊混元大模型等項(xiàng)目的訓(xùn)練推理,在騰訊星脈與H20服務(wù)器構(gòu)建的高性能環(huán)境中,這套方案展現(xiàn)出出色的通用性。(文猛)
熱門跟貼