打開網(wǎng)易新聞 查看精彩圖片

在人工智能領(lǐng)域,大語言模型(LLM)正以前所未有的速度蓬勃發(fā)展。其中,基于混合專家架構(gòu)的語言模型,為 DeepSeek 系列、Qwen 系列等模型,帶來了出色的性能表現(xiàn)。然而,MoE 模型的訓(xùn)練通常依賴于高性能計算資源,高昂的訓(xùn)練成本成為了目前行業(yè)普及的主要瓶頸。

3月初,螞蟻集團Ling團隊發(fā)表了《每一個FLOP都至關(guān)重要:無需高級GPU即可擴展3000億參數(shù)混合專家LING大模型》的論文報告,開源了兩款不同規(guī)模的 MoE (混合專家)大語言模型——百靈輕量版(Ling-Lite)與百靈增強版(Ling-Plus),并提出一種創(chuàng)新的訓(xùn)練方法:在低配置 GPU 上高效訓(xùn)練 3000 億參數(shù)的 MoE 模型,將成本降低了20%。(論文地址:https://arxiv.org/pdf/2503.05139)。

這篇報告再一次引起科技圈關(guān)于大模型成本控制的討論,引發(fā)了媒體的關(guān)注和報道。那么,螞蟻Ling團隊是如何通過異構(gòu)算力實現(xiàn)大模型高效訓(xùn)練,有哪些經(jīng)驗心得?除了報告中公布的細節(jié),3月27日,螞蟻Ling團隊人員還在知乎發(fā)表文章,就開發(fā)者感興趣的成本計算、優(yōu)化經(jīng)驗等做了分享,回答了幾個印象深刻的bitter lesson。

打開網(wǎng)易新聞 查看精彩圖片

如何實現(xiàn)低成本高效訓(xùn)練?

據(jù)報告介紹,螞蟻集團開源的Ling-Lite和Ling-Plus兩款MoE模型,分別擁有168億和2900億參數(shù),其激活參數(shù)分別為27.5億和288億,性能均達到行業(yè)領(lǐng)先水平。實驗表明,即使在使用國產(chǎn)GPU的低性能設(shè)備上,這兩款模型也能實現(xiàn)高效訓(xùn)練,其性能與完全使用高端芯片、同規(guī)模的稠密模型及MoE模型相當。那么,究竟是如何做到的?

螞蟻集團 Ling 團隊提出了三個創(chuàng)新方法:模型架構(gòu)和訓(xùn)練過程的優(yōu)化、訓(xùn)練異常處理的細化,和模型評估效率的提升。

模型架構(gòu)上,Ling團隊進行了大膽創(chuàng)新,采用細粒度專家與共享專家的設(shè)計。在增加專家數(shù)量的同時減少每個專家的中間層維度,保持總計算量不變,提高專家專業(yè)化程度。同時還引入共享專家,避免個別專家因能力受限而影響整體性能,確保模型在專業(yè)能力和通用能力上達到平衡。

在訓(xùn)練過程中,采用先升溫后穩(wěn)定衰減的學(xué)習率調(diào)度策略,結(jié)合批量大小預(yù)熱策略,從初始批量大小逐漸增加到最大值,有效提升了訓(xùn)練效率。針對訓(xùn)練過程中可能出現(xiàn)的損失尖峰問題,實施了跳過和重試機制,最大程度減輕損失尖峰對模型訓(xùn)練的影響。

此外,為了降低對高端硬件的依賴,螞蟻Ling團隊借助 DLRover,實現(xiàn)計算工作負載的優(yōu)化和無縫遷移;集成 XPUTimer 輕量級分析工具,進行實時性能監(jiān)控和故障診斷;采用 EDiT 異步訓(xùn)練方法,有效緩解大規(guī)模異構(gòu)分布式訓(xùn)練環(huán)境中的性能下降問題。開發(fā)了 PCache 分布式存儲系統(tǒng)和 Babel 跨集群同步機制,優(yōu)化 I/O 性能和數(shù)據(jù)同步,確保在跨集群環(huán)境中高效可靠地訪問多樣化的數(shù)據(jù)集。

這些創(chuàng)新策略帶來了顯著的成本效益。報告提到,在五種不同硬件配置下,Ling 團隊對9萬億個 token 進行 Ling-Plus 預(yù)訓(xùn)練。結(jié)果顯示,使用高性能硬件配置訓(xùn)練1萬億 token 的預(yù)訓(xùn)練成本約635萬元人民幣,而采用螞蟻優(yōu)化方法后,低規(guī)格硬件訓(xùn)練成本降至 508 萬元左右,降低了20%,且性能與阿里通義 Qwen2.5-72B-Instruct 和 DeepSeek-V2.5-1210-Chat 相當。

螞蟻Ling團隊在知乎上的文章表示:“我們在成本計算上使用了學(xué)術(shù)界比較通行的計算方法,根據(jù)在不同平臺上對 Ling-Plus 的真實訓(xùn)練記錄,我們可以觀察到某個平臺在 K 張加速卡上持續(xù)一段時間(比如一周)的 token 數(shù),再根據(jù)技術(shù)報告表 1 上提到的不同加速卡的單位時間成本,就可以很簡單地計算出對應(yīng)平臺上訓(xùn)練單位 token 量(報告里以 1 萬億 token 為單位)的成本。

打開網(wǎng)易新聞 查看精彩圖片

表1:AI加速器特性與單位成本(估算)

打開網(wǎng)易新聞 查看精彩圖片

Ling團隊:中國大模型研發(fā)面臨更多加速卡挑戰(zhàn)

此前,不少中國大模型公司在成本優(yōu)化、性能提升方面都有了卓越的表現(xiàn)。DeepSeek通過算法和工程優(yōu)化,使用性能較低的英偉達H800芯片訓(xùn)練出了性能與頂尖模型相當?shù)腣3與R1模型,讓更多的企業(yè)和研究機構(gòu)看到了成本降低、效率提高的可能性。

豆包大模型研發(fā)的稀疏模型架構(gòu)UltraMem,有效地解決了目前主流的MoE架構(gòu)和PKM架構(gòu)所存在的局限性。實驗結(jié)果表明,訓(xùn)練規(guī)模達2000 萬value的UltraMem模型,在同等計算資源下,可同時實現(xiàn)業(yè)界領(lǐng)先的推理速度和模型性能,為構(gòu)建數(shù)十億規(guī)模value或expert開辟了新路徑。

Ling團隊提到,和國外大模型公司相比,中國大模型團隊面臨更多的異構(gòu)加速卡挑戰(zhàn)?!拔覀儾⒉皇堑谝患颐鎸Ξ悩?gòu)問題的公司,比如智源研究院就發(fā)起了 FlagScale 項目,研發(fā)面向異構(gòu)加速卡的訓(xùn)練框架。有了開源社區(qū),我們可以利用同行們的前期探索作為工作的基礎(chǔ)?!?/p>

據(jù)CSDN了解,此前科大訊飛就發(fā)布了基于全國產(chǎn)化算力平臺訓(xùn)練的大模型訊飛星火V3.5。通過算子融合、混合并行策略和通信計算并行優(yōu)化等一系列創(chuàng)新,科大訊飛實現(xiàn)了單卡靜態(tài)內(nèi)存占用縮減至雙機部署的1/4,效率提升75%,專家計算密度增加4倍,推理吞吐提升3.2倍,端到端時延降低50%等一系列成果。

此次螞蟻在基礎(chǔ)設(shè)施、訓(xùn)練架構(gòu)、推理等基本功層面的創(chuàng)新之舉,為降低訓(xùn)練MoE模型提供了另一種可能,即并不是只有高配置的芯片才能訓(xùn)練MoE模型。結(jié)合異構(gòu)芯片的優(yōu)化方案,使得中小企業(yè)和研究機構(gòu)能以更低成本開發(fā)大模型。

報告中,螞蟻團隊不僅開源了兩個高性能的MoE模型,還在項目中開發(fā)了MoE訓(xùn)練工具包,包括細粒度專家路由、DLRover框架、XPUTimer剖析工具、PCache系統(tǒng)、Babel中間件、Flood推理框架,為 AI 普惠化提供了一個新的路徑。其中,DLRover作為開源軟件,降低了在混合基礎(chǔ)設(shè)施上訓(xùn)練大型模型的入門門檻,通過集成工具(如XPUTimer)簡化了故障診斷。目前,DLRover已在Github開源,擁有1.4k star。這種開源的模式或?qū)⒓ぐl(fā)開發(fā)者的創(chuàng)造力,加速大型語言模型領(lǐng)域的創(chuàng)新。

如果說科大訊飛“星火”驗證了國產(chǎn)算力的可行性,那么螞蟻“Ling系列”則進一步證明其規(guī)模化和經(jīng)濟性,外界對此次螞蟻的開源充滿期待。外媒報道中提到:“如果螞蟻的技術(shù)成果得到驗證,可能會大幅削減推理和AI服務(wù)的成本,中國人工智能發(fā)展又將向前邁進一步。

打開網(wǎng)易新聞 查看精彩圖片

較早吃螃蟹的人,收獲更多“苦澀教訓(xùn)”

在報告中,螞蟻總結(jié)了訓(xùn)練過程中經(jīng)常遇到的問題,并提供了相應(yīng)的解決策略。目前雖然實現(xiàn)了功能性解決方案,但仍面臨著亟需解決的問題。

訓(xùn)練穩(wěn)定性是一個關(guān)鍵問題,其中損失尖刺和專家負載不均衡等現(xiàn)象尤為突出。專家負載不均衡會破壞路由平衡,導(dǎo)致模型不穩(wěn)定。為了解決這些問題,螞蟻采取如重試和跳過機制、使用 HeadNorm 和 zloss 等技術(shù)來穩(wěn)定訓(xùn)練過程,但仍需要進一步優(yōu)化,以確保模型訓(xùn)練的可靠性。

另一個持續(xù)的挑戰(zhàn)是在不同硬件類型之間遷移時的跨平臺訓(xùn)練一致性,在將訓(xùn)練工作流遷移到不同硬件環(huán)境時,由于不同硬件間存在細微的精度誤差,這些誤差在訓(xùn)練過程中會逐漸累積,最終導(dǎo)致模型結(jié)果出現(xiàn)差異,影響模型的可復(fù)現(xiàn)性。

Ling團隊在知乎上分享了他們在這項工作中走過的彎路。比如他們“‘很傻很天真’地本著技術(shù)問題應(yīng)該知其然又知其所以然的信念,定下了一個非常嚴格標準,基礎(chǔ)算子(除符合預(yù)期的精度誤差)完全對齊 + 分布式訓(xùn)練框架前后向計算完全對齊 + 大規(guī)模訓(xùn)練長跑 loss 差異低于 0.1%,當然這也換來了無數(shù)個通宵 debug 的難忘體驗。”在后來的優(yōu)化工作中,Ling團隊發(fā)現(xiàn),通過設(shè)計一個合理的外推擬合方法,在不進行真實訓(xùn)練的情況下,一個尺寸較大(比如 20B、80B)的模型在正式訓(xùn)練較長時間(比如 2T token)后的 loss,可以被一系列 1B 以下的小尺寸模型的訓(xùn)練外推預(yù)測,其預(yù)測誤差低于 0.5%。這樣看來,跨平臺訓(xùn)練的 loss 差異低于 0.1% 其實是一個合理的要求。后續(xù),他們計劃通過開源社區(qū)持續(xù)優(yōu)化工具鏈,與硬件廠商共建標準化接口,并計劃年內(nèi)推出面向代碼生成的專用版本。

Ling團隊還提到,“Ling 模型的發(fā)布只是我們工作的一個里程碑,后續(xù)我們還會進一步改進自己的工作。每個 AI 研發(fā)工程師都相信 AGI 必將到來,并且一定是普惠大眾的。

CSDN了解到,一直以來,螞蟻集團在大模型研發(fā)上主張“可靠性、經(jīng)濟性、易用性”,并在訓(xùn)練成本上設(shè)定了目標,希望“不依賴頂級GPU而實現(xiàn)模型規(guī)模化”。