大模型時(shí)代,Scaling Law(尺度定律)就是新的牛頓定律。大模型公司拼命追求更大參數(shù)、海量算力,因?yàn)樗_實(shí)能奏效,演變成一種近乎不講道理的“暴力美學(xué)”。從2024年起,主流大模型就沒(méi)有千億參數(shù)以下的(多模態(tài)的SORA除外),Llama3有4000億參數(shù)、GPT4有1.8萬(wàn)億參數(shù)。萬(wàn)億參數(shù)大模型,對(duì)應(yīng)著萬(wàn)卡以上規(guī)模的超大算力集群

META、微軟、Google、亞馬遜是英偉達(dá)的核心大客戶,2023年采購(gòu)了5萬(wàn)-15萬(wàn)張H100。對(duì)應(yīng)的,META自建了24576塊H100組成的超萬(wàn)卡集群,Google則有26000塊H100構(gòu)成的A3超級(jí)計(jì)算機(jī)。巨頭公司正在上演一場(chǎng)算力軍備競(jìng)賽。

很顯然,在AI的核心主戰(zhàn)場(chǎng),萬(wàn)卡集群已是標(biāo)配。然而,萬(wàn)卡集群因其復(fù)雜的工程要求,國(guó)產(chǎn)化的進(jìn)程比較緩慢。有能力做到萬(wàn)卡規(guī)模、還具備超強(qiáng)通用性的GPU公司,更是屈指可數(shù),甚至可以說(shuō)是空白。

但就像中國(guó)工程院院士鄭緯民所說(shuō):“打造國(guó)產(chǎn)化的萬(wàn)卡集群很難,但很必要?!比涨?,摩爾線程就發(fā)布了一款兼具“超大規(guī)模+高通用性+生態(tài)兼容”的國(guó)產(chǎn)GPU萬(wàn)卡集群解決方案——“夸娥萬(wàn)卡智算集群”,標(biāo)志著國(guó)產(chǎn)GPU正式邁入萬(wàn)卡時(shí)代。

摩爾線程創(chuàng)始人張建中

從千卡到萬(wàn)卡,是幾十倍難度的跨越,涉及計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、軟件,以及大模型調(diào)度等復(fù)雜的系統(tǒng)工程。面對(duì)萬(wàn)卡集群的三大技術(shù)挑戰(zhàn),摩爾線程是如何解決的呢?

萬(wàn)卡挑戰(zhàn)1:如何組成萬(wàn)卡萬(wàn)P算力

萬(wàn)卡挑戰(zhàn)1:如何組成萬(wàn)卡萬(wàn)P算力

從千卡集群跨越到萬(wàn)卡集群,“技術(shù)挑戰(zhàn)提高了幾十倍”。在超萬(wàn)卡集群中,需要運(yùn)用系統(tǒng)工程方法,通過(guò)精細(xì)化設(shè)計(jì)、軟硬件全棧整合優(yōu)化,克服超大規(guī)模組網(wǎng)互聯(lián)等難題,才能實(shí)現(xiàn)“萬(wàn)卡萬(wàn)P”規(guī)模的極致算力。

摩爾線程夸娥萬(wàn)卡集群,就實(shí)現(xiàn)了高密度的算存硬件、高性能無(wú)阻塞的網(wǎng)絡(luò)連接以及更高并行度的通信和計(jì)算范式??涠鹑f(wàn)卡集群?jiǎn)我患嚎蛇_(dá)萬(wàn)卡以上規(guī)模,浮點(diǎn)運(yùn)算能力達(dá)到10Exa-Flops以上。

基于高帶寬、大容量的顯存設(shè)計(jì),以及全新一代卡間互聯(lián)能力,夸娥萬(wàn)卡集群可實(shí)現(xiàn)倍數(shù)級(jí)傳輸速度的提升。此外,夸娥還具備每秒PB級(jí)的超高速節(jié)點(diǎn)互聯(lián)總帶寬,可滿足高性能節(jié)點(diǎn)通信需求、支持雙環(huán)拓?fù)浣Y(jié)構(gòu),實(shí)現(xiàn)算力、顯存和帶寬的系統(tǒng)性協(xié)同優(yōu)化,全面提升集群計(jì)算性能。

萬(wàn)卡挑戰(zhàn)2:有效計(jì)算效率MFU如何超過(guò)60%

萬(wàn)卡挑戰(zhàn)2:有效計(jì)算效率MFU如何超過(guò)60%

算力的提升與GPU數(shù)量的提升并不是成正比的,當(dāng)GPU達(dá)到萬(wàn)卡級(jí)別,卡間和節(jié)點(diǎn)間的互聯(lián)網(wǎng)絡(luò)、軟件和硬件的適配問(wèn)題,會(huì)大大阻礙算力的提升。要提升MFU(集群有效計(jì)算效率),需要應(yīng)對(duì)芯片計(jì)算性能(芯片及算子使用效率)、GPU顯存的訪問(wèn)性能(內(nèi)存和I/O訪問(wèn)瓶頸)、卡間互聯(lián)帶寬、有效的分布式并行策略等多個(gè)挑戰(zhàn)。

摩爾線程的解決方案,是在夸娥上大幅優(yōu)化了分布式并行計(jì)算。我們都知道,數(shù)據(jù)并行、張量并行、流水線并行在計(jì)算中要結(jié)合使用,其計(jì)算策略的優(yōu)化就產(chǎn)生了至關(guān)重要的作用。摩爾線程采用了極致性能的算子庫(kù)以及高性能編譯器,對(duì)算子進(jìn)行深度融合,實(shí)現(xiàn)了高效通信計(jì)算機(jī)并行。并行策略和集合通訊庫(kù)也得到了極致的優(yōu)化,使夸娥萬(wàn)卡集群支持自適應(yīng)混合并行。

在顯存方面,夸娥具備高效顯存和顯存池管理的能力,使顯存能快速響應(yīng)整個(gè)模型的權(quán)重、激活函數(shù)和優(yōu)化器狀態(tài)。此外,夸娥萬(wàn)卡集群還支持超長(zhǎng)序列的訓(xùn)練,并對(duì)優(yōu)化器和前向計(jì)算進(jìn)行了量化加速。

摩爾線程從應(yīng)用、分布式系統(tǒng)、訓(xùn)練框架、通訊庫(kù)、固件、算子、硬件全方位提升了夸娥的能力,邁向了萬(wàn)卡時(shí)代。最終,夸娥在萬(wàn)卡集群下實(shí)現(xiàn)了MFU(集群有效計(jì)算效率)目標(biāo)最高達(dá)60%的國(guó)際水平。

萬(wàn)卡挑戰(zhàn)3:穩(wěn)定性如何突破99%

萬(wàn)卡挑戰(zhàn)3:穩(wěn)定性如何突破99%

分析了總算力和有效計(jì)算效率,我們?cè)賮?lái)看看摩爾線程如何實(shí)現(xiàn)萬(wàn)卡集群的超高穩(wěn)定性。由于大模型訓(xùn)練都是同步進(jìn)行,分布式訓(xùn)練中任何一張卡的故障都會(huì)導(dǎo)致任務(wù)失敗,因此,集群的故障率是單卡故障率的幾何級(jí)數(shù),一旦發(fā)生問(wèn)題,故障定位非常復(fù)雜。業(yè)界典型硬件故障定位需1~2天,復(fù)雜應(yīng)用類(lèi)故障定位可能長(zhǎng)達(dá)數(shù)十天。其次,萬(wàn)卡集群是個(gè)超級(jí)復(fù)雜的軟硬件系統(tǒng),從大類(lèi)上看,故障會(huì)發(fā)生在GPU HBM ECC、驅(qū)動(dòng)、網(wǎng)絡(luò)等幾個(gè)方面。詳細(xì)來(lái)看,無(wú)論是服務(wù)器、集合通信組件、RDMA網(wǎng)絡(luò)、異構(gòu)架構(gòu),還是分布式訓(xùn)練任務(wù),任何一環(huán)出錯(cuò)都會(huì)卡死整體訓(xùn)練進(jìn)度,造成重大損失。

從萬(wàn)卡的復(fù)雜系統(tǒng)中要快速故障定位,并可診斷實(shí)現(xiàn)斷點(diǎn)續(xù)訓(xùn),難度不亞于萬(wàn)軍中取上將首級(jí)??涠鹑f(wàn)卡集群內(nèi)置軟硬件全棧運(yùn)行時(shí)打點(diǎn),能高效采集上述的系統(tǒng)數(shù)據(jù),實(shí)現(xiàn)萬(wàn)卡集群監(jiān)控,并且結(jié)合軟硬件分鐘級(jí)故障定位、數(shù)據(jù)秒級(jí)存儲(chǔ)和訓(xùn)練任務(wù)分鐘級(jí)恢復(fù),將發(fā)現(xiàn)和解決問(wèn)題縮短到分鐘級(jí),實(shí)現(xiàn)了高效的斷點(diǎn)續(xù)訓(xùn)。

總體來(lái)看,夸娥萬(wàn)卡集群的穩(wěn)定性已經(jīng)達(dá)到超長(zhǎng)穩(wěn)定的“月級(jí)”,平均無(wú)故障運(yùn)行時(shí)間可達(dá)15天以上,最長(zhǎng)穩(wěn)定訓(xùn)練30天以上,周均訓(xùn)練有效率目標(biāo)最高可達(dá)99%以上。

通用性與生態(tài)兼容:AI世界,不止于大

通用性與生態(tài)兼容:AI世界,不止于大

AI趨勢(shì),不止于大。除了要做萬(wàn)卡,超大規(guī)模參數(shù)、多模態(tài)這些已經(jīng)在發(fā)生的變化,都指向著一個(gè)趨勢(shì):AI算力還要具備通用性,才能跟上大模型快速演進(jìn)的變化。摩爾線程創(chuàng)始人張建中給出了一個(gè)“好用”公式:“規(guī)模夠大+計(jì)算通用+生態(tài)兼容=好用”。

大模型在如何變化?Transformer雖是主流但不是唯一答案,基礎(chǔ)架構(gòu)在不斷的融合演進(jìn),更有Mamba、KWKV等架構(gòu)作為補(bǔ)充。至于Transformer本身,從稠密到稀疏、從單模態(tài)到多模態(tài)、從擴(kuò)散到回歸,應(yīng)對(duì)這些變化都需要算力的通用性。

摩爾線程的夸娥萬(wàn)卡集群,就具備業(yè)界鮮有的通用性,實(shí)現(xiàn)AI+物理仿真、AI+3D、AI+HPC等多種通用性算力,變成一個(gè)通用加速計(jì)算平臺(tái)?;谌δ蹽PU的技術(shù)優(yōu)勢(shì),摩爾線程在圖形渲染、科學(xué)計(jì)算、超算上多年的積累,能支持對(duì)數(shù)字孿生、數(shù)字辦公、影視制作、智能視頻分析、語(yǔ)音處理、數(shù)字人、物理仿真、科學(xué)計(jì)算、元宇宙的全方位加速。

最后,生態(tài)兼容對(duì)國(guó)產(chǎn)大模型也是至關(guān)重要。因?yàn)橛蠧UDA珠玉在前,國(guó)產(chǎn)GPU和大模型要在軟硬件上,實(shí)現(xiàn)“先兼容、再獨(dú)立超越”?;诟咝б子玫腗USA編程語(yǔ)言、完整兼容CUDA能力和自動(dòng)化遷移工具M(jìn)usify,摩爾線程可以加速新模型“Day0”級(jí)遷移,實(shí)現(xiàn)生態(tài)適配“Instant On”,助力客戶業(yè)務(wù)快速上線。

“AI主戰(zhàn)場(chǎng),萬(wàn)卡是標(biāo)配”的趨勢(shì)下,摩爾線程發(fā)布了夸娥萬(wàn)卡集群,與中國(guó)移動(dòng)、中國(guó)聯(lián)通等巨頭公司簽訂了戰(zhàn)略合作協(xié)議。進(jìn)入萬(wàn)卡時(shí)代是一個(gè)標(biāo)志,說(shuō)明國(guó)產(chǎn)算力剛走過(guò)從“有沒(méi)有”到“好不好”的階段,國(guó)產(chǎn)算力不只是“可用”更可以“好用”。