機(jī)器之心報(bào)道

編輯:Panda

因?yàn)榛鶞?zhǔn)測試成績與實(shí)際表現(xiàn)相差較大,近期開源的 Llama 4 系列模型正陷入爭議的漩渦之中,但有一點(diǎn)卻毫無疑問:MoE(混合專家)定然是未來 AI 大模型的主流范式之一。從 Mixtral 到 DeepSeek 再到 Qwen2.5-Max 以及 Llama 4,越來越多的 MoE 架構(gòu)模型正在進(jìn)入世界最前沿模型之列,以至于英偉達(dá)也已開始針對 MoE 架構(gòu)設(shè)計(jì)和優(yōu)化自家的計(jì)算硬件。

但是,MoE(尤其是大規(guī)模 MoE)也會(huì)給 AI 基礎(chǔ)設(shè)施帶來不一樣的挑戰(zhàn)。昨天,在 AI 勢能大會(huì)下午的 AI 基礎(chǔ)設(shè)施峰會(huì)上,阿里云智能集團(tuán)副總裁、阿里云智能計(jì)算平臺(tái)事業(yè)部負(fù)責(zé)人汪軍華就談到了 MoE 架構(gòu)特有的一些困難,包括 token drop 選擇對吞吐的影響、在路由專家與共享專家之間考慮效率和效果的權(quán)衡、專家的選取數(shù)量和比例等。

打開網(wǎng)易新聞 查看精彩圖片

汪軍華表示 AI 范式正在向 MoE 和推理模型演進(jìn)

阿里云已經(jīng)在解決這些難題上取得了重大進(jìn)展。峰會(huì)上,針對 MoE 架構(gòu)的模型,阿里云宣布基于 PAI-DLC 云原生分布式深度學(xué)習(xí)訓(xùn)練平臺(tái)推出了FlashMoE,這是一款支持超大規(guī)模 MoE 混合精度訓(xùn)練的高性能訓(xùn)練框架,具有多種強(qiáng)大特性,包括支持多種 token 路由策略、支持上下文并行與張量并行解耦等。

當(dāng)然,阿里云在 AI 基礎(chǔ)設(shè)施上的布局遠(yuǎn)不限于 MoE。無論是硬件算力的投入,還是一體化的訓(xùn)練和推理服務(wù),它都在用硬核實(shí)力夯實(shí)自己的領(lǐng)先地位。在這場 AI 基礎(chǔ)設(shè)施的競賽中,阿里云已然搶占先機(jī)。

從算力到安全

阿里云這樣構(gòu)建 AI 基礎(chǔ)設(shè)施

從算力基礎(chǔ)到彈性靈活的解決方案,再到存儲(chǔ)與網(wǎng)絡(luò)技術(shù),以及至關(guān)重要的安全能力,阿里云正在不斷演進(jìn)面向 AI 時(shí)代的基礎(chǔ)設(shè)施,以提高其產(chǎn)品力和用戶體驗(yàn)。

首先,在基礎(chǔ)算力方面,阿里云宣布ECS 第 9 代 Intel 企業(yè)級(jí)實(shí)例正式開啟商業(yè)化,其基于英特爾第六代至強(qiáng)處理器 GNR,搭配阿里云最新 CIPU 架構(gòu),可讓集群性能相對前代提升最高達(dá) 20%,同時(shí)價(jià)格較上代再降 5%。

今年也是阿里云彈性計(jì)算 15 周年,AI 驅(qū)動(dòng)的阿里云基礎(chǔ)設(shè)施將持續(xù)面向更高性能、更穩(wěn)定的架構(gòu)和產(chǎn)品深入演進(jìn)。

打開網(wǎng)易新聞 查看精彩圖片

在強(qiáng)大算力的基礎(chǔ)上,阿里云還在對靈駿集群不斷進(jìn)行優(yōu)化。阿里云智能集團(tuán)副總裁、阿里云智能彈性計(jì)算、存儲(chǔ)產(chǎn)品線負(fù)責(zé)人吳結(jié)生表示:「我們針對 AI 負(fù)載進(jìn)行了大量優(yōu)化,把靈駿集群構(gòu)造成了云超級(jí)計(jì)算機(jī)?!箍偨Y(jié)起來,靈駿集群的技術(shù)體系包含 4 個(gè)創(chuàng)新點(diǎn),包括 HPN 高性能網(wǎng)絡(luò)、CPFS 高性能文件存儲(chǔ)、定制化的 AI 服務(wù)器以及強(qiáng)大的故障檢測能力。

首先,在網(wǎng)絡(luò)技術(shù)方面,阿里云設(shè)計(jì)的HPN 7.0高性能網(wǎng)絡(luò)架構(gòu)是靈駿集群的核心網(wǎng)絡(luò)技術(shù),能讓機(jī)器更高效、更緊密的合作。實(shí)際效果上,利用 HPN7.0 高性能網(wǎng)絡(luò)架構(gòu),可實(shí)現(xiàn)單集群10 萬張 GPU 卡互聯(lián),同時(shí)提供 3.2T 跨機(jī)帶寬。

其次,值得一提的是靈駿管控和自愈系統(tǒng),這能降低故障頻次,縮短故障恢復(fù)時(shí)間,從而增強(qiáng)集群的穩(wěn)定性,提高算力的使用率 —— 在萬卡級(jí)超大規(guī)模訓(xùn)練中,一個(gè)月內(nèi)靈駿 GPU 集群有效訓(xùn)練時(shí)長占比超過 93%。

打開網(wǎng)易新聞 查看精彩圖片

為了保證 AI 業(yè)務(wù)穩(wěn)定,算力很重要,高性能且可靠的存儲(chǔ)也必不可少。對此,阿里云給出的解答是CPFS(Cloud Parallel File Storage)高性能存儲(chǔ)與OSS(Object Storage Service)對象存儲(chǔ)服務(wù)。

其中,CPFS 適用于高性能計(jì)算,支持對數(shù)據(jù)毫秒級(jí)的訪問和百萬級(jí) IOPS 的數(shù)據(jù)讀寫請求,能實(shí)現(xiàn) 40 GB/s 的單客戶端吞吐性能。

CPFS 還針對 AI 應(yīng)用進(jìn)行了優(yōu)化,在實(shí)現(xiàn)高性能并行的同時(shí),還支持端側(cè)緩存和分層存儲(chǔ)(包括 KV Cache),從而能高效率和低成本地滿足 AI 的訓(xùn)推需求。

OSS 則適用于存儲(chǔ)大量非結(jié)構(gòu)化數(shù)據(jù),適用于多種計(jì)算引擎和 AI 框架,具有海量、安全、易集成、低成本、高可靠的優(yōu)勢。在 AI 基礎(chǔ)設(shè)施峰會(huì)上,阿里云宣布推出高性能的OSSFS 2.0,這是一款專門用于通過掛載方式高性能訪問 OSS 的客戶端,它具備出色的順序讀寫能力,可充分發(fā)揮 OSS 的高帶寬優(yōu)勢。此外,阿里云還宣布首次將缺省 100 Gbps 吞吐性能擴(kuò)展到了海外(新加坡)。OSS 同城冗余也已在吉隆坡上線,現(xiàn)已覆蓋全球 12 個(gè)地域。

打開網(wǎng)易新聞 查看精彩圖片

阿里云也為 CPFS 和 OSS 之間的數(shù)據(jù)流動(dòng)構(gòu)建了高速、高帶寬的通道,使訓(xùn)練或推理框架可以通過文件系統(tǒng)的接口訪問 OSS。

安全與穩(wěn)定性同樣也是許多 AI 應(yīng)用開發(fā)者關(guān)注的核心問題之一,而阿里云已經(jīng)構(gòu)建了一整套用以保障算力穩(wěn)定供給和數(shù)據(jù)安全的體系,其中包括 20 多款云產(chǎn)品和近百項(xiàng)可一鍵開啟的安全能力。

面向 MoE 結(jié)構(gòu)和推理模型

AI 范式正在演進(jìn)

正如開篇所說,MoE 模型架構(gòu)與推理模型正在不斷推動(dòng) AI 訓(xùn)推的范式升級(jí),在本次發(fā)布上,阿里云人工智能平臺(tái) PAI 針對性地推出一系列新能力。

在模型構(gòu)建方面,針對推理模型,阿里云推出了 PAI-Chatlearn 和 Post-training on PAI-DLC。其中前者是一種支持 RLHF、DPO、OnlineDPO、GRPO 等多種強(qiáng)化學(xué)習(xí)算法的大規(guī)模對齊訓(xùn)練框架,同時(shí)也支持用戶自己開發(fā)的強(qiáng)化學(xué)習(xí)算法,并且適配 Megatron、vLLM、DeepSpeed 等多種框架。不僅如此,PAI-Chatlearn 還是開源的。而后者則包含 SFT 等后訓(xùn)練能力,支持 Ray on DLC、統(tǒng)一調(diào)度、Serverless、Ray Dashboard 和開發(fā)機(jī)等功能。

而對于 MoE 模型,前文已經(jīng)提到了基于 PAI-DLC 的 FlashMoE,其實(shí)際表現(xiàn)可說是相當(dāng)亮眼:在萬卡規(guī)模上,可將 MoE 訓(xùn)練的 MFU(模型 Flops 利用率)提升到 35-40%。

而在推理加速方面,阿里云同樣沒有落下。直接上數(shù)據(jù)。

首先,阿里云推出的全新模型權(quán)重服務(wù)將 1-100 節(jié)點(diǎn)的冷啟動(dòng)速度提升了21;如果從 50 個(gè)節(jié)點(diǎn)擴(kuò)容到 100 個(gè)節(jié)點(diǎn),則分布式推理系統(tǒng)的規(guī)?;瘮U(kuò)容效率可提升12 倍

而基于 KV Cache 的分布式推理服務(wù) PAI-EAS 可將千萬級(jí)活躍用戶場景的 KV Cache 命中率提升10 倍!基于 3FS 的存儲(chǔ)系統(tǒng) IO 效率獲得了大幅提升(讀吞吐提升了43%,寫吞吐提升了27%)。

另外,PAI-EAS 具備負(fù)載感知的 PD 分離架構(gòu),端到端服務(wù)吞吐提升91%

打開網(wǎng)易新聞 查看精彩圖片

針對 MoE 模型,阿里云宣布推出了針對性的分布式推理引擎Llumnix,通過在請求層面、請求內(nèi)和硬件并行策略方面的精心設(shè)計(jì),相比于 Round-robin 請求調(diào)度方案,可將 TTFT(首 token 延遲)降低92%(P99),將 TPOT(每輸出 token 延遲)降低15%(P99)。

此外,阿里云也對云原生大數(shù)據(jù)服務(wù) MaxCompute 進(jìn)行了全面的 AI 升級(jí),發(fā)布了AI Function,可支撐用戶構(gòu)建 Data+AI 一體化工作流。

同時(shí),阿里云在會(huì)上宣布大數(shù)據(jù) AI 產(chǎn)品全面擁抱MCP,大數(shù)據(jù)開發(fā)治理平臺(tái) DataWorks 發(fā)布基于 MCP 的 Agent 服務(wù),DataWokrs 和 Hologres 發(fā)布了 MCP Server。

打開網(wǎng)易新聞 查看精彩圖片

智能時(shí)代的數(shù)據(jù)庫

讓數(shù)據(jù)和 AI 更近

有了高效算力和平臺(tái),要?jiǎng)?chuàng)造足夠好的 AI 應(yīng)用,數(shù)據(jù)也是必不可少的一環(huán)。正如阿里云智能集團(tuán)副總裁、阿里云智能數(shù)據(jù)庫產(chǎn)品事業(yè)部負(fù)責(zé)人李飛飛說的那樣:數(shù)據(jù)、算法、算力是智能時(shí)代的三大要素。因此,對數(shù)據(jù)庫范式的革新也必不可少。那么智能時(shí)代對數(shù)據(jù)庫的最核心需求是什么呢?李飛飛認(rèn)為是「對多模態(tài)數(shù)據(jù)的智能化管理」。

為此,阿里云正在不斷創(chuàng)新。此次峰會(huì)上,阿里云重點(diǎn)介紹了其數(shù)據(jù)庫產(chǎn)品的一系列重磅升級(jí)。

首先,阿里云宣布實(shí)現(xiàn)了模型即算子(Model as an Operator)的 In-DB AI 功能,也就是說可以將模型作為算子直接內(nèi)嵌到數(shù)據(jù)庫中。這樣做具有明顯的好處,包括能使用更低的推理成本獲得同等的 AI 能力、可以通過 SQL 語句輕松調(diào)用、可避免企業(yè)私有數(shù)據(jù)出域。李飛飛表示,阿里云會(huì)在今年內(nèi)讓 PolarDB、Lindorm 和 AnalyticDB 都支持 In-DB AI。

打開網(wǎng)易新聞 查看精彩圖片

阿里云在數(shù)據(jù)庫方面的另一大重要舉措是采用了 Data+AI 的設(shè)計(jì)理念。具體來說,通過統(tǒng)一 CPU 和 GPU 資源池,瑤池?cái)?shù)據(jù)庫實(shí)現(xiàn)了資源池化,支持分時(shí)分片彈性調(diào)度,進(jìn)而幫助客戶降本增效。

此外,阿里云還宣布將 Tair 從互聯(lián)網(wǎng)架構(gòu)演進(jìn)成了面向 AI 時(shí)代的架構(gòu):通過基于 Tair 內(nèi)存池的 KV Cache 多級(jí)管理,可為大模型推理提供高效的 KV Cache 存儲(chǔ)和復(fù)用。同時(shí),Tair KVCache還支持多租隔離、資源配額、故障恢復(fù)等企業(yè)級(jí)管理能力。

打開網(wǎng)易新聞 查看精彩圖片

當(dāng)然,阿里云數(shù)據(jù)庫產(chǎn)品的升級(jí)之路還將繼續(xù)向前。阿里云透露將于今年下半年發(fā)布全球首款基于CXL(Compute Express Link)交換機(jī)的數(shù)據(jù)庫專用服務(wù)器。CXL 高速互聯(lián)技術(shù)可以進(jìn)一步提升三層解耦架構(gòu)下計(jì)算與內(nèi)存之間的通信帶寬與效率。與傳統(tǒng)的 RDMA 高速網(wǎng)絡(luò)相比,CXL 技術(shù)可將內(nèi)存交互的性能提升一個(gè)數(shù)量級(jí)。

用 AI 基礎(chǔ)設(shè)施支撐智能未來

阿里云準(zhǔn)備好了

在 AI 迅猛發(fā)展的今天,強(qiáng)大的算力已成為驅(qū)動(dòng)創(chuàng)新的核心動(dòng)力。阿里云深刻洞察這一趨勢,持續(xù)加大在 AI 基礎(chǔ)設(shè)施領(lǐng)域的投入,致力于為全球用戶提供高效、穩(wěn)定的計(jì)算資源。

現(xiàn)在,依托于在 AI 基礎(chǔ)設(shè)施上的創(chuàng)新和投入,阿里云已為開發(fā)者和企業(yè)搭建了一個(gè)堅(jiān)實(shí)的平臺(tái),使他們能夠?qū)W⒂谒惴▌?chuàng)新和應(yīng)用開發(fā),而無需過度關(guān)注底層計(jì)算資源的限制。而這正是 AI 大規(guī)模應(yīng)用的重要基礎(chǔ)。

正如吳結(jié)生說的那樣:「云計(jì)算是一種公共服務(wù)。隨著 AI 的發(fā)展,智能會(huì)變成一種資源,就像水和電一樣。這樣一來,token 就變成了一種商品。云上的算力正在以這種公共服務(wù)的方式給大家提供這種商品,從而普及 AI,讓 AI 走進(jìn)千行百業(yè),讓 AI 實(shí)現(xiàn)大眾化和規(guī)模化。」

打開網(wǎng)易新聞 查看精彩圖片

而當(dāng)智能成為一種「資源」,基礎(chǔ)設(shè)施的供給能力,也將決定 AI 能走多遠(yuǎn)、飛多高。

阿里云正攜手企業(yè)和開發(fā)者,共同邁向智能化的未來。在這場奔赴未來的基建競速中,阿里云,已在路上。

關(guān)注飛天發(fā)布時(shí)刻,及更多精彩發(fā)布內(nèi)容: https://summit.aliyun.com/apsaramoment