精品一区二区三区乱码,可以在线观看的中文字幕视频网站,国产高清va在线播放,日韩av人妻有码一区,亚洲亚洲精品av在线动态图

機(jī)器之心報(bào)道

編輯：Panda

因?yàn)榛鶞?zhǔn)測試成績與實(shí)際表現(xiàn)相差較大，近期開源的 Llama 4 系列模型正陷入爭議的漩渦之中，但有一點(diǎn)卻毫無疑問：MoE（混合專家）定然是未來 AI 大模型的主流范式之一。從 Mixtral 到 DeepSeek 再到 Qwen2.5-Max 以及 Llama 4，越來越多的 MoE 架構(gòu)模型正在進(jìn)入世界最前沿模型之列，以至于英偉達(dá)也已開始針對 MoE 架構(gòu)設(shè)計(jì)和優(yōu)化自家的計(jì)算硬件。

但是，MoE（尤其是大規(guī)模 MoE）也會(huì)給 AI 基礎(chǔ)設(shè)施帶來不一樣的挑戰(zhàn)。昨天，在 AI 勢能大會(huì)下午的 AI 基礎(chǔ)設(shè)施峰會(huì)上，阿里云智能集團(tuán)副總裁、阿里云智能計(jì)算平臺(tái)事業(yè)部負(fù)責(zé)人汪軍華就談到了 MoE 架構(gòu)特有的一些困難，包括 token drop 選擇對吞吐的影響、在路由專家與共享專家之間考慮效率和效果的權(quán)衡、專家的選取數(shù)量和比例等。

汪軍華表示 AI 范式正在向 MoE 和推理模型演進(jìn)

阿里云已經(jīng)在解決這些難題上取得了重大進(jìn)展。峰會(huì)上，針對 MoE 架構(gòu)的模型，阿里云宣布基于 PAI-DLC 云原生分布式深度學(xué)習(xí)訓(xùn)練平臺(tái)推出了FlashMoE，這是一款支持超大規(guī)模 MoE 混合精度訓(xùn)練的高性能訓(xùn)練框架，具有多種強(qiáng)大特性，包括支持多種 token 路由策略、支持上下文并行與張量并行解耦等。

當(dāng)然，阿里云在 AI 基礎(chǔ)設(shè)施上的布局遠(yuǎn)不限于 MoE。無論是硬件算力的投入，還是一體化的訓(xùn)練和推理服務(wù)，它都在用硬核實(shí)力夯實(shí)自己的領(lǐng)先地位。在這場 AI 基礎(chǔ)設(shè)施的競賽中，阿里云已然搶占先機(jī)。

從算力到安全

阿里云這樣構(gòu)建 AI 基礎(chǔ)設(shè)施

從算力基礎(chǔ)到彈性靈活的解決方案，再到存儲(chǔ)與網(wǎng)絡(luò)技術(shù)，以及至關(guān)重要的安全能力，阿里云正在不斷演進(jìn)面向 AI 時(shí)代的基礎(chǔ)設(shè)施，以提高其產(chǎn)品力和用戶體驗(yàn)。

首先，在基礎(chǔ)算力方面，阿里云宣布ECS 第 9 代 Intel 企業(yè)級(jí)實(shí)例正式開啟商業(yè)化，其基于英特爾第六代至強(qiáng)處理器 GNR，搭配阿里云最新 CIPU 架構(gòu)，可讓集群性能相對前代提升最高達(dá) 20%，同時(shí)價(jià)格較上代再降 5%。

今年也是阿里云彈性計(jì)算 15 周年，AI 驅(qū)動(dòng)的阿里云基礎(chǔ)設(shè)施將持續(xù)面向更高性能、更穩(wěn)定的架構(gòu)和產(chǎn)品深入演進(jìn)。

在強(qiáng)大算力的基礎(chǔ)上，阿里云還在對靈駿集群不斷進(jìn)行優(yōu)化。阿里云智能集團(tuán)副總裁、阿里云智能彈性計(jì)算、存儲(chǔ)產(chǎn)品線負(fù)責(zé)人吳結(jié)生表示：「我們針對 AI 負(fù)載進(jìn)行了大量優(yōu)化，把靈駿集群構(gòu)造成了云超級(jí)計(jì)算機(jī)?！箍偨Y(jié)起來，靈駿集群的技術(shù)體系包含 4 個(gè)創(chuàng)新點(diǎn)，包括 HPN 高性能網(wǎng)絡(luò)、CPFS 高性能文件存儲(chǔ)、定制化的 AI 服務(wù)器以及強(qiáng)大的故障檢測能力。

首先，在網(wǎng)絡(luò)技術(shù)方面，阿里云設(shè)計(jì)的HPN 7.0高性能網(wǎng)絡(luò)架構(gòu)是靈駿集群的核心網(wǎng)絡(luò)技術(shù)，能讓機(jī)器更高效、更緊密的合作。實(shí)際效果上，利用 HPN7.0 高性能網(wǎng)絡(luò)架構(gòu)，可實(shí)現(xiàn)單集群10 萬張 GPU 卡互聯(lián)，同時(shí)提供 3.2T 跨機(jī)帶寬。

其次，值得一提的是靈駿管控和自愈系統(tǒng)，這能降低故障頻次，縮短故障恢復(fù)時(shí)間，從而增強(qiáng)集群的穩(wěn)定性，提高算力的使用率 —— 在萬卡級(jí)超大規(guī)模訓(xùn)練中，一個(gè)月內(nèi)靈駿 GPU 集群有效訓(xùn)練時(shí)長占比超過 93%。

為了保證 AI 業(yè)務(wù)穩(wěn)定，算力很重要，高性能且可靠的存儲(chǔ)也必不可少。對此，阿里云給出的解答是CPFS（Cloud Parallel File Storage）高性能存儲(chǔ)與OSS（Object Storage Service）對象存儲(chǔ)服務(wù)。

其中，CPFS 適用于高性能計(jì)算，支持對數(shù)據(jù)毫秒級(jí)的訪問和百萬級(jí) IOPS 的數(shù)據(jù)讀寫請求，能實(shí)現(xiàn) 40 GB/s 的單客戶端吞吐性能。

CPFS 還針對 AI 應(yīng)用進(jìn)行了優(yōu)化，在實(shí)現(xiàn)高性能并行的同時(shí)，還支持端側(cè)緩存和分層存儲(chǔ)（包括 KV Cache），從而能高效率和低成本地滿足 AI 的訓(xùn)推需求。

OSS 則適用于存儲(chǔ)大量非結(jié)構(gòu)化數(shù)據(jù)，適用于多種計(jì)算引擎和 AI 框架，具有海量、安全、易集成、低成本、高可靠的優(yōu)勢。在 AI 基礎(chǔ)設(shè)施峰會(huì)上，阿里云宣布推出高性能的OSSFS 2.0，這是一款專門用于通過掛載方式高性能訪問 OSS 的客戶端，它具備出色的順序讀寫能力，可充分發(fā)揮 OSS 的高帶寬優(yōu)勢。此外，阿里云還宣布首次將缺省 100 Gbps 吞吐性能擴(kuò)展到了海外（新加坡）。OSS 同城冗余也已在吉隆坡上線，現(xiàn)已覆蓋全球 12 個(gè)地域。

阿里云也為 CPFS 和 OSS 之間的數(shù)據(jù)流動(dòng)構(gòu)建了高速、高帶寬的通道，使訓(xùn)練或推理框架可以通過文件系統(tǒng)的接口訪問 OSS。

安全與穩(wěn)定性同樣也是許多 AI 應(yīng)用開發(fā)者關(guān)注的核心問題之一，而阿里云已經(jīng)構(gòu)建了一整套用以保障算力穩(wěn)定供給和數(shù)據(jù)安全的體系，其中包括 20 多款云產(chǎn)品和近百項(xiàng)可一鍵開啟的安全能力。

面向 MoE 結(jié)構(gòu)和推理模型

AI 范式正在演進(jìn)

正如開篇所說，MoE 模型架構(gòu)與推理模型正在不斷推動(dòng) AI 訓(xùn)推的范式升級(jí)，在本次發(fā)布上，阿里云人工智能平臺(tái) PAI 針對性地推出一系列新能力。

在模型構(gòu)建方面，針對推理模型，阿里云推出了 PAI-Chatlearn 和 Post-training on PAI-DLC。其中前者是一種支持 RLHF、DPO、OnlineDPO、GRPO 等多種強(qiáng)化學(xué)習(xí)算法的大規(guī)模對齊訓(xùn)練框架，同時(shí)也支持用戶自己開發(fā)的強(qiáng)化學(xué)習(xí)算法，并且適配 Megatron、vLLM、DeepSpeed 等多種框架。不僅如此，PAI-Chatlearn 還是開源的。而后者則包含 SFT 等后訓(xùn)練能力，支持 Ray on DLC、統(tǒng)一調(diào)度、Serverless、Ray Dashboard 和開發(fā)機(jī)等功能。

而對于 MoE 模型，前文已經(jīng)提到了基于 PAI-DLC 的 FlashMoE，其實(shí)際表現(xiàn)可說是相當(dāng)亮眼：在萬卡規(guī)模上，可將 MoE 訓(xùn)練的 MFU（模型 Flops 利用率）提升到 35-40%。

而在推理加速方面，阿里云同樣沒有落下。直接上數(shù)據(jù)。

首先，阿里云推出的全新模型權(quán)重服務(wù)將 1-100 節(jié)點(diǎn)的冷啟動(dòng)速度提升了21；如果從 50 個(gè)節(jié)點(diǎn)擴(kuò)容到 100 個(gè)節(jié)點(diǎn)，則分布式推理系統(tǒng)的規(guī)?；瘮U(kuò)容效率可提升12 倍

而基于 KV Cache 的分布式推理服務(wù) PAI-EAS 可將千萬級(jí)活躍用戶場景的 KV Cache 命中率提升10 倍！基于 3FS 的存儲(chǔ)系統(tǒng) IO 效率獲得了大幅提升（讀吞吐提升了43%，寫吞吐提升了27%）。

另外，PAI-EAS 具備負(fù)載感知的 PD 分離架構(gòu)，端到端服務(wù)吞吐提升91%

針對 MoE 模型，阿里云宣布推出了針對性的分布式推理引擎Llumnix，通過在請求層面、請求內(nèi)和硬件并行策略方面的精心設(shè)計(jì)，相比于 Round-robin 請求調(diào)度方案，可將 TTFT（首 token 延遲）降低92%（P99），將 TPOT（每輸出 token 延遲）降低15%（P99）。

此外，阿里云也對云原生大數(shù)據(jù)服務(wù) MaxCompute 進(jìn)行了全面的 AI 升級(jí)，發(fā)布了AI Function，可支撐用戶構(gòu)建 Data+AI 一體化工作流。

同時(shí)，阿里云在會(huì)上宣布大數(shù)據(jù) AI 產(chǎn)品全面擁抱MCP，大數(shù)據(jù)開發(fā)治理平臺(tái) DataWorks 發(fā)布基于 MCP 的 Agent 服務(wù)，DataWokrs 和 Hologres 發(fā)布了 MCP Server。

智能時(shí)代的數(shù)據(jù)庫

讓數(shù)據(jù)和 AI 更近

有了高效算力和平臺(tái)，要?jiǎng)?chuàng)造足夠好的 AI 應(yīng)用，數(shù)據(jù)也是必不可少的一環(huán)。正如阿里云智能集團(tuán)副總裁、阿里云智能數(shù)據(jù)庫產(chǎn)品事業(yè)部負(fù)責(zé)人李飛飛說的那樣：數(shù)據(jù)、算法、算力是智能時(shí)代的三大要素。因此，對數(shù)據(jù)庫范式的革新也必不可少。那么智能時(shí)代對數(shù)據(jù)庫的最核心需求是什么呢？李飛飛認(rèn)為是「對多模態(tài)數(shù)據(jù)的智能化管理」。

為此，阿里云正在不斷創(chuàng)新。此次峰會(huì)上，阿里云重點(diǎn)介紹了其數(shù)據(jù)庫產(chǎn)品的一系列重磅升級(jí)。

首先，阿里云宣布實(shí)現(xiàn)了模型即算子（Model as an Operator）的 In-DB AI 功能，也就是說可以將模型作為算子直接內(nèi)嵌到數(shù)據(jù)庫中。這樣做具有明顯的好處，包括能使用更低的推理成本獲得同等的 AI 能力、可以通過 SQL 語句輕松調(diào)用、可避免企業(yè)私有數(shù)據(jù)出域。李飛飛表示，阿里云會(huì)在今年內(nèi)讓 PolarDB、Lindorm 和 AnalyticDB 都支持 In-DB AI。

阿里云在數(shù)據(jù)庫方面的另一大重要舉措是采用了 Data+AI 的設(shè)計(jì)理念。具體來說，通過統(tǒng)一 CPU 和 GPU 資源池，瑤池?cái)?shù)據(jù)庫實(shí)現(xiàn)了資源池化，支持分時(shí)分片彈性調(diào)度，進(jìn)而幫助客戶降本增效。

此外，阿里云還宣布將 Tair 從互聯(lián)網(wǎng)架構(gòu)演進(jìn)成了面向 AI 時(shí)代的架構(gòu)：通過基于 Tair 內(nèi)存池的 KV Cache 多級(jí)管理，可為大模型推理提供高效的 KV Cache 存儲(chǔ)和復(fù)用。同時(shí)，Tair KVCache還支持多租隔離、資源配額、故障恢復(fù)等企業(yè)級(jí)管理能力。

當(dāng)然，阿里云數(shù)據(jù)庫產(chǎn)品的升級(jí)之路還將繼續(xù)向前。阿里云透露將于今年下半年發(fā)布全球首款基于CXL（Compute Express Link）交換機(jī)的數(shù)據(jù)庫專用服務(wù)器。CXL 高速互聯(lián)技術(shù)可以進(jìn)一步提升三層解耦架構(gòu)下計(jì)算與內(nèi)存之間的通信帶寬與效率。與傳統(tǒng)的 RDMA 高速網(wǎng)絡(luò)相比，CXL 技術(shù)可將內(nèi)存交互的性能提升一個(gè)數(shù)量級(jí)。

用 AI 基礎(chǔ)設(shè)施支撐智能未來

阿里云準(zhǔn)備好了

在 AI 迅猛發(fā)展的今天，強(qiáng)大的算力已成為驅(qū)動(dòng)創(chuàng)新的核心動(dòng)力。阿里云深刻洞察這一趨勢，持續(xù)加大在 AI 基礎(chǔ)設(shè)施領(lǐng)域的投入，致力于為全球用戶提供高效、穩(wěn)定的計(jì)算資源。

現(xiàn)在，依托于在 AI 基礎(chǔ)設(shè)施上的創(chuàng)新和投入，阿里云已為開發(fā)者和企業(yè)搭建了一個(gè)堅(jiān)實(shí)的平臺(tái)，使他們能夠?qū)Ｗ⒂谒惴▌?chuàng)新和應(yīng)用開發(fā)，而無需過度關(guān)注底層計(jì)算資源的限制。而這正是 AI 大規(guī)模應(yīng)用的重要基礎(chǔ)。

正如吳結(jié)生說的那樣：「云計(jì)算是一種公共服務(wù)。隨著 AI 的發(fā)展，智能會(huì)變成一種資源，就像水和電一樣。這樣一來，token 就變成了一種商品。云上的算力正在以這種公共服務(wù)的方式給大家提供這種商品，從而普及 AI，讓 AI 走進(jìn)千行百業(yè)，讓 AI 實(shí)現(xiàn)大眾化和規(guī)模化。」