
沖破英偉達的算力封鎖。
作者|田思奇
編輯|栗子
2025年春天,AI正悄然換擋。
從訓練到推理,行業(yè)正聚焦于更加理性、務實、但競爭也更為激烈的效率較量。
這場轉(zhuǎn)變背后是擁有160年歷史,最近又被頻繁提起的經(jīng)濟學悖論——杰文斯悖論(Jevons Paradox)。這個悖論認為:當某項資源使用效率提高后,其總消耗量非但不會減少,反而會因為需求暴增而迅速上升。
換句話說,AI推理變得越便宜、越高效,人們就越無法停止對它的依賴。AI算力,也正在因為“效率提升”而迎來新一輪需求井噴。
一個更直接的較量是,整個AI算力行業(yè),向著突圍英偉達的封鎖邁出了重要的一步。
4月10日,華為云計算CEO張平安在華為云生態(tài)大會2025上公布了AI基礎設施架構(gòu)突破性新進展——發(fā)布基于新型高速總線架構(gòu)的CloudMatrix 384超節(jié)點,將目光鎖定一個關(guān)鍵命題——誰會在AI推理時代,成為更穩(wěn)健的算力底座?
1.訓練退場,算力需求重構(gòu)
2023年底,DeepSeek-MoE模型橫空出世,許多AI公司的核心工程資源都從模型訓練轉(zhuǎn)向推理優(yōu)化。這一變化背后,正是杰文斯悖論在AI行業(yè)的再現(xiàn)。
「甲子光年」認為,這種變化不僅是一種經(jīng)濟現(xiàn)象,更是一種技術(shù)范式的根本切換。過去衡量AI進展的核心指標是參數(shù)規(guī)模和訓練成本——誰能訓練出萬億參數(shù)大模型,誰就站在金字塔塔尖;但在推理時代,這種衡量邏輯正在被重新定義:真正能落地、可用、可控、可持續(xù)運行的AI系統(tǒng),才是企業(yè)需要的“生產(chǎn)力工具”。
這一變化也重新定義了AI巨頭的技術(shù)路線。
作為全球GPU市場的主導者,英偉達依然牢牢掌控著AI核心資源的分配權(quán)。在2025年3月的GTC大會,彰顯出它試圖以更極致的硬件堆疊與生態(tài)封閉性,延續(xù)自己的領先優(yōu)勢。
本次大會上,英偉達發(fā)布了代號Blackwell Ultra GB300的新一代AI芯片。該芯片配備288GB HBM3e高帶寬內(nèi)存,以及機架級液冷設計,F(xiàn)P4算力達15PetaFLOPS。此外,英偉達宣布計劃于2027年發(fā)布Rubin Ultra NVL576架構(gòu),專為未來超大規(guī)模模型設計。
同時,英偉達推出首款開源推理軟件Dynamo。在由GB200NVL72機架組成的大型集群上運行DeepSeek-R1模型時,Dynamo的智能推理優(yōu)化可將每個GPU生成的token數(shù)量提高30倍以上。
黃仁勛解釋稱,推理就是生成token,這對企業(yè)至關(guān)重要。生成這些token的AI工廠必須以極高的效率和性能建造。隨著最新一代推理模型能夠思考和解決日益復雜的問題,對token的需求只會增長。
憑借這些優(yōu)勢,黃仁勛在現(xiàn)場不斷強調(diào) “AI工廠” 這一概念,力圖將英偉達打造成為全球 AI 產(chǎn)業(yè)的核心樞紐。

圖片來源:英偉達
然而,這種近乎壟斷的發(fā)展態(tài)勢,已經(jīng)引發(fā)對英偉達競爭邊界的質(zhì)疑?!?a class="keyword-search" >甲子光年」在GTC大會現(xiàn)場注意到,有媒體向黃仁勛提問:“英偉達正在轉(zhuǎn)變?yōu)橐徽臼?AI 解決方案提供商,你們正在進入部分客戶的領域,如果在某些方面成為他們的競爭對手,他們會如何反應?”
雖然黃仁勛強調(diào),英偉達是全球唯一一家與所有AI公司合作的AI公司,但他們的目標很明確:將整個AI產(chǎn)業(yè)鏈進一步“固化”在英偉達的CUDA體系和GPU硬件生態(tài)之內(nèi)。
「甲子光年」總結(jié)發(fā)現(xiàn),英偉達所謂的AI產(chǎn)業(yè)主導權(quán),主要體現(xiàn)在三個方面:
硬件堆疊:通過持續(xù)推出超高性能AI芯片,如Blackwell Ultra和即將發(fā)布的Rubin Ultra NVL576,英偉達在AI硬件領域保持領先地位。
軟件生態(tài)控制:CUDA生態(tài)系統(tǒng)已成為全球AI計算的核心基礎設施,擁有超過600萬開發(fā)者,遠超其他平臺。
全流程整合:通過“AI工廠”架構(gòu),英偉達將訓練、推理、微調(diào)、部署全流程整合在其硬件平臺內(nèi),形成技術(shù)鎖定效應。
這種模式的優(yōu)點顯而易見:性能極致、生態(tài)完備、開發(fā)便捷。然而,它雖然為AI領域的技術(shù)發(fā)展提供了強大動力,卻也帶來了許多無法忽視的隱性成本。
首先,英偉達的硬件產(chǎn)品以其超高性能和精密工藝,吸引了大量高端客戶,但高昂的硬件成本和對功耗、散熱的嚴苛要求,使得許多中小型企業(yè)及部分發(fā)展中國家在AI基礎設施建設上面臨較大壓力。
尤其在推理時代,算力需求增長使得對硬件設備的依賴加劇,但是因為價格昂貴、技術(shù)復雜,許多企業(yè)部署AI應用時不得不承擔極高的成本。這既限制了AI技術(shù)普及,也在一定程度上抬高了行業(yè)技術(shù)壁壘,加劇了英偉達與其他廠商之間的差距。
CUDA生態(tài)和“AI工廠”架構(gòu)形成“端到端的控制”,使得客戶從模型開發(fā)到生產(chǎn)部署均依賴英偉達體系。黃仁勛更直言,“AI工廠的最佳性能直接決定了客戶收益的百分比”,將算力供給與商業(yè)回報深度綁定。
因此,行業(yè)自然會萌生一個疑問:能否從架構(gòu)原理開始,建立一套不依賴封閉生態(tài)、同時又能支撐大規(guī)模AI推理的新體系,從而突破英偉達的算力封鎖?
而這或許,將引發(fā)一場更深遠的產(chǎn)業(yè)變革。
2.中國破局的關(guān)鍵詞:超節(jié)點
中國面臨的現(xiàn)實則更加復雜。
隨著全球科技競爭日趨白熱化,以英偉達為代表的國際科技巨頭憑借先發(fā)優(yōu)勢,不斷構(gòu)筑并加高技術(shù)壁壘。在AI硬件領域,尤其是高端GPU方面,中國在很大程度上仍然依賴外部技術(shù)供應。
這一現(xiàn)狀意味著,若單純沿襲英偉達的技術(shù)路徑,中國AI產(chǎn)業(yè)的發(fā)展將面臨諸多掣肘:過度依賴單一GPU供應商,不僅會導致成本居高不下,更存在系統(tǒng)安全隱患,一旦外部供應受阻,產(chǎn)業(yè)發(fā)展將陷入被動困境。
而華為云最新公布的CloudMatrix 384超節(jié)點已經(jīng)正式在蕪湖數(shù)據(jù)中心規(guī)模上線,截止目前,這是國內(nèi)唯一正式商用的大規(guī)模超節(jié)點集群,可為千行萬業(yè)提供澎湃、穩(wěn)定、高質(zhì)量的算力支持,這一舉措也正在推動中國AI產(chǎn)業(yè)突破算力封鎖困境。
不夸張地說,對于中國算力產(chǎn)業(yè)而言,這一次華為云CloudMatrix 384超節(jié)點,可以算得上是世界級的創(chuàng)新突破。
不同于單點技術(shù)突破,系統(tǒng)級架構(gòu)創(chuàng)新突破的難點在于對復雜技術(shù)與資源的整合與協(xié)同,而這一架構(gòu)創(chuàng)新也更匹配全面智能時代的企業(yè)創(chuàng)新需求,也正在引領中國AI產(chǎn)業(yè)生態(tài)的全面突圍。
華為云構(gòu)建昇騰AI云服務的根基,是全棧自主創(chuàng)新的算力底座。
這一底座整合了算力、自研AI框架MindSpore、開發(fā)平臺ModelArts以及彈性云服務,各組件緊密配合,軟硬協(xié)同優(yōu)化,將AI算力以標準化服務的形式輸出。
企業(yè)借助華為云,可便捷獲取即開即用的AI算力,無需自行搭建復雜的本地集群,極大降低了AI應用的門檻和部署成本。
支撐這一服務體系的核心技術(shù),便是華為云自研的CloudMatrix架構(gòu)。在傳統(tǒng)通用云服務架構(gòu)逐漸逼近資源調(diào)度極限的背景下,CloudMatrix架構(gòu)創(chuàng)新性地重構(gòu)了算力的組織邏輯。其核心理念是從“堆芯片”走向“拼架構(gòu)”,通過 “一切可池化”“一切皆對等”“一切可組合” 的方式,實現(xiàn)了業(yè)界領先的性能和可靠性。
這一舉措打破了以往硬件單元相互孤立的局面,實現(xiàn)了資源的按需靈活組合與動態(tài)調(diào)度,使得算力資源能夠根據(jù)不同的業(yè)務需求進行高效配置,顯著提升了資源的利用效率。
作為CloudMatrix架構(gòu)中的基礎計算單元,超節(jié)點(SuperPoD)是這一架構(gòu)落地的物理實現(xiàn)形式。

圖片來源:網(wǎng)絡
在單節(jié)點規(guī)模方面,超節(jié)點打破常規(guī)限制,利用新型高速總線將原本獨立的單節(jié)點8卡昇騰服務器緊密互聯(lián),構(gòu)建成強大的單一超級云服務器。這一創(chuàng)舉使得算力規(guī)模實現(xiàn)了質(zhì)的飛躍,提升幅度高達50倍,達300Pflops,相比業(yè)界同類產(chǎn)品領先優(yōu)勢明顯,性能提升67%。
與DeepSeek現(xiàn)有的MOE結(jié)構(gòu)相比,超節(jié)點也展現(xiàn)出獨特的優(yōu)勢。
DeepSeek的MOE結(jié)構(gòu)是一個由眾多 “專家” 組成的團隊,每個 “專家” 擅長處理特定任務,在傳統(tǒng)8卡英偉達服務器上通過增加 “專家” 模塊來提升性能,類似于醫(yī)院增加不同??圃\室與專家以接待更多患者。但這種方式在實際應用中,部署過程極為復雜,如同搭建大型醫(yī)院需考慮科室布局、設備安置及人員調(diào)配等諸多復雜因素,任何環(huán)節(jié)出錯都可能影響系統(tǒng)運行效率。
而超節(jié)點采用全新架構(gòu)設計,無需像DeepSeek那樣增加 “專家” 模塊,而是通過自身獨特架構(gòu)實現(xiàn)計算資源的高效整合與調(diào)度。它就像從建筑設計之初便充分考慮各功能區(qū)域協(xié)同運作的現(xiàn)代化綜合醫(yī)療中心,各個科室間信息流通與資源共享順暢,無需額外復雜布局就能輕松應對大量不同類型任務需求,尤其是在推理大模型應用中優(yōu)勢明顯。
CloudMatrix 384超節(jié)點集具備“高密”、“高速”、“高效”的優(yōu)勢,通過架構(gòu)的全面創(chuàng)新,已在算力、互聯(lián)帶寬、內(nèi)存帶寬方面實現(xiàn)全面領先。
在有效算力提升上,超節(jié)點借助超高帶寬Scale - Up新型高速總線網(wǎng)絡,實現(xiàn)了從 “傳統(tǒng)以太網(wǎng)” 到 “共享總線網(wǎng)絡” 的重大跨越,資源互聯(lián)帶寬提升10倍以上。超節(jié)點的內(nèi)存(HBM)帶寬達到1229TB/s,為業(yè)界的2.13倍。
硬件性能的大幅躍升,使得AI訓練過程中的數(shù)據(jù)傳輸更為高效,模型能夠快速獲取所需數(shù)據(jù)進行運算,有效降低了訓練出錯概率。在斷點恢復方面,超節(jié)點表現(xiàn)突出,斷點恢復時間僅為10秒,而行業(yè)平均水平長達13分鐘。
可靠性上,基于CloudMatrix架構(gòu),昇騰AI云服務可助力大模型訓練作業(yè)穩(wěn)定運行40天,遠高于行業(yè)平均的2.8天。同時,昇騰AI云服務具備秒級故障監(jiān)控能力,可實時監(jiān)測系統(tǒng)運行狀況,一旦檢測到故障,能在10分鐘內(nèi)自動恢復訓練作業(yè),而業(yè)界平均恢復時間為60分鐘。
軟件層面,昇騰云充分發(fā)揮自身深厚的技術(shù)積累和研發(fā)優(yōu)勢,持續(xù)優(yōu)化CloudMatrix架構(gòu)。通過不斷調(diào)整架構(gòu)設計,使其與持續(xù)升級的昇騰芯片深度適配,實現(xiàn)了軟件與硬件的高度協(xié)同,極大提升了算力資源的管理與調(diào)度效率,進而優(yōu)化了整體性能。這種軟硬件深度融合的創(chuàng)新模式,使昇騰云在AI硬件領域逐步構(gòu)建起獨特的競爭優(yōu)勢,有力推動了中國AI產(chǎn)業(yè)的自主創(chuàng)新發(fā)展。
「甲子光年」認為,在AI領域,真正提升AI效率的并非僅依賴某顆芯片的絕對性能,而是芯片、框架、調(diào)度器之間的協(xié)同效率。盡管在GPU通用性和高精度計算方面,英偉達仍處于行業(yè)領先,但昇騰云通過系統(tǒng)性工程創(chuàng)新,構(gòu)建了差異化競爭優(yōu)勢。
在昇騰云體系中,底層算力、MindSpore框架以及基于CloudMatrix架構(gòu)的調(diào)度器緊密協(xié)作。MindSpore框架針對昇騰芯片深度優(yōu)化,充分發(fā)揮芯片計算能力,實現(xiàn)了高效模型訓練和推理;CloudMatrix架構(gòu)下的調(diào)度器則依據(jù)不同應用需求,智能調(diào)度算力資源,確保資源合理分配與高效利用。
在特定AI場景,如邊緣推理中,昇騰云通過軟硬件協(xié)同優(yōu)化,展現(xiàn)出卓越的性能優(yōu)勢。邊緣推理場景對設備本地數(shù)據(jù)處理速度、實時性和能耗控制要求極高。昇騰云針對這些特性,對模型進行針對性優(yōu)化,減少數(shù)據(jù)傳輸延遲,降低能耗,有效滿足了邊緣推理場景的嚴苛需求。
此外,昇騰云重視單位功耗優(yōu)化,持續(xù)在低功耗條件下提供高效推理服務,幫助廣大企業(yè)在控制成本的同時,充分享受AI技術(shù)帶來的紅利。
這種精準定位市場需求的優(yōu)化策略,使昇騰云在激烈的市場競爭中找準切入點,成功塑造差異化競爭優(yōu)勢,為中國AI產(chǎn)業(yè)在復雜嚴峻的國際競爭環(huán)境中,開拓出一條獨具特色的創(chuàng)新發(fā)展道路。
3.推理時代的價值驗證
如果說“訓練時代”的關(guān)鍵詞是“突破極限”,那么“推理時代”的核心則是“產(chǎn)業(yè)落地”。
從算法迭代、模型構(gòu)建到真實場景部署,AI的演進正從實驗室走向?qū)嶋H應用。誰能率先完成從模型研發(fā)到應用上線的閉環(huán),誰就能在這輪技術(shù)遷移中取得先發(fā)優(yōu)勢。
在這樣的市場環(huán)境中,如何構(gòu)建“用得起、用得好”的AI云服務,成為國產(chǎn)平臺的核心命題。AI技術(shù)的普惠性是基礎,但要真正實現(xiàn)AI的廣泛落地,還需要在行業(yè)應用層面深入發(fā)力,解決實際需求的多樣化與復雜性。
在這場轉(zhuǎn)變中,昇騰AI云服務扮演著連接算法能力與行業(yè)需求的關(guān)鍵角色。依托自研芯片、框架與平臺,昇騰云打造出覆蓋全鏈路的自主技術(shù)體系,為各行業(yè)的智能化建設提供了基礎支撐。
這一過程絕非單兵作戰(zhàn)。昇騰云已攜手科大訊飛、奇瑞、新浪微博等頭部企業(yè),構(gòu)建了涵蓋模型開發(fā)與場景落地的生態(tài)閉環(huán)。
除了華為的盤古大模型,昇騰AI云服務還持續(xù)適配第三方模型,截至目前已適配行業(yè)主流160多個大模型,協(xié)助客戶開發(fā),訓練,托管和應用模型。昇騰AI云服務上線以來,面向政府、金融、零售、互聯(lián)網(wǎng)、交通、制造等行業(yè)已經(jīng)服務六百多家的創(chuàng)新先鋒企業(yè)。
此外,與硅基流動和DeepSeek的合作,也被認為是國產(chǎn)模型與國產(chǎn)算力結(jié)合的代表案例。DeepSeek模型滿血版現(xiàn)已上線昇騰AI云服務,并基于昇騰AI云服務的全棧優(yōu)化適配。

該服務在保證單用戶20TPS水平前提下,單卡Decode吞吐突破1920Tokens/s,比肩英偉達H100的部署性能。同時經(jīng)過主流測試集驗證及大規(guī)模線上盲測,在昇騰算力部署DeepSeek-R1的模型精度與DeepSeek官方保持一致。

華為云計算CEO張平安 圖片來源:網(wǎng)絡
同時,張平安在華為云生態(tài)大會現(xiàn)場介紹,在全球,華為云開服節(jié)點已經(jīng)覆蓋了全球33個地理區(qū)域,96個可用區(qū),在中國也完成了貴安、烏蘭察布、蕪湖三大云核心樞紐布局,這也是目前全球最大規(guī)模、最新技術(shù)、最高規(guī)格的數(shù)據(jù)中心與算力中心,通過這些布局,華為云實現(xiàn)了國內(nèi)30ms,海外50ms時延圈,構(gòu)建全球存算一張網(wǎng)。
換言之,昇騰云的目標是:構(gòu)建一個像電網(wǎng)一樣普惠的AI基礎設施。
然而,從 “用得上” 到 “用得精”,AI落地難點在轉(zhuǎn)移?!讣鬃庸饽辍褂^察到,不同行業(yè)高度異構(gòu)與定制化,通用大模型難以覆蓋復雜場景,“場景適配能力”正成為模型部署成敗的關(guān)鍵因素。
昇騰云基于芯片、框架、工具鏈與云平臺協(xié)同,為行業(yè)場景提供定制服務,實現(xiàn)模型快速適配、上線,形成與客戶的穩(wěn)定綁定,構(gòu)成重要的護城河。
在全球科技博弈下,昇騰云亦擺脫外部生態(tài)依賴,保障數(shù)據(jù)、供應鏈安全,為國內(nèi)企業(yè)提供安全可信的基礎設施。
面對激烈的市場競爭和復雜的行業(yè)需求,昇騰云的目標和策略已經(jīng)明確:
不求短期性能超越和簡單替代,而在于通過系統(tǒng)性創(chuàng)新,專注長期可用性與工程落地能力;不止追求技術(shù)自主,更關(guān)注實際產(chǎn)業(yè)需求的契合;最終構(gòu)建支撐行業(yè)智能化應用規(guī)?;涞氐腁I“第二選擇”。
畢竟,推理時代的競爭,不只是算力之爭,更是穩(wěn)健性、適配力與技術(shù)獨立性的綜合比拼。
而這些,正是昇騰云正在交付的答案。
(封面圖由AI生成)
熱門跟貼