文 | 孫永杰

經(jīng)過多輪的市場傳言猜測與情緒反轉,美國政府最終對英偉達的H20芯片升級了出口管制,隨即英偉達CEO黃仁勛時隔3個月再次到訪中國,表示希望繼續(xù)與中國合作,可見此舉在業(yè)內引發(fā)的震動。而隨著H20芯片在中國市場的受限,國內AI芯片替代的真正大考也正式開啟。

英偉達H20等受限,國內廠商迎替代大考機會

說到H20芯片的出口管制,近日,英偉達發(fā)布8-K文件稱,美國政府于4月9日告知,H20芯片出口到中國需要許可證,此后又于14日告知,這些規(guī)定將無限期實施。美國將H20納入“非民用超算風險清單”,意味著AI芯片管制從高端產品(如A100、H100)延伸至定制化中端產品。需要說明的是,H20是英偉達在中國合法銷售的主要芯片,是在2023年10月美國最新一輪出口限制生效后推出的。

打開網(wǎng)易新聞 查看精彩圖片

幾乎與此同時,美國商務部宣布,AMD MI308以及同類型的AI芯片,也增加了新的中國出口許可要求。而英特爾也似乎沒有獲得任何豁免,據(jù)報道,該公司同樣需要獲得出口許可證才能向中國銷售其Gaudi芯片。

對此,華泰證券指出,H20銷售受限或已被市場預期,但新規(guī)或昭示將堵住以內存彌補算力漏洞。而萬聯(lián)證券則認為,此次美國政府對H20進行許可證管理,表明貿易管制力度加大,認為H20在中國市場的銷售或將面臨較大限制或導致英偉達在中國市場份額有所流失,國內AI芯片廠商有望承接更多市場份額。該機構進一步指出,關稅博弈未定,全球貿易摩擦或加劇半導體產業(yè)國產化進程有望進一步加速,國產算力將迎來發(fā)展機遇。

而在我們看來,隨著英偉達H20、AMD MI308及同類型的AI芯片和英特爾Gaudi芯片在中國市場銷售的受限,國產AI芯片直面替代大考的機會真的來了,即國內廠商有了前所未有的市場空間去驗證自身產品的性能、可靠性、生態(tài)兼容性以及供應鏈的穩(wěn)定性等。

本土力量崛起,華為昇騰領跑光環(huán)下的隱憂

提及替代英偉達GPU大考的機會,華為的昇騰(Ascend)系列芯片無疑是目前最受矚目、聲量最大,且在實際部署上走得最遠的本土替代選項。尤其是以昇騰910C為代表的最新一代產品,正成為中國構建本土AI基礎設施的核心。

更重要的是,華為已將芯片的能力延伸至系統(tǒng)層面,通過CloudMatrix這樣的計算系統(tǒng)(例如近日被媒體廣泛報道的由384塊昇騰910C組成、采用全對全互聯(lián)拓撲的CM384系統(tǒng))來聚合算力,其超節(jié)點在規(guī)模及推理性能已比肩英偉達NVL72超節(jié)點的水平。而這和構成該計算系統(tǒng)最核心的華為昇騰910C芯片密不可分。

據(jù)包括Huawei Central、TrendForce News和Reddit等多個可靠來源和平臺的研究分析,昇騰910C是通過將兩個昇騰910B芯片組合而成,采用了共封裝(co-packaging)或芯片組(chiplets)技術。而通過組合兩個910B芯片,910C的計算能力顯著提升,達到了800 TFLOP/s(FP16)的計算能力和3.2 TB/s的內存帶寬,幾乎是英偉達H100性能的80%。

打開網(wǎng)易新聞 查看精彩圖片

所謂有利就有弊,這種設計方式雖然在短期內提升了性能,但也帶來了顯著的弊端。

首先從技術層面看,這種設計會導致諸如功耗增加、互連瓶頸等。

以功耗增加為例,更高的功耗意味著更多的散熱需求,增加了散熱系統(tǒng)的成本和復雜性(例如需要更強大的風扇、散熱片或液冷系統(tǒng))。同時,在數(shù)據(jù)中心等對能效要求高的場景下,高功耗會顯著增加運營成本。

據(jù)知名半導體和人工智能研究公司SemiAnalysis稱,CM384系統(tǒng)功耗遠高于英偉達的GB200 NVL72系統(tǒng)。例如它需要GB200 NVL72 3.9倍的功耗,每FLOP的功耗差2.3倍,每TB/s內存帶寬的功耗差1.8倍,以及每TB HBM內存容量的功耗差1.1倍(“功耗差X倍”在這里表示相對于基準GB200 NVL72,每單位性能/容量所需的功耗是其X倍,即能效差了X倍)。而導致上述的部分原因可能就源于昇騰910C芯片本身的這種組合設計。

打開網(wǎng)易新聞 查看精彩圖片

不要小看功耗的增加,在實際部署層面,每臺AI GPU服務器的基礎投資約為40萬美元,其中電源、冷卻等基礎設施就占建設成本的1/3以上。據(jù)IDC調研顯示,80%的數(shù)據(jù)中心決策者將能耗與散熱視為關鍵制約因素,而具體到華為CM384系統(tǒng)功耗為GB200 NVL72的3.9倍,其長期運行成本勢必水漲船高,而如何在規(guī)模擴張與能效之間找到平衡是巨大的挑戰(zhàn)。

至于互連瓶頸,盡管910C旨在解決910B在跨卡互連方面的嚴重問題,但組合兩個芯片的設計仍可能存在互連帶寬的限制。來自Huawei Central的研究顯示,910C的die-to-die帶寬僅為Nvidia H100的1/10至1/20。而這種瓶頸可能影響大規(guī)模AI訓練任務的效率,具體表現(xiàn)為性能無法按裸片數(shù)量實現(xiàn)線性擴展,表現(xiàn)為兩個裸片通常無法達到單個同等技術裸片性能的兩倍,尤其是在需要高帶寬的場景中,如訓練大型語言模型(LLM)。同時數(shù)據(jù)在不同裸片之間傳輸還會帶來額外的延遲和功耗。

除了上述技術層面,在生態(tài)系統(tǒng)與市場層面,眾所周知,與昇騰芯片同屬于昇騰計算的華為MindSpore的AI框架雖然在不斷發(fā)展,但仍無法與英偉達的CUDA平臺相提并論。

例如Unite.AI的分析就指出,MindSpore的成熟度和廣泛采用度較低,可能限制開發(fā)者采用,尤其是對于長期AI訓練任務,這可能導致910C在軟件支持和開發(fā)者生態(tài)系統(tǒng)方面落后于英偉達,從而在實際應用中效率降低。

最后,也更為關鍵的是,據(jù)SemiAnalysis、TechInsights、WCCFTech等的拆解、分析和報道確認,盡管昇騰910C部分由中芯國際(SMIC)制造,但受限于良率(據(jù)稱華為昇騰芯片良率僅為32%,也有報道稱,昇騰910C的良率已提高至近40%,但仍低于60%的行業(yè)標準)和產能,其絕大部分仍是采用臺積電的7nm工藝制造。

究其原因,國內晶圓代工廠,如中芯國際雖然在技術上已經(jīng)掌握了7nm工藝,但相較于臺積電,其在先進制程的良率、穩(wěn)定性、大規(guī)模量產能力以及配套的設備和材料生態(tài)等方面仍存在差距。尤其對于像昇騰910C這樣尺寸較大、技術復雜的AI芯片,對制造工藝的要求更高,中芯國際在滿足其大規(guī)模、高良率生產方面仍面臨挑戰(zhàn)。

因此,即便存在國內制造的選項,華為為了保障供應的穩(wěn)定性和產品性能,仍然傾向于依賴技術更成熟、產能更穩(wěn)定的臺積電,這凸顯了中國在先進制程制造環(huán)節(jié)“卡脖子”困境下,通過第三方渠道獲取晶圓的模式。

此外,昇騰910C關鍵組件,如HBM主要來自韓國供應商三星(據(jù)SemiAnalysis稱,主要采用三星在大中華區(qū)的HBM獨家經(jīng)銷商CoAsia Electronics向ASIC設計服務公司Faraday發(fā)貨HBM,后者再委托SPIL采用便于后續(xù)提取的低熔點焊料將其與廉價的16nm邏輯芯片一起“封裝”,最后運到中國以拆焊的方式回收HBM使用)。而眾所周知的是,這種以基于規(guī)避為核心目的的供應鏈模式,除了合法性存疑外,穩(wěn)定性極差,風險性極高,是最大的隱憂。

國內廠商多點開花, 方能降風險、保穩(wěn)定、促自主

如前述,我們不難看到,盡管華為昇騰910C在國內應用和替代中處在領跑的位置,但無論從芯片本身的性能、所處的生態(tài)、還是關鍵的供應鏈模式等環(huán)節(jié),因為客觀或自身的原因均存在較大的隱憂,而這就需要國內其他相關廠商必須參與到替代的大考中來。

事實是,在AI芯片領域,除華為外,科技大廠阿里、百度、騰訊均已布局自研AI芯片;在純芯片廠商中,既有寒武紀、景嘉微、海光信息等上市公司,也涌現(xiàn)出如芯動科技、瀚博半導體、沐曦集成電路、天數(shù)智芯、地平線等一批兼具技術沉淀與創(chuàng)新活力的企業(yè)。

其中屬于科技大廠的阿里巴巴(含平頭哥的含光芯片)、百度(昆侖芯)、騰訊、商湯科技等,它們基于自身龐大的業(yè)務需求,開發(fā)用于內部場景的AI芯片。這些芯片主要服務于其自有的云平臺或業(yè)務,雖不直接面向廣泛的外部市場銷售,但代表了國內頂尖的應用場景驅動型芯片設計能力,是國產AI算力體系的重要組成部分。

至于屬于上市公司的海光信息,其海光DCU系列產品以GPGPU架構為基礎,建立的自研軟件棧全面兼容CUDA生態(tài)以及國際主流商業(yè)計算軟件、人工智能軟件,可廣泛應用于大數(shù)據(jù)處理、人工智能、商業(yè)計算等領域,已應用于國產超算和AI訓練場景,可承接部分H20受限后的市場需求。百度、阿里、騰訊等互聯(lián)網(wǎng)企業(yè)已認證通過海光的DCU產品并推出聯(lián)合方案,打造全國產軟硬件一體全棧AI基礎設施。此外,科大訊飛、商湯和云從等國內頭部AI企業(yè),已有大量模型移植并運行在海光DCU平臺上。

又如寒武紀,作為國產AI芯片的頭部企業(yè),其思元系列芯片在云端和邊緣計算領域可部分替代英偉達的產品,尤其是通過第五代智能處理器微架構,其產品可滿足云端訓練等場景需求。

除上述老牌企業(yè)外,自2019年以來,一批國產GPU初創(chuàng)公司也先后成立,并涌現(xiàn)了諸如壁仞科技、摩爾線程、燧原科技等AI芯片設計獨角獸。

例如其中的摩爾線程,與華為昇騰有所不同,其目標是構建一個更廣泛的通用GPU生態(tài)系統(tǒng)。為此,摩爾線程構建了MUSA(Moore Threads Unified System Architecture)統(tǒng)一的軟件平臺。而近日,摩爾線程正式發(fā)布MUSA SDK4.0.1,其最大的突破就是實現(xiàn)了從芯片設計到軟件棧的"全鏈路貫通",且實現(xiàn)對于英偉達CUDA全盤的遷移,用戶使用習慣不會改變,速度卻快15%以上

至于同屬AI芯片設計獨角獸的壁仞科技,則早在2022年就推出了采用7nm制程的GPGPU芯片BR100,該芯片峰值算力達到國際廠商彼時在售旗艦產品3倍以上,創(chuàng)下國內互連帶寬紀錄。

從上述我們不難看出,除華為昇騰外,國內還有許多在AI芯片領域實力不俗,且有不乏具備可替代英偉達GPU的企業(yè),而鑒于我們前述華為昇騰存在的隱憂,惟有這些企業(yè)積極參與,形成多點開花,方能在替代的過程中,降風險、保穩(wěn)定、促自主。

寫在最后:英偉達H20等近期在中國市場的受限,突顯了國內替代方案的重要性。但通過上述,我們認為,中國AI芯片的替代,乃至未來的自主之路,不能僅靠個別企業(yè),更不可長期依賴充滿不確定性的規(guī)避手段的供應鏈模式,而是在于多點開花,支持包括華為、海光信息、摩爾線程等在內的多元化的國內AI芯片企業(yè)的協(xié)同發(fā)展,借此構建真正強大、完整、有韌性的全產業(yè)鏈自主生態(tài),才是加速實現(xiàn)中國AI芯片自主可控的正解。