“一塊英偉達(dá)H100芯片賣到3.5萬美元,中國企業(yè)排隊、給錢也拿不到貨?!边@是中國AI行業(yè)的真實寫照。美國對華芯片禁令步步緊逼:2023年閹割版H20性能僅剩H100的15%,2025年連“殘血版”都禁售。

但就在2025年4月29日,媒體曝光稱,中國AI企業(yè)深度求索(DeepSeek)扔出一顆“核彈”——新一代大模型DeepSeek R2宣布徹底拋棄英偉達(dá)芯片,全面基于國產(chǎn)昇騰、海光等芯片訓(xùn)練,推理性能直接對標(biāo)H100,單位成本卻暴跌97%。這場“斷供危機”下的絕地反擊,究竟如何實現(xiàn)的?

當(dāng)美國試圖用芯片鎖死中國AI咽喉時,DeepSeek選擇了一條“反常識”路徑:用算法創(chuàng)新彌補硬件差距。傳統(tǒng)大模型訓(xùn)練依賴英偉達(dá)GPU堆砌算力,但DeepSeek R2采用自研Hybrid MoE 3.0架構(gòu),動態(tài)激活參數(shù)僅780億,效率比前代提升近一倍。
更關(guān)鍵的是,它通過FP8混合精度框架和DualPipe并行算法,將訓(xùn)練所需的H800芯片從行業(yè)平均的8192塊壓縮到2048塊,成本從數(shù)億美元驟降至557萬美元。

“這就像用自行車發(fā)動機跑出F1的速度?!币晃话雽?dǎo)體分析師感嘆。華為昇騰910B芯片在千卡集群中的訓(xùn)練效率已達(dá)H100的72%,而功耗僅85%。配合壁仞、沐曦等16家國產(chǎn)芯片廠商的適配優(yōu)化,R2成功構(gòu)建了從模型到硬件的全國產(chǎn)閉環(huán)。
英偉達(dá)H100的暴利神話正在崩塌。根據(jù)DeepSeek披露的數(shù)據(jù),R2生成百萬token的費用從GPT-4的2.19美元降至0.27美元,單位推理成本降低97.3%。這背后是兩大殺手锏:
1. 硬件利用率革命:傳統(tǒng)英偉達(dá)芯片的實際利用率僅38%,而昇騰910B通過分布式框架優(yōu)化,利用率飆升至82%。
2. 制程降維打擊:R2不再依賴3nm先進(jìn)工藝,轉(zhuǎn)而用國產(chǎn)12nm芯片實現(xiàn)高性價比。中芯國際12寸晶圓產(chǎn)能擴張后,單張推理卡成本壓到2萬元,僅為H100的1/10。
“以前用英偉達(dá)是不得不選,現(xiàn)在用國產(chǎn)是主動選擇?!币晃辉朴嬎銖S商技術(shù)總監(jiān)透露,國內(nèi)一些云廠商已全面接入R2服務(wù),中小開發(fā)者調(diào)用AI接口的成本降低90%。

當(dāng)然了,英偉達(dá)真正的護(hù)城河不是芯片,而是CUDA生態(tài)——全球90%的AI開發(fā)者被綁定在這個“軟件帝國”中。但DeepSeek用開源策略撕開了一道口子:開源框架MindSpore吸引超20萬開發(fā)者,無問芯穹的Infini-AI平臺更實現(xiàn)“一鍵切換”國產(chǎn)芯片適配。
這場生態(tài)戰(zhàn)的勝負(fù)手在于場景反哺。在醫(yī)療領(lǐng)域,R2的胸部X光識別準(zhǔn)確率超98%;工業(yè)質(zhì)檢誤檢率壓至千萬分之7.2。垂直場景的爆發(fā)讓國產(chǎn)芯片快速迭代——華為下一代昇騰芯片已瞄準(zhǔn)H200,性能提升60%。正如清華團(tuán)隊所言:“當(dāng)國產(chǎn)模型每天消耗百萬億token時,生態(tài)霸權(quán)不攻自破。”

美國相關(guān)部門曾測算,中國AI算力缺口達(dá)1000P(相當(dāng)于10萬塊H100)。但DeepSeek R2的突圍證明:算力自主權(quán)不是靠“買來的芯片”,而是靠“長出來的生態(tài)”。當(dāng)然,挑戰(zhàn)依然存在——國產(chǎn)芯片的CUDA轉(zhuǎn)換層仍有10%-15%性能損耗,7nm以下先進(jìn)制程尚未突破。
但歷史的轉(zhuǎn)折往往始于一個微小信號。2025年3月,清華系初創(chuàng)公司“無問蒼穹”發(fā)布LPU芯片,推理速度達(dá)H100的3倍,成本僅1/10?;蛟S正如硅谷投資人驚呼:“英偉達(dá)的壟斷,終于到了被革命的前夜。”
作者聲明:內(nèi)容由AI生成
熱門跟貼