杰文斯悖論不是天然成立的。在 AI的敘事中,要讓算力用得越多,就要讓算力變得更便宜,也要讓 AI更有用、好用。兌現(xiàn)杰文斯悖論已經(jīng)成為了英偉達(dá)的命門(mén),黃仁勛要在本屆 GTC上,讓市場(chǎng)再次相信他。
AI正在從技術(shù)變革和基礎(chǔ)設(shè)施的部署期,向規(guī)?;纳虡I(yè)應(yīng)用期轉(zhuǎn)變。對(duì)于 GPU的需求也在發(fā)生根本性的變化,即從搶購(gòu) GPU快速部署算力和技術(shù),到商業(yè)應(yīng)用尋求更具性?xún)r(jià)比的算力。老黃苦心經(jīng)營(yíng)的賣(mài)方市場(chǎng),并非一成不變。需求在呼喚新的創(chuàng)新。
算力成本下降的趨勢(shì)已經(jīng)相當(dāng)明顯。 Deepseek 從軟硬件協(xié)同層面起了帶頭作用,阿里千問(wèn)和百度文心接力,挑起了價(jià)格戰(zhàn)。但是,硬件層面的算力成本也需要快速下降,即全生命周期內(nèi)總持有成本( TCO)的下降。它既包括單位算力成本的下降,決定了算力的資本開(kāi)支( Capex),也包括單位性能能耗的下降,決定了算力的運(yùn)營(yíng)開(kāi)支( Opex)。
如果只是降低單位算力的成本,也就是每花一美元獲得的算力的多少,很快就會(huì)遇到電力的天花板。尤其是在美國(guó),存量電力基礎(chǔ)設(shè)施老化,增量建設(shè)緩慢,無(wú)法支撐數(shù)據(jù)中心快速擴(kuò)張。 EpochAI認(rèn)為,前沿模型訓(xùn)練首先遇到的瓶頸就是電力問(wèn)題,當(dāng)前的預(yù)訓(xùn)練之路,在 2030年之前就會(huì)終結(jié)。推理規(guī)模落地,尤其是 DeepResearch這樣昂貴的智能體技術(shù),需要更高的算力消耗,也就更快觸及電力瓶頸。

對(duì)英偉達(dá)來(lái)說(shuō),一旦算力觸及了電力瓶頸,想要賣(mài)出更多的 AI芯片,就要降低它的單位算力能耗。否則,整個(gè)行業(yè)都將像 DeepSeek學(xué)習(xí),在現(xiàn)有硬件的基礎(chǔ)上,通過(guò)軟硬件協(xié)同或模型優(yōu)化,壓榨出更多的算力——這樣對(duì)于更強(qiáng)大的芯片的需求會(huì)變得相對(duì)淡定。
事實(shí)上,即使沒(méi)有觸及總電力供給的瓶頸,當(dāng) R1推出之后,美國(guó)云巨頭與 AI應(yīng)用企業(yè)就迅速將其部署于自己的服務(wù)器或應(yīng)用之上。 AI走向商業(yè)化變化,企業(yè)就有強(qiáng)烈的降低成本的驅(qū)動(dòng)力,要么是更便宜的資本開(kāi)支,要么是更便宜的運(yùn)營(yíng)開(kāi)支。
CoreWeave曾透露,電力大約占其基礎(chǔ)設(shè)施成本的 10%。該企業(yè)大量采購(gòu)了英偉達(dá) AI芯片,披露該數(shù)據(jù)的時(shí)候,算力主要來(lái)自 Hopper架構(gòu)芯片。 Semianalysis曾簡(jiǎn)單地算過(guò)一筆賬, H100售價(jià) 3.5萬(wàn)美元, 8塊 H100的服務(wù)器約 28萬(wàn)美元,它每月電力成本約為 648美元(按 0.087美元 /千瓦時(shí)的電價(jià)計(jì)算,電價(jià)更低的地區(qū)運(yùn)營(yíng)成本相應(yīng)降低)。如果按 6年折舊,那么算力用電成本相當(dāng)于 GPU成本的 15%左右。
但是, EpochAI估算,按當(dāng)前英偉達(dá)芯片的發(fā)布趨勢(shì),到 2030年,每花 1美元,就能比現(xiàn)在多買(mǎi)到 8倍多的算力( FLOP),而驅(qū)動(dòng)這些算力的功耗則會(huì)減少 4倍,花在電力上的成本相當(dāng)于 GPU成本的 40%。即,因?yàn)橥评響?yīng)用階段會(huì)在算力中占更大比重,運(yùn)營(yíng)成本中的電力成本占比相對(duì)上升了。只有比現(xiàn)在更快地降低單位算力能耗 ——或者在電價(jià)更低的地區(qū)大規(guī)模部署 ——才能大幅降低未來(lái) AI企業(yè)的運(yùn)營(yíng)成本。
英偉達(dá)的芯片越來(lái)越 “燙手 ”。 A100的熱設(shè)計(jì)功率( TDP)為 400瓦, H100達(dá)到了 700瓦, B200約為 1000瓦;多家分析機(jī)構(gòu)預(yù)計(jì),即將發(fā)布的 GB300約為 1400瓦,下一代 Rubin高達(dá) 1800瓦。這不僅使得芯片與機(jī)架層面頻頻出現(xiàn)設(shè)計(jì)與散熱問(wèn)題,量產(chǎn)時(shí)間較預(yù)期推遲不少時(shí)間,更有可能將用戶(hù)推向擁抱更節(jié)能的定制 AI芯片。
巨頭們已經(jīng)開(kāi)始紛紛自研芯片。谷歌找了博通還不夠,計(jì)劃讓聯(lián)發(fā)科也試試設(shè)計(jì) TPU。英偉達(dá)的競(jìng)爭(zhēng)對(duì)手越來(lái)越多。提升能效,正是下一代芯片與算力系統(tǒng)創(chuàng)新最重要的主題。
從 2022年底 ChatGPT發(fā)布,到 2026年下半年 Rubin正式量產(chǎn),以及 2027年規(guī)模部署,算力基礎(chǔ)設(shè)施粗放式地建設(shè)浪潮,也跨過(guò)了 5年的周期。按照互聯(lián)網(wǎng)時(shí)代的經(jīng)驗(yàn),大模型也是時(shí)候進(jìn)入更節(jié)能的階段了。
前勞倫斯伯克利國(guó)家實(shí)驗(yàn)室研究人員喬納森 ·庫(kù)米( Jonathan Koomey),在 2000年互聯(lián)網(wǎng)泡沫高峰期,駁斥了幾乎與今天一樣的“電力炒作”。當(dāng)時(shí)同樣有很多人預(yù)測(cè),計(jì)算機(jī)和互聯(lián)網(wǎng)應(yīng)用最終將消耗大量電力,從 2000年到 2005年,數(shù)據(jù)中心用電量確實(shí)翻了一番,但此后增長(zhǎng)緩慢,從 2010年到 2018年,由于芯片系統(tǒng)技術(shù)的進(jìn)步,更是用 6%的用量增量支撐了計(jì)算量的 6倍增長(zhǎng)。

庫(kù)米最近發(fā)布報(bào)告稱(chēng),在 AI熱潮的早期階段,巨頭玩家們爭(zhēng)相獲得算力部署新興的技術(shù),效率往往并不是首要考慮,但隨著部署限制逐步顯現(xiàn),行業(yè)將會(huì)用效率來(lái)緩解這種限制。盡管摩爾定律,在放緩,登納德定律 ( Dennard Scaling) 所定義的芯片能效逐步失效,但除了在軟件與算法層面尋求優(yōu)化,硬件仍然可以在定制化、集成化和立體化設(shè)計(jì)等方向,甚至新的材料或新的計(jì)算模式(如量子計(jì)算)上進(jìn)行創(chuàng)新。
誰(shuí)解決了這個(gè)問(wèn)題,誰(shuí)從產(chǎn)業(yè)中贏得更多的利潤(rùn)。這是黃仁勛需要在即將到來(lái)的 GTC演講上,給出一個(gè)能源答案。
熱門(mén)跟貼