
新智元報道
編輯:定慧 好困
【新智元導(dǎo)讀】人類進(jìn)化12000年,只為等AI覺醒?黃仁勛宣布「AI工廠時代」正式到來!從農(nóng)業(yè)到工業(yè)再到AI革命,英偉達(dá)如何用算力推動歷史巨輪?未來,每家公司都將有一個專屬的超級智能工廠。并全覽目前最先進(jìn)的GB200 NVL72的詳細(xì)參數(shù)。
當(dāng)談到AI時,上下文(Context)就是一切;當(dāng)談到上下文時,數(shù)據(jù)就是一切。
當(dāng)談?wù)摂?shù)據(jù)時,算力就是一切;而談起算力,皮衣教主就會閃亮登場了。

老黃在2025 GTC大會上預(yù)言:
在這里,「AI工廠」一詞并非隱喻,而是對存在于現(xiàn)代AI超級計算機真實面貌的寫照。
人類智能需要上下文,需要數(shù)據(jù),需要腦力,既然人類按照自身的形象創(chuàng)造了AI(基于大模型),這個道理自然也延伸到了AI上。
英偉達(dá)準(zhǔn)備打造的AI工廠,是一種能夠處理數(shù)PB數(shù)據(jù)并根據(jù)需求給出智能答案的超級計算機,是一種推動全球經(jīng)濟(jì)與文化巨變的新型工廠。

數(shù)據(jù)的一天
你是否好奇,我們?nèi)祟愂侨绾巫叩竭@一步的?AI工廠的出現(xiàn)是科技發(fā)展的必然嗎?
AI工廠會把人類變成某種數(shù)字超級智能的生物引導(dǎo)程序嗎?

如果你想更加深入的理解人類如何走到這一步,讓我們先回到12000年前看看。
從石器,到汽車,再到GPU
大約12000年前,人類的祖先厭倦了四處流浪尋找食物與住所,于是他們開始在一個地方定居下來——主動種植作物、飼養(yǎng)牲畜以滿足食物需求。
農(nóng)業(yè)(種田、耕作)本質(zhì)上就是一種食物工廠,只不過主要在戶外進(jìn)行,因為植物和動物的生長需要陽光、水和空氣。
中世紀(jì)時,firma一詞指的是為了種植作物而支付的固定土地租金,因此也成為農(nóng)業(yè)的同義詞。
新石器革命
農(nóng)業(yè)迫使人類組織成等級分明的群體進(jìn)行勞作。
文字是為了管理而創(chuàng)造的——記錄食物工廠的投入與產(chǎn)出,以及管理圍繞農(nóng)業(yè)形成的社會規(guī)則(當(dāng)然,這些規(guī)則在不同地區(qū)存在差異)。
人類最終將文字的用途擴(kuò)展到其他領(lǐng)域,直到今天,它依然是傳遞大量密集信息最快的方式。
從人類放下弓箭和長矛,拿起鋤頭、耙子、犁耕地,并在泥板上刻下第一個符號的那一刻起,AI的誕生就已經(jīng)不可避免——AI工廠的出現(xiàn)也只是時間問題。

工業(yè)革命
人類花費數(shù)千年才得以積累足夠的糧食盈余,「剩余」催生出最早的商人階級——通過手工制造物品供其他人使用。
制造業(yè)(manufacturing)一詞的字面意思就是拉丁語中的「用手制造」。
有了商業(yè),隨之出現(xiàn)了一種通用的交換媒介——貨幣,加速了以物易物的過程,并逐漸演變成現(xiàn)在所熟悉的經(jīng)濟(jì)體系。
更準(zhǔn)確地說,是形成了「全球經(jīng)濟(jì)」,因為在地理大發(fā)現(xiàn)之后的第一波全球化浪潮將不同大陸重新聯(lián)系到了一起,使各個地區(qū)或國家的經(jīng)濟(jì)不再孤立。
從那時起,全球化經(jīng)歷了多次浪潮,徹底改變了農(nóng)業(yè)和制造業(yè)。
工廠(標(biāo)準(zhǔn)化生產(chǎn)的場所)最大的轉(zhuǎn)變是將制造過程拆分成多個步驟,以加快生產(chǎn)速度并提高可重復(fù)性。
這場工業(yè)革命恰好與啟蒙運動同時發(fā)生,識字率迅速提升,因為工廠需要受過教育的工人來最大限度提高效率、減少浪費。
教育從來不是目的,而是一種必要條件。隨之而來的,則是財產(chǎn)權(quán)、人身安全和自由,以及接受迅速而公正審判的權(quán)利。

福特汽車流水線工廠
在21世紀(jì),人們已經(jīng)將這些權(quán)利視為理所當(dāng)然,但實際上應(yīng)當(dāng)感謝18世紀(jì)的貢獻(xiàn)。
工廠將制造活動轉(zhuǎn)移到室內(nèi)。
通過蒸汽動力、隨后電力的應(yīng)用,以及流水線精益生產(chǎn)等技術(shù),以低成本生產(chǎn)現(xiàn)代生活所需的商品,使普通人不僅能負(fù)擔(dān)得起基本生活,還能享受一定的舒適與便利。
制造業(yè)將人們從農(nóng)田中解放出來,創(chuàng)造了一個農(nóng)業(yè)社會無法想象的龐大中產(chǎn)階級,使經(jīng)濟(jì)以前所未有的方式擴(kuò)張。
AI革命
然后互聯(lián)網(wǎng)出現(xiàn)了。
互聯(lián)網(wǎng)將所有人連接在一起的同時,創(chuàng)造了一種前所未有的新資源——數(shù)據(jù)。
數(shù)據(jù)信息就是新時代的「金礦」,各個巨頭從數(shù)據(jù)中挖掘出你的一切需求。
而AI革命的發(fā)生,必須等到海量的文本、圖像、視頻和音頻數(shù)據(jù)被計算機化,并且等到大規(guī)模的計算能力能以可負(fù)擔(dān)的價格用于處理這些數(shù)據(jù)時。
其中,大數(shù)據(jù)的本質(zhì)就是足夠精確的信息量,運行在一組具有高內(nèi)存帶寬的大規(guī)模并行GPU上,而這些GPU又提供了足夠精確的計算能力,足以創(chuàng)建能夠編碼人類對這個世界知識的神經(jīng)網(wǎng)絡(luò),從而使AI真正發(fā)揮作用。

所有這些條件必須同時滿足。
在20世紀(jì)80年代,研究人員擁有神經(jīng)網(wǎng)絡(luò)的算法,但他們沒有足夠的計算能力來運行它們,也沒有足夠的數(shù)據(jù)來喂養(yǎng)它們。
當(dāng)時,現(xiàn)在所知的AI在很大程度上仍然停留在理論階段,直到所有這三個條件都得到滿足。
AI工廠:并非隱喻,而是蛻變
AI工廠這一概念并非比喻——而是對真實存在的AI超級計算機的真實描述。
它不僅改變了企業(yè)計算的本質(zhì),也徹底重塑了數(shù)據(jù)分析的方式——數(shù)據(jù)的綜合與提煉,轉(zhuǎn)化為行動或非行動所需的信息。

AI工廠的出現(xiàn)是必然的,就像農(nóng)業(yè)工廠(人們合作供養(yǎng)彼此)一樣不可避免。
社會與文化圍繞這種革命進(jìn)行變革,為人類帶來了更多自由時間去思考與創(chuàng)造。
如今,人類擁有了能夠獲取人類全部知識并以對話形式檢索的機器。更重要的是,這些機器能夠被反向運行,按照提示生成各種格式的新數(shù)據(jù)。
未來,每個企業(yè)和個人都會擁有自己的AI工廠,或至少共享其中的一部分。這些AI工廠將產(chǎn)生新想法、新視野,幫助人類拓展自身的創(chuàng)造能力。
也許今天世界各地在很多問題上缺乏共識,但關(guān)注AI革命的人都認(rèn)同,AI日益增強的能力將改變?nèi)祟惖囊磺姓J(rèn)知和行動。
使命:洞見與行動的制造之地
AI工廠有兩項工作。第一項是訓(xùn)練基礎(chǔ)模型,這些模型提供人們都尋求的洞見,以改善業(yè)務(wù)和生活。
第二項,也是最終更重要的工作,是將新數(shù)據(jù)和問題輸入模型,讓其推理出新答案——生成新的Token——以提供進(jìn)一步的洞見并驅(qū)動行動。

COLOSSUS:馬斯克xAI的巨型計算工廠,配備十萬片H100 GPU
在過去十年中,圍繞AI的大量討論都集中在Scaling Law上,這些模型現(xiàn)在擁有數(shù)千億到超過萬億的參數(shù)(類似于人腦中突觸的放電水平),以及處理的數(shù)據(jù)量(數(shù)萬億到數(shù)十萬億的Token,并且還在增長)。
Token數(shù)量代表知識量有多少,而參數(shù)量則代表已知知識的思考能力有多強。
在較大的Token集上使用較小的參數(shù)量會帶來更快但更簡單的答案。
在較小的Token集上使用較大的參數(shù)量會讓你對有限事物的理解給出更好的答案。
如今,思維鏈推理模型(本質(zhì)上也是多模態(tài)的,不僅僅關(guān)注文本)正在將數(shù)百個專業(yè)模型整合在一起協(xié)同工作,它們會考慮驅(qū)動其他輸入的輸出,花費更多時間來生成我們?nèi)祟惙Q之為答案的更好的Token流。
有了AI工廠,人類創(chuàng)造的所有內(nèi)容和AI模型生成的合成數(shù)據(jù)都成了原材料。
從這海量的歷史數(shù)據(jù)寶庫中獲得的洞見是收獲的成果,擁有人類智慧的人和具備AI的AI智能體利用這些洞見來做事。
這一次,人類不再是去工廠上班,而是將接入工廠作為其工作的一部分,用自己的技能來增強模型廣泛的知識和速度,從而更好更快地完成更多事情。
非凡的工程壯舉
「世界正在競相建設(shè)最先進(jìn)、大規(guī)模的AI工廠」,英偉達(dá)聯(lián)合創(chuàng)始人兼首席執(zhí)行官黃仁勛在最近于圣何塞舉行的2025 NVIDIA GTC大會的主題演講中解釋道。
「建設(shè)一個AI工廠是一項非凡的工程壯舉,需要來自供應(yīng)商、架構(gòu)師、承包商和工程師的數(shù)萬名工人來建造、運輸和組裝近50億個組件以及超過20萬英里的光纖——幾乎是從地球到月球的距離?!?/p>
強大的硬件加持
建設(shè)一個AI工廠是一項重大的資本投資。
一個AI工廠的合理配置是基于8個DGX B200系統(tǒng)機架的DGX SuperPOD,它由GPU、CPU、節(jié)點間的Quantum-X InfiniBand或Spectrum-X Ethernet互連技術(shù)以及存儲組成。

配備32個DGX B200系統(tǒng)后,這個SuperPOD提供了4.61 exaflops的FP4性能,擁有48TB的HBM3內(nèi)存和2PB/秒的總內(nèi)存帶寬。
每個DGX B200配8個Blackwell GPU,并通過第五代NVLink互連,DGX B200提供比上一代系統(tǒng)高3倍的訓(xùn)練性能和15倍的推理性能。


英偉達(dá)另一個AI工廠的藍(lán)圖是基于GB200 NVL72平臺,這是一個機架級系統(tǒng),同樣包含 GPU、CPU、DPU、SuperNIC、NVLink和NVSwitch,以及InfiniBand和Spectrum-X網(wǎng)絡(luò)。
但它為AI模型提供了更大的共享GPU內(nèi)存域(72個GPU插槽,相比之下DGX B200節(jié)點只有8個),并且具有更高的計算密度,因此需要液冷。
GB200 NVL72于2024年3月發(fā)布,現(xiàn)已全面出貨。

GB200 NVL72機架級系統(tǒng)確實是一個完整的系統(tǒng)——除了你的數(shù)據(jù)之外,它不需要任何其他東西就可以開始構(gòu)建模型,然后轉(zhuǎn)身開始以文本、圖像、視頻或聲音格式輸出數(shù)據(jù) Token。
GB200 NVL72的基本構(gòu)建模塊是一個MGX服務(wù)器節(jié)點,該節(jié)點包含一個Grace CPU作為一對Blackwell GPU的主機處理器,而這對Blackwell GPU本身是位于單個SXM插槽中的一對Blackwell GPU晶粒。
兩個這樣的服務(wù)器節(jié)點組合成一個內(nèi)置于NVL72機架中的計算托盤。機架中有18個計算托盤,共構(gòu)成72個GPU(144個GPU晶粒)和36個CPU。
GB200 NVL72機架級系統(tǒng)將Grace CPU與一對Blackwell GPU相結(jié)合,CPU和GPU之間通過450GB/秒的NVLink連接。
1.8TB/秒的NVLink端口與NVSwitch芯片一起使用,將所有72個GPU(144個GPU晶粒,每個900GB/秒)連接成一個全互聯(lián)(all-to-all)、共享內(nèi)存式的配置,這種配置非常適合基礎(chǔ)模型訓(xùn)練(當(dāng)它們?yōu)榇笠?guī)?;ミB時)以及思維鏈推理。
由9個NVLink交換托盤(總共18個NVSwitch芯片)創(chuàng)建的NVLink互連結(jié)構(gòu)使得這144個GPU晶??梢韵褚粋€巨大的GPU一樣被訪問。
GB200 NVL72系統(tǒng)擁有2,592個用于主機處理的Arm核心,并提供1.44 exaflops的FP4精度浮點處理能力,精度每提高2倍,吞吐量減半。
GB200 NVL72系統(tǒng)擁有連接到GPU的13.4TB HBM3e內(nèi)存,總帶寬高達(dá)576 TB/秒。那些 Grace CPU擁有總共17.3 TB的LPDDR5X內(nèi)存,與GPU僅相隔一個NVLink跳躍,并提供另外18TB/秒的總帶寬。
GB200 NVL72對于AI革命的意義,就像System/360對于五十年前的聯(lián)機事務(wù)處理和批處理革命的意義一樣。

IBM System/360是一個計算機系統(tǒng)家族,由IBM于1964年4月7日宣布
當(dāng)時與現(xiàn)在的一個主要區(qū)別是,NVL72可以通過InfiniBand互連進(jìn)行橫向擴(kuò)展,這正是DGX SuperPOD中所采用的方式。
而一旦購買了最大的System/360,那就是它的極限了,必須等待下一個升級周期才能獲得更強大的機器。
基于NVL72機架級系統(tǒng)的DGX SuperPOD配置需要近1 兆瓦的電力,但在8個計算機架上提供了11.5 exaflops的計算能力和240 TB的HBM3e內(nèi)存。
如果需要更高的性能,就像任何SuperPOD一樣,只需購買更多機架即可。
NVL72機架的計算密度需要專門的液冷技術(shù)和支持該技術(shù)的數(shù)據(jù)中心設(shè)施。
冷都不是一個新想法,在某種程度上,使用液冷是一種「倒退」。
回到20世紀(jì)60年代和70年代,那些改變了各行各業(yè)的大型主機也采用液冷的時代——以便它們能夠發(fā)揮當(dāng)時可用的絕對最高性能。
隨著推理被嵌入到各種應(yīng)用程序中,一個AI工廠幾乎肯定需要比這多得多的計算能力,特別是如果想要合理的查詢和AI智能體性能,并且隨著不可避免地轉(zhuǎn)向思維鏈推理模型。
據(jù)估計,思維鏈推理模型所需的計算量比早期大語言模型常見的那種一次性、簡單回答多出100倍。
全面的軟件生態(tài)
DGX GB200系統(tǒng)和相關(guān)的DGX SuperPODAI超級計算機需要進(jìn)行管理和建模,這就需要用到幾種不同的工具。
NVIDIA Mission Control(包括Run.ai)負(fù)責(zé)在整個基礎(chǔ)設(shè)施中編排AI工作負(fù)載,并在出現(xiàn)問題時自動恢復(fù)作業(yè)。

Mission Control對系統(tǒng)進(jìn)行健康檢查,并幫助根據(jù)系統(tǒng)上運行的工作負(fù)載優(yōu)化功耗。
在此之上是NVIDIA AI Enterprise,這是一個系統(tǒng)軟件,包含了為在英偉達(dá)GPU和網(wǎng)絡(luò)上加速而優(yōu)化的庫、模型和框架。

AI工廠技術(shù)?,F(xiàn)在還包括NVIDIA Dynamo,這是一個用于在NVLink和DGX SuperPOD基礎(chǔ)設(shè)施上運行推理的開源分布式框架。

DGX專家服務(wù)與支持(DGX Expert Service and Support)幫助客戶快速實施這些技術(shù),并縮短其AI工廠首次生成Token的時間。
對于那些構(gòu)建和擴(kuò)展這些系統(tǒng)的人,英偉達(dá)為其Omniverse「數(shù)字孿生」環(huán)境和設(shè)計工具創(chuàng)建了AI工廠藍(lán)圖,以模擬構(gòu)成AI工廠的整個數(shù)據(jù)中心,從而確保其在首次構(gòu)建時就能正確無誤,并在不可避免的擴(kuò)展過程中保持正確。
也許AI工廠最重要的方面是它所催生的思維轉(zhuǎn)變,以及英偉達(dá)在其當(dāng)前系統(tǒng)和路線圖中所關(guān)注的重點,這向客戶保證了機架級和系統(tǒng)有充足的增長空間。
「我認(rèn)為,AI工廠之所以如此令人興奮且需求旺盛,是因為對許多公司而言,生成Token現(xiàn)在等同于創(chuàng)造營收」,英偉達(dá)網(wǎng)絡(luò)高級副總裁Gilad Shainer表示。
「我們不再將數(shù)據(jù)中心視為成本中心,而是視為能夠產(chǎn)生收入的生產(chǎn)性資產(chǎn)」。
畢竟,這才是建造AI工廠的全部意義所在。
參考資料:
https://www.nextplatform.com/2025/04/11/the-ai-factory-12000-years-in-the-making-and-absolutely-inevitable/?linkId=100000357151212
熱門跟貼