未經(jīng)許可不得轉(zhuǎn)載,務(wù)必保留原文出處鏈接和公眾號名片

Web3天空之城·城主
【城主說】在昨晚萬眾矚目的 GTC 2025 大會上,英偉達創(chuàng)始人兼 CEO 黃仁勛向世界宣告了“AI 工廠”時代的正式到來:
Blackwell 架構(gòu):算力迎來千倍躍升,奠定 AI 工廠基石
黃仁勛再次拿出Blackwell 架構(gòu), Blackwell 架構(gòu)對比上一代 Hopper 架構(gòu),在推理性能上實現(xiàn)了驚人的40 倍提升,部分場景甚至高達 900 倍。
Blackwell 的核心目標是構(gòu)建“AI 工廠”,如同工業(yè)革命時期的工廠一樣,AI 工廠將大規(guī)模生產(chǎn)Token—— 人工智能的基本構(gòu)成單元,驅(qū)動各種智能應(yīng)用。
Blackwell 架構(gòu)的效率也大幅提升,ISO 功率效率提升 25 倍,意味著在同樣的功耗下,能提供更強大的算力,這對于能源成本高昂的數(shù)據(jù)中心至關(guān)重要。
NVLink 72 和 Dynamo:打造互聯(lián)互通的 AI 超級集群
為了充分發(fā)揮 Blackwell 架構(gòu)的潛力,英偉達推出了NVLink 72高速互聯(lián)技術(shù),以及Dynamo—— 專為 AI 工廠打造的分布式推理服務(wù)庫,堪稱 AI 工廠的 “操作系統(tǒng)”。
NVLink 72 實現(xiàn)了GPU 之間的無縫高速互聯(lián),可以將成千上萬的 Blackwell GPU 組合成一個巨型 GPU,突破算力瓶頸,實現(xiàn)真正的規(guī)?;瘮U展。
Dynamo 負責(zé)智能調(diào)度和優(yōu)化AI 工廠的資源,確保高效運行,并能靈活適應(yīng)不同的工作負載,如同一個精密的 “AI 算力調(diào)度中心”。
Rubin 平臺:展望未來,算力持續(xù)狂飆
黃仁勛預(yù)告了Rubin 平臺,作為 Blackwell 的繼任者,Rubin 將在 2027 年問世,再次帶來跨越式性能提升。
Rubin 平臺將采用NVLink 576技術(shù),實現(xiàn)更驚人的互聯(lián)規(guī)模,并使用HBM4e 內(nèi)存,進一步提升帶寬和容量,為未來的 AI 應(yīng)用提供更強大的算力支撐。
AI “全?!?戰(zhàn)略:從芯片到軟件,構(gòu)建完整生態(tài)
英偉達展示了其強大的CUDA-X 庫生態(tài)系統(tǒng),涵蓋了從物理學(xué)、生物學(xué)、到量子計算等各個科學(xué)領(lǐng)域,以及包括 cuPy、cuLitho、Parabricks、MONAI、CUDF、Warp 等海量軟件庫,構(gòu)建了完整的 AI 軟件基礎(chǔ)設(shè)施。
英偉達強調(diào)“軟硬一體”的戰(zhàn)略,不僅提供強大的硬件,更提供豐富的軟件工具和平臺,降低 AI 開發(fā)門檻,加速 AI 應(yīng)用的落地。
宣布開源項目, 展現(xiàn)英偉達開放合作的態(tài)度, 積極構(gòu)建繁榮的 AI 生態(tài)系統(tǒng)。
AI “無處不在”:加速各行業(yè)智能化轉(zhuǎn)型
視頻全程傳送門:
【中英全程| 英偉達 CEO 黃仁勛 GTC2025 主題演講,-嗶哩嗶哩】 https://b23.tv/cTRdpL3
以下是天空之城圖文整理版,共3萬字。(未經(jīng)許可請勿轉(zhuǎn)載)
(旁白)這就是智能的制造方式,一種新型工廠。Token生成器,人工智能的基本構(gòu)成單元。
Token開啟了新的領(lǐng)域,邁向非凡世界的第一步。無限可能在那里誕生。
Token將圖像轉(zhuǎn)化為科學(xué)數(shù)據(jù),繪制外星大氣圖譜,并指引未來的探險家。他們將原始數(shù)據(jù)轉(zhuǎn)化為預(yù)見,所以下一次,我們將做好準備。
標記解碼物理定律,以讓我們更快地到達那里,并帶我們走得更遠。標記在疾病發(fā)作之前就能發(fā)現(xiàn)它。它們幫助我們解開生命的語言,并了解是什么讓我們運轉(zhuǎn)。
Token串聯(lián)起各個要素,因此,我們能夠保護我們最珍貴的物種。Token將潛力轉(zhuǎn)化為豐饒,并幫助我們收獲豐碩的成果。
Token不僅教導(dǎo)機器人如何移動,還能帶來快樂,為我們提供幫助,并使生活觸手可及。
攜手并進,我們將邁出下一個偉大的飛躍,勇敢地前進,沒有人涉足的領(lǐng)域。而這里,就是一切的開始。
歡迎英偉達創(chuàng)始人兼首席執(zhí)行官黃仁勛先生登場。
黃仁勛:
歡迎來到GTC!真是令人驚嘆的一年。
我們想在英偉達做到這一點。因此,借助人工智能的魔力,我們將帶您來到英偉達的總部。我想我正在帶您來到英偉達的總部,你覺得呢?這就是我們的工作場所。
這真是令人驚嘆的一年。我們有很多令人難以置信的事情需要討論。我只想讓大家知道,我此刻是臨場發(fā)揮的。沒有預(yù)先準備的稿件,也沒有提詞器,而且我有很多內(nèi)容需要涵蓋。
那么,讓我們開始吧。首先,我要感謝所有贊助商,感謝所有參與此次會議的杰出人士。幾乎所有行業(yè)都得到了代表。醫(yī)療保健行業(yè)也在場,交通運輸業(yè),零售業(yè)。哎呀,計算機行業(yè)。計算機行業(yè)的每個人都來了??吹礁魑徽媸翘昧耍兄x你們的贊助。

GTC始于GeForce。一切都始于GeForce。今天,我這里有一塊GeForce 5090。令人難以置信的是,25年后,在我們開始研發(fā)GeForce的25年后,GeForce 5090在全球范圍內(nèi)售罄。

這是5090,Blackwell架構(gòu)。與4090相比,其體積縮小了30%,能量耗散效率提升了30%,性能也極其出色。難以進行比較,其原因在于人工智能。
GeForce將CUDA技術(shù)帶給了世界。CUDA技術(shù)促進了人工智能的發(fā)展,而人工智能如今又反過來徹底革新了計算機圖形學(xué)。您所看到的這是實時的計算機圖形渲染,100%基于路徑追蹤。對于每個渲染的像素,人工智能都會預(yù)測另外15個像素。請思考一下這一點。對于我們通過數(shù)學(xué)方法渲染的每一個像素,人工智能都推斷出了另外15個像素。
它必須以極高的精度進行推斷,才能使圖像看起來正確,并具有時間上的準確性。這意味著,無論是向前還是向后,逐幀畫面都必須保持時間上的穩(wěn)定性。

人工智能取得了非凡的進步,這僅僅用了十年時間。當(dāng)然,我們討論人工智能的時間比這更長一些,但人工智能真正進入全球公眾視野大約是在十年前。起初是從感知人工智能開始,包括計算機視覺、語音識別,然后是生成式人工智能。在過去的五年里,我們主要關(guān)注生成式人工智能,教會人工智能如何在一個模態(tài)與另一個模態(tài)之間進行轉(zhuǎn)換,例如文本到圖像、圖像到文本、文本到視頻、氨基酸到蛋白質(zhì)、特性到化學(xué)物質(zhì)。我們可以利用人工智能生成內(nèi)容的各種不同方法。
生成式人工智能從根本上改變了計算的方式,我們從檢索式計算模型轉(zhuǎn)變?yōu)樯墒接嬎隳P?。過去,我們幾乎所做的一切都是預(yù)先創(chuàng)建內(nèi)容、存儲多個版本,并在使用時提取我們認為合適的版本?,F(xiàn)在,人工智能理解上下文,理解我們的請求,理解我們請求的含義,并生成它已知的內(nèi)容。如果需要,它會檢索信息,增強其理解,并為我們生成答案。它不再檢索數(shù)據(jù),而是生成答案,從根本上改變了計算的方式,計算的每一層都發(fā)生了轉(zhuǎn)變。
在過去的幾年里,特別是最近兩三年,發(fā)生了重大的突破,人工智能領(lǐng)域的基礎(chǔ)性突破。我們稱之為自主智能AI。自主智能AI,從根本上說,是指具備自主性的AI,它能夠感知和理解環(huán)境的上下文,能夠進行推理,能夠推理如何回答問題或如何解決問題,并且能夠計劃行動。它能夠計劃并采取行動,能夠使用工具。因為它現(xiàn)在能夠理解多模態(tài)信息,所以它可以訪問網(wǎng)站,查看網(wǎng)站的格式、文字和視頻,甚至可以播放視頻。從網(wǎng)站獲取的信息中學(xué)習(xí),理解這些信息,然后返回并使用這些信息,利用這些新獲得的知識來完成它的任務(wù),具有自主代理能力的人工智能。
自主代理人工智能的基礎(chǔ)是某種非常新穎的東西——推理能力。
下一波浪潮已經(jīng)到來,我們將對此進行詳細討論,即物理人工智能賦能的機器人技術(shù),能夠理解物理世界的人工智能。它理解摩擦、慣性、因果關(guān)系和物體恒存性等概念。因此,這種理解物理世界(三維世界)的能力將開啟一個我們稱之為物理人工智能的新時代,并將推動機器人技術(shù)的發(fā)展。
每一個階段,每一波浪潮,都為我們所有人開啟了新的市場機遇,它為GTC吸引了更多的新合作伙伴。
結(jié)果,GTC現(xiàn)在人滿為患。為了容納更多GTC的參與者,我們必須擴大圣何塞的規(guī)模,我們正在努力進行中。我們有很多土地可以利用,我們必須發(fā)展圣何塞。這樣我們才能讓GTC……
我站在這里,希望你們都能看到我看到的景象。我們身處一個體育場館的中央。去年是這項活動恢復(fù)線下舉辦的第一年,那感覺就像一場搖滾音樂會。GTC被描述為人工智能的伍德斯托克音樂節(jié)。而今年,它被描述為人工智能的超級碗。唯一的區(qū)別是,在這個超級碗上,人人都是贏家。
因此,每年都有越來越多的人參與其中,因為人工智能能夠為更多行業(yè)和公司解決更有趣的問題。而今年,我們將大量討論自主型人工智能和物理人工智能。

其核心在于,每一波、每一階段的人工智能發(fā)展,都涉及三個基本要素。首先是如何解決數(shù)據(jù)問題?之所以重要,是因為人工智能是一種數(shù)據(jù)驅(qū)動的計算機科學(xué)方法。它需要數(shù)據(jù)來學(xué)習(xí),需要數(shù)字體驗來學(xué)習(xí),學(xué)習(xí)知識并獲得數(shù)字體驗。
第二個問題是如何解決訓(xùn)練問題?無需人工干預(yù)。人工干預(yù)之所以從根本上具有挑戰(zhàn)性,是因為我們的時間有限,而我們希望人工智能能夠以超人的速度學(xué)習(xí),以超實時速度學(xué)習(xí),并能夠以人類無法企及的規(guī)模進行學(xué)習(xí)。
第三點是如何實現(xiàn)規(guī)?;咳绾握业揭环N算法,使得無論提供何種資源,投入的資源越多,AI 就越智能?規(guī)?;伞?/p>
去年,幾乎全世界都錯了。AI 的計算需求,其規(guī)?;删哂懈鼜姷捻g性,事實上是超加速的。由于自主智能(Agentic AI)和推理能力的緣故,我們目前所需的計算量,比去年這個時候我們預(yù)期的要多至少100倍。

讓我們來分析一下為什么這是真的。首先,讓我們從AI的能力入手。讓我倒過來解釋。如我在所述,自主智能(Agentic AI)就是推理。我們現(xiàn)在擁有能夠進行推理的AI。這從根本上來說是關(guān)于將問題一步一步分解的過程。它可能會嘗試幾種不同的方法來解決問題,并選擇最佳答案。也許它會用多種方法解決同一個問題,并確保得到相同的答案,即進行一致性檢查?;蛘?,在得出答案之后,它可能會將答案代回方程(例如二次方程)中,以確認答案的正確性。而不是僅僅直接給出答案。
還記得兩年前,當(dāng)我們開始使用ChatGPT時,盡管它是一個奇跡,但許多復(fù)雜的問題和許多簡單的問題,它都無法正確解答。這是可以理解的。
它采用了一種“一擊即中”的方式,利用其從預(yù)訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的知識,以及從其他經(jīng)驗中獲得的信息(預(yù)訓(xùn)練數(shù)據(jù)),然后直接給出答案,就像一條鮭魚一樣(直來直去)。
現(xiàn)在我們擁有能夠逐步推理的人工智能。使用稱為“思維鏈”(chain of thought)、“最佳N”(best of N)、“一致性檢查”(consistency checking)、多種不同路徑規(guī)劃以及各種不同技術(shù),我們現(xiàn)在擁有能夠進行推理的人工智能,將問題分解,然后進行推理,逐步進行。
那么,您可以想象,結(jié)果就是我們生成的標記數(shù)量增加了,而人工智能的基本技術(shù)仍然相同,生成下一個標記,預(yù)測下一個標記。只不過下一個標記現(xiàn)在構(gòu)成了步驟1。
然后,在生成步驟1之后,下一個標記會將步驟1再次輸入人工智能,從而生成步驟2、步驟3和步驟4。因此,它不是僅僅生成一個接一個的標記或單詞,而是生成代表推理步驟的單詞序列。
結(jié)果生成的標記數(shù)量大幅增加,我稍后會向您展示,輕松地達到之前的百倍。那么,百倍意味著什么?嗯,它可以生成百倍數(shù)量的標記,正如我之前解釋的那樣,您可以看到這種情況正在發(fā)生?;蛘撸P透訌?fù)雜。它生成的標記數(shù)量是之前的十倍,為了保持模型的響應(yīng)速度和交互性,避免我們因等待其思考而失去耐心,我們現(xiàn)在需要計算速度提高十倍。
因此,標記數(shù)量十倍,速度十倍,我們必須進行的計算量輕松地就達到了百倍。因此,您將在演示的其余部分看到,我們進行推理所需的計算量比以往大幅增加。
那么,問題就變成了,我們?nèi)绾谓虝斯ぶ悄軋?zhí)行我剛才描述的操作?如何執(zhí)行這種思維鏈?嗯,一種方法是,你必須教會人工智能如何推理。

正如我之前提到的,在訓(xùn)練過程中,我們必須解決兩個根本性問題。數(shù)據(jù)從何而來?數(shù)據(jù)從何而來?以及如何避免其受到人工干預(yù)的限制?我們所能提供的數(shù)據(jù)和人工演示是有限的。
因此,過去幾年取得的重大突破是強化學(xué)習(xí)及其可驗證的結(jié)果。從根本上說,強化學(xué)習(xí)是指人工智能在逐步嘗試解決問題或進行攻擊的過程中進行學(xué)習(xí)。
人類歷史上已經(jīng)解決了許多問題,我們知道這些問題的答案。我們知道求解二次方程的公式。我們知道如何運用勾股定理,也就是直角三角形的法則。我們掌握著大量數(shù)學(xué)、幾何、邏輯和科學(xué)規(guī)則。
我們可以提供各種益智游戲作為訓(xùn)練素材。例如數(shù)獨之類的受限型問題。這類問題數(shù)不勝數(shù),我們擁有數(shù)百種問題空間,能夠生成數(shù)百萬個不同的示例。
通過強化學(xué)習(xí),給予人工智能在逐步解決問題過程中做得越來越好的獎勵,并使其擁有數(shù)百次機會。因此,我們使用了數(shù)百個不同的主題、數(shù)百萬個不同的示例和數(shù)百次的嘗試。每次嘗試都會生成數(shù)萬個標記。將所有這些加起來,我們談?wù)摰氖菙?shù)萬億個標記,用于訓(xùn)練該模型。
現(xiàn)在,借助強化學(xué)習(xí),我們能夠生成海量標記。這基本上是利用一種機器人式的方法來訓(xùn)練AI,即合成數(shù)據(jù)生成。這兩者的結(jié)合給業(yè)界帶來了巨大的計算挑戰(zhàn)。
而且您可以看到,業(yè)界正在做出回應(yīng)。我接下來將向您展示的是四大云服務(wù)提供商的Hopper服務(wù)器出貨量。四大云服務(wù)提供商,擁有公有云的那些提供商:亞馬遜、Azure、GCP 和 OCI。
四大云服務(wù)提供商,不包括人工智能公司,不包括所有初創(chuàng)企業(yè),不包括企業(yè)內(nèi)部部署。許多其他方面均未包含在內(nèi),只有那四個。

只是為了讓您了解一下霍珀的巔峰年份和布萊克威爾的起始年份的對比?;翮甑膸p峰年份和布萊克威爾的起始年份,這樣您就能看出,事實上,人工智能正在經(jīng)歷一個拐點。它變得更有用,因為它更聰明了,它能夠進行推理,它被更多地使用了。
你可以看出它被更多地使用了,因為現(xiàn)在無論何時你使用ChatGPT,似乎都需要等待越來越久。這是一件好事,這表明很多人都在使用它,并且效果顯著。訓(xùn)練這些模型和進行模型推理所需的計算量已大幅增長。
因此,僅僅一年時間,而Blackwell才剛剛開始發(fā)貨,就能看到人工智能基礎(chǔ)設(shè)施的驚人增長。

這反映了整個行業(yè)的計算能力提升。我們現(xiàn)在看到的是——紫色部分是分析師對未來全球數(shù)據(jù)中心資本支出的預(yù)測,包括云服務(wù)提供商(CSP)、企業(yè)等等。全球數(shù)據(jù)中心在未來十年內(nèi)的發(fā)展,也就是到2030年。
我之前說過,我預(yù)計數(shù)據(jù)中心建設(shè)投資將達到一萬億美元,而且我相當(dāng)肯定我們很快就會達到這個數(shù)字。
兩種動態(tài)同時發(fā)生。第一種動態(tài)是,絕大部分增長可能會加速。這意味著我們已經(jīng)知道一段時間了,通用計算已經(jīng)走到盡頭,我們需要一種新的計算方法。全世界正在經(jīng)歷一場平臺轉(zhuǎn)變,從運行在通用計算機上的手工編碼軟件轉(zhuǎn)向運行在加速器和GPU上的機器學(xué)習(xí)軟件。這種計算方式目前已經(jīng)過了臨界點。
我們現(xiàn)在正看到拐點正在出現(xiàn),全球數(shù)據(jù)中心建設(shè)中正在發(fā)生拐點。
因此,首先是計算方式的轉(zhuǎn)變。其次是人們越來越認識到,軟件的未來需要資本投入。這是一個非常重要的概念。在過去,我們編寫軟件并在計算機上運行它,而在未來,計算機將為軟件生成Token。
因此,計算機已成為Token的生成器,而非文件的檢索工具。從基于檢索的計算轉(zhuǎn)變?yōu)榛谏傻挠嬎?,從舊式數(shù)據(jù)中心構(gòu)建方式轉(zhuǎn)變?yōu)闃?gòu)建新型基礎(chǔ)設(shè)施的新方式,我稱之為“AI工廠”。
我稱之為“AI工廠”,因為它只有一個任務(wù),那就是生成這些令人難以置信的Token,然后我們將這些Token重構(gòu)為音樂、文字、視頻、研究成果、化學(xué)物質(zhì)或蛋白質(zhì)。我們將其重構(gòu)為各種類型的信息。因此,世界正在經(jīng)歷一場轉(zhuǎn)型,這不僅體現(xiàn)在將要建設(shè)的數(shù)據(jù)中心數(shù)量上,也體現(xiàn)在其建設(shè)方式上。
數(shù)據(jù)中心中的所有內(nèi)容都將被加速,但并非所有內(nèi)容都與人工智能相關(guān)。

這張幻燈片是我最喜歡的。多年來參加GTC的各位,一直在聽我談?wù)撨@些庫。這張幻燈片正是GTC的核心所在。事實上,很久以前,20年前,這就是我們唯一擁有的幻燈片:一個又一個的庫,層層疊疊。
我們不能僅僅加速軟件,正如我們需要一個AI框架來創(chuàng)建AI,并加速AI框架一樣。你需要物理學(xué)、生物學(xué)、多物理場以及各種量子物理學(xué)的框架。你需要各種庫和框架。我們稱它們?yōu)镃UDAx庫,針對這些科學(xué)領(lǐng)域的加速框架。
第一個就令人難以置信。這就是cuPy數(shù)值計算庫。NumPy是全球下載量和使用量最大的Python庫。去年下載量達4億次。cuLitho和cuPy數(shù)值計算庫是對NumPy的零改動加速替代方案。因此,如果您正在使用NumPy,請嘗試使用cuPy數(shù)值計算庫,您一定會喜歡它。
cuLitho是一個計算光刻庫。在四年時間里,我們已經(jīng)完成了整個計算光刻處理流程,這相當(dāng)于晶圓廠中的第二個工廠。一個工廠制造晶圓,另一個工廠制造制造晶圓所需的信息。未來,每個行業(yè)、每家擁有工廠的公司都將擁有兩個工廠。一個工廠用于制造產(chǎn)品,另一個工廠用于處理數(shù)學(xué)計算。另一個工廠用于人工智能。汽車工廠,以及用于汽車的人工智能工廠。智能音箱的制造工廠,以及用于智能音箱的AI工廠。
我們的計算光刻技術(shù)cuLitho,臺積電(TSMC)、三星(Samsung)、ASML,以及我們的合作伙伴Synopsys、Mentor,都給予了令人難以置信的支持。我認為這已經(jīng)達到了臨界點。再過五年,每一張掩模版,每一項光刻工藝都將在NVIDIA CUDA上進行處理。
Arial是我們的5G庫,它將GPU轉(zhuǎn)變?yōu)?G無線電。為什么不呢?信號處理是我們非常擅長的事情。
一旦我們做到這一點,我們就可以在其上疊加AI。 用于無線接入網(wǎng)的AI,或者我們稱之為AI-RAN。 下一代無線網(wǎng)絡(luò)將深度嵌入AI。 為什么我們會受到信息論限制的約束? 因為我們所能獲取的信息頻譜是有限的,即使加入人工智能也無法改變這一事實。
CuOpt,數(shù)值或數(shù)學(xué)優(yōu)化,幾乎每個行業(yè)在規(guī)劃座位和航班時都會用到它,庫存和客戶,工人和工廠,司機和乘客,等等。 我們面臨多個約束條件,以及大量的變量。 并且你正在針對時間、利潤、服務(wù)質(zhì)量、資源利用率等等進行優(yōu)化。 英偉達將其用于供應(yīng)鏈管理。 CuOpt是一個令人難以置信的庫。 它將原本需要數(shù)小時才能完成的任務(wù)縮短至幾秒鐘。 這之所以意義重大,是因為我們現(xiàn)在可以探索更大的空間。 我們宣布將開源CuOpt。 幾乎每個人都在使用Gurobi、IBM CPLEX或FICO。 我們正在與這三家公司合作。 行業(yè)對此非常興奮。 我們即將極大地加速該行業(yè)的發(fā)展。
Parabricks用于基因測序和基因分析。 MONI是世界領(lǐng)先的醫(yī)學(xué)影像庫。 Earth2,用于預(yù)測超高分辨率局部天氣的多物理場模擬軟件。 量子計算(Q-Quantum)和量子到量子(Q2Q)技術(shù)。 我們將在GTC舉辦首屆量子計算日。 我們正與生態(tài)系統(tǒng)中的幾乎所有參與者合作。 我們協(xié)助他們進行量子架構(gòu)、量子算法的研究,或構(gòu)建經(jīng)典加速的量子異構(gòu)架構(gòu)。 因此,那里的工作令人興奮。 量子等變性(Q-equivariance)和量子張量(Q-tensor)用于張量收縮和量子化學(xué)計算。
當(dāng)然,這個軟件棧享譽全球。 人們認為只有一種名為CUDA的軟件,但事實上,在CUDA之上還有許多庫,這些庫集成到生態(tài)系統(tǒng)、軟件和基礎(chǔ)設(shè)施的所有不同部分,以實現(xiàn)人工智能。
我今天要宣布一個新的成果。 CUDSS,我們的稀疏求解器,對于計算機輔助工程(CAE)至關(guān)重要。 這是過去一年中最重要的突破之一。 通過與Cadence、Synopsys、Ansys和達索系統(tǒng)等所有系統(tǒng)公司合作,我們現(xiàn)在已經(jīng)實現(xiàn)了幾乎所有重要的EDA和CAE庫的加速。 令人驚奇的是,直到最近,英偉達仍在使用通用計算機運行軟件,速度非常慢,來為其他人設(shè)計加速計算機。 原因是直到最近,我們才擁有針對CUDA優(yōu)化的軟件,即那套軟件。 因此,隨著我們轉(zhuǎn)向加速計算,整個行業(yè)都將得到極大的提升。
CUDF,一個用于結(jié)構(gòu)化數(shù)據(jù)的DataFrame,我們現(xiàn)在擁有對Spark和Pandas的即插即用式加速功能。
我們還有Warp,一個在Python中運行的用于物理學(xué)的CUDA庫。我們對此有一個重大宣布,我稍后再詳細說明。這只是能夠?qū)崿F(xiàn)加速計算的庫的示例。
這不僅僅是CUDA,我們?yōu)镃UDA感到自豪,但如果沒有CUDA以及我們龐大的安裝基礎(chǔ),這些庫對任何使用它們的開發(fā)者來說都將毫無用處。對于所有使用這些庫的開發(fā)者而言,你們之所以使用它們,首先是因為它能夠極大地提高速度,它能夠極大地提高規(guī)模。其次,因為CUDA的安裝基礎(chǔ)現(xiàn)在已遍布全球。它存在于每一個云平臺、每一個數(shù)據(jù)中心,全球每一家計算機公司都提供它,它幾乎無處不在。因此,通過使用這些庫中的一個,你們的軟件,你們令人驚嘆的軟件,能夠觸及每個人。
所以我們現(xiàn)在已經(jīng)達到了加速計算的臨界點。CUDA 使這一切成為可能。各位,這就是GTC的意義所在,生態(tài)系統(tǒng),是你們所有人成就了這一切。因此,我們?yōu)槟谱髁艘欢魏喍痰囊曨l。
謝謝。致未來的創(chuàng)造者、先驅(qū)者和建設(shè)者,CUDA 是為你們而生的。自2006年以來,超過200個國家的600萬開發(fā)者使用了CUDA,并徹底改變了計算方式。借助900多個CUDAx庫和人工智能模型,您正在加速科學(xué)發(fā)展,重塑產(chǎn)業(yè)格局,并賦予機器感知、學(xué)習(xí)和推理的能力?,F(xiàn)在,NVIDIA Blackwell的速度比第一代CUDA GPU快50,000倍。這些數(shù)量級的速度和規(guī)模提升正在縮小仿真與實時數(shù)字孿生之間的差距。對您而言,這僅僅是一個開始。我們迫不及待地想看到你們的下一個成就。
我熱愛我們所做的一切。我更欣賞你們對它的運用。在我從事這項工作33年里,最令我感動的一件事是一位科學(xué)家對我說:“詹森,因為你的工作,我可以在有生之年完成我畢生的工作?!比绻@都不能觸動你,那你一定是個沒有感情的人。所以這一切都是為了你們。謝謝。

好吧,接下來我們談?wù)勅斯ぶ悄?。但是,你們知道,人工智能起源于云端。它起源于云端是有原因的,因為事實證明人工智能需要基礎(chǔ)設(shè)施。它是機器學(xué)習(xí)。如果科學(xué)證明是機器學(xué)習(xí),那么就需要一臺機器來進行科學(xué)研究。因此,機器學(xué)習(xí)需要基礎(chǔ)設(shè)施,而云數(shù)據(jù)中心擁有這種基礎(chǔ)設(shè)施。它們還擁有非凡的計算機科學(xué)實力和卓越的研究能力,構(gòu)成了人工智能在云端和云服務(wù)提供商(CSP)中蓬勃發(fā)展的理想環(huán)境。
但人工智能并非僅限于此。人工智能將無處不在。我們將從許多不同的角度探討人工智能。當(dāng)然,云服務(wù)提供商青睞我們的領(lǐng)先技術(shù)。
他們欣賞我們擁有完整的技術(shù)棧,因為正如我之前解釋的那樣,加速計算不僅僅關(guān)乎芯片本身,甚至不僅僅是芯片和庫,以及編程模型。它包括芯片、編程模型以及在其之上運行的眾多軟件。整個技術(shù)棧都極其復(fù)雜,每一層,每一個庫,本質(zhì)上都類似于SQL。
SQL,正如您所知,被稱為存儲內(nèi)計算,是IBM引領(lǐng)的計算領(lǐng)域的一次重大革命。SQL只是一個庫,試想一下。我剛剛向您展示了大量的庫,而且在人工智能領(lǐng)域,還有更多庫。所以,這個技術(shù)棧非常復(fù)雜。
他們也喜歡這樣一個事實:云服務(wù)提供商(CSP)喜歡英偉達CUDA開發(fā)者也是他們的客戶。因為最終,他們正在構(gòu)建供全世界使用的基礎(chǔ)設(shè)施。因此,豐富的開發(fā)者生態(tài)系統(tǒng)受到了高度重視,并得到了深深的贊賞。
既然我們要將人工智能推廣到世界其他地區(qū),那么世界其他地區(qū)就會存在不同的系統(tǒng)配置、運行環(huán)境差異、特定領(lǐng)域的庫差異以及使用差異。因此,人工智能在應(yīng)用于企業(yè) IT、制造業(yè)、機器人技術(shù)或自動駕駛汽車,甚至是在構(gòu)建 GPU 云的公司中,都會有所不同。
在英偉達時期,大約有[20]家公司成立,他們只做一件事:他們托管 GPU。他們稱自己為 GPU 云。我們的一位重要合作伙伴 CoreWeave 正在上市過程中,我們?yōu)榇烁械椒浅W院?。因此,GPU 云有其自身的要求。
但令我非常興奮的一個領(lǐng)域是邊緣計算。今天,我們宣布思科、英偉達、T-Mobile(全球最大的電信公司)和 Cerberus ODC 將在美國建立一個用于無線網(wǎng)絡(luò)的完整技術(shù)棧。這就是第二個技術(shù)棧。
因此,我們今天宣布的這個當(dāng)前技術(shù)棧將把人工智能部署到邊緣。請記住,全球每年有1000億美元的資本投資用于無線網(wǎng)絡(luò),以及所有為通信提供服務(wù)的數(shù)據(jù)中心。未來,在我看來,毫無疑問,這將是融合了人工智能的加速計算。
人工智能將在適應(yīng)無線電信號、大規(guī)模MIMO(多輸入多輸出)系統(tǒng)變化的環(huán)境和交通狀況方面做得更好得多。當(dāng)然可以。當(dāng)然我們會使用強化學(xué)習(xí)來做到這一點。當(dāng)然,MIMO 本質(zhì)上就是一個巨大的無線電機器人。當(dāng)然是的。因此,我們當(dāng)然會提供這些功能。
當(dāng)然,人工智能可以徹底改變通信方式。你知道,當(dāng)我打電話回家時,不需要說很多話,因為我妻子知道我在哪里工作,工作環(huán)境如何。談話可以從昨天繼續(xù)進行。她多少記得我喜歡什么,不喜歡什么。很多時候,只需要幾句話,就能溝通很多信息。原因在于上下文和人類先驗知識。結(jié)合這些功能,可以徹底改變通信方式。
看一下它對視頻處理的影響??匆幌挛抑懊枋龅?D圖形技術(shù)。因此,我們當(dāng)然也會對Edge采取同樣的做法。
所以我對我們今天宣布的消息感到非常興奮。T-Mobile、思科、英偉達、Cerberus和ODC將構(gòu)建一個完整的技術(shù)棧。嗯,人工智能將滲透到各個行業(yè)。
這只是一個例子。人工智能進入最早的行業(yè)之一是自動駕駛汽車領(lǐng)域。當(dāng)我們看到AlexNet的那一刻,我們長期以來一直在從事計算機視覺的研究,看到AlexNet的那一刻是如此令人鼓舞、如此令人興奮,這促使我們決定全力投入自動駕駛汽車的研發(fā)。
所以我們現(xiàn)在已經(jīng)在自動駕駛汽車領(lǐng)域工作了十多年。我們開發(fā)的技術(shù)幾乎被每一家自動駕駛汽車公司都在使用。它可以位于數(shù)據(jù)中心。例如,特斯拉在其數(shù)據(jù)中心大量使用英偉達GPU。這可能位于數(shù)據(jù)中心或車輛中。Waymo和Wave也將其數(shù)據(jù)中心和車輛中使用英偉達的計算機。它可能只在車輛中。這種情況非常罕見,但有時它只在車輛中?;蛘咚麄冞€會使用我們所有的軟件。我們與汽車行業(yè)合作,合作方式取決于汽車行業(yè)的需求。
我們制造所有三種計算機:訓(xùn)練計算機、仿真計算機和機器人計算機(自動駕駛汽車計算機)。以及位于其之上的所有軟件棧,包括模型和算法,這與我們?yōu)槠渌幸颜故镜男袠I(yè)提供的服務(wù)相同。

因此,今天,我非常高興地宣布,通用汽車公司已選擇英偉達作為其未來自動駕駛汽車車隊的合作伙伴。自動駕駛汽車的時代已經(jīng)到來。我們期待在所有三個領(lǐng)域與通用汽車人工智能公司合作。用于制造業(yè)的人工智能,以便徹底改變他們的制造方式。用于企業(yè)的人工智能,以便徹底改變他們的工作方式。設(shè)計汽車和模擬汽車。以及車載人工智能。
因此,為通用汽車打造人工智能基礎(chǔ)設(shè)施,與通用汽車合作,并與他們一起構(gòu)建其人工智能。我對此感到非常興奮。

我深感自豪的領(lǐng)域之一,而且很少受到關(guān)注,那就是安全。汽車安全。它被稱為HALOS。在我們公司,它被稱為HALOS。安全需要從硅到系統(tǒng)、系統(tǒng)軟件、算法、方法論等各個方面的技術(shù),從確保多樣性到多樣性監(jiān)控和透明性、可解釋性,所有這些都包括在內(nèi)。所有這些不同的理念都必須深深融入到您開發(fā)系統(tǒng)和軟件的每一個環(huán)節(jié)中。
我相信,我們是世界上第一家對每一行代碼都進行安全評估的公司。七百萬行代碼都經(jīng)過了安全評估。
我們的芯片、系統(tǒng)、系統(tǒng)軟件和算法都經(jīng)過了第三方的安全評估,他們會仔細檢查每一行代碼,以確保其設(shè)計能夠保障多樣性、透明度和可解釋性。 我們還提交了超過一千項專利申請。
在此次GTC期間,我強烈建議您抽出時間參加HALOS研討會,以便了解確保未來汽車安全和自主駕駛所需的所有不同方面。 我對此感到非常自豪,但它很少受到關(guān)注,所以我認為這次應(yīng)該花更多時間來談?wù)撍?英偉達HALOS。
你們都見過自動駕駛汽車。 Waymo自動駕駛出租車令人難以置信。 我們制作了一個視頻,與大家分享我們用于解決數(shù)據(jù)、訓(xùn)練和多樣性問題的部分技術(shù),以便利用人工智能的魔力來創(chuàng)造人工智能。
(旁白)讓我們來看一看。 英偉達正在通過Omniverse和Cosmos加速自動駕駛汽車的人工智能開發(fā)。 Cosmos的預(yù)測和推理能力支持基于人工智能的自動駕駛系統(tǒng),這些系統(tǒng)采用端到端訓(xùn)練方法,包括新的開發(fā)方法、模型蒸餾、閉環(huán)訓(xùn)練和合成數(shù)據(jù)生成。
首先,模型蒸餾。 Cosmos的駕駛知識,作為策略模型,從較慢、更智能的教師模型轉(zhuǎn)移到車載更小、更快的學(xué)生模型中。 教師策略模型展示了學(xué)生模型通過迭代學(xué)習(xí)所遵循的最佳軌跡,直至其性能幾乎達到與教師相同的水平。 蒸餾過程能夠引導(dǎo)策略模型的建立,但復(fù)雜場景需要進一步微調(diào)。
閉環(huán)訓(xùn)練能夠?qū)Σ呗阅P瓦M行精細調(diào)整。 利用Omniverse神經(jīng)重建技術(shù),將日志數(shù)據(jù)轉(zhuǎn)換為用于物理基礎(chǔ)模擬閉環(huán)的3D場景。 創(chuàng)建這些場景的變體,以測試模型的軌跡生成能力。 Cosmos行為評估器隨后可以對生成的駕駛行為進行評分,以衡量模型性能。 新生成的場景及其評估創(chuàng)建了一個用于閉環(huán)訓(xùn)練的大型數(shù)據(jù)集,幫助自動駕駛汽車更穩(wěn)健地應(yīng)對復(fù)雜場景。

最后,3D合成數(shù)據(jù)生成增強了自動駕駛汽車對不同環(huán)境的適應(yīng)性。 Omniverse從日志數(shù)據(jù)中,通過融合地圖和圖像構(gòu)建詳細的4D駕駛環(huán)境,并生成真實世界的數(shù)字孿生體,包括語義分割,以通過對每個像素進行分類來指導(dǎo)Cosmos。 然后,Cosmos通過生成準確且多樣化的場景來擴展訓(xùn)練數(shù)據(jù),縮小模擬與現(xiàn)實之間的差距。

Omniverse和Cosmos使自動駕駛汽車能夠?qū)W習(xí)、適應(yīng)并智能駕駛,從而提升出行安全。 英偉達是完成這項工作的理想公司。
這就是我們的命運:利用人工智能來重塑人工智能。 我們向您展示的技術(shù)與您正在享用的技術(shù)非常相似,帶您進入數(shù)字孿生世界,我們稱之為英偉達。
讓我們談?wù)剶?shù)據(jù)中心。布萊克韋爾項目已全面投產(chǎn),這就是它的樣子。

這令人難以置信,對人們而言,這是一種美的景象。 這意義重大,因為我們在計算機架構(gòu)方面實現(xiàn)了根本性的轉(zhuǎn)變。
大約三年前,我曾向你們展示過這個版本的系統(tǒng),它被稱為Grace·Hooper,系統(tǒng)被稱為Ranger。 Ranger系統(tǒng)大概只有屏幕寬度的一半,它是全球首個NVLink 32系統(tǒng)。三年前,我們展示了Ranger的運行情況,當(dāng)時它過于龐大,但其理念完全正確。
我們當(dāng)時試圖解決規(guī)模擴展問題。 分布式計算是利用許多不同的計算機協(xié)同工作來解決一個非常大的問題。 但在橫向擴展之前,縱向擴展是不可替代的。 兩者都很重要,但應(yīng)該優(yōu)先進行縱向擴展,然后再進行橫向擴展。
然而,縱向擴展極其困難,并沒有簡單的答案。 你不會像Hadoop那樣進行縱向擴展或橫向擴展。 Hadoop的做法是,采用大量商用計算機,將其連接到大型網(wǎng)絡(luò)中,并使用其進行存儲計算。
Hadoop 的理念具有革命性意義,這一點我們都很清楚。 它使得超大規(guī)模數(shù)據(jù)中心能夠利用現(xiàn)成的計算機解決海量數(shù)據(jù)問題。 然而,我們試圖解決的問題極其復(fù)雜,以這種方式進行擴展的成本將高得令人難以承受,無論是電力成本還是能源成本。 深度學(xué)習(xí)根本不可能出現(xiàn)。
因此,我們必須首先進行垂直擴展。 這就是我們進行垂直擴展的方式。
這是上一代系統(tǒng)架構(gòu),被稱為 HGX。 這徹底改變了我們所知的計算技術(shù),也徹底改變了人工智能。

這是八個GPU,每一個都類似于這個。 這是兩個GPU,一個Blackwell封裝中包含兩個Blackwell GPU。 在這下面還有八個這樣的單元。 然后這連接到我們稱之為NVLink 8 的部件。
然后這連接到類似這樣的CPU機架。 這里有兩個CPU,位于頂部。 我們通過PCI Express將其連接起來,然后許多這樣的設(shè)備通過InfiniBand連接,最終形成一臺人工智能超級計算機。 過去就是這樣做的,我們就是這樣開始的。
這就是我們在擴展規(guī)模之前所能達到的極限。 但我們希望進一步擴展規(guī)模。 Ranger項目將這個系統(tǒng)又擴展了四倍。
因此,我們有了NVLink 32,但系統(tǒng)規(guī)模過于龐大。為此,我們不得不進行一些重要的重新設(shè)計,包括NVLink的工作方式以及ScaleUp的工作方式。
首先,我們需要將嵌入在主板上的NVLink交換機從系統(tǒng)中解耦并移除。這是一個NVLink交換機,是世界上性能最高的交換機,它使得每個GPU都能以滿帶寬在完全相同的時間與其他每個GPU進行通信。
我們將NVLink交換機解耦并移除,并將其放置在機箱的中心。在九個不同的機架中,共有18個交換機托盤(我們稱之為)容納這些交換機。交換機解耦后,計算單元現(xiàn)在位于別處。這相當(dāng)于計算方面的兩個部分。
令人稱道的是,它是完全液冷的。通過液冷技術(shù),我們可以將所有這些計算節(jié)點壓縮到一個機架中,這對于整個行業(yè)而言是一項重大變革。
感謝各位,你們促成了從集成NVLink到解耦NVLink,從風(fēng)冷到液冷,從每臺計算機大約60,000個組件到每個機架600,000個組件的根本性轉(zhuǎn)變,以及120千瓦全液冷,從而使我們能夠在一個機架中擁有一個百億億次計算計算機。
這是計算節(jié)點,現(xiàn)在它可以安裝到其中一個機架里。我們擁有3000磅的重量,5000根電纜,總長度約3.2公里,難以置信的電子元件,60萬個零件,我想這相當(dāng)于20輛汽車的零件數(shù)量,所有這些都集成到一臺超級計算機中。我們的目標是大規(guī)模擴展,這就是它現(xiàn)在的樣子。

我們本質(zhì)上是想制造這個芯片,但沒有任何激進的限制能夠做到這一點,沒有工藝技術(shù)能夠做到這一點。它擁有130萬億個晶體管,其中20萬億個用于計算。因此,短期內(nèi)無法合理地制造它。
解決這個問題的方法,如我所描述的,是將它分解成Grace Blackwell NVLink 72機架。最終,我們實現(xiàn)了終極規(guī)模的提升,這是世界有史以來最極端的規(guī)模提升。
這臺機器可能的計算量和內(nèi)存帶寬達到了每秒570太字節(jié)。這臺機器中的所有指標都達到了萬億級別。它擁有每秒一千萬億次浮點運算能力(即艾克斯浮點運算)。
我們之所以想要做到這一點,是為了解決一個極端的問題。許多人誤以為這個問題很容易解決,但實際上,這是一個終極的極端計算問題,那就是推理。

推理是工廠進行的Token生成過程,而工廠本身決定著收益和利潤的產(chǎn)生或虧損。因此,必須以極高的效率和性能來構(gòu)建這個工廠,因為工廠的方方面面都直接影響著服務(wù)質(zhì)量、收入和盈利能力。
現(xiàn)在,我來向您展示如何解讀這張圖表,因為我稍后還會多次回到這張圖表上來?;旧?,它有兩個坐標軸。X 軸表示每秒Token數(shù)。每當(dāng)您聊天,或者將提示輸入到 ChatGPT 時,輸出的結(jié)果都是Token。這些Token會被重新組合成文字。
需要注意的是,這不僅僅是一個Token對應(yīng)一個單詞。它們會將諸如“THG”之類的詞元化,它可以指代“the”、“them”、“theory”、“theatrics”,以及其他各種詞語。“THG”就是一個Token的例子。它們重新構(gòu)建這些標記,使其轉(zhuǎn)化為單詞。
如果希望 AI 更聰明,就需要生成大量的標記。這些標記是推理標記、一致性檢查標記,它們會想出很多主意,以便從中選擇最好的主意和標記。這些標記可能會反復(fù)推敲,可能會思考:“這是你能做的最好的工作嗎?”所以它就像我們自言自語一樣,與自身對話。因此,你生成的標記越多,你的 AI 就越聰明。
但是,如果回答問題花費的時間太長,客戶就不會再回來了。這與網(wǎng)頁搜索沒有什么不同。在它給出聰明答案之前,所需時間確實存在限制。因此,你需要應(yīng)對這兩個維度的挑戰(zhàn)。你試圖生成大量的標記,但又試圖盡可能快地完成。因此,您的Token速率至關(guān)重要。所以您希望針對單個用戶的每秒Token數(shù)盡可能快。
然而,在計算機科學(xué)和工廠生產(chǎn)中,延遲響應(yīng)時間和吞吐量之間存在根本性矛盾。如果你從事大型、高吞吐量的業(yè)務(wù),你會進行批量處理。你將大量的客戶需求進行批量處理,并生產(chǎn)特定版本的產(chǎn)品供所有人稍后使用。然而,從他們進行批量處理和生產(chǎn)產(chǎn)品的那一刻起,到您使用它為止,可能需要很長時間。計算機科學(xué)領(lǐng)域亦是如此,生成Token的 AI 工廠也同樣如此。
所以,你面臨著這兩種根本性的矛盾。一方面,您希望客戶的服務(wù)質(zhì)量盡可能好:快速且智能的 AI。另一方面,您正試圖讓您的數(shù)據(jù)中心為盡可能多的人生成Token,以便最大化您的收入。
理想的答案位于右上方。理想情況下,該曲線的形狀是一個正方形,您可以快速地為每個人生成Token,直到工廠的極限,但沒有哪個工廠能夠做到這一點。
因此,它可能是一條曲線,而您的目標是最大化曲線下的面積,即X和Y的乘積,并且您推得越遠,就越有可能意味著您正在建造一個更好的工廠。
事實證明,在每秒Token數(shù)(整個工廠的每秒Token數(shù))與響應(yīng)時間之間,一個需要大量的計算能力(浮點運算),而另一個維度則需要大量的帶寬和浮點運算。所以這是一個非常難以解決的問題。好的答案是,您應(yīng)該擁有大量的浮點運算能力、大量的帶寬、大量的內(nèi)存以及其他一切資源。這是開始的最佳答案,這也是為什么這是一臺如此出色的計算機的原因。
你首先要擁有盡可能多的浮點運算能力、盡可能大的內(nèi)存、盡可能高的帶寬,當(dāng)然還要有最好的架構(gòu)和最高的能效,并且你必須擁有一個編程模型,使你能夠在所有這些極其復(fù)雜的硬件上運行軟件才能做到這一點。現(xiàn)在讓我們來看一個演示,讓你對我說的是什么有一個切實的感受。請播放它。

傳統(tǒng)的LLM捕捉基礎(chǔ)知識,而推理模型則利用思維標記來幫助解決復(fù)雜問題。在這里,一個提示要求在婚禮餐桌旁安排座位,同時遵守一些限制條件,例如傳統(tǒng)習(xí)俗、照片角度以及家族成員之間的矛盾。傳統(tǒng)的LLM能夠快速地給出答案,使用的標記少于500個。它在安排賓客座位時犯了錯誤,而推理模型則使用了超過8000個標記進行思考,最終得出了正確的答案。這需要一位牧師來維持和平。
好吧,正如你們所知,如果你有一個300人的婚禮派對,并且你試圖找到完美的,或者說最佳的座位安排,這是一個只有人工智能才能解決或者只有岳母才能解決的問題。所以,這是協(xié)同計算無法解決的問題之一。

好,您在這里看到的是,我們給它提供了一個需要推理的問題,您看到R1會就此進行推理,嘗試所有不同的場景,然后返回來檢驗自己的答案。它會自問是否做對了。同時,上一代語言模型則采用一次性解決方法。因此,一次性解決方法使用了439個標記。它速度很快,效率很高,但結(jié)果是錯誤的。所以,這是439個被浪費的標記。另一方面,為了對這個問題進行推理(實際上這是一個非常簡單的問題,只需增加幾個更難的變量,它就會變得非常難以推理),它使用了8000個,幾乎9000個標記。而且它需要更多的計算,因為模型更加復(fù)雜。
好,這是一個維度。在我向您展示一些結(jié)果之前,請允許我解釋其他一些內(nèi)容。
因此,答案是,如果你觀察Blackwell系統(tǒng),現(xiàn)在它已經(jīng)擴展到NVLink 72。我們首先要做的是處理這個模型,而這個模型并不小。以R1為例,人們認為R1很小,但它有6800億個參數(shù)。
下一代模型可能擁有數(shù)萬億個參數(shù)。解決這一問題的方法是將這些數(shù)萬億個參數(shù)和模型,將工作負載分布到整個GPU系統(tǒng)中。
可以使用張量并行,將模型的一層運行在多個GPU上;也可以取流水線的一部分,稱之為流水線并行,并將其放在多個GPU上;還可以將不同的專家模型放在不同的GPU上,我們稱之為專家并行。
流水線并行、張量并行和專家并行的組合方式數(shù)量龐大,令人難以置信。并且根據(jù)模型、工作負載和環(huán)境的不同,計算機的配置方式必須改變,以便獲得最大的吞吐量。有時需要優(yōu)化極低的延遲,有時則需優(yōu)化吞吐量,因此必須進行一些運行時批處理。批處理和聚合工作有很多不同的技術(shù)。因此,這些AI工廠的操作系統(tǒng)和軟件極其復(fù)雜。
其中一個觀察結(jié)果,也是擁有像NVLink 72這樣同構(gòu)架構(gòu)的真正優(yōu)勢在于,每個GPU都能執(zhí)行我剛才描述的所有操作。我們觀察到這些推理模型正在進行幾個計算階段。其中一個計算階段是思考。當(dāng)你在思考時,不會產(chǎn)生很多標記。你產(chǎn)生的標記可能你自己在使用,你在思考。也許你正在閱讀,正在消化信息。這信息可能是PDF文檔,也可能是網(wǎng)站,甚至可以觀看視頻,以超線性速率吸收所有這些信息,然后將所有這些信息整合起來,形成答案,制定一個計劃性的答案。因此,信息消化和上下文處理非常依賴于浮點運算。
另一方面,在下一階段,稱為解碼階段,其第一部分我們稱為預(yù)填充,解碼的下一階段需要浮點運算,但需要巨大的帶寬。而且計算起來相當(dāng)容易。如果你有一個模型,它有數(shù)萬億個參數(shù),那么每秒需要幾TB的數(shù)據(jù),注意我之前提到過每秒576TB,僅僅是從HBM內(nèi)存中提取模型就需要每秒TB級的數(shù)據(jù)。而且僅僅是為了生成一個標記。
它之所以只生成一個標記,是因為記住這些大型語言模型是在預(yù)測下一個標記,這就是它們預(yù)測下一個標記的原因。它不是預(yù)測每一個標記,而只是預(yù)測下一個標記?,F(xiàn)在我們有了各種新的技術(shù),例如推測性解碼等等,用于更快地完成這項工作,但最終,你是在預(yù)測下一個標記。
因此,你攝取、調(diào)入整個模型和上下文(我們稱之為KV緩存),然后生成一個標記。然后我們將這個標記放回我們的“大腦”,生成下一個標記。每次執(zhí)行此操作,我們都輸入數(shù)萬億個參數(shù),輸出一個標記。數(shù)萬億個參數(shù)輸入,輸出另一個標記。數(shù)萬億個參數(shù)輸入,輸出另一個標記。請注意,在演示中,我們輸出了8600個標記。
因此,數(shù)萬億字節(jié)的信息已被輸入到我們的GPU中,并一次輸出一個標記。這從根本上解釋了為什么需要NVLink。
NVLink使我們能夠?qū)⑺羞@些GPU組合成一個巨大的GPU,實現(xiàn)最終的規(guī)模擴展。
現(xiàn)在所有內(nèi)容都在NVLink上,我可以將預(yù)填充與解碼分離,并可以決定:我想為預(yù)填充使用更多GPU,為解碼使用更少GPU。
因為我正在進行大量的思考,進行一項自主性的工作,閱讀大量信息。我正在進行深入的研究。之前我一直在聽邁克爾講話,邁克爾也談到了他正在進行的研究,而我做的也是同樣的事情。我們會開展并撰寫這些非常冗長的AI研究項目,我非常喜歡做這件事。
我已經(jīng)為此付出了代價,我非常享受讓我們的GPU運轉(zhuǎn)起來。沒有什么能給我?guī)砀蟮目鞓?。所以我在撰寫完畢后,它就開始運行,進行所有這些研究,它訪問了大約94個不同的網(wǎng)站,閱讀了所有這些信息,而我也在閱讀所有這些信息,然后它會形成一個答案并撰寫報告。這真是令人難以置信。
在那段時間里,預(yù)填充一直非常繁忙。它并沒有真正生成很多標記。另一方面,當(dāng)您與聊天機器人進行對話,并且數(shù)百萬人在做同樣的事情時,它就需要非常大量的標記生成。解碼工作量非常大。
因此,根據(jù)工作負載,我們可能會決定將更多GPU分配到解碼,或者根據(jù)工作負載,將更多GPU分配到預(yù)填充。這種動態(tài)操作非常復(fù)雜。我剛剛描述了流水線并行、張量并行、專家并行、飛行中批處理、解耦推理、工作負載管理,然后我還要處理一個叫做KV緩存的東西,我必須將其路由到正確的GPU,我必須通過所有內(nèi)存層次結(jié)構(gòu)來管理它。這段軟件極其復(fù)雜。
因此,今天我們宣布推出英偉達Dynamo。英偉達Dynamo能夠做到這一切。它本質(zhì)上是AI工廠的操作系統(tǒng)。

在過去,在我們運行數(shù)據(jù)中心的方式中,我們的操作系統(tǒng)類似于VMware。我們會(而且現(xiàn)在仍然會),協(xié)調(diào)大量不同的企業(yè)應(yīng)用程序在我們企業(yè)IT之上運行,我們也是大型用戶。但未來,應(yīng)用程序并非企業(yè)IT,而是智能體。操作系統(tǒng)也不再是VMware之類的軟件,而是Dynamo之類的軟件。而且這個操作系統(tǒng)運行的并非數(shù)據(jù)中心之上,而是AI工廠之上。我們將其命名為Dynamo是有充分理由的。如您所知,Dynamo是啟動上次工業(yè)革命的首個動力機械。
這是能源的工業(yè)革命。水流入,電力流出,這著實神奇。
水流入,將其點燃,變成蒸汽,隨后產(chǎn)生的便是這種無形卻極其寶貴的東西。
歷經(jīng)八十年發(fā)展,才有了交流電,但發(fā)電機是這一切的起點,是開端。
因此,我們將這個操作系統(tǒng),這套軟件——極其復(fù)雜的軟件——命名為英偉達發(fā)電機(NVIDIA Dynamo)。它是開源的,我們很高興有諸多合作伙伴與我們共同開發(fā)。我最喜歡的合作伙伴之一,我非常喜歡他,不僅因為他所做的革命性工作,還因為阿拉文德是一個非常好的人。Perplexity是我們合作攻克這一難題的重要伙伴??傊?,非常好,非常好。
現(xiàn)在我們必須等待所有這些基礎(chǔ)設(shè)施擴展完畢,但與此同時,我們已經(jīng)進行了一系列非常深入的模擬。我們用超級計算機模擬我們的超級計算機,這很有道理。
現(xiàn)在我將向大家展示我剛才所說的一切的好處。記住工廠示意圖。Y軸表示工廠的每秒Token吞吐量,X軸表示用戶體驗的每秒Token吞吐量。你需要超級智能的AI,并且需要生產(chǎn)大量的AI。
這是Hopper。它可以為每個用戶每秒產(chǎn)生大約100個Token。這使用了八個GPU,通過InfiniBand互聯(lián),我將其標準化為每兆瓦每秒的token數(shù)量。所以這是一個兆瓦級的數(shù)據(jù)中心,并非一個非常大型的AI工廠,但無論如何,它是一兆瓦的。它可以為每個用戶每秒產(chǎn)生100個token,并且在這個級別上,無論實際情況如何,它可以為該兆瓦級數(shù)據(jù)中心每秒產(chǎn)生10萬個token?;蛘?,如果進行超級批量處理,并且客戶愿意等待很長時間,那么該AI工廠每秒可以產(chǎn)生大約250萬個token。
明白了嗎?
記住,兩百五十萬,ChatGPT 的成本大約是每百萬個詞元10美元,對吧?每百萬個詞元10美元。讓我們假設(shè)一下,我認為每百萬個詞元10美元的成本可能比較低,但我可能會說它比較低,但讓我假設(shè)它比較高,因為兩百五十萬乘以10,那就是每秒2500萬美元。這樣理解有道理嗎?這就是你思考問題的方式。
或者,如果成本低得多,那么問題在于,假設(shè)是10萬美元,將其除以10。每個工廠每秒25000美元。然后是3100萬,一年大約有3000萬秒,這就能轉(zhuǎn)化為百萬級,兆瓦級數(shù)據(jù)中心的營收。所以這就是您的目標。
一方面,您希望您的Token速率盡可能快,以便您可以創(chuàng)造真正智能的AI,如果擁有智能AI,人們就會為此支付更多費用。另一方面,AI越智能,您所能生產(chǎn)的數(shù)量就越少。這是一個非常合理的權(quán)衡。這就是我們試圖改變的曲線。
現(xiàn)在,我向您展示的是世界上最快的計算機——Hopper。它徹底改變了一切。那么,我們該如何改進它呢?
因此,我們首先提出使用NVLink 8的Blackwell架構(gòu)。同樣的Blackwell架構(gòu),相同的計算單元,以及使用FP8的NVLink 8計算節(jié)點。因此,Blackwell更快了。更快、更大、更多晶體管,一切都要更多。
但我們想做的不止這些,因此我們引入了新的精度。這并不完全像4位浮點數(shù)那樣簡單,但使用4位浮點數(shù),我們可以量化模型,用更少的能量做同樣的事情。因此,當(dāng)您使用更少的能量做同樣的事情時,您可以做得更多。

因為請記住,一個重要的觀點是,未來每一個數(shù)據(jù)中心都將受到電力限制。您的收入將受到電力限制。您可以根據(jù)可用的電力來計算您的收入。這與許多其他行業(yè)沒有什么不同。所以我們現(xiàn)在是一個受電力限制的行業(yè)。我們的收入將與此相關(guān)聯(lián)。
基于此,您需要確保擁有盡可能高效節(jié)能的計算架構(gòu)。接下來,我們將使用 NVLink 72 進行擴展。
請看 NVLink 72 FP4 的差異,由于我們的架構(gòu)高度集成,現(xiàn)在我們又添加了 Dynamo,Dynamo 可以進一步擴展其性能。
所以 Dynamo 也能幫助 Hopper,但對 Blackwell 的幫助更大。
現(xiàn)在請注意我標出的這兩個閃光點,這大概就是您的最大 Q 值所在。這很可能就是您運行工廠運營的地方。您正在嘗試在人工智能的最大吞吐量和最大質(zhì)量之間找到平衡點。最智能的人工智能,以及最大數(shù)量的人工智能。這兩者的交點,正是您優(yōu)化的目標。

這就是在查看這兩個方塊下方時呈現(xiàn)的樣子。Blackwell 的性能遠優(yōu)于 Hopper。請記住,這并非指 ISO 芯片。而是指 ISO 功率。
這是最終的摩爾定律,始終是過去摩爾定律的核心所在。 現(xiàn)在我們實現(xiàn)了這一目標,在單代產(chǎn)品中實現(xiàn)了 25 倍的 ISO 功率提升。
這不是ISO芯片,也不是ISO晶體管,更不是任何ISO相關(guān)的組件。 ISO功耗,是最終的限制因素。 數(shù)據(jù)中心所能獲得的能量是有限的。 因此,在ISO功耗限制下,Blackwell方案的效率提升了25倍。
現(xiàn)在我們看到了這張彩虹圖,令人難以置信。 這才是有趣的部分。 看,在帕累托前沿之下,有各種不同的配置方案,我們稱之為帕累托前沿。 在帕累托前沿之下,存在數(shù)百萬種我們本可以用來配置數(shù)據(jù)中心的方法。 我們本可以以許多不同的方式將工作并行化、分割和分片。 而我們找到了最優(yōu)解,也就是帕累托前沿。
好的,帕累托邊界。 而且,由于顏色不同,每一個點都代表著不同的配置。 這張圖像非常清晰地說明了為什么我們需要一個可編程架構(gòu),使其盡可能地具有同質(zhì)可替代性。 因為工作負載在整個邊界上變化非常劇烈。
看,在頂部,我們有專家并行8,批次大小為3000,去聚集關(guān)閉,Dynamo關(guān)閉。 在中間,專家并行64,其中26%用于上下文,因此Dynamo開啟,上下文占用26%,其余74%未使用。 批次大小為64,一個使用專家并行64,另一個使用專家并行4。 然后在底部,我們有張量并行16與專家并行4,批次大小為2,上下文占用1%。 計算機的配置在整個范圍內(nèi)都在發(fā)生變化。
然后,就會發(fā)生這種情況。 這是一個輸入序列長度的例子,它是一種比較通用的測試用例。 這是一種您可以相對輕松地進行基準測試的測試用例。 輸入為1000個標記,輸出為2000個。 請注意,我們之前向您展示了一個演示,其中輸出非常簡單,為9000,對吧,8000。 所以很明顯,這并不能僅代表那一次對話。 而這一次更具有代表性。 這就是目標所在,即構(gòu)建面向下一代工作負載的下一代計算機。
這是一個推理模型的示例。 在這個推理模型中,Blackwell的性能是Hopper的40倍。 直接說吧。 非常驚人。
你知道,我之前說過,有人確實問過,你知道,我為什么要那樣說? 但我之前說過,一旦Blackwell公司開始批量發(fā)貨,你就會發(fā)現(xiàn)Hopper產(chǎn)品供過于求,幾乎無人問津。 我說的就是這個意思。 這是合理的。 如果還有人想購買Hopper產(chǎn)品,不用擔(dān)心,沒關(guān)系。
但是…… 我是首席收入破壞者。 我的銷售人員會說,哦,不,別那樣說。 霍珀在某些情況下表現(xiàn)良好。 這是我所能對霍珀做的最好評價了。
你在某些情況下也表現(xiàn)良好,但情況不多。如果我必須采取行動,這就是我的觀點。
當(dāng)技術(shù)發(fā)展如此迅速,工作量如此巨大,并且你們正在建造這些類似工廠的東西時,我們真的希望你們投資于正確的版本。
為了便于理解,這就是一座100兆瓦工廠的樣子。
基于Hoppers公司的方案,您擁有45,000個沖壓模具、1400個機架,每秒可生產(chǎn)3億個代幣。

以下是Blackwell公司的方案。您擁有86個……我們并非試圖減少您的購買量。我們的銷售人員說,Jensen,你正在減少他們的購買量,但這是更好的方案。
總之,您購買越多,節(jié)省越多。事實上,情況比這還要好?,F(xiàn)在,你購買得越多,賺取的就越多。
總之,請記住,一切都在人工智能工廠的背景下進行,一切現(xiàn)在都處于人工智能工廠的語境之中。
雖然我們談?wù)撔酒?,但你總是要從?guī)?;_始。全面規(guī)?;?。你能將什么最大限度地規(guī)?;??
我現(xiàn)在想向你展示人工智能工廠是什么樣的,但人工智能工廠非常復(fù)雜。我剛才只給你舉了一個機架的例子,它擁有60萬個部件,重達3000磅?,F(xiàn)在,你必須把它與許多其他部件連接起來。
因此,我們開始構(gòu)建我們所說的每個數(shù)據(jù)中心的數(shù)字孿生。在構(gòu)建數(shù)據(jù)中心之前,你必須構(gòu)建一個數(shù)字孿生。
讓我們來看一看這個。這簡直令人難以置信地美麗。
(旁白)世界各國都在競相建設(shè)最先進的大規(guī)模人工智能工廠。建設(shè)一座人工智能千兆工廠是一項非凡的工程壯舉,需要來自供應(yīng)商、建筑師、承包商和工程師的數(shù)萬名工人來建造、運輸和組裝近50億個組件和超過20萬英里的光纖,幾乎相當(dāng)于地球到月球的距離。
英偉達Omniverse人工智能工廠數(shù)字孿生藍圖使我們能夠在物理建設(shè)開始之前設(shè)計和優(yōu)化這些人工智能工廠。
在此,英偉達工程師利用藍圖規(guī)劃一座千兆瓦人工智能工廠,整合了最新英偉達DGX超級計算集群的三維和布局數(shù)據(jù),以及來自Vertip和施耐德電氣的先進電力和冷卻系統(tǒng),并通過英偉達AIR(一個用于模擬網(wǎng)絡(luò)邏輯、布局和協(xié)議的框架)進行了拓撲優(yōu)化。
這項工作傳統(tǒng)上是在各個孤立的部門進行的。Omniverse藍圖使我們的工程團隊能夠并行協(xié)同工作,讓我們能夠探索各種配置以最大限度地降低總擁有成本(TCO)并提高電力使用效率。
英偉達利用由CUDA和Omniverse庫加速的Cadence Reality數(shù)字孿生技術(shù)模擬空氣和液體冷卻系統(tǒng),并使用施耐德電氣的eTap應(yīng)用程序模擬電力模塊的效率和可靠性。實時模擬使我們能夠在幾秒鐘內(nèi)完成迭代并運行大型假設(shè)場景,而無需耗費數(shù)小時。
我們使用數(shù)字孿生技術(shù)向眾多團隊和供應(yīng)商傳達指令,從而減少執(zhí)行錯誤并加快部署時間。在規(guī)劃改造或升級時,我們可以輕松地測試和模擬成本和停機時間,確保人工智能工廠具有未來發(fā)展?jié)摿Α?/p>
這是第一次有人在構(gòu)建數(shù)據(jù)中心時會認為:“哇,這太漂亮了!”

目前我們正全面生產(chǎn)Blackwell系列產(chǎn)品。全球各地的電腦公司都在大規(guī)模地生產(chǎn)這些令人難以置信的機器。我非常高興也很感激大家為過渡到這個新的架構(gòu)而付出的努力。
在今年下半年,我們將輕松過渡到升級版。因此,我們將推出Blackwell Ultra MB-Link 72。如您所知,它的處理能力提升了1.5倍。它具有新的注意力指令。其內(nèi)存提升至原來的1.5倍。所有這些內(nèi)存可用于諸如KB緩存之類的用途。網(wǎng)絡(luò)帶寬也提升至原來的兩倍。因此,現(xiàn)在我們擁有相同的架構(gòu),將能夠平滑過渡。這被稱為Blackwell Ultra,將于今年下半年推出。
所有公司都表示“下一個”是有原因的。事實上,這正是我希望得到的回應(yīng)。原因是我們正在建設(shè)人工智能工廠和人工智能基礎(chǔ)設(shè)施,這需要多年的規(guī)劃。這不像購買一臺筆記本電腦那樣簡單,也不是可隨意支配的支出。這是我們必須規(guī)劃的支出,包括土地和電力供應(yīng),以及資本支出,并組建工程團隊。我們必須提前一兩年,甚至兩三年進行規(guī)劃。這就是為什么我們會提前兩三年向您展示我們的路線圖的原因,這樣我們就可以避免在五月份給您帶來意外。
經(jīng)過多年的規(guī)劃,下一個階段,也就是一年之后,是以一位天文學(xué)家的名字命名的。她的孫輩們也在場。她的名字是維拉·魯賓。她發(fā)現(xiàn)了暗物質(zhì)。維拉·魯賓令人難以置信,因為其CPU是全新的,性能是Grace的兩倍,內(nèi)存更大,帶寬更高。
然而,它只是一個只有50瓦的小型CPU,這確實令人難以置信。而且,魯賓系統(tǒng)使用了全新的GPU,CX9,全新的網(wǎng)絡(luò)智能網(wǎng)卡(NIC),NVLink 6,全新的NVLink互聯(lián)技術(shù),以及新型的內(nèi)存HBM4。總體而言,除了底盤之外,其他一切都是全新的。
通過這種方式,我們可以在一個方向上承擔(dān)很大的風(fēng)險,而不會危及與基礎(chǔ)設(shè)施相關(guān)的許多其他方面。因此,Vera Rubin,NVLink 144,將于明年下半年推出。
現(xiàn)在,我犯了一個錯誤,所以,我只需要你們做出這個調(diào)整:Blackwell實際上是一個Blackwell芯片中的兩個GPU。我們稱單個芯片為GPU是錯誤的,原因是這會打亂所有NVLink的命名法等等。

因此,展望未來,無需返回Blackwell進行修復(fù),當(dāng)我說NVLink 144時,它僅僅意味著它連接到144個GPU,并且每一個GPU都是一個GPU芯片,并且它可以組裝在某個封裝中,其組裝方式可能會隨時變化。所以,每個GPU芯片就是一個GPU。每個NVLink都連接到GPU。
因此,Vera Rubin,NVLink 144,這就為下半年,以及次年我們稱之為Rubin Ultra的產(chǎn)品奠定了基礎(chǔ)。
所以,Vera Rubin Ultra。 這是Vera Rubin,Rubin Ultra,27的後半部分。它采用NVLink 576,實現(xiàn)了極大規(guī)模的擴展。每個機架的功率為600千瓦,由250萬個部件組成。

而且,顯然,還有大量的GPU,并且所有的一切都乘以X因子進行了提升。所以,浮點運算次數(shù)增加了14倍,達到15億億次浮點運算(15 exaflops)。正如我之前提到的,現(xiàn)在是15億億次浮點運算,而非1億億次浮點運算,實現(xiàn)了規(guī)模的擴大。
并且其內(nèi)存達到了300,大概是4.6PB(拍字節(jié))。所以,帶寬規(guī)模提升到了每秒4600TB(太字節(jié))。我指的不是聚合帶寬,我指的是規(guī)模提升的帶寬。當(dāng)然,還有全新的NVLink交換機和CX9。
請注意,共有16個站點,每個封裝包含4個GPU,采用極高速的NVLink互聯(lián)?,F(xiàn)在,讓我們來了解一下它的規(guī)模。這就是它的樣子。
現(xiàn)在,這將會很有趣。所以,您現(xiàn)在正在全力提升Grace Blackwell的性能。我并非想把它比作筆記本電腦,但這就是它的樣子。
這就是Grace Blackwell的形態(tài)。魯本的形態(tài)也是如此。ISO維度。
因此,換句話說,在進行橫向擴展之前,必須先進行縱向擴展。在進行橫向擴展之前,需要先進行縱向擴展。然后,在那之后,我們將利用令人驚嘆的技術(shù)進行橫向擴展。

所以,首先進行縱向擴展。這讓您了解我們前進的速度,這是縱向擴展的浮點運算次數(shù)。這是縱向擴展的浮點運算次數(shù)。Hopper的性能是基準的1倍,Blackwell是68倍,Rubin是900倍。規(guī)模化擴展Flop。
然后,如果我將其轉(zhuǎn)換為,本質(zhì)上是您的總擁有成本(TCO),即功率在上,每單位功率在下,下面是曲線下方的面積,也就是曲線下的正方形,它基本上是浮點運算次數(shù)乘以帶寬。
所以,衡量您的AI工廠是否取得進展的一個非常簡單的直覺檢驗方法是,用瓦特數(shù)除以那些數(shù)字。您可以看到,Rubin將大幅降低成本。這就是英偉達的路線圖,非常簡短。一年一次,像鐘表一樣精確。一年一次。
我們?nèi)绾芜M行規(guī)模化擴展?我們引入了,我們正在準備進行橫向擴展。那是規(guī)模擴展,使用了NVLink技術(shù)。我們的規(guī)模擴展網(wǎng)絡(luò)是InfiniBand和Spectrum X。
大多數(shù)人都很驚訝我們進入了以太網(wǎng)領(lǐng)域。我們決定使用以太網(wǎng)的原因是,如果我們能夠幫助以太網(wǎng)達到InfiniBand的性能,擁有InfiniBand的特性,那么網(wǎng)絡(luò)本身將更容易被所有人使用和管理。
因此,我們決定投資Spectrum,我們稱之為Spectrum X,并將擁塞控制、極低延遲和作為我們計算結(jié)構(gòu)一部分的少量軟件的特性融入其中。結(jié)果,我們使Spectrum X的性能極其出色。

我們使用Spectrum X構(gòu)建了有史以來最大的單一GPU集群,作為一個巨大的集群。這就是Colossus(巨型計算機系統(tǒng))。還有許多其他的例子。Spectrum X無疑對我們來說是一個巨大的成功。
我非常期待的一個領(lǐng)域是,最大的企業(yè)網(wǎng)絡(luò)公司將采用Spectrum X并將其集成到其產(chǎn)品線中,以便幫助全球企業(yè)成為人工智能公司。我們在CX7上擁有10萬個用戶?,F(xiàn)在CX8即將推出,CX9也即將推出。
在Rubin任職期間,我們希望將GPU數(shù)量擴展到數(shù)十萬個?,F(xiàn)在,將GPU擴展到數(shù)十萬個面臨的挑戰(zhàn)在于擴展連接。擴展連接使用的是銅纜。我們應(yīng)該盡可能地使用銅纜。
這大約是一到兩米左右的距離。這提供了令人難以置信的良好連接性、非常高的可靠性、非常好的能源效率以及非常低的成本。
因此,我們在擴展中盡可能多地使用銅纜。然而,在橫向擴展場景下,數(shù)據(jù)中心如今已如同體育場般巨大,我們需要一種更長距離運行的解決方案。這就是硅光子學(xué)發(fā)揮作用的地方。
硅光子學(xué)的挑戰(zhàn)在于其收發(fā)器功耗巨大。從電信號到光信號的轉(zhuǎn)換需要經(jīng)過串行-并行轉(zhuǎn)換器(SerDes)、收發(fā)器以及多個串行-并行轉(zhuǎn)換器。

好,讓我們把它投影到屏幕上,這樣我可以向大家展示我正在討論的內(nèi)容。好的,首先,我們宣布英偉達首個采用共封裝光子系統(tǒng)的方案。它是全球首個1.6太比特每秒的共封裝光學(xué)器件(CPO)。它基于一種名為微環(huán)諧振器調(diào)制器(MRM)的技術(shù)。并且它完全采用我們與臺積電(TSMC)合作已久,令人難以置信的工藝技術(shù)構(gòu)建而成。我們與龐大的技術(shù)提供商生態(tài)系統(tǒng)合作,共同發(fā)明了即將向您展示的技術(shù)。這真的是一項令人難以置信的技術(shù),極其令人難以置信的技術(shù)。
我們之所以決定投資微環(huán)諧振器調(diào)制器(MRM),是為了利用MRM令人難以置信的密度和功耗優(yōu)勢,其密度和功耗比用于電信的馬赫曾德爾干涉儀(Moxander)更好,后者用于電信中數(shù)據(jù)中心之間的通信。甚至在我們使用的收發(fā)器中,我們也使用馬赫曾德爾干涉儀(Moxander),因為到目前為止,密度要求并不高。
所以,如果您看看這些收發(fā)器,這是一個收發(fā)器的例子。這是一個插頭,功率是30瓦,大量購買價格是1000美元。此側(cè)為電源接口,此側(cè)為光纖接口。光信號通過黃色接口輸入。您將此插頭插入交換機。其中包含收發(fā)器、激光器,并采用名為Moxander的技術(shù)。
我們使用它將數(shù)據(jù)從GPU傳輸?shù)浇粨Q機,再到下一個交換機。然后是下一個交換機,再下一個交換機,例如連接到GPU。因此,如果我們有10萬個GPU,我們這邊就會有10萬個這樣的組件,然后是另外10萬個組件,用于連接交換機與交換機。然后在另一側(cè),我將其歸因于另一個網(wǎng)卡(NIC)。
如果我們有25萬個GPU,我們將增加一層交換機。因此,每個GPU,所有25萬個GPU,每個GPU將有六個收發(fā)器,每個GPU將有六個這樣的插頭。
這六個插頭每個GPU將增加180瓦的功耗,每個GPU 180瓦,每個GPU 6000美元的成本。所以問題是,我們?nèi)绾螌⒁?guī)模擴大到數(shù)百萬個GPU?因為如果我們有100萬個GPU乘以6,那就是600萬個收發(fā)器乘以30瓦,也就是1.8億瓦的收發(fā)器功耗。它們沒有進行任何計算,只是移動信號。
因此,問題在于,我們?nèi)绾?,我們能夠如何負?dān)得起,正如我之前提到的,能源是我們最重要的商品。最終一切事物都與能源相關(guān),因此這將通過減少180兆瓦的電力來限制我們的收入和客戶的收入。

因此,這是我們所做的令人驚奇的事情。我們發(fā)明了世界上第一臺微鏡MRM,這就是它的樣子。那里有一個小的波導(dǎo),您可以在波導(dǎo)上看到,它通向一個環(huán),該環(huán)產(chǎn)生共振,并控制波導(dǎo)在繞行時的反射率,從而限制和調(diào)制能量,即通過的光量。它通過吸收光來關(guān)閉它,或者讓它通過。它將這種直接的連續(xù)激光束轉(zhuǎn)換為1和0。這就是奇跡。
然后,這項技術(shù)——光子集成電路——與電子集成電路堆疊在一起,然后與一堆微透鏡堆疊在一起,再與稱為光纖陣列的東西堆疊在一起。這些部件都是使用臺積電的這項技術(shù)(他們稱之為COOP)制造的,并使用3D COAS技術(shù)進行封裝,并與所有這些技術(shù)提供商(我之前剛剛展示過它們的名字)合作,最終將其轉(zhuǎn)變?yōu)檫@臺令人難以置信的機器。那么讓我們來看一下這段視頻。

這簡直是一項技術(shù)奇跡。它們變成了這些交換機,我們的 InfiniBand 交換機,硅芯片運行狀況極佳。今年下半年我們將交付硅光交換機,明年下半年我們將交付 Spectrum X。
得益于 MRM 的選擇,得益于我們在過去五年中承擔(dān)的令人難以置信的技術(shù)風(fēng)險,我們申請了數(shù)百項專利,并將技術(shù)授權(quán)給我們的合作伙伴,以便我們都能制造它們,現(xiàn)在我們能夠?qū)⒐韫庾蛹夹g(shù)與共封裝選項相結(jié)合,無需收發(fā)器,光纖直接連接到我們的交換機,基數(shù)為 512。這就是 512 個端口。任何其他方法都根本無法做到這一點。
因此,這使我們能夠擴展到這些擁有數(shù)十萬甚至數(shù)百萬個 GPU 的系統(tǒng)。其益處,您可以想象一下,令人難以置信。在數(shù)據(jù)中心,我們可以節(jié)省數(shù)千萬瓦的電力。假設(shè)是十兆瓦,或者說六十兆瓦。六兆瓦相當(dāng)于十個Rubin Ultra機架。
六十兆瓦的電力相當(dāng)可觀。我們現(xiàn)在可以將一百個Rubin Ultra機架的電力部署到Rubin系統(tǒng)中。

我們的路線圖是:每年進行一次架構(gòu)更新,每兩年進行一次整體架構(gòu)升級,每年推出一條新的產(chǎn)品線,實現(xiàn)X因素的提升。我們嘗試逐步承擔(dān)硅片、網(wǎng)絡(luò)或系統(tǒng)機箱的風(fēng)險,以便在追求這些令人難以置信的技術(shù)時,能夠推動行業(yè)向前發(fā)展。
薇拉·魯賓,我非常感謝她的孫輩們來到這里。這是我們認可她并為她所做出的杰出工作致敬的機會。我們下一代產(chǎn)品將以費曼命名。
接下來是英偉達的路線圖。讓我來和您談?wù)勂髽I(yè)計算,這非常重要。
為了將人工智能帶入全球企業(yè),我們首先需要轉(zhuǎn)向英偉達的不同部門。高斯散點圖的美妙之處。
為了將人工智能帶入企業(yè),讓我們退一步,提醒自己這一點。請記住,人工智能和機器學(xué)習(xí)已經(jīng)徹底重塑了整個計算堆棧。處理器不同了,操作系統(tǒng)不同了,頂層的應(yīng)用程序也不同了。應(yīng)用程序的運行方式不同,編排方式不同,執(zhí)行方式也均不同。
舉一個例子,您訪問數(shù)據(jù)的方式將與過去 fundamentally 不同。未來,我們不會再精確地檢索所需數(shù)據(jù),然后閱讀并嘗試理解它,而是會像使用Perplexity那樣進行操作。我們不再那樣檢索信息,而是直接向Perplexity提出我的問題,提問,然后它會給出答案。未來,企業(yè)IT也將采用這種方式運作。我們將擁有作為數(shù)字勞動力一部分的AI代理。全球有數(shù)十億知識型員工,未來可能會有100億數(shù)字員工與我們并肩工作。未來,全球3000萬軟件工程師中的100%都將借助AI輔助工具。我對此深信不疑。到今年年底,英偉達100%的軟件工程師都將借助AI輔助工具。因此,人工智能代理將無處不在。它們的運行方式、企業(yè)的運行方式以及我們的運行方式都將發(fā)生根本性的改變。

所以我們需要新一代的計算機。這才是個人電腦應(yīng)有的樣子:20 petaflops(千萬億次浮點運算),令人難以置信。72個CPU核心,芯片間接口,高帶寬內(nèi)存(HBM),此外,還有一些PCI Express插槽用于您的GeForce顯卡。這叫做DGX Station。DGX Spark和DGX Station將由所有原始設(shè)備制造商(OEM)提供,包括惠普、戴爾、聯(lián)想、華碩。它將面向全球的數(shù)據(jù)科學(xué)家和研究人員生產(chǎn)。這是人工智能時代的計算機,這就是計算機應(yīng)該的樣子,這也是未來計算機的運行方式。

我們現(xiàn)在為企業(yè)提供了一整套產(chǎn)品線。
我們提供從小型機到工作站、服務(wù)器,再到超級計算機的各類產(chǎn)品。
這些產(chǎn)品將由我們所有的合作伙伴提供。我們還將徹底革新其余的計算架構(gòu)。

請記住,計算具有三大支柱,其一是計算本身,而你們正在見證它的發(fā)展。其二是網(wǎng)絡(luò),正如我之前提到的,Spectrum X 將面向全球企業(yè),構(gòu)建一個人工智能網(wǎng)絡(luò)。
第三是存儲。存儲必須徹底重新設(shè)計,它將不再是基于檢索的存儲系統(tǒng),而是一個基于語義的存儲系統(tǒng)。因此,該存儲系統(tǒng)必須持續(xù)不斷地將信息嵌入到后臺。它接收原始數(shù)據(jù),將其嵌入到知識中,然后當(dāng)您訪問它時,您無需檢索它,而只需與它進行交互。你可以向它提問,也可以給它提出問題。

其中一個例子是Box公司的Aaron,他甚至將其上傳到云端,并與我們合作將其上傳到云端。它基本上是一個超級智能的存儲系統(tǒng)。未來,每個企業(yè)都將擁有這樣的系統(tǒng)。這就是未來的企業(yè)存儲。
我們正在與整個存儲行業(yè)合作,他們都是非常棒的合作伙伴,包括DDN、戴爾、惠普企業(yè)、日立、IBM、NetApp、Nutanix、Pure Storage、Vast和Weka?;旧希蛘麄€存儲行業(yè)都將提供這一技術(shù)棧。首次,您的存儲系統(tǒng)將實現(xiàn)GPU加速。

戴爾將提供全系列的英偉達企業(yè)級IT人工智能基礎(chǔ)設(shè)施系統(tǒng)以及在其上運行的所有軟件。因此,您可以看到我們正在徹底變革全球企業(yè)。
我們今天還宣布了這款令人難以置信的模型,每個人都可以運行。此前我向您展示了R1,一個推理模型。我將它與Llama 3(一個非推理模型)進行了比較。很明顯,R1要聰明得多。但我們還可以做得更好,我們可以使其成為任何公司都可用的企業(yè)級產(chǎn)品?,F(xiàn)在它完全開源,是我們稱之為NIMS的系統(tǒng)的一部分。
您可以下載它,可以在任何地方運行它。您可以在DGX Spark上運行它。您可以在DGX Station上運行它。您可以在原始設(shè)備制造商(OEM)生產(chǎn)的任何服務(wù)器上運行它。您可以在云端運行它。您可將其集成到您的任何自主智能(Agentic AI)框架中。我們正與世界各地的公司合作。
我將快速瀏覽這些內(nèi)容,請仔細觀看。我想感謝一些在座的優(yōu)秀合作伙伴。

埃森哲,朱莉·斯威特和她的團隊正在構(gòu)建他們的AI工廠和AI框架。Amdocs,全球最大的電信軟件公司。AT&T公司,John Stanky及其團隊正在構(gòu)建一個AT&T人工智能系統(tǒng),一個具有自主代理能力的系統(tǒng)。Larry Fink和貝萊德團隊正在構(gòu)建他們的系統(tǒng)。未來,Anyrood公司不僅會招聘ASIC設(shè)計人員,還會招聘大量來自Anyrood Cadence的數(shù)字ASIC設(shè)計人員來幫助我們設(shè)計芯片。因此,Cadence公司正在構(gòu)建其人工智能框架。
正如您所看到的,在每一個系統(tǒng)中,都集成了NVIDIA模型、NVIDIA NIMS和NVIDIA庫。因此,您可以將其在本地、云端或任何云平臺上運行。Capital One,一家在技術(shù)應(yīng)用方面最為先進的金融服務(wù)公司,廣泛使用了NVIDIA的技術(shù)。德勤公司,Jason及其團隊。ENY公司,Janet及其團隊。納斯達克公司,Dina及其團隊。將英偉達技術(shù)集成到他們的AI框架中。然后是克里斯蒂安和他在SAP的團隊。比爾·麥克德莫特和他在ServiceNow的團隊。
首先,這是一個主題演講,其第一張幻燈片就花了30分鐘。然后所有其他幻燈片也都花了30分鐘。
接下來,我們換個地方吧。我們來談?wù)剻C器人技術(shù)。

機器人時代已經(jīng)到來。機器人能夠與物理世界互動并執(zhí)行數(shù)字信息無法完成的任務(wù),這是它們的優(yōu)勢所在。我們非常清楚地知道,世界正面臨著嚴重的勞動力短缺。到本十年末,全世界至少將短缺5000萬名工人。我們非常樂意支付每位工人5萬美元的年薪以吸引他們來工作。我們可能不得不每年支付機器人5萬美元的“薪水”以使其投入工作。因此,這將是一個非常龐大的產(chǎn)業(yè)。
各類機器人系統(tǒng)層出不窮。您的基礎(chǔ)設(shè)施將實現(xiàn)機器人化。倉庫和工廠中將部署數(shù)十億個攝像頭。全球約有1000萬到2000萬家工廠。正如我之前提到的,每輛汽車實際上都是一臺機器人?,F(xiàn)在,我們正在建造通用機器人。讓我向您展示我們是如何做到的。
所有移動的物體都將實現(xiàn)自主化。物理人工智能將賦能各類機器人,應(yīng)用于各行各業(yè)。三臺英偉達制造的計算機支持機器人人工智能的持續(xù)循環(huán)模擬、訓(xùn)練、測試和真實世界經(jīng)驗反饋。機器人訓(xùn)練需要海量數(shù)據(jù)。
互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)提供了常識和推理能力,但機器人還需要行動和控制數(shù)據(jù),而這些數(shù)據(jù)的獲取成本很高。
(旁白)利用基于英偉達Omniverse和Cosmos構(gòu)建的藍圖,開發(fā)者可以生成海量多樣化的合成數(shù)據(jù),用于訓(xùn)練機器人的策略。
首先,在Omniverse中,開發(fā)者根據(jù)不同的領(lǐng)域、機器人和任務(wù),整合真實世界的傳感器數(shù)據(jù)或演示數(shù)據(jù)。然后利用Omniverse對Cosmos進行條件處理,將原始采集數(shù)據(jù)擴增為海量逼真且多樣化的數(shù)據(jù)。
開發(fā)者使用Isaac Lab利用增強的數(shù)據(jù)集對機器人策略進行后期訓(xùn)練。并通過模仿學(xué)習(xí)克隆行為,或通過試錯法以及強化學(xué)習(xí)AI反饋,讓機器人學(xué)習(xí)新技能。
實驗室練習(xí)與真實世界有所不同。新策略需要進行現(xiàn)場測試。開發(fā)者使用Omniverse進行軟件和硬件在環(huán)測試,在具有真實世界環(huán)境動態(tài)、領(lǐng)域隨機化、物理反饋和高保真?zhèn)鞲衅髂M的數(shù)字孿生體中模擬策略。
真實世界的操作需要多個機器人協(xié)同工作。Mega,一個Omniverse藍圖,允許開發(fā)者大規(guī)模測試經(jīng)過后期訓(xùn)練的機器人策略集群。在此,富士康在一個虛擬的英偉達Blackwell生產(chǎn)工廠中測試異構(gòu)機器人。當(dāng)機器人大腦執(zhí)行其任務(wù)時,它們通過傳感器模擬感知其行動的結(jié)果,然后規(guī)劃下一個行動。Mega 允許開發(fā)者測試許多機器人策略,使機器人能夠作為一個系統(tǒng)工作,無論是空間推理、導(dǎo)航、移動性還是靈巧性方面。
令人驚奇的事物誕生于模擬之中。今天,我們推出 NVIDIA Isaac Groot N1。Groot N1 是一個用于人形機器人的通才基礎(chǔ)模型。它建立在合成數(shù)據(jù)生成和模擬學(xué)習(xí)的基礎(chǔ)之上。Groot N1 采用了一種雙系統(tǒng)架構(gòu),用于快速和慢速思考,其靈感來自于人類認知處理的原理。慢速思考系統(tǒng)允許機器人感知和推理其環(huán)境和指令,并規(guī)劃正確的行動??焖偎伎枷到y(tǒng)將計劃轉(zhuǎn)化為精確且連續(xù)的機器人動作。Groot N1 的泛化能力使機器人能夠輕松地操縱常見物體并協(xié)同執(zhí)行多步驟序列。通過完整的合成數(shù)據(jù)生成和機器人學(xué)習(xí)流程,人形機器人開發(fā)者可以對Groot N1進行跨多種形態(tài)、任務(wù)和環(huán)境的后期訓(xùn)練。
全世界各個行業(yè)的開發(fā)者都在使用英偉達的三款計算機來構(gòu)建下一代具身人工智能。
物理人工智能和機器人技術(shù)發(fā)展迅速。每個人都應(yīng)該關(guān)注這一領(lǐng)域。這很可能成為所有行業(yè)中規(guī)模最大的一個。

其核心在于,我們面臨著同樣的挑戰(zhàn)。正如我之前提到的,我們關(guān)注三個方面。這些問題具有系統(tǒng)性。
首先,如何解決數(shù)據(jù)問題?如何以及在哪里創(chuàng)建訓(xùn)練人工智能所需的數(shù)據(jù)?其次,模型架構(gòu)是什么?第三,縮放損失是什么?我們?nèi)绾螖U展數(shù)據(jù)、計算能力或兩者兼顧,從而使人工智能越來越智能?我們該如何進行擴展?
這兩個基本問題同樣存在于機器人領(lǐng)域。在機器人領(lǐng)域,我們創(chuàng)建了一個名為Omniverse的系統(tǒng),它是我們用于物理人工智能的操作系統(tǒng)。長期以來,你們都聽我談?wù)撨^Omniverse。

我們向其中添加了兩項技術(shù)。今天,我將向你們展示兩件事。其一,是為了讓我們能夠擴展具有生成能力和能夠理解物理世界的生成模型的AI。我們稱之為Cosmos。利用Omniverse來調(diào)節(jié)Cosmos,并利用Cosmos生成無限數(shù)量的環(huán)境,使我們能夠創(chuàng)建扎實可靠的數(shù)據(jù)。這些數(shù)據(jù)扎實可靠,受我們控制,同時又具有系統(tǒng)性的無限性。正如您所見,在Omniverse中,我們使用糖果色來舉例說明我們?nèi)绾瓮昝赖乜刂茍鼍爸械臋C器人,而Cosmos可以創(chuàng)建所有這些虛擬環(huán)境。
第二點,正如我們之前所...
熱門跟貼