在上個月的 GPU 技術大會上,Nvidia 打破常規(guī),改變了對 GPU 的定義標準。

CEO Jensen Huang 在 GTC 大會上解釋說:"我之前犯了一個錯誤:Blackwell 實際上是在一個 Blackwell 芯片中集成了兩個 GPU。我們之前把它稱為一個 GPU 是錯誤的,因為這會搞亂所有的 NVLink 命名規(guī)則。"

然而,Nvidia 從計算 SXM 模塊轉向計算 GPU 芯片的這一轉變,不僅僅是為了簡化 NVLink 型號和命名規(guī)則。這可能會使 Nvidia 能夠收取的 AI Enterprise 許可費用翻倍。

Nvidia 的 AI Enterprise 套件(包含多個 AI 框架,以及對其推理微服務 NIMs 的訪問權限)每個 GPU 每年收費 4,500 美元,或在云端每小時 1 美元。這意味著配備八個模塊的 Nvidia HGX B200(每個模塊一個 Blackwell GPU)每年需要支付 36,000 美元,或在云端每小時 8 美元。

但在新的 HGX B300 NVL16 中,Nvidia 現(xiàn)在將每個芯片都計為一個 GPU。由于系統(tǒng)仍有八個模塊,每個模塊包含兩個芯片,總數達到了 16 個 GPU。這意味著,如果 Nvidia 的 AI Enterprise 訂閱定價保持不變,其最新的 HGX 設備的費用將翻倍。

這種命名規(guī)則的改變與去年的 Blackwell 系統(tǒng)有所不同。在我們的 Blackwell 發(fā)布報道中,Nvidia 反對我們將 Blackwell 稱為"芯片組"架構(在一個

相比去年的 B200,最新的 B300 GPU 并沒有強大太多。簡單回顧一下,HGX B300 的內存容量從 B200 的 1.5TB 提升到 2.3TB,增加了約 1.5 倍,而 4 位浮點 (FP4) 性能提升了約 50%,每系統(tǒng)達到略高于 105 個密集 petaFLOPS。然而,性能提升僅限于能夠利用 FP4 性能的工作負載。在更高精度下,B300 相比舊系統(tǒng)并無浮點性能優(yōu)勢。

令人困惑的是,這種變化只適用于 Nvidia 的風冷 B300 設備,而不適用于更強大的 GB300 NVL72 系統(tǒng),后者仍將封裝計為 GPU。

那么這是為什么呢?根據 Nvidia 超大規(guī)模和 HPC 部門副總裁兼總經理 Ian Buck 的說法,這是出于技術原因。

主要區(qū)別在于 HGX 機箱上提供的 B300 封裝缺少了前代 Blackwell 加速器中的芯片間互連。這意味著兩個芯片實際上是共享一個封裝的兩個獨立的 144GB GPU。Buck 解釋說,這使 Nvidia 能夠實現(xiàn)更好的功耗和散熱效果。但這也帶來了一些缺點。由于兩個芯片之間沒有 C2C 互連,如果一個芯片要訪問另一個芯片的內存,就必須離開封裝,通過 NVLink 交換機,然后進行 U 型轉向。

相比之下,GB300 保留了 C2C 接口,避免了封裝外的內存繞行。由于兩個芯片可以直接通信和共享內存,它們被視為一個統(tǒng)一的 GPU——至少在 Nvidia 的軟件和許可方面是這樣。

然而,這種技術例外不會持續(xù)太久。隨著 Nvidia Vera Rubin 超級芯片的推出,它將采用 B300 式的命名規(guī)則,開始將單個芯片計為 GPU,因此有了 NVL144 的命名。

這也解釋了為什么 Nvidia 的 Vera Rubin Ultra 平臺(計劃于 2027 年末推出)能夠聲稱每機架擁有 576 個 GPU。正如我們之前探討的,它實際上只有 144 個模塊(在 Blackwell Ultra 之前我們會認為是一個 GPU),每個模塊包含四個芯片。

如果要猜測的話,我們認為在 Nvidia 發(fā)布 Blackwell 的一年后,這家 GPU 巨頭意識到他們錯失了訂閱軟件收入。我們之所以這樣說,是因為當我們詢問 Nvidia 這種命名變化將如何影響 AI Enterprise 許可時,他們表示定價細節(jié)尚未確定。

"B300 的定價細節(jié)仍在敲定中,目前除了 GTC 主題演講中展示的內容外,暫時沒有關于 Rubin 的更多細節(jié)可以分享,"一位發(fā)言人向 El Reg 表示,并明確這也包括 AI Enterprise 的定價。