30000個tokens每秒,太炸裂了!

剛剛,英偉達在2025GTC大會上宣布了創(chuàng)世界紀錄的滿血 DeepSeek-R1 推理性能。

打開網(wǎng)易新聞 查看精彩圖片

DGX系統(tǒng)搭載八顆NVIDIA Blackwell GPU,在DeepSeek-R1模型(6710億參數(shù))推理任務中創(chuàng)下了世界紀錄↓

單用戶推理速度超過每秒250個token,峰值吞吐量超過每秒30000個token。

這一突破性的性能提升,得益于針對NVIDIA Blackwell架構(gòu)深度優(yōu)化的NVIDIA開放生態(tài)推理開發(fā)工具鏈。

但這還是只是牛刀小試↓

隨著NVIDIA平臺持續(xù)探索Blackwell Ultra GPU和Blackwell GPU架構(gòu)的極限潛力,這些推理性能的天花板會不斷被捅破。

打開網(wǎng)易新聞 查看精彩圖片

圖1. 在NVL8配置下運行TensorRT-LLM軟件的NVIDIA B200 GPU,在滿血DeepSeek-R1 671B模型上實現(xiàn)了每秒每位用戶最高的已發(fā)布token生成速度。

單臺DGX B200(8顆GPU)系統(tǒng)與單臺DGX H200(8顆GPU)系統(tǒng)的性能對比:

B200和H200的測試數(shù)據(jù)分別來自3月和2月,使用內(nèi)部版本的TensorRT-LLM工具。

測試條件:3月,輸入長度為1,024個token,輸出長度為2,048個token;1月和2月份,輸入和輸出均為1,024個token。

并發(fā)度設(shè)為1,B200系統(tǒng)使用FP4精度,H100和H200系統(tǒng)使用FP8精度。

打開網(wǎng)易新聞 查看精彩圖片

圖2. 通過硬件和軟件的結(jié)合,NVIDIA自2025年1月以來將DeepSeek-R1 671B模型的吞吐量提高了約36倍,相當于每個token的成本降低了約32倍。

最大吞吐量(標準化為8顆GPU系統(tǒng))對比:

包括單臺DGX B200(8顆GPU)系統(tǒng)、單臺DGX H200(8顆GPU)系統(tǒng),以及兩臺DGX H100(各8顆GPU,共16顆GPU)系統(tǒng)。測試數(shù)據(jù)來自內(nèi)部版本的TensorRT-LLM工具。

3月測試:輸入1,024個token,輸出2,048個token。

1月和2月測試:輸入和輸出均為1,024個token。

并發(fā)度設(shè)為最大值(MAX),B200使用FP4精度,H200和H100使用FP8精度。

NVIDIA 擁有全球規(guī)模最大的推理生態(tài)系統(tǒng),幫助開發(fā)者靈活地打造針對自身部署需求的AI解決方案,無論目標是追求最佳用戶體驗還是最大效率,都可以輕松實現(xiàn)。

該生態(tài)系統(tǒng)不僅包括NVIDIA官方提供的開源工具,也涵蓋了來自社區(qū)的豐富貢獻,共同發(fā)揮最新一代Blackwell架構(gòu)和軟件技術(shù)的全部潛力。

Blackwell架構(gòu)在性能上實現(xiàn)了大幅度提升,包括:

? 第五代Tensor Core搭載FP4精度加速,AI算力最高提升至前代的5倍;

? 第五代NVLink和NVLink Switch技術(shù),相較前代NVLink帶寬提高2倍;

? 支持規(guī)模更大的NVLink網(wǎng)絡域擴展能力。

無論從單芯片性能還是數(shù)據(jù)中心整體規(guī)模來看,這些創(chuàng)新都是推動前沿大模型(如DeepSeek-R1)實現(xiàn)高吞吐量和低延遲推理的關(guān)鍵。

然而,僅憑強大的硬件基礎(chǔ)設(shè)施不足以滿足加速計算的需求,更重要的是配套一整套持續(xù)優(yōu)化且快速更新的軟件堆棧,以確保當前的高強度任務高效運行,同時為未來更具挑戰(zhàn)性的任務做好準備。

為此,NVIDIA始終致力于優(yōu)化技術(shù)棧的每一層,包括芯片、系統(tǒng)、庫和算法,以實現(xiàn)卓越的工作負載性能。

以下將全面介紹NVIDIA推理生態(tài)系統(tǒng)的多項更新,涉及的重要軟件組件包括:

? NVIDIA TensorRT-LLM

? NVIDIA TensorRT

? TensorRT Model Optimizer

? CUTLASS

? NVIDIA cuDNN

? 主流AI框架(PyTorch、JAX、TensorFlow等)

此外,英偉達還分享了最新的性能與精度數(shù)據(jù),這些數(shù)據(jù)是在搭載8顆Blackwell GPU并使用兩個NVLink Switch芯片互聯(lián)的NVIDIA DGX B200系統(tǒng)上實測獲得的。

太長不看的分界線

TensorRT生態(tài)系統(tǒng):專為NVIDIA Blackwell優(yōu)化的全家桶

TensorRT生態(tài)系統(tǒng):專為NVIDIA Blackwell優(yōu)化的全家桶

NVIDIA TensorRT生態(tài)系統(tǒng)旨在幫助開發(fā)者充分優(yōu)化在NVIDIA GPU上的生產(chǎn)環(huán)境推理部署。

該生態(tài)包含一系列庫工具,支持AI模型從預處理、加速優(yōu)化,到最終的生產(chǎn)環(huán)境部署,全流程均已針對最新的NVIDIA Blackwell架構(gòu)實現(xiàn)深度優(yōu)化。

與上一代Hopper架構(gòu)相比,Blackwell架構(gòu)在推理性能上持續(xù)展現(xiàn)出巨大的提升。

模型優(yōu)化的第一步:TensorRT Model Optimizer

TensorRT Model Optimizer是實現(xiàn)推理速度優(yōu)化的重要第一步。它提供了一系列先進的模型優(yōu)化技術(shù),包括:

? 量化(Quantization)

? 蒸餾(Distillation)

? 剪枝(Pruning)

? 稀疏化(Sparsity)

? 推測解碼(Speculation Decoding)

這些技術(shù)能夠大幅提升模型在推理階段的運行效率。

最新發(fā)布的TensorRT Model Optimizer 0.25版本現(xiàn)已支持Blackwell架構(gòu)上的FP4精度,適用于訓練后量化(PTQ)與量化感知訓練(QAT),進一步提升了推理計算吞吐量,并降低了下游推理框架的內(nèi)存消耗。

專為大模型推理優(yōu)化的TensorRT-LLM

模型優(yōu)化完成后,高性能推理框架對于高效運行至關(guān)重要。TensorRT-LLM為開發(fā)者提供了豐富的工具箱,支持實現(xiàn)實時、高性價比、高能效的大模型(LLM)推理。

最新發(fā)布的TensorRT-LLM 0.17版本新增了對Blackwell架構(gòu)的支持,并針對Blackwell的指令集、內(nèi)存層次結(jié)構(gòu)及FP4精度做了定制化優(yōu)化。

基于PyTorch架構(gòu)的TensorRT-LLM,通過為常見大模型推理操作提供高性能且靈活的內(nèi)核(Kernels),以及先進的運行時特性。

包括動態(tài)批處理(in-flight batching)、KV緩存管理和推測式解碼(speculative decoding),實現(xiàn)了卓越的性能表現(xiàn)。

主流深度學習框架及其他LLM推理框架的全面支持

目前,廣泛使用的深度學習框架如PyTorch、JAX和TensorFlow均已升級,全面支持Blackwell架構(gòu)下的訓練與推理。

此外,社區(qū)熱門的LLM服務框架如vLLM與Ollama也已適配Blackwell GPU,其他框架的支持也將在近期陸續(xù)跟進。

Blackwell配合TensorRT的軟件堆棧帶來顯著推理性能提升

得益于Blackwell架構(gòu)與TensorRT軟件的協(xié)同優(yōu)化,相較上一代Hopper架構(gòu),推理性能獲得大幅提升。

這種性能增長的核心來自顯著提高的計算能力、更大的內(nèi)存帶寬,以及高度優(yōu)化的軟件棧,共同確保了卓越的實際運行性能。

以社區(qū)廣泛使用的大模型為例,包括DeepSeek-R1、Llama 3.1(405B參數(shù))和Llama 3.3(70B參數(shù)),DGX B200平臺在使用TensorRT推理軟件與FP4精度的情況下,推理吞吐量已超過DGX H200平臺的3倍以上,性能優(yōu)勢極為突出。

打開網(wǎng)易新聞 查看精彩圖片

圖3. 使用搭載NVIDIA Blackwell GPU的NVIDIA HGX B200以及FP4,與上一代運行FP8的GPU相比,Llama 3.1 70B、Llama 3.1 405B和DeepSeek-R1的推理吞吐量(tokens/sec)提升情況。

以下為初步規(guī)格,可能會有所更改。

TensorRT 模型優(yōu)化器 v0.23.0。TensorRT-LLM v0.17.0。最大批量大小為 2048,實際批量大小通過 TensorRT-LLM Inflight Batching 動態(tài)調(diào)整。H200 FP16/BF16 GEMM + FP8 KV 緩存。B200 FP4 GEMM + FP8 KV 緩存。吞吐量提升。

Llama 3.3 70B: ISL 2048, OSL 128

Llama 3.1 405B: ISL 2048, OSL 128

DeepSeek-R1: ISL 1024, OSL 1024

在對模型進行量化以利用低精度計算的優(yōu)勢時,確保最小的精度損失對于生產(chǎn)部署至關(guān)重要。

對于 DeepSeek-R1,TensorRT 模型優(yōu)化器的 FP4 訓練后量化(PTQ)在各種數(shù)據(jù)集上相較于 FP8 基線表現(xiàn)出極小的精度損失,如表 1 所示。

打開網(wǎng)易新聞 查看精彩圖片

表1. DeepSeek-R1模型在FP8/FP4精度下的MMLU/GSM8K/AIME24/GPQA/MATH-500準確率(PTQ量化后)

表2提供了基于BF16基準精度以及在流行的Llama 3.1 405B和Llama 3.3 70B模型上使用FP4量化后的準確性結(jié)果。

打開網(wǎng)易新聞 查看精彩圖片

表2. Llama模型在BF16/FP4精度下的MMLU和GSM8K準確率(PTQ量化后)

在以低精度(例如FP4)部署時,如果可以獲取微調(diào)數(shù)據(jù)集,則可以應用量化感知訓練(QAT)來恢復精度。

為了展示QAT的價值,使用TensorRT模型優(yōu)化器通過QAT將NVIDIA Nemotron 4 15B和Nemotron 4 340B模型量化為FP4,與BF16基準相比實現(xiàn)了無損的FP4量化(表3)。

打開網(wǎng)易新聞 查看精彩圖片

表3. FP4 PTQ和QAT相對于BF16基準的vMMLU 5-shot準確率。模型優(yōu)化器QAT實現(xiàn)了Nemotron 4 15B和Nemotron 4 340B的無損量化。

使用TensorRT與TensorRT Model Optimizer的FP4精度提升Blackwell平臺圖像生成效率

此前,NVIDIA的TensorRT和TensorRT Model Optimizer已通過INT8和FP8等8比特量化技術(shù),大幅提升了擴散模型(Diffusion Models)在圖像生成任務中的性能。

現(xiàn)在,隨著NVIDIA Blackwell架構(gòu)與FP4精度的出現(xiàn),AI圖像生成的效率再度實現(xiàn)了飛躍。

這一性能優(yōu)勢不僅適用于數(shù)據(jù)中心和專業(yè)平臺,也同樣惠及搭載NVIDIA GeForce RTX 50系列GPU的個人AI電腦(AI PC),使用戶能在本地快速生成高質(zhì)量圖像。

由Black Forest Labs推出的Flux.1模型系列屬于業(yè)內(nèi)領(lǐng)先的文本到圖像(Text-to-Image)生成模型,具有卓越的文本提示遵循能力,能夠生成豐富復雜的場景。

開發(fā)者現(xiàn)已可從Black Forest Labs在Hugging Face上提供的模型庫中下載FP4量化的Flux模型,并直接使用TensorRT進行部署。

這些FP4量化模型由Black Forest Labs團隊利用TensorRT Model Optimizer提供的FP4工作流和配方(recipes)生成。

為突出展示FP4精度對Blackwell平臺圖像生成性能的提升,F(xiàn)lux.1-dev模型在FP4精度下與FP16相比:

? 圖像生成吞吐量(每秒生成圖像數(shù))提升最高達3倍;

? 顯存(VRAM)占用量壓縮最高達5.2倍;

? 在性能顯著提升的同時,生成圖像的質(zhì)量仍然保持不變(詳見表4)。

打開網(wǎng)易新聞 查看精彩圖片

圖4. GeForce RTX 5090在FP4精度下,F(xiàn)lux.1-dev的圖像吞吐量與其他精度在30步長下的對比。

在Flux.1-dev模型中,僅Transformer主干部分采用了FP4精度進行量化,而模型中的其他部分則依然保持BF16精度。

此外,TensorRT的DemoDiffusion工具提供了一種低顯存(low-VRAM)模式。

在該模式下,T5、CLIP、VAE以及Flux.1-dev所用的FLUX Transformer模型會按需加載,任務完成后隨即卸載。

這種策略使得FLUX模型的峰值顯存占用不會超過上述四個子模型中單個模型的最大顯存需求。

但相應地,這種加載和卸載模型的方式也會增加一定的推理延遲。

打開網(wǎng)易新聞 查看精彩圖片

表4. Blackwell FP4顯存使用量及與不同精度格式的節(jié)省情況對比

圖5展示了使用FP4精度量化的Flux模型生成的示例圖像,從中可明顯看出,與使用BF16精度的基準模型相比,在給定提示詞下生成圖像的質(zhì)量和內(nèi)容保持了一致。

表5通過對1000張生成圖像的定量評估,進一步驗證了FP4模型在圖像質(zhì)量、相關(guān)性以及視覺吸引力方面的表現(xiàn)。

圖5示例圖像對應的提示詞如下↓

上圖提示詞:

“兩顆巨大的恒星在浩瀚宇宙中彼此環(huán)繞共舞,強大的引力使它們逐漸靠近。當其中一顆恒星坍縮為黑洞時,爆發(fā)出耀眼的能量,形成一道璀璨奪目的光輝,在宇宙的黑暗背景中熠熠生輝。四周旋轉(zhuǎn)著的氣體與塵埃云團環(huán)繞著這一壯觀景象,展現(xiàn)著宇宙深處難以想象的巨大能量。Two colossal stars dance in the vastness of space, their intense gravitational forces pulling them closer together. As one star collapses into a black hole, it releases a brilliant burst of energy, creating a dazzling display of shimmering light against the cosmic backdrop. Swirling clouds of gas and dust encircle the spectacle, hinting at the unimaginable power contained within.”

下圖提示詞:

“畫面的中央放置著一個真實感十足的球體,其表面覆蓋著柔軟蓬松的動物毛發(fā)。毛發(fā)細致逼真,呈現(xiàn)出自然、柔和的起伏動態(tài)。毛發(fā)所投射的陰影增強了畫面的視覺效果,整體渲染效果細膩逼真,具有高質(zhì)量的Octane渲染質(zhì)感。A realistic sphere textured with the soft, fluffy fur of an animal sits in the center of the image on a plain colored background. The fur ripples with gentle, lifelike motion, and the shadows cast by the fur create an engaging visual effect. The render has a high-quality, octane appearance.”

打開網(wǎng)易新聞 查看精彩圖片

圖5. 在RTX 5090上,Blackwell FP4以一半的顯存實現(xiàn)了Flux.1-dev模型3倍的推理性能,同時保持了相當?shù)馁|(zhì)量。

打開網(wǎng)易新聞 查看精彩圖片

表5. 使用Image Reward、CLIP-IQA和CLIPScore對FP4圖像質(zhì)量的定量評估(數(shù)值越高越好)。

Flux.1-dev模型性能測試說明

?測試設(shè)置:Flux.1-dev模型,推理步數(shù)30步,共生成1,000張圖像,采用TensorRT Model Optimizer v0.23.0 FP4配方進行量化。

?模擬環(huán)境:2025年1月24日,基于NVIDIA H100 GPU進行模擬測試。在TensorRT內(nèi)核層面,此模擬與RTX 5090上的表現(xiàn)數(shù)學上完全一致,但實際運行于RTX 5090 GPU時可能會存在細微的分數(shù)差異。

TensorRT 10.8更新帶來的性能提升

TensorRT 10.8版本現(xiàn)已支持Flux.1-Dev與Flux.1-Schnell模型在高端GeForce RTX 50系列GPU上的峰值FP4性能表現(xiàn)。

此外,借助新增的--low-vram(低顯存)模式,即使是在顯存容量受限的GeForce RTX 5070等GPU上,也能順暢運行上述模型。

同時,TensorRT現(xiàn)在還支持運行由Black Forest Labs提供的Depth和Canny Flux ControlNet模型。開發(fā)者可立即使用TensorRT提供的demo/Diffusion工具體驗相關(guān)功能。

cuDNN的深度學習原語已針對Blackwell架構(gòu)優(yōu)化

cuDNN的深度學習原語已針對Blackwell架構(gòu)優(yōu)化

自2014年推出以來,NVIDIA cuDNN庫一直是GPU上深度學習加速的核心組件。

它通過高度優(yōu)化的深度學習基礎(chǔ)原語實現(xiàn),幫助PyTorch、TensorFlow和JAX等主流框架達到業(yè)內(nèi)領(lǐng)先的性能表現(xiàn)。

憑借與框架的無縫集成及在多代GPU架構(gòu)上的優(yōu)化支持,cuDNN已經(jīng)成為貫穿訓練到推理全流程深度學習工作負載的性能引擎。

隨著cuDNN 9.7版本的發(fā)布,NVIDIA正式將cuDNN對Blackwell架構(gòu)的支持擴展到了數(shù)據(jù)中心和GeForce系列產(chǎn)品線。

當開發(fā)者將現(xiàn)有的cuDNN算子遷移到Blackwell架構(gòu)的新一代Tensor Core上時,將顯著提升性能表現(xiàn)。

新版庫提供了高度優(yōu)化的通用矩陣乘法(GEMM)API,充分發(fā)揮Blackwell架構(gòu)在FP8和FP4區(qū)塊縮放(Block-scaling)操作上的優(yōu)勢,屏蔽底層復雜性,使開發(fā)者更專注于上層的創(chuàng)新工作。

針對FP8精度的Flash Attention操作,cuDNN在Blackwell架構(gòu)下取得了明顯的性能提升:

? 前向傳播(Forward Propagation)性能提升高達50%;

? 反向傳播(Backward Propagation)性能提升更高達84%。

不僅如此,cuDNN還為Blackwell架構(gòu)提供了高度優(yōu)化且具有高級算子融合能力的GEMM操作。未來,cuDNN將進一步拓展算子融合支持,以持續(xù)推動深度學習工作負載性能的提升。

打開網(wǎng)易新聞 查看精彩圖片

圖6. NVIDIA Blackwell B200與NVIDIA Hopper H100之間的FP8 Flash Attention加速對比

借助CUTLASS打造高性能的Blackwell架構(gòu)CUDA內(nèi)核

借助CUTLASS打造高性能的Blackwell架構(gòu)CUDA內(nèi)核

自2017年首次推出以來,CUTLASS一直是研究人員和開發(fā)者在NVIDIA GPU上實現(xiàn)高性能CUDA內(nèi)核的重要工具。

CUTLASS通過提供豐富的工具集,幫助開發(fā)者高效設(shè)計針對NVIDIA Tensor Core的自定義計算操作,例如通用矩陣乘法(GEMM)和卷積(Convolution)等,使硬件感知算法(Hardware-aware Algorithms)的開發(fā)變得更加高效。

這推動了FlashAttention等創(chuàng)新算法的出現(xiàn),也確立了CUTLASS在GPU加速計算領(lǐng)域的重要地位。

此次CUTLASS 3.8版本的發(fā)布,全面增加了對NVIDIA最新Blackwell架構(gòu)的支持,幫助開發(fā)者充分利用新一代Tensor Core所支持的所有新數(shù)據(jù)類型,包括最新的窄精度MX數(shù)據(jù)格式以及NVIDIA自研的FP4精度。

這一更新將使開發(fā)者能更有效地為自定義算法和生產(chǎn)工作負載進行性能優(yōu)化,充分釋放加速計算的最新潛力。

如圖7所示,借助CUTLASS,我們在Tensor Core計算操作上的性能表現(xiàn)已經(jīng)達到相對峰值性能的98%。

打開網(wǎng)易新聞 查看精彩圖片

圖7. 在不同NVIDIA Blackwell Tensor Core上可實現(xiàn)的相對峰值性能

測試在B200系統(tǒng)上進行,其中M=K=16384,N=17290。

CUTLASS為Blackwell架構(gòu)引入Grouped GEMM和混合輸入GEMM等熱門功能

最新版本的CUTLASS還在Blackwell架構(gòu)上引入了廣受歡迎的功能,例如Grouped GEMM(分組GEMM)和Mixed Input GEMM(混合輸入GEMM)計算:

? Grouped GEMM 能更高效地同時執(zhí)行多個“專家”(Expert)計算,從而顯著加速混合專家(MoE)模型的推理過程。

? Mixed Input GEMM 則可支持量化內(nèi)核(Quantized Kernels),降低大型語言模型(LLM)權(quán)重在GPU上的顯存占用,進一步提高GPU資源的使用效率。

Blackwell架構(gòu)已獲得OpenAI Triton編譯器加持

此外,OpenAI Triton編譯器現(xiàn)已新增了對NVIDIA Blackwell架構(gòu)的支持。這一更新使開發(fā)者和研究人員能夠借助基于Python的Triton編譯器輕松調(diào)用Blackwell的最新架構(gòu)特性。

OpenAI Triton現(xiàn)已充分利用Blackwell架構(gòu)的創(chuàng)新優(yōu)勢,在多個關(guān)鍵應用場景下實現(xiàn)了接近最優(yōu)的性能表現(xiàn)。

總結(jié)一下,NVIDIA Blackwell架構(gòu)集成了眾多突破性技術(shù),大幅加速了生成式AI的推理性能,其中包括:

? 第二代Transformer Engine與FP4 Tensor Core;

? 第五代NVLink與NVLink Switch技術(shù)。

牛刀小試的成績,NVIDIA宣布創(chuàng)下了滿血版DeepSeek-R1模型推理性能的世界紀錄:一套配備8顆Blackwell GPU的NVIDIA DGX系統(tǒng),能實現(xiàn)單用戶每秒超過250個token的推理速度,最大吞吐量更超過每秒30,000個token。

本文編譯自英偉達官方博客

原文鏈接:https://developer.nvidia.com/blog/nvidia-bla