
NVIDIA CEO 黃仁勛在近期的精彩主題演講中再次強調(diào)了 NVIDIA CUDA 庫的重要性。在此,NVIDIA 企業(yè)開發(fā)者社區(qū)總結(jié)了典型 CUDA 庫以及相關(guān)應(yīng)用博客,希望對相關(guān)領(lǐng)域的開發(fā)者朋友能夠有所幫助!
PHYSICS
WARP
NVIDIA Warp 是一個開發(fā)者框架,用于在 Python 中構(gòu)建和加速數(shù)據(jù)生成和空間計算。Warp 讓程序員能夠輕松編寫用于仿真 AI、機器人開發(fā)和機器學(xué)習(xí)(ML)的 GPU 加速、基于內(nèi)核的程序。借助 Warp,Python 開發(fā)者可以創(chuàng)建 GPU 加速的 3D 仿真工作流,從而在 PyTorch、JAX、Modulus 和 NVIDIA Omniverse? 中驅(qū)動 ML 工作流。優(yōu)勢包括仿真性能等同于原生 CUDA 代碼,以及 Python 的便捷性和開發(fā)者工作效率。
開始使用 NVIDIA RTX 套件進行神經(jīng)渲染
使用 NVIDIA Nsight Graphics 優(yōu)化圖形應(yīng)用的 GPU 工作負(fù)載
Warp 1.5.0 引入圖塊化編程
DATA SCIENCE & PROCESSING
cuDF
cuDF(“KOO-dee-eff”)發(fā)音為是一個用于加載、連接、聚合、過濾和以其他方式操作數(shù)據(jù)的 GPU DataFrame 庫。cuDF 利用 libcudf(一個超快的 C++/CUDA 數(shù)據(jù)幀庫)和 Apache Arrow 列格式來提供 GPU 加速的 pandas API。
? 相關(guān)博客:
使用 NVIDIA cuDF,pandas 讀取 JSON 行文件速度提升100倍
掌握 cudf.pandas Profiler 實現(xiàn) GPU 加速
Databricks 上的 RAPIDS: GPU 加速數(shù)據(jù)處理指南
RAPIDS cuDF 在 Google Colab 上瞬間加速 pandas 達(dá) 50 倍
RAPIDS cuDF 可將 pandas 加速近 150 倍,且無需更改代碼
cuML
cuML 是一套快速的 GPU 加速機器學(xué)習(xí)算法,專為數(shù)據(jù)科學(xué)和分析任務(wù)而設(shè)計。我們的 API 與 Sklearn 的 API 相同,我們?yōu)閺臉I(yè)者提供簡單的擬合 - 預(yù)測 - 轉(zhuǎn)換范式,而無需在 GPU 上編程。
? 相關(guān)博客:
利用 RAPIDS cuML 加速時間序列預(yù)測
適用于數(shù)據(jù)科學(xué)的 GPU 加速入門
COMPUTER AIDED ENGINEERING
cuDSS
NVIDIA cuDSS(預(yù)覽版)是經(jīng)過優(yōu)化的第一代 GPU 加速的直接稀疏求解器庫,用于求解具有超稀疏矩陣的線性系統(tǒng)。直接稀疏求解器是數(shù)值計算的重要組成部分,適用于自動駕駛和過程模擬等實時應(yīng)用,在這些應(yīng)用中,日益復(fù)雜和高吞吐量需要強大的直接求解器。
? 相關(guān)博客:
開始使用 NVIDIA RTX 套件進行神經(jīng)渲染
使用 NVIDIA Nsight Graphics 優(yōu)化圖形應(yīng)用的 GPU 工作負(fù)載
cuSPARSE
用于稀疏計算的 GPU 庫 API。cuSPARSE 主機 API 提供 GPU 加速的基本線性代數(shù)例程,cuSPARSELt 主機 API 提供結(jié)構(gòu)化稀疏支持,可利用稀疏張量核心實現(xiàn) GEMM。稀疏技術(shù)在機器學(xué)習(xí)、AI、計算流體動力學(xué)、地震勘探和計算科學(xué)領(lǐng)域得到廣泛應(yīng)用。
? 相關(guān)博客:
使用 RAPIDS RAFT 進行機器學(xué)習(xí)和數(shù)據(jù)分析的可重用計算模式
cuFFT
NVIDIA cuFFT 庫提供 GPU 加速的快速傅立葉變換 (FFT) 實現(xiàn),用于構(gòu)建跨學(xué)科的應(yīng)用程序,例如深度學(xué)習(xí)、計算機視覺、計算物理學(xué)、分子動力學(xué)、量子化學(xué)以及地震和醫(yī)學(xué)成像。
? 相關(guān)博客:
CUDA 12.0 編譯器使用 nvJitLink 庫支持運行時 LTO
AMGX
AmgX 提供了一條在 NVIDIA GPU 上加速核心求解器技術(shù)的簡單路徑。AmgX 可為模擬的計算密集型線性求解器部分提供高達(dá) 10 倍的加速,特別適合隱式非結(jié)構(gòu)化方法。
DEEP LEARNING
TRT-LLM
NVIDIA TensorRT-LLM 為用戶提供易于使用的 Python API 來定義大語言模型(LLM),并構(gòu)建包含先進優(yōu)化的 NVIDIA TensorRT 引擎,以便在 NVIDIA GPU 上高效執(zhí)行推理。TensorRT-LLM 還包含用于創(chuàng)建用于執(zhí)行 TensorRT 引擎的 Python 和 C++ 運行時的組件。
? 相關(guān)博客:
利用 NVIDIA Triton 和 NVIDIA TensorRT-LLM 及 Kubernetes 實現(xiàn) LLM 擴展
使用 NVIDIA NeMo 和 NVIDIA TensorRT 模型優(yōu)化器對 LLM 進行訓(xùn)練后量化
Megatron
NVIDIA Megatron-Core 是一個基于 PyTorch 的開源庫,可在數(shù)千個 GPU 上以驚人的速度大規(guī)模訓(xùn)練大型模型。它采用 GPU 優(yōu)化的訓(xùn)練技術(shù),采用先進的系統(tǒng)級創(chuàng)新技術(shù),所有這些創(chuàng)新均可通過可組合的 API 訪問。Megatron-Core 與 NVIDIA NeMo? 無縫集成,提供端到端云原生解決方案,用于構(gòu)建、自定義和部署大語言模型(LLM)。
? 相關(guān)博客:
使用 Whisper 和 Canary 架構(gòu)部署 NVIDIA Riva 多語種 ASR,同時選擇性地停用 NMT
利用新的 NVIDIA Megatron-Core 功能高效訓(xùn)練生成式 AI 模型
使用 NVIDIA NeMo 和 NVIDIA TensorRT 模型優(yōu)化器對 LLM 進行訓(xùn)練后量化
NCCL
NVIDIA 集合通信庫(NCCL)可實現(xiàn)針對 NVIDIA GPU 和網(wǎng)絡(luò)進行性能優(yōu)化的多 GPU 和多節(jié)點通信基元。NCCL 提供了 all-gather、all-reduce、broadcast、reduce、reduce-scatter、point-to-point send 和 receive 等例程,這些例程均經(jīng)過優(yōu)化,可通過節(jié)點內(nèi)的 PCIe 和 NVLink 高速互聯(lián)以及節(jié)點間的 NVIDIA Mellanox 網(wǎng)絡(luò)實現(xiàn)高帶寬和低延遲。
? 相關(guān)博客:
在 NVIDIA DGX 云上確保模型訓(xùn)練可靠性
NVIDIA 集合通信庫 2.23 促使新的縮放算法和初始化方法的誕生
cuDNN
NVIDIA CUDA? 深度神經(jīng)網(wǎng)絡(luò)庫(cuDNN)是一個 GPU 加速的深度神經(jīng)網(wǎng)絡(luò)基元庫,能夠以高度優(yōu)化的方式實現(xiàn)標(biāo)準(zhǔn)例(如前向和反向卷積、池化層、歸一化和激活層)。
? 相關(guān)博客:
AI 基礎(chǔ)模型增強癌癥診斷并實現(xiàn)個性化治療
使用 NVIDIA cuDNN 9 加速多個 Transformer
神經(jīng)網(wǎng)絡(luò)通過檢查繪畫的筆觸來精確定位藝術(shù)家
CUTLASS
CUTLASS 是 CUDA C++ 模板抽象的集合,用于在 CUDA 內(nèi)的所有級別和規(guī)模上實現(xiàn)高性能矩陣乘法(GEMM)。
? 相關(guān)博客:
優(yōu)化 CUDA C++ 編譯時間
cuBLAS
cuBLAS 庫可提供基本線性代數(shù)子程序(BLAS)的 GPU 加速實現(xiàn)。cuBLAS 利用針對 NVIDIA GPU 高度優(yōu)化的插入式行業(yè)標(biāo)準(zhǔn) BLAS API,加速 AI 和 HPC 應(yīng)用。cuBLAS 庫包含用于批量運算、跨多個 GPU 的執(zhí)行以及混合精度和低精度執(zhí)行的擴展程序。通過使用 cuBLAS,應(yīng)用將能自動從定期性能提升及新的 GPU 體系架構(gòu)中受益。cuBLAS 庫包含在 NVIDIA HPC SDK 和 CUDA 工具包中。
? 相關(guān)博客:
在 cuBLAS 中引入分組 GEMM API 以及更多性能更新
QUANTUM CHEMISTRY
cuEquivariance
cuEquivariance 是一個 Python 庫,旨在促進使用分段張量乘積構(gòu)建高性能等方差神經(jīng)網(wǎng)絡(luò)。cuEquivariance 提供了一個全面的 API,用于描述分段張量乘積,以及用于執(zhí)行這些乘積的優(yōu)化 CUDA 核函數(shù)。此外,cuEquivariance 還為 PyTorch 和 JAX 提供綁定,確保廣泛的兼容性和易于集成。
?相關(guān)博客:
NVIDIA cuEquivariance 數(shù)學(xué)庫助力藥物和材料研發(fā)加速
cuTENSOR
NVIDIA cuTENSOR 是一個 GPU 加速的張量線性代數(shù)庫,用于張量收縮、歸約和元素級運算。借助 cuTENSOR,應(yīng)用可以利用 NVIDIA GPU 上的專用 Tensor Core 實現(xiàn)高性能張量計算,并加速深度學(xué)習(xí)訓(xùn)練和推理、計算機視覺、量子化學(xué)和計算物理工作負(fù)載。
? 相關(guān)博客:
cuTENSOR 2.0:應(yīng)用程序和性能
cuTENSOR 2.0:用于加速張量計算的全面指南
QUANTUM COMPUTING
cuQuantum
作為一個包含經(jīng)過優(yōu)化的庫和工具的 SDK,NVIDIA cuQuantum 可用于加速量子計算工作流。借助 NVIDIA Tensor Core GPU,開發(fā)者可以使用 cuQuantum 將基于狀態(tài)向量和張量網(wǎng)絡(luò)方法的量子電路模擬加速一個數(shù)量級。
? 相關(guān)博客:
借助新的量子動力學(xué)功能加速 Google 的 QPU 開發(fā)
借助 NVIDIA cuQuantum 23.10 加速量子電路模擬
借助寶馬集團和 NVIDIA cuQuantum 對量子計算應(yīng)用程序進行基準(zhǔn)測試
CUDA Quantum 0.5 為量子經(jīng)典計算提供新功能
量子經(jīng)典超級計算機的編程
CUDA-Q
CUDA-Q 是一個開源量子開發(fā)平臺,它編排了運行有用的大規(guī)模量子計算應(yīng)用所需的硬件和軟件。
? 相關(guān)博客:
NVIDIA CUDA-Q 在 Infleqtion QPU 上運行突破性邏輯 Qubit 應(yīng)用
隆重推出用于加速量子超級計算的 NVIDIA CUDA-QX 庫
WEATHER ANALYTICS
EARTH-2
NVIDIA Earth-2 將 AI、GPU 加速、物理仿真和計算機圖形的強大功能相結(jié)合,以超高的準(zhǔn)確性和速度在全球范圍內(nèi)模擬和可視化天氣和氣候預(yù)測。該平臺由用于 AI、可視化和仿真微服務(wù)及參考實現(xiàn)組成。
? 相關(guān)博客:
NVIDIA CUDA-Q 在 Infleqtion QPU 上運行突破性邏輯 Qubit 應(yīng)用
隆重推出用于加速量子超級計算的 NVIDIA CUDA-QX 庫
MEDICAL IMAGING
MONAI
MONAI 框架是 Project MONAI 創(chuàng)建的開源基礎(chǔ)。MONAI 是一個免費的、社區(qū)支持的、基于 PyTorch 的框架,用于醫(yī)療健康成像領(lǐng)域的深度學(xué)習(xí)。它提供針對領(lǐng)域優(yōu)化的基礎(chǔ)功能,用于在原生 PyTorch 范式中開發(fā)醫(yī)療健康成像訓(xùn)練工作流。
? 相關(guān)博客:
MONAI 成立 5 周年,慶祝開放科學(xué)和企業(yè) AI 創(chuàng)新
借助 NVIDIA MONAI Cloud API 加速 3D 醫(yī)學(xué)影像的 AI 工作流
在研究突破和臨床采用的推動下, MONAI 達(dá)到 100 萬下載里程碑
GENE SEQUENCING
Parabricks
NVIDIA? Parabricks? 是一個可擴展的基因組學(xué)分析軟件套件,能夠充分利用全棧加速計算在幾分鐘內(nèi)處理數(shù)據(jù)。它與所有領(lǐng)先的測序儀器兼容,支持多種生物信息學(xué)工作流程,并集成了 AI,有助于實現(xiàn)超高的準(zhǔn)確性,并允許用戶隨心定制。Parabricks 是一種經(jīng)濟高效且節(jié)省空間的解決方案,非常適合用于側(cè)重推進疾病理解和管理的大型基因組學(xué)項目。
? 相關(guān)博客:
利用 NVIDIA Parabricks 加速 Pangenome 比對挖掘新的生物學(xué)發(fā)現(xiàn)
用于空間組學(xué)的細(xì)胞成像特征提取和形態(tài)聚類
借助 NVIDIA AI 基礎(chǔ)模型 VISTA-2D 推進細(xì)胞分割和形態(tài)分析
借助 GPU 加速和生成式 AI 加速多組分析
借助 NVIDIA Parabricks v4.2 加速任何測序器的基因組分析
GENE SEQUENCING
Parabricks
NVIDIA? Parabricks? 是一個可擴展的基因組學(xué)分析軟件套件,能夠充分利用全棧加速計算在幾分鐘內(nèi)處理數(shù)據(jù)。它與所有領(lǐng)先的測序儀器兼容,支持多種生物信息學(xué)工作流程,并集成了 AI,有助于實現(xiàn)超高的準(zhǔn)確性,并允許用戶隨心定制。Parabricks 是一種經(jīng)濟高效且節(jié)省空間的解決方案,非常適合用于側(cè)重推進疾病理解和管理的大型基因組學(xué)項目。
? 相關(guān)博客:
利用 NVIDIA Parabricks 加速 Pangenome 比對挖掘新的生物學(xué)發(fā)現(xiàn)
用于空間組學(xué)的細(xì)胞成像特征提取和形態(tài)聚類
借助 NVIDIA AI 基礎(chǔ)模型 VISTA-2D 推進細(xì)胞分割和形態(tài)分析
借助 GPU 加速和生成式 AI 加速多組分析
借助 NVIDIA Parabricks v4.2 加速任何測序器的基因組分析
DECISION OPTIMIZATION
cuOpt
NVIDIA? cuOpt? 能夠借助加速計算更快地做出更好的決策,從而優(yōu)化運營。cuOpt 能夠幫助團隊解決具有多重約束的復(fù)雜路線規(guī)劃問題,并且能夠提供動態(tài)重新規(guī)劃路線、作業(yè)調(diào)度和機器人仿真等新功能,同時實現(xiàn)亞秒級求解器響應(yīng)時間。憑借 23 項創(chuàng)下世界紀(jì)錄的基準(zhǔn),cuOpt 包攬了過去三年內(nèi)最大路線規(guī)劃基準(zhǔn)方面的世界紀(jì)錄。
? 相關(guān)博客:
突破性的 NVIDIA cuOpt 算法將路線優(yōu)化解決方案的速度提高 100 倍
體驗 NVIDIA cuOpt 加速優(yōu)化,提高運營效率
NVIDIA cuOpt 加速大型線性編程問題解決
聚焦:clicOH 借助 NVIDIA cuOpt 將最后一英里交付速度提高 20 倍
5G/6G SIGNAL PROCESSING
AERIAL
NVIDIA Aerial 是一套用于設(shè)計、模擬和操作無線網(wǎng)絡(luò)的加速計算平臺、軟件和服務(wù)。Aerial 包含用于電信公司、云服務(wù)提供商(CSP)和構(gòu)建商業(yè) 5G 網(wǎng)絡(luò)的企業(yè)的強化 RAN 軟件庫。學(xué)術(shù)和行業(yè)研究人員可以訪問云端或本地 Aerial 設(shè)置,用于 6G 方面的高級無線、人工智能和機器學(xué)習(xí)(ML)研究。
? 相關(guān)博客:
2024 年 NVIDIA 6G 開發(fā)者日的 5 大關(guān)鍵收獲
借助 NVIDIA Aerial CUDA 加速 RAN,增強 5G/6G 的 DU 性能和工作負(fù)載整合
借助 NVIDIA 6G 開發(fā)者計劃加速無線通信的未來
SIONNA
Sionna? 是一個 GPU 加速的開源庫,用于鏈路級模擬。此開源庫支持對復(fù)雜的通信體系架構(gòu)進行快速的原型設(shè)計,并為在 6G 信號處理中機器學(xué)習(xí)集成提供原生支持。
? 相關(guān)博客:
實時神經(jīng)接收器推動 AI-RAN 創(chuàng)新
使用 NVIDIA Sionna 進行跨接鏈路級模擬
COMPUTATIONAL LITHOGRAPHY
cuLITHO
NVIDIA cuLitho 是一個庫,包含優(yōu)化的工具和算法, 用于 GPU 加速計算光刻和半導(dǎo)體制造工藝, 比目前基于 CPU 的方法多個數(shù)量級。
? 相關(guān)博客:
SDK 加速行業(yè) 5.0 、數(shù)據(jù)管道、計算科學(xué)等在 GTC 2023 上亮相
NUMERICAL COMPUTING
cuPyNumeric
NVIDIA cuPyNumeric 立志成為 NumPy 的嵌入式替代庫,將 NVIDIA 平臺上的分布式和加速計算引入 Python 社區(qū)。
? 相關(guān)博客:
借助 NVIDIA cuPyNumeric,將 NumPy 無縫擴展從筆記本電腦到超級計算機
點擊GTC25 | NVIDIA CUDA 庫開拓新市場 - CUDA - NVIDIA 開發(fā)者論壇
熱門跟貼