深入解讀:英偉達最強異構平臺
瀏覽:3369
強大的可擴展 HPC 和大型 AI 工作負載的性能和生產力
-
英偉達 Grace CPU: -
多達 72 個 Arm Neoverse V2 內核,每個內核具有 Armv9.0-A ISA 和 4 個 128 位 SIMD 單元。 -
高達 117 MB 的 L3 緩存。 -
高達 512 GB 的 LPDDR5X 內存,提供高達 546 GB/s 的內存帶寬。 -
多達 64 個 PCIe Gen5 通道。 -
NVIDIA 可擴展一致性結構 (SCF) 網格和分布式緩存,內存帶寬高達 3.2 TB/s。 -
單個 CPU NUMA 節點可提高開發人員的工作效率。
-
與 NVIDIA A100 GPU 相比,多達 144 個帶有第四代張量核心、Transformer Engine、DPX 和 3 倍高 FP32 和 FP64 的 SM。 -
高達 96 GB 的 HBM3 內存提供高達 3000 GB/s 的速度。 -
60 MB 二級緩存。 -
NVLink 4 和 PCIe 5。
-
Grace CPU 和 Hopper GPU 之間的硬件一致性互連。 -
高達 900 GB/s 的總帶寬,450 GB/s/dir。 -
擴展 GPU 內存功能使 Hopper GPU 能夠將所有 CPU 內存尋址為 GPU 內存。每個 Hopper GPU 可以在超級芯片內尋址多達 608 GB 的內存。
-
使用 NVLink 4 連接多達 256 個 NVIDIA Grace Hopper 超級芯片。 -
每個連接 NVLink 的 Hopper GPU 都可以尋址網絡中所有超級芯片的所有 HBM3 和 LPDDR5X 內存,最高可達 150 TB 的 GPU 可尋址內存。
性能、可移植性和生產力的編程模型
Superchip 架構特點
-
NVIDIA Grace CPU -
NVIDIA Hopper GPU -
NVLink-C2C -
NVLink Switch System -
Extended GPU memory -
NVIDIA Grace CPU
NVIDIA Hopper GPU
-
新的第四代張量核心在更廣泛的 AI 和 HPC 任務中執行比以往更快的矩陣計算。 -
與上一代 NVIDIA A100 GPU 相比,新的 Transformer 引擎使 H100 在大型語言模型上的 AI 訓練速度提高了 9 倍,AI 推理速度提高了 30 倍。 -
空間和時間數據局部性和異步執行的改進功能使應用程序能夠始終保持所有單元忙碌并最大限度地提高能效。 -
安全多實例 GPU (MIG )將 GPU 劃分為隔離的、大小合適的實例,以最大限度地提高較小工作負載的服務質量 (QoS)。
NVLink-C2C:用于超級芯片的高帶寬、芯片到芯片互連
NVLink 開關系統
擴展 GPU 顯存
技術鄰APP
工程師必備
工程師必備
- 項目客服
- 培訓客服
- 平臺客服
TOP




















