NVIDIA推出采用Blackwell技术的DGX SuperPOD
NVIDIA推出采用Blackwell技术的DGX SuperPOD,用于生成式 AI 超级计算;可扩展至数万个 Grace Blackwell 超级芯片,使用最先进的 NVIDIA 网络、NVIDIA 全栈 AI 软件和存储功能,最多可将 576 个 Blackwell GPU 通过 NVIDIA NVLink 连接在一起,NVIDIA 系统专家可加快部署即时 AI 基础设施。
GTC — NVIDIA 今天宣布推出其下一代 AI 超级计算机—— 搭载 NVIDIA GB200 Grace Blackwell 超级芯片的 NVIDIA DGX SuperPOD™ ,用于处理万亿参数模型,并实现超大规模生成式 AI 训练和推理工作负载的持续正常运行。
新款 DGX SuperPOD 采用全新的高效液冷机架级架构,搭载 NVIDIA DGX™ GB200 系统,可提供 11.5 exaflops 的 FP4 精度 AI 超级计算能力和 240 TB 的快速内存,并通过增加机架扩展到更多。
每个 DGX GB200 系统均配备 36 个 NVIDIA GB200 超级芯片(包括 36 个 NVIDIA Grace CPU 和 72 个 NVIDIA Blackwell GPU),通过第五代 NVIDIA NVLink ®连接为一台超级计算机。与 NVIDIA H100 Tensor Core GPU 相比,GB200 超级芯片在大型语言模型推理工作负载下可将性能提高 30 倍。
NVIDIA 创始人兼首席执行官黄仁勋表示:“NVIDIA DGX AI 超级计算机是 AI 工业革命的工厂。全新 DGX SuperPOD 结合了 NVIDIA 加速计算、网络和软件方面的最新进展,使每个公司、行业和国家都能完善和生成自己的 AI。”
Grace Blackwell 驱动的 DGX SuperPOD 具有八个或更多 DGX GB200 系统,可扩展到通过 NVIDIA Quantum InfiniBand 连接的数万个 GB200 超级芯片。为了获得巨大的共享内存空间来支持下一代 AI 模型,客户可以部署一个配置,将 576 个 Blackwell GPU 连接到通过 NVLink 连接的八个 DGX GB200 系统中。
面向生成式 AI 时代的全新机架级 DGX SuperPOD 架构
搭载 DGX GB200 系统的全新 DGX SuperPOD 具有统一计算结构。除了第五代 NVIDIA NVLink 之外,该结构还包括 NVIDIA BlueField ® -3 DPU ,并将支持 今天单独发布的NVIDIA Quantum-X800 InfiniBand 网络。该架构为平台中的每个 GPU 提供高达每秒 1,800 GB 的带宽。
此外,第四代 NVIDIA 可扩展分层聚合和缩减协议 (SHARP)™ 技术可提供 14.4 万亿次浮点运算的网络内计算能力,与上一代相比,下一代 DGX SuperPOD 架构的性能提高了 4 倍。
交钥匙架构与先进软件相结合,实现前所未有的正常运行时间
全新 DGX SuperPOD 是一款完整的数据中心级 AI 超级计算机,集成了来自 NVIDIA 认证合作伙伴的高性能存储,可满足生成性 AI 工作负载的需求。每台设备均在工厂内制造、布线和测试,以大幅加快在客户数据中心的部署速度。
由 Grace Blackwell 提供支持的 DGX SuperPOD 具有智能预测管理功能,可以持续监控硬件和软件中的数千个数据点,以预测和拦截停机和效率低下的根源,从而节省时间、能源和计算成本。
该软件可以识别关注的区域并制定维护计划,灵活调整计算资源,并自动保存和恢复作业以防止停机,即使没有系统管理员在场。
如果软件检测到需要更换组件,集群将激活备用容量以确保工作及时完成。任何所需的硬件更换都可以安排,以避免意外停机。
NVIDIA DGX B200 系统助力行业 AI 超级计算
NVIDIA 还推出了 NVIDIA DGX B200 系统,这是一个用于 AI 模型训练、微调和推理的统一 AI 超级计算平台。
DGX B200 是全球各行各业广泛使用的第六代风冷传统机架式 DGX 设计。全新 Blackwell 架构 DGX B200 系统包括八个 NVIDIA Blackwell GPU 和两个第五代 Intel ® Xeon ® 处理器。客户还可以使用 DGX B200 系统构建 DGX SuperPOD ,以创建 AI 卓越中心,为执行多项不同工作的大型开发团队提供支持。
DGX B200 系统包含全新 Blackwell 架构中的 FP4 精度功能,可提供高达 144 petaflops 的 AI 性能、1.4TB 的超大 GPU 内存和 64TB/s 的内存带宽。与上一代相比,这为万亿参数模型提供了 15 倍的实时推理速度。
DGX B200 系统包括具有八个 NVIDIA ConnectX™-7 NIC 和两个 BlueField-3 DPU的先进网络。它们每个连接可提供高达 400 千兆比特每秒的带宽 – 通过 NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum™-X 以太网 网络平台提供快速的 AI 性能。
软件和专家支持以扩展生产 AI
所有 NVIDIA DGX 平台均包含 用于企业级开发和部署的NVIDIA AI Enterprise软件。DGX 客户可以使用软件平台中包含的预训练 NVIDIA 基础模型、框架、工具包和新的NVIDIA NIM微服务 来加速他们的工作 。
NVIDIA DGX 专家 和经过 认证可支持 DGX 平台的精选 NVIDIA 合作伙伴 将协助客户完成部署的每个步骤,以便他们能够快速将 AI 投入生产。系统投入运行后,DGX 专家将继续支持客户优化其 AI 管道和基础设施。
可用性
NVIDIA DGX SuperPOD 与 DGX GB200 和 DGX B200 系统预计将于今年晚些时候由 NVIDIA 的全球合作伙伴推出。如需了解更多信息,请观看GTC 主题演讲重播 或参观 3 月 21 日前在圣何塞会议中心举行的 GTC 的 NVIDIA 展位。