NVIDIA推出Blackwell架构DGX SuperPOD适用万亿参数级的生成式AI超级计算_体系_架构
基于NVIDIA网络、NVIDIA全栈AI软件和存储技能,可将Grace Blackwell超级芯片扩展至数万个,通过NVLink将576块Blackwell GPU连成整体,加速即时AI根本举动步伐支配
全新DGX SuperPOD采取新型高效液冷机架级扩展架构,基于NVIDIA DGX GB200系统构建而成,在FP4精度下可供应11.5 exaflops的AI超级打算性能和240 TB的快速显存,且可通过增加机架来扩展性能。
每个DGX GB200系统搭载36个NVIDIA GB200超级芯片,共包含36个NVIDIA Grace CPU和72个NVIDIA Blackwell GPU。这些超级芯片通过第五代NVIDIA NVLink连接成一台超级打算机。与NVIDIA H100 Tensor Core GPU比较,GB200超级芯片在大措辞模型推理事情负载方面的性能提升了高达30倍。
NVIDIA创始人兼首席实行官黄仁勋表示: “NVIDIA DGX AI超级打算机是推进AI家当变革的工厂。新一代DGX SuperPOD集NVIDIA加速打算、网络和软件方面的最新进展于一体,能够帮助每一个企业、行业和国家完善并天生自己的AI。”
Grace Blackwell架构的DGX SuperPOD由8个或以上的DGX GB200系统构建而成,这些系统通过NVIDIA Quantum InfiniBand网络连接,可扩展到数万个GB200超级芯片。用户可通过NVLink连接8个DGX GB200系统中的576块 Blackwell GPU,从而得到海量共享显存空间,来赋能下一代AI模型。
面向天生式AI时期的全新机架级扩展的DGX SuperPOD架构
采取DGX GB200系统构建而成的全新DGX SuperPOD采取了统一的打算网络。除了第五代NVIDIA NVLink网络外,还包括 NVIDIA BlueField-3 DPU,并将支持同为今日发布的NVIDIA Quantum-X800 InfiniBand网络。这个架构可为打算平台中的每块GPU供应高达每秒1800 GB的带宽。
其余,第四代NVIDIA可扩展分层聚合和规约协议(SHARP)技能可供应14.4 teraflops的网络打算能力,与上一代产品比较,新一代DGX SuperPOD架构的网络打算能力提高了4倍。
统包式架构搭配前辈的软件,实现前所未有的正常运行韶光
全新DGX SuperPOD是一台完全的数据中央级AI超级打算机,在与NVIDIA认证互助伙伴供应的高性能存储集成后,能够知足天生式AI事情负载的需求。每台超级打算机都在出厂前完成了搭建、布线和测试,从而大大加快了在用户数据中央的支配速率。
Grace Blackwell架构的 DGX SuperPOD具有智能预测管理功能,能够持续监控软硬件中的数千个数据点,通过预测并拦截导致停机和低效的根源以节省韶光、能耗和打算本钱。
纵然没有系统管理员在场,该软件也能识别须要重点关注的领域并制订掩护操持,灵巧调度打算资源,通过自动保存和规复作业来防止停机。
如果软件检测到须要改换组件,该集群将激活备用容量以确保事情能够及时完成。为任何必要的硬件改换做好安排,以免涌现操持之外的停机。
NVIDIA DGX B200系统推动各行各业AI超级打算发展
NVIDIA还发布了一款统一用于AI模型演习、微调和推理的通用AI超级打算平台NVIDIA DGX B200系统。
采取风冷传统机架式设计的DGX已被环球各行各业数千家企业广泛采取,DGX B200是DGX系列的第六代产品。采取Blackwell架构的全新DGX B200系统包含8个NVIDIA B200 Tensor Core GPU和2个第五代英特尔至强处理器。用户还可以利用DGX B200系统构建DGX SuperPOD,打造能够帮助大型开拓团队运行多种不同作业的AI卓越中央。
DGX B200系统凭借全新Blackwell架构中的FP4精度特性,可供应高达144 petaflops的AI性能、1.4TB海量的GPU显存和64TB/s的显存带宽,从而使得该系统的万亿参数模型实时推理速率比上一代产品提升了15倍。
DGX B200系统包含带有8个NVIDIA ConnectX-7网卡和2个BlueField-3 DPU的高性能网络,每个连接的带宽高达400 Gb/s,可通过NVIDIA Quantum-2 InfiniBand和NVIDIA Spectrum-X以太网网络平台支持更高的AI性能。
软件和专家为扩大生产级AI的规模供应支持
所有NVIDIA DGX平台均包含用于企业级开拓和支配的NVIDIA AI Enterprise软件。DGX用户可以通过利用该软件平台中的预演习的 NVIDIA 根本模型、框架、工具套件和全新NVIDIA NIM微做事来加速他们的事情。
NVIDIA DGX专家与部分得到NVIDIA DGX平台支持认证的互助伙伴将在每个支配环节为用户供应帮助,以便其迅速实现AI投产。在系统投入运行后,DGX专家还将连续帮忙用户优化其AI管线和根本举动步伐。
供应情形
NVIDIA环球互助伙伴估量将在今年晚些时候供应基于DGX GB200和DGX B200系统构建而成的NVIDIA DGX SuperPOD。
(8613274)
本文系作者个人观点,不代表本站立场,转载请注明出处!