Nvidia在2023 年超级计算贸易展上揭开了其突破性数据中心规模超级计算机Eos 的面纱。Eos 被称为“人工智能工厂”,旨在突破人工智能发展的界限。这台超级计算机以希腊黎明女神命名,象征着人工智能加速的新时代。
超级计算机可实现 18.4 exaflops 的 AI 性能
Eos 由令人印象深刻的 576 个 Nvidia DGX H100 系统组成,与 Quantum-2 InfiniBand 网络和专用软件集成,实现了惊人的 18.4 exaflops FP8 AI 性能。这一设置标志着 Nvidia 之前的超级计算项目 SaturnV 和 Selene 的演变,展示了先进的 DGX SuperPOD 架构。这种设计能够快速扩展人工智能数据中心解决方案,以满足高性能需求。
Eos 的核心是 4,608 个 H100 GPU,分布在每个 DGX H100 系统的 8 个 H100 Tensor Core APU 中。这种硬件配置专为管理大量工作负载而定制,例如训练大型语言模型、运行人工智能推荐器、进行大规模分析、执行量子模拟等。
Nvidia 强调,Eos 的架构针对 AI 任务进行了微调,需要在大规模计算集群中实现超低延迟和高吞吐量。该超级计算机的网络功能速度高达 400GB/s,对于处理训练人工智能模型所需的大型数据集至关重要。
Eos 还集成了专门的软件来增强人工智能的开发和部署。Base Command 促进 AI 工作流程、集群管理,并提供用于计算、存储和网络加速的库。AI Enterprise是一个云原生平台,旨在加速人工智能应用开发,定位为企业级人工智能的“操作系统”。由于其能力得到认可,Eos 在全球最快超级计算机 TOP500 排行榜上名列第九。