Meta 通过对硬件基础设施的战略投资继续进行人工智能创新,这对于推进人工智能技术至关重要。该公司最近公布了其 24,576 GPU 数据中心规模集群的两次迭代的详细信息,这对于驱动下一代人工智能模型(包括 Llama 3 的开发)发挥了重要作用。这一举措是 Meta 愿景的基础,即生成开放和负责任的构建所有人都可以使用通用人工智能(AGI)。
在其持续发展的过程中,Meta 完善了其人工智能研究超级集群 (RSC),最初于 2022 年披露,配备 16,000 个 NVIDIA A100 GPU。RSC 在推进开放式人工智能研究和促进复杂人工智能模型的创建方面发挥了关键作用,其应用涵盖计算机视觉、自然语言处理 (NLP)、语音识别等多个领域。
在 RSC 的成功基础上,Meta 的新人工智能集群增强了端到端人工智能系统开发,重点是优化研究人员和开发人员的体验。这些集群集成了 24,576 个 NVIDIA Tensor Core H100 GPU,并利用高性能网络结构来支持比以前更复杂的模型,为 GenAI 产品开发和研究设立了新标准。
Meta 的基础设施非常先进且适应性强,每天处理数百万亿个人工智能模型执行。硬件和网络结构的定制设计可确保人工智能研究人员获得优化的性能,同时保持数据中心的高效运营。
创新的网络解决方案已得到实施,包括一个采用融合以太网 (RoCE) 上的远程直接内存访问 (RDMA) 的集群和另一个采用 NVIDIA Quantum2 InfiniBand 结构的集群,两者都能够实现 400 Gbps 互连。这些技术实现了可扩展性和性能洞察,这对于未来大规模人工智能集群的设计至关重要。