NVIDIA Spectrum-X 使基于 NVIDIA Hopper 十万卡 GPU 的巨型系统成为可能
NVIDIA 宣布,xAI 位于田纳西州孟菲斯市的Colossus 超级计算机集群达到了 10 万颗 NVIDIA Hopper GPU 的巨大规模。该集群使用了NVIDIA Spectrum-X 以太网网络平台,该平台是专为多租户、超大规模的 AI 工厂提供卓越性能而设计的 RDMA(Remote Direct Memory Access)网络。
Colossus 是世界上最大的 AI 超级计算机,目前正被用于训练 xAI 的 Grok 系列大语言模型,以及作为 X Premium 用户功能之一的聊天机器人(Chatbot)。xAI 正在将 Colossus 的规模进一步扩大一倍至 20 万颗 NVIDIA Hopper GPU。
xAI 和 NVIDIA 仅用了 122 天就建成了所有配套设施和这台最先进的超级计算机,从第一个机架落地到开始训练任务,只用了 19 天。而建造这种规模的系统通常需要数月乃至数年的时间。
在训练 Grok 这种超大型模型时,Colossus 实现了空前的网络性能,在三层网络架构下,整个系统未出现任何因流量冲突而造成的应用延迟增加或数据包丢失的情况。凭借 Spectrum-X 先进的拥塞控制功能,系统数据吞吐量一直保持在 95%。
这一性能水平是传统以太网在大规模的情况下根本无法实现的,传统以太网在数千条流发生冲突时,只能提供 60% 的数据吞吐量。
NVIDIA 网络高级副总裁 Gilad Shainer表示:“AI 正变得至关重要,对性能、安全性、可扩展性和成本效益提出了更高的要求。NVIDIA Spectrum-X 以太网网络平台专为那些如 xAI 一样的创新企业提供更快的处理、分析和执行 AI 工作负载的速度,进而加速 AI 解决方案的开发、部署和上市。”
埃隆·马斯克在 X 上表示:“Colossus 是世界上最强大的训练系统。xAI 团队、NVIDIA 和我们的众多合作伙伴及供应商干得漂亮。”
xAI 发言人表示:“xAI 构建了全球规模最大、性能最强的超级计算机。借助 NVIDIA Hopper GPU 和 Spectrum-X,我们得以突破大规模 AI 模型训练的边界,打造基于以太网标准并经过超级加速和优化的 AI 工厂。”
Spectrum-X 平台的核心是 Spectrum SN5600 以太网交换机,它支持高达 800Gb/s 的端口速度,采用了 Spectrum-4 交换机 ASIC。xAI 采用了Spectrum-X SN5600 交换机与NVIDIA BlueField-3 SuperNIC的端到端解决方案,实现了前所未有的性能。
专门面向 AI 的 Spectrum-X 以太网网络具有先进的功能,可在提供高效、可扩展的带宽的同时,实现低延迟和短尾延迟,而这些功能之前是 InfiniBand 网络所独有的。Spectrum-X 的功能包括基于 NVIDIA DDP(Direct Data Placement)技术的动态路由、拥塞控制计算,以及增强了 AI 网络的可视性和性能隔离,所有这些功能都是多租户生成式 AI 云和大型企业应用环境的关键要求。
-
NVIDIA
+关注
关注
14文章
5324浏览量
106644 -
gpu
+关注
关注
28文章
4968浏览量
131675 -
超级计算机
+关注
关注
2文章
473浏览量
42508 -
AI
+关注
关注
88文章
35476浏览量
281298
原文标题:NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机
文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
NVIDIA助力AI超级计算机Isambard-AI投入使用
NVIDIA驱动的现代超级计算机如何突破速度极限并推动科学发展

Blue Lion超级计算机将在NVIDIA Vera Rubin上运行
NVIDIA技术赋能欧洲最快超级计算机JUPITER
NVIDIA GTC2025 亮点 NVIDIA推出 DGX Spark个人AI计算机

NVIDIA 宣布推出 DGX Spark 个人 AI 计算机

NVIDIA推出个人AI超级计算机Project DIGITS
联发科与NVIDIA合作 为NVIDIA 个人AI超级计算机设计NVIDIA GB10超级芯片
NVIDIA 推出高性价比的生成式 AI 超级计算机

NVIDIA Colossus超级计算机集群突破10万颗Hopper GPU
NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机

评论