0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA助力xAI打造全球最大AI超级计算机

NVIDIA英伟达企业解决方案 ? 来源:NVIDIA英伟达企业解决方案 ? 2024-10-30 11:38 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

NVIDIA Spectrum-X 使基于 NVIDIA Hopper 十万卡 GPU 的巨型系统成为可能

NVIDIA 宣布,xAI 位于田纳西州孟菲斯市的Colossus 超级计算机集群达到了 10 万颗 NVIDIA Hopper GPU 的巨大规模。该集群使用了NVIDIA Spectrum-X 以太网网络平台,该平台是专为多租户、超大规模的 AI 工厂提供卓越性能而设计的 RDMA(Remote Direct Memory Access)网络。

Colossus 是世界上最大的 AI 超级计算机,目前正被用于训练 xAI 的 Grok 系列大语言模型,以及作为 X Premium 用户功能之一的聊天机器人(Chatbot)。xAI 正在将 Colossus 的规模进一步扩大一倍至 20 万颗 NVIDIA Hopper GPU。

xAI 和 NVIDIA 仅用了 122 天就建成了所有配套设施和这台最先进的超级计算机,从第一个机架落地到开始训练任务,只用了 19 天。而建造这种规模的系统通常需要数月乃至数年的时间。

在训练 Grok 这种超大型模型时,Colossus 实现了空前的网络性能,在三层网络架构下,整个系统未出现任何因流量冲突而造成的应用延迟增加或数据包丢失的情况。凭借 Spectrum-X 先进的拥塞控制功能,系统数据吞吐量一直保持在 95%。

这一性能水平是传统以太网在大规模的情况下根本无法实现的,传统以太网在数千条流发生冲突时,只能提供 60% 的数据吞吐量。

NVIDIA 网络高级副总裁 Gilad Shainer表示:“AI 正变得至关重要,对性能、安全性、可扩展性和成本效益提出了更高的要求。NVIDIA Spectrum-X 以太网网络平台专为那些如 xAI 一样的创新企业提供更快的处理、分析和执行 AI 工作负载的速度,进而加速 AI 解决方案的开发、部署和上市。”

埃隆·马斯克在 X 上表示:“Colossus 是世界上最强大的训练系统。xAI 团队、NVIDIA 和我们的众多合作伙伴及供应商干得漂亮。”

xAI 发言人表示:“xAI 构建了全球规模最大、性能最强的超级计算机。借助 NVIDIA Hopper GPU 和 Spectrum-X,我们得以突破大规模 AI 模型训练的边界,打造基于以太网标准并经过超级加速和优化的 AI 工厂。”

Spectrum-X 平台的核心是 Spectrum SN5600 以太网交换机,它支持高达 800Gb/s 的端口速度,采用了 Spectrum-4 交换机 ASIC。xAI 采用了Spectrum-X SN5600 交换机与NVIDIA BlueField-3 SuperNIC的端到端解决方案,实现了前所未有的性能。

专门面向 AI 的 Spectrum-X 以太网网络具有先进的功能,可在提供高效、可扩展的带宽的同时,实现低延迟和短尾延迟,而这些功能之前是 InfiniBand 网络所独有的。Spectrum-X 的功能包括基于 NVIDIA DDP(Direct Data Placement)技术的动态路由、拥塞控制计算,以及增强了 AI 网络的可视性和性能隔离,所有这些功能都是多租户生成式 AI 云和大型企业应用环境的关键要求。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5324

    浏览量

    106644
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4968

    浏览量

    131675
  • 超级计算机
    +关注

    关注

    2

    文章

    473

    浏览量

    42508
  • AI
    AI
    +关注

    关注

    88

    文章

    35476

    浏览量

    281298

原文标题:NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA助力AI超级计算机Isambard-AI投入使用

    英国布里斯托大学的超级计算机 Isambard-AI 采用 NVIDIA Grace Hopper 超级芯片,其
    的头像 发表于 07-28 15:07 ?304次阅读

    NVIDIA驱动的现代超级计算机如何突破速度极限并推动科学发展

    ,研究人员用个人电脑构建了强大的集群,甚至改造游戏显卡,把它们用于科学研究。 当今的高性能计算系统专为高速计算而设计,其中许多都采用了 NVIDIA 加速计算技术。在 ISC 2025
    的头像 发表于 06-26 19:39 ?581次阅读
    <b class='flag-5'>NVIDIA</b>驱动的现代<b class='flag-5'>超级</b><b class='flag-5'>计算机</b>如何突破速度极限并推动科学发展

    Blue Lion超级计算机将在NVIDIA Vera Rubin上运行

    德国莱布尼茨超算中心(LRZ)将迎来全新超级计算机 Blue Lion,其算力比该中心现有的 SuperMUC-NG 高性能计算机提升了约 30 倍。这台新的超级
    的头像 发表于 06-12 15:39 ?477次阅读

    NVIDIA技术赋能欧洲最快超级计算机JUPITER

    NVIDIA 宣布,搭载 NVIDIA Grace Hopper 平台的 JUPITER 超级计算机成为欧洲最快超级
    的头像 发表于 06-12 15:33 ?582次阅读

    NVIDIA助力全球最大量子研究超级计算机

    NVIDIA 宣布将开设量子-AI 技术商业应用全球研发中心(G-QuAT),该中心部署了全球最大量子
    的头像 发表于 05-22 09:44 ?373次阅读

    NVIDIA GTC2025 亮点 NVIDIA推出 DGX Spark个人AI计算机

    台式超级计算机NVIDIA Grace Blackwell 驱动,为开发者、研究人员和数据科学家提供加速 AI 功能;系统由头部计算机
    的头像 发表于 03-20 18:59 ?943次阅读
    <b class='flag-5'>NVIDIA</b> GTC2025 亮点  <b class='flag-5'>NVIDIA</b>推出 DGX Spark个人<b class='flag-5'>AI</b><b class='flag-5'>计算机</b>

    NVIDIA 宣布推出 DGX Spark 个人 AI 计算机

    台式超级计算机NVIDIA Grace Blackwell 驱动,为开发者、研究人员和数据科学家提供加速 AI 功能;系统由头部计算机
    发表于 03-19 09:59 ?342次阅读
       <b class='flag-5'>NVIDIA</b> 宣布推出 DGX Spark 个人 <b class='flag-5'>AI</b> <b class='flag-5'>计算机</b>

    NVIDIA推出个人AI超级计算机Project DIGITS

    NVIDIA 推出个人 AI 超级计算机 NVIDIA Project DIGITS,全球
    的头像 发表于 01-08 11:03 ?864次阅读

    联发科与NVIDIA合作 为NVIDIA 个人AI超级计算机设计NVIDIA GB10超级芯片

    联发科近日宣布与NVIDIA合作设计NVIDIA GB10 Grace Blackwell超级芯片,将应用于NVIDIA 的个人AI
    的头像 发表于 01-07 16:26 ?626次阅读

    NVIDIA 推出高性价比的生成式 AI 超级计算机

    计算机,具有更高的性价比,通过软件升级即可实现性能提升。 ? 全新 NVIDIA Jetson Orin Nano Super 开发者套件只有手掌大小,能够为商业 AI 开发者、科技爱好者和学生等各类
    发表于 12-18 17:01 ?731次阅读
    <b class='flag-5'>NVIDIA</b> 推出高性价比的生成式 <b class='flag-5'>AI</b> <b class='flag-5'>超级</b><b class='flag-5'>计算机</b>

    云端超级计算机使用教程

    云端超级计算机是一种基于云计算的高性能计算服务,它将大量计算资源和存储资源集中在一起,通过网络向用户提供按需的
    的头像 发表于 12-17 10:19 ?589次阅读

    NVIDIA加速全球大多数超级计算机推动科技进步

    HPCwire 读者和编辑选择奖。 自 2006 年发布 CUDA 以来,NVIDIA 不断推动 AI 和加速计算的进步,最新发布的全球最强超级
    的头像 发表于 11-24 14:38 ?724次阅读
    <b class='flag-5'>NVIDIA</b>加速<b class='flag-5'>全球</b>大多数<b class='flag-5'>超级</b><b class='flag-5'>计算机</b>推动科技进步

    NVIDIA Colossus超级计算机集群突破10万颗Hopper GPU

    NVIDIA近日宣布,其位于田纳西州孟菲斯市的xAI Colossus超级计算机集群规模已壮大至10万颗NVIDIA Hopper GPU。
    的头像 发表于 10-30 10:29 ?694次阅读

    NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机

    、超大规模的 AI 工厂提供卓越性能而设计的 RDMA(Remote Direct Memory Access)网络。 ? Colossus 是世界上最大AI 超级
    发表于 10-30 09:33 ?379次阅读
    <b class='flag-5'>NVIDIA</b> 以太网加速 <b class='flag-5'>xAI</b> 构建的<b class='flag-5'>全球</b><b class='flag-5'>最大</b> <b class='flag-5'>AI</b> <b class='flag-5'>超级</b><b class='flag-5'>计算机</b>

    NVIDIA助力丹麦发布首台AI超级计算机

    这台丹麦最大超级计算机由该国政府与丹麦 AI 创新中心共同建设,是一台 NVIDIA DGX SuperPOD
    的头像 发表于 10-27 09:42 ?981次阅读