0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

奇异摩尔赋能万卡集群互联

奇异摩尔 ? 来源:奇异摩尔 ? 2024-09-19 13:03 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,IntelAMD博通(Broadcom)、思科(Cisco)、Google、惠普(Hewlett Packard Enterprise,HPE)、Meta和微软(Microsoft)在内的八家公司宣布他们已经为人工智能数据中心的网络制定了新的互联技术UALink(Ultra Accelerator Link),以打破英伟达NVLink技术垄断的消息受到了广泛的关注。

“本期奇说芯语Kiwi Talks 将从万卡集群大模型算力需求的挑战说起,来解读这场军备赛的背后原理…”

智算网络催生万卡集群

随着大模型的持续爆发,其对算力的需求也在迅猛增长,这促使算力集群不断向万卡以上的规模演进。这一趋势不仅代表着计算能力的飞跃,也对网络提出了前所未有的超高要求。

万卡集群是指由一万张及以上的加速卡(包括GPU、TPU及其他专用AI加速芯片)组成的高性能计算系统,主要用于加速人工智能模型的训练和推理过程。这种集群的构建旨在解决大模型训练对算力需求的巨大增长问题,尤其是现在模型参数量从百亿级、千亿级迈向万亿级。大模型的训练和推理任务需要海量的计算资源和高效的网络连接。

万卡级别的算力集群意味着将有数以万计的高性能计算节点协同工作,它们之间的数据传输和同步必须达到毫秒级甚至微秒级的延迟,以确保模型训练的高效性和准确性。首先,大模型训练对于GPU之间的互联通信要求极高,无论是机内GPU的通信还是服务器之间的GPU通信。特别是在模型并行和数据并行等模式下,通信数据量更是达到了百GB级别。因此,网络必须支持高速互联协议,并且能够提供足够的单端口带宽和总带宽。

我们知道PCIe(Peripheral Component Interconnect Express):它是一种计算机总线标准,用于在计算机内部连接各种设备和组件(例如显卡、存储设备、扩展卡等)。PCIe接口以串行方式传输数据,具有较高的通信带宽,适用于连接各种设备。然而,由于其基于总线结构,同时连接多个设备时可能会受到带宽的限制受限于带宽、延迟、数据传输效率,已成为大规模计算集群的互联瓶颈。

英伟达NVLink的无损网络护城河

英伟达的NVLink是其开发并推出的一种总线及其通信协议。NVLink采用点对点结构、串列传输,用于中央处理器CPU)与图形处理器(GPU)之间的连接,也可用于多个图形处理器之间的相互连接。与PCI Express不同,一个设备可以包含多个NVLink,并且设备之间采用网格网络而非中心集线器方式进行通信。该协议于2014年3月首次发布,采用专有的高速信号互连技术(NVHS)。目前NVLink已经升级到5.0版本。第五代 NVLink 大幅提高了大型多 GPU 系统的可扩展性。单个 NVIDIA Blackwell Tensor Core GPU 支持多达 18 个 NVLink 100 GB/s 连接,总带宽可达 1.8 TB/s,比上一代产品提高了两倍,是 PCIe 5.0 带宽的 14 倍之多。

NVLink 就是这种“多节点无损网络”的代表,由一个强大的软件协议组成,通常通过印在计算机板上的多对导线实现,可以让处理器以极高的速度收发共享内存池中的数据。NVLink 设计的主要设计目的,就是突破PCIe的屏障,达成GPU-GPU及CPU-GPU的片间高效数据交互。

NVLink虽拥有优秀的性能,但私有协议无法兼容不同来源的产品,这样的封闭生态已成为行业发展掣肘。受到巨大的需求推动,以及为抵抗这种市场挤压 ,AMD、谷歌、微软、英特尔(Intel)、博通(Broadcom)、思科(Cisco)构成联盟建立一个开放的行业互联标准即UALink。UALink将使系统OEM、IT专业人员和系统集成商能够为其人工智能连接数据中心创建一条更易于集成、更具灵活性和可扩展性的途径。

据官方消息,UALink 1.0规范支持连接多达1024个AI加速器,并允许在一个计算集群(Pod)内,让接入的GPU等加速器附带的内存之间实现直接加载和存储。

奇异摩尔赋能万卡集群互联

目前包括各大芯片厂商以及生态内的服务器厂商开始不断提及甚至对标英伟达NVLink,都想要打破其所造的护城河。整个行业生态包括奇异摩尔在内的企业正在积极探索如何解决满足集群通信间通讯,片间互联的高效互联的解决方案。

目前,奇异摩尔基于自身的互联技术优势,较早布局IO Die、Base Die等高性能互联芯粒,并基于Kiwi-Link统一互联架构,提供涵盖集群间、片间、Die间的全链路高性能互联解决方案

GPU片间互联

奇异摩尔的高性能网络加速芯粒 – Kiwi NDSA,内建RoCE V2高性能 RDMA (Remote Direct Memory Access) 和数十种卸载/加速引擎,可作为独立芯粒应用于GPU的传输加速器。奇异摩尔自研的全球首创GPU Link Chiplet “NDSA-G2G”,通过RDMA和D2D技术,在芯片间搭建了高速数据交换网络,可实现近TB/s的超高速数据传输,其性能达到全球领先水平,满足AI芯片对于片间交换不断增长的需求。

集群间通信

奇异摩尔 Kiwi NDSA SNIC是全球首款支持800G带宽的RDMA NIC产品,具备极高的集群扩展能力,可以大幅提升集群节点间的交互效率,使得更大规模的集群设计成为可能。除带宽升级到800G之外,延时也降至纳秒级,并支持数十GB的超大规模数据包,性能媲美目前全球标杆ASIC产品。

业界纷纷提出集群通讯互联的重要性

中国移动研究院网络与IT技术研究所主任研究员陈佳媛在近期公开演讲中提及必须突破GPU卡间互联技术瓶颈,提高卡间互联带宽,提升端口数量以满足集群算力纵向扩展升级需求;低延迟通信,减少GPU通信跳数,优化数据传输路径。 新华三集团高级副总裁、云与计算存储产品线总裁徐润安此前也谈到算力互联。在他看来,过去,大家的目标可能是做更强算力的单颗芯片,现在会从另一个角度努力,怎样将芯片做成更大集群,同时使得集群的通信效果更高,集群的处理能力更强;

浪潮信息高级副总裁刘军发表的观点是,实现更大的算力已经不在芯片,而是在算法层面做创新,比如怎么把算力分布到系统层面上,怎么解决卡间互联问题,怎么让更多的GPU高效协同。

写在最后,数据中心和算力集群是AI的核心,网络则是它的命脉,它们共同构筑了AI大模型底层网络基础设施,实现了数据和智能的无缝传递。然而AI芯片性能及软件生态存在的差距,万卡集群建设存在芯片间、卡之间、集群间的互联问题,这些都需要更开放的平台去持续地解决。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3983

    浏览量

    94575
  • 算力
    +关注

    关注

    2

    文章

    1247

    浏览量

    15863
  • 奇异摩尔
    +关注

    关注

    0

    文章

    65

    浏览量

    3809
  • 大模型
    +关注

    关注

    2

    文章

    3253

    浏览量

    4258

原文标题:Kiwi Talks | 智算网络催生万卡集群,all in通信互联军备赛

文章出处:【微信号:奇异摩尔,微信公众号:奇异摩尔】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    奇异摩尔田陌晨荣获中国半导体行业领军人物奖

    实力与发展成果。奇异摩尔创始人兼 CEO 田陌晨凭借在AI网络互联领域的创新成就,荣膺 “领军人物奖”。
    的头像 发表于 07-08 17:04 ?809次阅读

    燧原科技国产集群通过中国信通院权威认证

    近日,中国信息通信研究院(以下简称“中国信通院”)成功召开智算集群服务推进方阵年中总交流会。会议期间,中国信通院重磅发布了首批《大规模智算集群服务成熟度》评估结果。燧原科技作为算力
    的头像 发表于 07-04 16:50 ?576次阅读

    弘信电子旗下燧弘华创加入智算集群服务推进方阵

    近日,中国信息通信研究院在北京召开智算集群服务推进方阵(ICCPA)年中总结交流会。会上为第二批成员单位办法证书,发布一系列产业研究成果,并通过深度交流研讨,凝聚产业共识,规范产品建设体系,搭建高效的交流平台,引领智算
    的头像 发表于 07-03 15:43 ?433次阅读

    奇异摩尔携手UALink联盟助力AI网络繁荣发展

    随着AI大模型训推集群的规模不断扩大,Scale-up网络的重要性已不限于训练集群侧,云端推理集群对于多机之间组成超节点HBD方案的需求正在逐步增加。面对其对互联性能的极致追求,目前业
    的头像 发表于 04-12 14:42 ?1117次阅读
    <b class='flag-5'>奇异</b><b class='flag-5'>摩尔</b>携手UALink联盟助力AI网络繁荣发展

    奇异摩尔互联之长推进OISA GPU互联生态适配

    进行了精彩的主题分享。 作为AI网络特别组及网络工作组的成员,奇异摩尔积极参与大会,与业界同仁共同探讨AI网络互联应用的发展趋势。 当前,国内外GPU
    的头像 发表于 04-01 19:35 ?1212次阅读
    <b class='flag-5'>奇异</b><b class='flag-5'>摩尔</b>以<b class='flag-5'>互联</b>之长推进OISA GPU<b class='flag-5'>卡</b>间<b class='flag-5'>互联</b>生态适配

    衢州市领导莅临奇异摩尔考察调研

    近日,衢州市委书记高屹率衢州市委常委、秘书长李宁,衢州智造新城党工委书记、管委会主任方世忠等一行莅临奇异摩尔考察指导。奇异摩尔创始人兼CEO田陌晨协同公司高层管理人员向调研组全面展示了
    的头像 发表于 03-18 13:55 ?907次阅读

    百度智能云发布昆仑芯三代集群及DeepSeek-R1/V3上线

    01百度智能云点亮昆仑芯三代集群 近日,百度智能云成功点亮昆仑芯三代集群,这也是国内首个
    的头像 发表于 02-11 10:58 ?765次阅读

    昆仑芯P800集群成功点亮,将进一步点亮3集群

    ? 近日,百度智能云成功点亮昆仑芯三代集群,这也是国内首个正式点亮的自研集群。百度智能云
    发表于 02-05 17:58 ?577次阅读
    昆仑芯P800<b class='flag-5'>万</b><b class='flag-5'>卡</b><b class='flag-5'>集群</b>成功点亮,将进一步点亮3<b class='flag-5'>万</b><b class='flag-5'>卡</b><b class='flag-5'>集群</b>

    百度智能云点亮昆仑芯三代集群

    近日,百度智能云宣布成功点亮昆仑芯三代集群,这一成就不仅在国内尚属首次,也标志着百度在人工智能算力领域取得了重大突破。据了解,百度智能云计划进一步扩大规模,进一步点亮3
    的头像 发表于 02-05 14:58 ?782次阅读

    依托Chiplet&amp;高性能RDMA,奇异摩尔斩获全国颠覆性技术创新大赛(未来制造领域赛)优胜奖

    ? ? 近日,第十三届中国创新创业大赛颠覆性技术创新大赛(未来制造领域赛)获奖结果出炉,奇异摩尔参赛项目【基于Chiplet+RDMA技术的下一代AI
    的头像 发表于 12-19 09:39 ?1650次阅读
    依托Chiplet&amp;高性能RDMA,<b class='flag-5'>奇异</b><b class='flag-5'>摩尔</b>斩获全国颠覆性技术创新大赛(未来制造领域赛)优胜奖

    奇异摩尔分享计算芯片Scale Up片间互联新途径

    开放数据中心委员会ODCC冬季全员会议于12月4日-6日在春暖花开的昆明举行。奇异摩尔首席系统架构师朱琛作为网络工作组ETH-X超节点项目的核心成员分享了AI Networking Scale Up
    的头像 发表于 12-09 09:36 ?1760次阅读
    <b class='flag-5'>奇异</b><b class='flag-5'>摩尔</b>分享计算芯片Scale Up片间<b class='flag-5'>互联</b>新途径

    回顾:奇异摩尔@ ISCAS 2024 :聚焦互联技术与创新实践

    )电路与系统国际研讨会在新加坡召开。ISCAS 是IEEE电路与系统学会(Circuits and Systems, CAS)下规模最大的旗舰会议。 奇异摩尔模拟设计技术专家王彧博士,作为IEEE
    的头像 发表于 11-05 18:29 ?1635次阅读
    回顾:<b class='flag-5'>奇异</b><b class='flag-5'>摩尔</b>@ ISCAS 2024 :聚焦<b class='flag-5'>互联</b>技术与创新实践

    智原科技与奇异摩尔2.5D封装平台量产

    近日,ASIC设计服务暨IP研发销售厂商智原科技(Faraday Technology Corporation)与AI网络全栈式互联产品及解决方案提供商奇异摩尔宣布,双方共同合作的2.5D封装平台已成功迈入量产阶段。
    的头像 发表于 10-14 16:43 ?926次阅读

    摩尔线程与羽人科技完成大语言模型训练测试

    近日,摩尔线程与羽人科技携手宣布,双方已成功实现夸娥(KUAE)千智算集群与羽人系列模型解决方案的训练兼容适配。在本次测试中,羽人科技通过摩尔线程夸娥千
    的头像 发表于 08-27 16:19 ?913次阅读

    摩尔线程夸娥智算中心解决方案重磅升级

    摩尔线程重磅宣布其AI旗舰产品夸娥(KUAE)智算集群解决方案实现重大升级,从当前的千级别大幅扩展至卡规模。摩尔线程夸娥(KUAE)
    的头像 发表于 08-27 16:09 ?1214次阅读