超节点已成为国内外构建
大规模HBD域明确应用趋势
技术驱动下,超节点已成为国内外构建大规模HBD域应用的关键趋势。随着千亿到万亿参数MoE大模型并行训练(尤其是专家并行和张量并行)对GPU间通信需求的激增,Scale-up超节点应运而生。去年,英伟达的NVL72及可扩展的NVL576系统率先布局;今年,华为CloudMatrix 384又刷新了超节点规模与性能的纪录。与此同时,OISA、UALink、ALS、ETH-X等组织正致力于构建更开源、通用的超节点生态。超节点作为AI基础设施GPU Scale-up互联的必然趋势,正吸引产业界探索多样化的技术路线。目前,业界正密切关注其在硬件建设、互联技术、成本优化及工程落地等方面的挑战与需求。
昨日在2025中国AI算力大会上,奇异摩尔首席网络架构专家叶栋为行业带来了“AI原生时代 —共筑超节点的网络基础架构”的主题演讲,并与产业链来自阿里云、中国移动研究院以及曦智科技的技术专家们共同探讨了国内外超节点的现状,超节点所面临的挑战以及其在国内应用落地前景展望等多个议题发表洞见。
超节点Scale-up网络互联的挑战
叶栋博士指出在现阶段AI大模型并行计算趋于复杂化的背景下,Scale-up网络互联面临高性能、灵活拓扑、多语义支持以及缺乏通用互联协议等四大挑战。
挑战一:高性能
从性能维度审视,英伟达在Scale-up互联领域目前处于领先地位。回顾2014年至2024年这十年间,英伟达的GPU芯片及系统实现了显著的技术跃升,从P100迭代至GB200,其底层架构亦从Volta演进到最新的Blackwell。
在此期间,GPU互联的关键技术NVLink也经历了飞速发展,带宽从第一代的300GB/s大幅提升至第五代的1.8TB/s。尽管PCIe 6.0在x16通道下提供的双向带宽达到256GB/s,但相较于NVLink 5.0,其性能仍仅为后者的约七分之一。对于Scale-up互联而言,在处理大规模模型并行计算时,对性能有着严苛要求,这体现在单卡芯片的计算能力、GPU间的互联带宽以及通信时延等关键指标上,英伟达的技术优势在这些方面均得到了充分体现。
挑战二:灵活拓扑支持
当前AI网络的网络拓扑形态是多样的,尽管行业普遍采用相对通用的拓扑组网是胖树(Spine-Leaf架构)。然而,随着AI大模型训练与推理对网络通信复杂度的要求持续提升,当前的网络环境已演变为多种拓扑类型并存的状态。
以全网状拓扑(Full Mesh)为例,该结构的网络带宽能力极高,可达到Tbps级别,同时能够实现低至纳秒(ns)级的通信时延。但其固有的局限性在于网络可扩展的节点数量能力较差,不能进一步满足超大规模网络的组网。又例如光交换矩阵技术,如Google TPU集群所采用的典型组网方案,则展现出较强的网络可扩展能力,并能够维持极低的延迟水平,但从成本和维护角度来说,光交换的成本较高且维护难度和复杂性也较大。网络拓扑的优化,已成为提升Scale-up网络互联性能的关键技术环节之一。
鉴于GPU间互联对网络性能的严苛要求,以及不同应用场景下对拓扑结构的多样化需求,业界亟需一种能够适应并灵活支持多种网络拓扑的产品方案,以确保在不同架构下均能实现高效、可靠的GPU互联。
挑战三:多语义支持
消息语义与内存语义是Scale-up网络互联在过去一定时期阶段内争议较大的技术路线。但随着产业界对于AI Scale-up 网络的探索进一步深入,多语义支持逐步成为构筑GPU互联超节点的必选项。未来随着超节点的GPU数目进一步扩展增加(机架级-1024GPU),在张量并行和专家并行混合负载的应用场景中, 超节点不仅需要类似RDMA模式的消息语义,同时也依赖能够实现HBD域内内存模块(例如HBM)快速访问的内存语义。
内存语义- 其核心原理是通过物理或虚拟地址空间的直接映射或重映射,构建出一个全局的数据视图。多个处理单元能够使用标准的加载(Load)和存储(Store)指令直接访问远程单
元的内存空间。
举个例子,NVLink 本身隶属于内存语义的典范。在此条件下,行业需要一种新的产品形态来同时支持消息语义及内存语义,从而确保大规模GPU集群在复杂AI工作负载下实现极致性能与灵活性的核心保障。
挑战四:通用互联协议
当前,Scale-up网络互联的实际应用主要依赖于英伟达和华为等厂商提供的基于私有协议与封闭生态的高速互联解决方案。然而,随着OISA、UALink等开源生态的相继建立与发展,行业正逐步打破私有协议一统天下的局面。
尽管未来相当长的一段时期内,Scale-up互联领域可能仍将呈现封闭专有方案与开源生态并存的态势,但这并未改变行业前进的方向。AI网络的持续进步与性能优化,迫切需要产业链上下游各环节的紧密协作与共同努力。唯有打通开源的全链条,汇聚产业智慧与资源,才能最终完善并实现能覆盖大部分应用场景且具备通用性的互联协议标准。
Kiwi NDSA -G2G:高性能 | 标准化 |
通用化的超节点互联解决方案
基于以上几大挑战,奇异摩尔的Kiwi NDSA-G2G 互联芯粒(又名G2G IO Die)是行业内唯一一种基于Chiplet架构和开放生态,提供高性能、标准化、通用化的Scale-up互联方案。
从性能来看,产品具有高带宽、低延时及高并发的特性,可以实现TB级别的带宽,对标NVlink4.0;从网络拓扑来看,G2G芯粒支持多种拓扑包括Full Mesh、Spine-Leaf等组网;从语义支持方面,G2G芯粒将同时支持消息语义与内存语义双引擎。由于当前Scale-up协议从简单 P2P 接口变成复杂协议,通用协议也在进一步标准化的过程中。Kiwi NDSA-G2G 本身基于奇异摩尔独创的HPDE架构,可满足不同厂商不同场景的需求,在生态百花齐放的Scale-up系统中支持多协议类型及其升级,从而降低持续研发难度和开发成本。
“AI系统作为一项高度复杂的系统工程,其成功构建与高效运行,离不开产业链上每一个环节的紧密协作与贡献。奇异摩尔专注于AI网络互联这一关键领域,积极致力于联合云服务提供商、电信运营商、GPU芯片、交换机及服务器制造商等AI产业链的上下游伙伴,共同携手构筑一个开源、开放且具有广泛适用性的通用Scale-up网络生态体系,以此驱动整个AI网络基础设施的加速发展与持续演进。”叶栋博士表示。
关于我们
AI网络全栈式互联架构产品及解决方案提供商
奇异摩尔,成立于2021年初,是一家行业领先的AI网络全栈式互联产品及解决方案提供商。公司依托于先进的高性能RDMA 和Chiplet技术,创新性地构建了统一互联架构——Kiwi Fabric,专为超大规模AI计算平台量身打造,以满足其对高性能互联的严苛需求。我们的产品线丰富而全面,涵盖了面向不同层次互联需求的关键产品,如面向北向Scale out网络的AI原生智能网卡、面向南向Scale up网络的GPU片间互联芯粒、以及面向芯片内算力扩展的2.5D/3D IO Die和UCIe Die2Die IP等。这些产品共同构成了全链路互联解决方案,为AI计算提供了坚实的支撑。
-
AI
+关注
关注
88文章
35787浏览量
282590 -
算力
+关注
关注
2文章
1236浏览量
15823 -
奇异摩尔
+关注
关注
0文章
65浏览量
3798
原文标题:主题演讲回顾 | AI原生时代—携手共筑超节点的网络基础架构
文章出处:【微信号:奇异摩尔,微信公众号:奇异摩尔】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
卡特彼勒亮相2025中国智算产业生态发展大会
曦智科技亮相2025中国移动云智算大会
摩尔线程亮相2025中国移动云智算大会
AI 算力报告来了!2025中国AI算力市场将达 259 亿美元

评论