0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

华为发布数据中心新型网络架构UB-Mesh

花茶晶晶 ? 来源:电子发烧友 ? 作者:黄晶晶 ? 2025-09-07 06:02 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群



电子发烧友网综合报道 在最近的Hot Chip2025大会上,华为进行了一场线上分享,提出了一种全新的AI数据中心网络架构UB-Mesh。

随着大语言模型(LLM)规模持续扩张,其训练对计算算力与网络带宽的需求呈指数级增长。传统数据中心多采用 Clos 架构,虽能提供对称节点带宽,却因依赖大量高基数交换机与光模块,存在成本高昂、可用性低等问题,难以满足 LLM 训练的大规模、高带宽、低成本、高可用四大核心需求(R1-R4)。

那么UB-Mesh是通过分层本地化 nD-FullMesh 拓扑与多维度优化,实现性能、成本与可用性的平衡。

UB-Mesh 的设计遵循三大核心原则:一是流量驱动拓扑(P1),利用 LLM 训练中张量并行(TP)、序列并行(SP)占 97% 流量且集中于近距离节点的特性,构建分层网络;二是拓扑感知计算通信(P2),将并行策略、路由等与拓扑深度协同,避免带宽浪费;三是自愈容错(P3),通过硬件备份与快速故障恢复,保障训练连续性。

UB-Mesh的整体架构设计,展示了从2D-FullMesh(机柜内)到4D-FullMesh(Pod内)再到SuperPod的扩展方式。

在核心架构设计上,UB-Mesh 以nD-FullMesh 拓扑为基础,通过 “维度递推” 实现规模化扩展:从板级 1D 全连接(相邻 NPU 直接互连),到机架级 2D 全连接(1D mesh 间互连),最终形成 Pod 级 4D-FullMesh(UB-Mesh-Pod),可支持 8K NPU 的高带宽域。UB-Mesh-Pod是一个由1024个NPU组成的4D-FullMesh集群。该集群内部,每个机柜包含64个NPU,构成一个2D-FullMesh;16个这样的机柜再构成一个2D-FullMesh,从而形成一个4D-FullMesh的Pod。

该拓扑以短距离电连接为主(占比 86.7%),大幅减少对高成本光模块与交换机的依赖,同时通过灵活带宽分配,为近距离通信(TP/SP)提供高带宽,远距离通信(数据并行 DP)分配低带宽,精准匹配 LLM 流量特征。

硬件层面,UB-Mesh 通过统一总线(UB) 实现组件互连,替代传统混合互连(PCIe/NVLink/IB),支持 Load/Store 等同步操作与 Read/Write 等异步操作,不仅简化驱动设计,还实现 IO 资源灵活分配与硬件资源池化(如 CPU、NPU、DDR 共享)。核心硬件包括支持 72 路 UB 通道的 NPU、32 路 UB 通道的 CPU,以及低基数交换机(LRS,用于机架内聚合)、高基数交换机(HRS,用于 Pod 间互连)。此外,架构采用 “64+1 备份设计”,每机架额外配置 1 个备用 NPU,节点故障时可通过 LRS 快速切换,仅增加少量延迟而不中断训练。

为解决架构落地挑战,UB-Mesh 提出多维度优化机制。路由方面,创新全路径路由(APR) ,结合源路由(8 字节紧凑头实现路径指示)、结构化寻址(按 Pod / 机架划分地址段,减少路由表开销)与拓扑感知无死锁流控(TFC 算法,仅用 2 个虚拟通道实现无死锁),充分利用多路径带宽,避免拥塞。故障恢复方面,采用 “直接通知” 机制,节点故障时直接向通信目标节点发送信息,相比传统逐跳通知,大幅缩短收敛时间。通信优化方面,针对 All-Reduce 设计多环算法,通过 idle 链路复用与流量分区提升带宽利用率;针对 All-to-All 采用多路径传输与分层广播 / 归约,适配 MoE 模型的专家并行需求。

实验验证显示,UB-Mesh 相比传统 Clos 架构优势显著:成本效率提升 2.04 倍,减少 98% 高基数交换机与 93% 光模块使用,网络基础设施成本占比从 67% 降至 20%;可用性达 98.8%,较 Clos(91.6%)提升 7.2%,其 Mean Time Between Failure(MTBF)达 98.5 小时,是 Clos 的 7.14 倍;在 LLAMA-70B、GPT3-175B、MoE-10T 等模型训练中,性能仅下降 7% 以内,且集群规模扩展至 64 倍时,线性度仍保持 95% 以上,可支持超大规模 LLM 训练。

UB-Mesh架构通过其创新的nD-FullMesh拓扑、统一总线技术以及一系列系统级优化,成功地解决了大规模LLM训练所面临的“通信墙”问题。它不仅在理论上证明了分层局部化网络设计的优越性,更在实践中展示了其在成本、性能和可靠性方面的巨大优势。UB-Mesh为构建下一代超大规模、高性价比的AI计算集群提供了一个强有力的范例,预示着AI基础设施设计的一次重要范式转移。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华为面向拉美地区发布全新星河AI数据中心网络方案

    华为数据通信创新峰会2025拉美站期间,以“星河AI数据中心网络,赋AI时代新动能”为主题的分论坛上,华为面向拉美地区
    的头像 发表于 08-11 10:42 ?1236次阅读

    华为数据中心古井贡酒样板点重磅发布

    以“安全可靠,酝建未来”为主题的华为数据中心古井贡酒样板点发布会在亳州成功举行。该样板点使用华为智能微模块和UPS5000-H解决方案,助力古井贡酒构建安全、高效、智能的现代化
    的头像 发表于 08-01 14:27 ?614次阅读

    华为数据中心自动驾驶网络通过EANTC欧洲高级网络测试中心L4级自智网络测评

    Networking Test Center,简称“EANTC”)发布华为数据中心自动驾驶网络的自智网络(Autonomous Netwo
    的头像 发表于 06-22 10:50 ?1416次阅读
    <b class='flag-5'>华为</b><b class='flag-5'>数据中心</b>自动驾驶<b class='flag-5'>网络</b>通过EANTC欧洲高级<b class='flag-5'>网络</b>测试<b class='flag-5'>中心</b>L4级自智<b class='flag-5'>网络</b>测评

    华为面向亚太地区发布全新星河AI数据中心网络方案

    华为数据通信创新峰会2025亚太站期间,以“星河AI数据中心网络,赋AI时代新动能”为主题的分论坛上,华为面向亚太地区
    的头像 发表于 06-11 11:11 ?748次阅读

    华为面向中东中亚地区发布全新星河AI数据中心网络

    近日,在华为数据通信创新峰会2025中东中亚站期间,以“星河AI数据中心网络,赋AI时代新动能”为主题的分论坛上,华为面向中东中亚地区
    的头像 发表于 05-21 15:49 ?454次阅读

    适用于数据中心和AI时代的800G网络

    和性能隔离能力,以保障不同用户任务互不干扰。 分布式AI计算与网络架构设计 分布式计算已成为AI训练的主流方式,通过将工作负载分配到多个GPU节点并行处理,以加速模型训练。这对数据中心
    发表于 03-25 17:35

    华为携手中控技术打造全国数据中心网络创新示范项目

    华为中国合作伙伴大会2025期间,华为与中控技术股份有限公司(以下简称“中控技术”)联合发布星河AI数据中心网络优秀实践样板点。此次合作旨在
    的头像 发表于 03-24 14:51 ?633次阅读

    华为全新升级星河AI数据中心网络

    华为中国合作伙伴大会2025期间,以 “星河AI数据中心网络,赋AI时代新动能”为主题的数据中心网络分论坛圆满落幕。本次论坛汇聚了来自全国
    的头像 发表于 03-24 14:46 ?647次阅读

    优化800G数据中心:高速线缆、有源光缆和光纤跳线解决方案

    高速线缆支持热插拔功能,具有低功耗和小弯曲半径,便于灵活布线,可实现高稳定性、低成本、节省空间和高散热等优势,非常适合数据中心布线需求。这些高速线缆能够与交换机、路由器和服务器无缝集成,确保网络
    发表于 03-24 14:20

    华为携手EANTC启动数据中心网络ADN分级测评认证

    近日,华为联合EANTC(THE EUROPEAN ADVANCED NETWORKING TEST CENTER)正式启动数据中心网络ADN分级测评认证。
    的头像 发表于 03-20 16:00 ?668次阅读

    华为发布新一代站点能源架构及AI数据中心建设理念

    西班牙巴塞罗那2025年3月13日?/美通社/ -- 在MWC25巴塞罗那期间举办的产品与解决方案发布会上,华为数据中心能源及关键供电产品线总裁何波发布新一代站点能源
    的头像 发表于 03-13 15:38 ?420次阅读
    <b class='flag-5'>华为</b><b class='flag-5'>发布</b>新一代站点能源<b class='flag-5'>架构</b>及AI<b class='flag-5'>数据中心</b>建设理念

    华为发布新一代站点能源架构及AI数据中心建设原则

    在MWC25巴塞罗那期间举办的产品与解决方案发布会上,华为数据中心能源及关键供电产品线总裁何波发布新一代站点能源架构“Single Site
    的头像 发表于 03-06 11:16 ?728次阅读

    华为发布2025数据中心能源十大趋势

    今日,华为举办2025数据中心能源十大趋势发布会,华为数据中心能源领域总裁尧权全面解读数据中心
    的头像 发表于 01-14 10:24 ?640次阅读

    NIDA发布《智算数据中心网络建设技术要求》

    Alliance,以下简称 “NIDA”)携手中国信息通信研究院等9家组织成员共同发布了《智算数据中心网络建设技术要求》(以下简称 “技术要求”)。该技术要求明确了智算场景下数据中心
    的头像 发表于 12-04 11:13 ?1007次阅读

    简述数据中心网络架构的演变

    随着全球对人工智能(AI)的需求不断增长,数据中心作为AI计算的重要基础设施,其网络架构与连接技术的发展变得尤为关键。
    的头像 发表于 10-22 16:23 ?1118次阅读