0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

华为云黄瑾:昇腾云CloudMatrix 384超节点六大科技创新,定义下一代AI基础设施

jf_21561199 ? 来源:jf_21561199 ? 2025-05-17 10:31 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,华为云 AI 峰会在北京召开,华为云副总裁黄瑾发表主题演讲,介绍了更多 CloudMatrix 384超节点技术优势与细节。他指出,随着大模型训练和推理对算力需求的爆炸式增长,传统计算架构已难以支撑 AI 技术的代际跃迁,超节点架构的诞生不仅是技术的突破,更是以工程化创新开辟 AI 产业的新路径。华为云 CloudMatrix 384 超节点具备 MoE 亲和、以网强算、以存强算、长稳可靠、朝推夜训、即开即用六大领先技术优势,以系统架构创新重新定义新一代 AI 基础设施。

重新定义 AI 基础设施架构,开辟算力新纪元

当前,大模型训练从早期小模型在单卡训练、小参数大模型在单机训练,现在 MoE、长序列、多模态大模型都是在 AI 集群上训练,AI 算力的瓶颈,从到单卡算力的瓶颈到单机内总线带宽的瓶颈,到现在集群间通信带宽的瓶颈,需求增长了 1 万倍。

然而过去的 8 年里,单卡硬件的算力增长了 40 倍,但是节点内的总线带宽只增长了 9 倍,跨节点的网络带宽只增长了 4 倍,这使得集群网络通信成为当前大模型训练和推理的最大挑战。

黄瑾表示,面对这些挑战,华为云创新性的推出采用全对等互联架构的 CloudMatrix 384 超节点。这项技术创新跳出单点技术限制走向系统性、工程性的创新算力架构直面通信效率瓶颈、内存墙制约、可靠性短板三大技术挑战。通过新型高速互联总线实现 384 张卡互联成为一个超级云服务器,最高提供 300Pflops 的算力规模,比业界同类产品领先 67%。

解码六大优势,CloudMatrix 384 超节点重构 AI 算力架构

目前,基于 CloudMatrix 的超节点集群已经在芜湖、贵安、内蒙规模上线,黄瑾进一步深入解读了六大技术创新点:

MoE 亲和架构,从“小作坊”到“超级工厂”。在传统架构下,MoE 模型训练容易因通信延迟导致算力浪费,而 CloudMatrix 384 超节点的分布式推理平台可以说是专为 MoE 大模型而生。黄瑾指出,对比一卡多专家的“小作坊模式”,超节点更像“大工厂模式”,通过高速互联总线,能够实现一卡一专家高效分布式推理,单卡的 MoE 计算和通信效率都大幅提升。这也是为什么有几百个政务、零售、医疗、保险、制造、矿山、旅游等各行各业的客户,基于华为云昇腾 AI 云服务部署 DeepSeek 模型的创新应用,例如智能助手、智能客服、互联网搜索、内容创作等各种场景落地。

以网强算,双层网络破解“数据堵车”。当AI 算力走向规模化部署,单点的芯片性能不再是制约算力发展的唯一变量,如何由点及面地激活算力矩阵的共振效应,也是破解 AI 时代算力命题的关键一步。而释放联接力也正是超节点最大的创新突破之一,黄瑾介绍,传统网络像拥堵的城市道路,CloudMatrix 384 则构建了 AI 专属高架桥,通过 MatrixLink 服务将单层网络升级为两层高速网络,一层是超节点内部的 ScaleUp 总线网络,确保超节点内 384 卡全对等高速无阻塞互联,卡间超大带宽 2.8T,纳秒级时延;另一层是跨超节点间的 ScaleOut 网络,可支持微秒级时延,资源弹性扩展;同时,基于全局拓扑感知的智能调度算法,保障客户任务长稳运行。

以存强算,弹性内存改写“算存绑定”。华为云首创了 EMS 弹性内存存储,打破传统 GPU 算力与显存绑定的关键障碍,通过内存池化技术,实现显存和算力解绑。一方面,用 EMS 替代 NPU 中的显存,可使得首 Token 时延降低,最高降幅可达 80%;另一方面,当 NPU 的显存不足时,EMS 独立扩容,不必再通过堆 NPU 以获得更多内存。同时,EMS 还支持算力卸载,这也使得系统吞吐量提升,有的场景达 100%的提升。总之,这一技术创新大幅提升了资源利用率、性能和吞吐量。

长稳可靠,故障自愈的“AI 医生”。随着模型训练需求的不断接入,大集群的运维难度大、复杂性高的问题日益凸显。对此,华为云开发了昇腾云脑运维“1-3-10”标准,即 1 分钟感知、3 分钟定界、10 分钟内恢复。通过 5 层压测、静默故障感知技术,昇腾云脑可将硬件故障感知率从 40%提升至 90%。同时,覆盖计算、存储、网络、软件四大种类故障模式库也打通了全栈故障场景,这一全栈故障知识库能够覆盖 95%常见问题以实现故障快速定界;在恢复机制上则,3 层快恢技术、快速建链技术、图编译缓存等技术能够实现万卡故障快速恢复。

朝推夜训,算力资源“错峰用电”。在大模型训练中,提升算力利用率,避免算力闲置也是企业关心的重点之一。CloudMatrix384 超节点通过“训推共池”“灵活调度”两大关键技术实现朝推夜训,白天进行模型推理,晚上闲时进行模型训练,算力资源利用率可提升 30%以上。

即开即用,“算力水电”普惠模式。为助力客户更好地专注业务模型开发,华为云已经在全国三大枢纽数据中心——乌兰察布、贵安和芜湖完成了超节点规模布局,支持百 TB 级的带宽互联,10 毫秒时延圈覆盖全国 19 个城市群,让客户能够第一时间享受到即开即用的 AI 算力资源。同时,华为云拥有专业的超节点运维团队,在为客户免去繁琐的管理和维护的同时,保障资源的稳定运行。

做好智能世界云底座和使能器,加速行业智能跃迁

如今 AI 已经成为最有影响力的通用技术,如何将技术价值转化为应用成果,成为千行百业面临的核心课题。华为云超节点创新系统架构的背后,是华为云坚持“昇腾云服务支持百模千态,盘古大模型重塑千行万业”的战略。

黄瑾强调,一直以来华为云持续推动昇腾 AI 云服务全面升级,通过打磨昇腾云的训练、推理的性能、可靠性和性价比,为中国乃至全球客户提供好用、易用的 AI 算力云服务。现已全面适配了 DeepSeek 在内的 160 多个大模型,以云服务的方式,协助客户进行模型的开发,训练,托管和应用。昇腾 AI 云服务上线以来,面向政府、金融、零售、互联网、交通、制造等行业已经服务六百多家创新先锋企业,加速行业智能化应用的快速落地。

在充满突破和创新的 AI 发展过程中,每一个阶段都会产生大量的新技术、新模式,企业唯有抓住 AI 时代机遇,才能抢占发展先机。黄瑾表示,面向智能世界,华为云致力于做好行业数字化的“云底座”和“使能器”,坚定打造 AI 算力底座,以安全、稳定、高质量、持续创新的 AI 云服务,赋能千行万业应用创新,携手伙伴、客户加速行业智能跃迁。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 云计算
    +关注

    关注

    39

    文章

    7980

    浏览量

    140573
  • AI
    AI
    +关注

    关注

    88

    文章

    35476

    浏览量

    281298
  • 华为云
    +关注

    关注

    3

    文章

    2776

    浏览量

    18428
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    重磅!华为384节点真机登场,中兴携厂商首秀GPU节点实力

    作为中国自主的算力核弹,华为384节点真机首次亮相。中兴通讯、上海仪电、曦智科技、壁仞科技联合打造的光互联芯片及
    的头像 发表于 07-29 00:45 ?6384次阅读
    重磅!<b class='flag-5'>华为</b><b class='flag-5'>昇</b>腾<b class='flag-5'>384</b><b class='flag-5'>超</b><b class='flag-5'>节点</b>真机登场,中兴携厂商首秀GPU<b class='flag-5'>超</b><b class='flag-5'>节点</b>实力

    摩尔线程“AI工厂”:以系统级创新定义一代AI基础设施

    演讲中表示,为应对生成式AI爆发式增长下的大模型训练效率瓶颈,摩尔线程将通过系统级工程创新,构建新一代AI训练基础设施,致力于为AGI时代打
    发表于 07-28 10:34 ?1186次阅读
    摩尔线程“<b class='flag-5'>AI</b>工厂”:以系统级<b class='flag-5'>创新定义</b>新<b class='flag-5'>一代</b><b class='flag-5'>AI</b><b class='flag-5'>基础设施</b>

    软通动力携手华为发布AI应用创新领航计划

    华为开发者大会 2025期间,作为华为全球战略合作伙伴,软通动力受邀出席华为多场重要活动和会议。双方联合与伙伴
    的头像 发表于 06-26 10:31 ?526次阅读

    华为开发者大会2025亮点:软通动力分论坛成功举办,发布四大解决方案与产品

    HarmonyOS 6的华为终端产品已40款,累计有9000多个应用参与了70多个系统级创新体验的联合打造,目前有3万多鸿蒙应用和元服务在加速开发、更新。 华为常务董事、
    的头像 发表于 06-22 15:58 ?1049次阅读
    <b class='flag-5'>华为</b>开发者大会2025亮点:软通动力分论坛成功举办,发布四大解决方案与产品

    华为开发者大会2025(HDC 2025)亮点:华为发布盘古大模型5.5 宣布新一代AI服务上线

    HarmonyOS、AI服务、盘古大模型等最新科技创新成果。 在主题演讲中,华为常务董事、华为
    的头像 发表于 06-20 20:19 ?2466次阅读
    <b class='flag-5'>华为</b>开发者大会2025(HDC 2025)亮点:<b class='flag-5'>华为</b><b class='flag-5'>云</b>发布盘古大模型5.5 宣布新<b class='flag-5'>一代</b><b class='flag-5'>昇</b>腾<b class='flag-5'>AI</b><b class='flag-5'>云</b>服务上线

    有关 AI 算力,华为腾刷新行业记录

    电子发烧友网报道(文 / 吴子鹏)近日,GitCode 网站上更新了份题为《AI 算力集群基础设施高可用技术系列报告》的文件。报告显示,华为
    的头像 发表于 06-16 01:08 ?4762次阅读
    有关 <b class='flag-5'>AI</b> 算力,<b class='flag-5'>华为</b><b class='flag-5'>昇</b>腾刷新行业记录

    NVIDIA 采用纳微半导体开发新一代数据中心电源架构 800V HVDC 方案,赋能下一代AI兆瓦级算力需求

    全球 AI 算力基础设施革新迎来关键进展。近日,纳微半导体(Navitas Semiconductor, 纳斯达克代码:NVTS)宣布参与NVIDIA 英伟达(纳斯达克股票代码: NVDA) 下一代
    发表于 05-23 14:59 ?1535次阅读
    NVIDIA 采用纳微半导体开发新<b class='flag-5'>一代</b>数据中心电源架构 800V HVDC 方案,赋能<b class='flag-5'>下一代</b><b class='flag-5'>AI</b>兆瓦级算力需求

    华为节点创新算力基础设施,推动千行万业AI应用开发落地

    近日,“逐光向新·智领未来”华为 AI 峰会于北京成功举办。大会期间,华为面向客户伙伴详细介绍了 CloudMartix
    的头像 发表于 05-17 10:30 ?1203次阅读

    华为公布AI基础设施架构突破性新进展

    近日,华为公司常务董事、华为计算CEO张平安在华为生态大会2025上公布了AI
    的头像 发表于 04-12 15:09 ?1069次阅读

    软通动力携手伙伴发布六大联合解决方案

    ToB运营解决方案”、 “天慧智园解决方案”六大联合解决方案,其中多个方案深度融入AI能力,旨在为高校、园区、运营商、医疗等关键行业领域的数智化转型注入强劲动力。 1 腾DeepS
    的头像 发表于 03-22 10:30 ?1105次阅读
    软通动力携手伙伴发布<b class='flag-5'>六大</b>联合解决方案

    从虚拟化到AI基础设施:Gartner定义下一代融合的“全栈”路径

    近日,权威市场分析机构 Gartner 发布《2025 中国区融合市场竞争格局报告》,对中国融合市场的发展趋势和主流厂商进行了深入解析。报告认为,中国融合市场已经达到了主流采用阶段,
    的头像 发表于 03-19 14:15 ?651次阅读

    华为打造移动AI时代领先电信基础设施

    使能平台,助力运营商电信基础设施从架构、自动化、绿色、AI等方面全面升级,从容应对复杂网络挑战,使能AI业务创新,打造移动AI时代领先电信
    的头像 发表于 03-08 11:39 ?778次阅读

    湖南 DeepSeek+腾云技术应用沙龙成功举办,拓维信息助力 AI 新范式探索

    近日,以“智共生·湘见未来”为主题的“湖南DeepSeek+腾云技术应用沙龙”在长沙成功举办。湖南本地企业开发者、企业技术负责人、AI领域研究者及
    的头像 发表于 02-26 18:23 ?707次阅读
    湖南 DeepSeek+<b class='flag-5'>昇</b><b class='flag-5'>腾云</b>技术应用沙龙成功举办,拓维信息助力 <b class='flag-5'>AI</b> 新范式探索

    百度李彦宏谈训练下一代大模型

    “我们仍需对芯片、数据中心和基础设施持续投入,以打造更好、更智能的下一代模型。”
    的头像 发表于 02-12 10:38 ?501次阅读

    NVIDIA助力印度打造AI基础设施

    在孟买举办的 NVIDIA AI Summit 上,仁勋和穆克什·安巴尼(Mukesh Ambani)探讨了关于 AI 基础设施的投资,这些投资有望为各行各业带来变革。
    的头像 发表于 10-27 09:44 ?613次阅读