0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

华为破解HBM依赖!AI推理黑科技UCM上线,9月正式开源

章鹰观察 ? 来源:电子发烧友原创 ? 作者:章鹰 ? 2025-08-13 08:58 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

(电子发烧友网报道 文/章鹰)8月12日,在2025金融AI推理应用落地与发展论坛上,华为公司副总裁、数据存储产品线总裁周越峰宣布,华为此次和银联联合创新,推出AI推理创新技术UCM(推理记忆数据管理其器)和管理系统的算法,这项突破性成果降低对HBM技术的依赖,提升国内AI大模型的推理能力。


该技术是一款以KV Cache为中心的推理加速套件,UCM集成了多类型缓存加速算法工具,实现推理过程中KV Cache记忆数据的分级管理,从而扩大推理上下文窗口,提升推理效率。“银联的实际案例和大量测试显示,UCM显著降低首Token的时延,最高降低90%,系统吞吐率最大提升22倍,上下文的推理窗口可以扩展10倍以上,这是对于AI推理系统一个巨大的进步。” 周越峰指出。

华为UCM技术已率先应用在中国银联“客户之声”、“营销策划”和“办公助手”三大业务场景,开展智慧金融AI推理加速应用试点,并且已经取得成果。华为表示,计划于2025年9月正式开源UCM,将在魔擎社区首发,并共享给业内所有Share Everything(共享架构)存储厂商和生态伙伴。

AI大模型推理给存储带来哪些挑战?UCM的创新之处如何解读?本文结合中国信通院人工智能研究平台与工程化部主任曹峰、华为数据存储产品线AI存储首席架构师李国杰的观点,进行详细分析。

AI大模型推理给存储带来三重挑战

“ChatGPT的访问量呈现线性增长,最新访问量达到4亿,受益于中国AI大模型DeepSeek爆发,日均调用量也在快速上升,2025年1月开始,中国AI推理的需求增长20倍,未来三年算力需求爆发。IDC表示,2024年算力需求60%是训练,40%是推理,到2027年中国用于推理的算力需求——工作负载将达到72.6%。” 中国信通院人工智能研究平台与工程化部主任曹峰分析说。

当下,AI大模型推理应用落地中,遇到推不动、推得慢和推得贵的三大挑战。首先,长文本越来越多,输入超过模型上下文窗口的内容,推理窗口小就推不动;其次,由于中美在AI基础设施的差距,中国互联网大模型首Token时延普遍慢于美国头部厂商的首Token时延,时延长度为后者的两倍;推得贵,美国大模型的推理吞吐率为中国大模型推理吞吐率的10倍。

华为公司副总裁、数据存储产品线总裁周越峰指出,AI时代,模型训练、推理效率与体验的量纲都以Token数为表征,Token经济已经到来。

在AI基础设施投资,中国和美国有差距,为了保障流畅的推理体验,企业要加大算力投入,但是如何改善AI推理的效率和体验,在推理效率与成本之间找到最佳平衡点?华为推出UCM,以KV Cache和记忆管理为中心提供全场景化系列化推理加速能力。

UCM两大关键能力和创新算法,破解HBM受困难题

HBM是解决"数据搬运"的关键技术。当HBM不足时,用户使用AI推理的体验会明显下降,导致出现任务卡顿、响应慢等问题。华为此次技术突破有望缓解这一瓶颈。

华为重磅推出UCM推理记忆数据管理器,包括对接不同引擎与算力的推理引擎插件(Connector)、支持多级KV Cache管理及加速算法的功能库(Accelerator)、高性能KV Cache存取适配器(Adapter)三大组件,通过推理框架、算力、存储三层协同,实现AI推理“更优体验、更低成本”。

UCM的创新之处,在于可以根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动,同时融合多种稀疏注意力算法实现存算深度协同,使长序列场景下TPS(每秒处理token数)提升2至22倍,从而降低每个Token的推理成本。

“实时数据放在HBM当中,短期记忆数据放在DRAM中,其他数据就放在共享存储SSD中,极大提高系统的效率和AI推理能力。针对AI推理平衡成本和效能的挑战,华为推出UCM统一的记忆数据管理器,在两个层面以系统化的方案来解决问题。” 华为数据存储产品线AI存储首席架构师李国杰表示。

一、在底层的框架和机制上提供了多级缓存空间,构建智能管理以及智能流动的基础框架能力。在此基础之上,华为构筑了一系列创新的推理的加速算法和加速特性,包括自适应的全局Prefix Cache,降低首Token时延与单位Token成本。

二、采用动态的Training稀疏加速算法,倍数级提升长序列吞吐和体验。还有后缀检索、预测加速算法、PD检索加速和Agent原生记忆加速。

UCM将超长序列Cache分层卸载至外置专业存储,通过算法创新突破模型和资源限制,实现推理上下文窗口的10倍级扩展,满足长文本处理需求。

中国银联执行副总裁涂晓军分享说,华为与中国银联的联合创新技术试点中,在中国银联的“客户之声”业务场景下,借助UCM技术及工程化手段,大模型推理速度提升125倍,仅需10秒就可以精准识别客户高频问题,促进服务质量提升。

众所周知,目前,AI大模型训练对内存带宽需求呈指数级增长,传统DDR内存已无法满足需求。HBM(高带宽内存)是一种专用内存技术,用于 AI 处理器GPU 和 HPC 系统,这些系统中带宽和能效比原始容量更为重要。HBM3 每堆栈可提供高达 819 GB/s 的传输速度,对于支持大型语言模型 (LLM)、神经网络训练和推理工作负载至关重要。

但是去年12月以来美国将HBM2E列入对中国的禁售清单,国产厂商HBM的突破还在推进中,华为推出UCM的重大意义,在于加速推进国产AI推理生态,其核心价值是推进更快的推理响应和更长的推理序列,以及更优化的成本。

中国信通院人工智能研究平台与工程化部主任曹峰认为,国产化AI推理生态建设应该加速,KV Cache已经成为架构优化的焦点,以KV Cache为核心的推理方案迭出,背后依赖的高性能存储、先进调度策略的重要性愈发显现。

李国杰还强调指出,AI是一个快速发展的行业,每6个月就会迎来新一轮的技术革新,UCM不仅定位于当下,解决AI推理问题,未来发展UCM将从KV Cache分层管理走向Agentic AI原生记忆管理和应用加速。

本文由电子发烧友原创,转载请注明以上来源。微信号zy1052625525。需入群交流,请添加微信elecfans999,投稿爆料采访需求,请发邮箱zhangying@huaqiu.com。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 华为
    +关注

    关注

    216

    文章

    35290

    浏览量

    256933
  • UC
    UC
    +关注

    关注

    2

    文章

    58

    浏览量

    61518
  • 银联
    +关注

    关注

    0

    文章

    13

    浏览量

    9542
  • HBM
    HBM
    +关注

    关注

    2

    文章

    415

    浏览量

    15314
  • AI大模型
    +关注

    关注

    0

    文章

    382

    浏览量

    709
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI推理的存储,看好SRAM?

    电子发烧友网报道(文/黄晶晶)近几年,生成式AI引领行业变革,AI训练率先崛起,带动高带宽内存HBM一飞冲天。但我们知道AI推理的广泛应用才
    的头像 发表于 03-03 08:51 ?1830次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>的存储,看好SRAM?

    华为亮相2025金融AI推理应用落地与发展论坛

    创新技术——UCM推理记忆数据管理器,旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循
    的头像 发表于 08-15 09:45 ?80次阅读

    降低HBM依赖华为发布AI推理创新技术UCM#HBM #华为?

    行业芯事行业资讯
    电子发烧友网官方
    发布于 :2025年08月13日 14:23:40

    今日看点丨华为发布AI推理创新技术UCM;比亚迪汽车出口暴增130%

    ? ? 降低HBM依赖华为发布AI推理创新技术UCM ? 日前,
    发表于 08-13 09:45 ?1513次阅读

    积算科技上线赤兔推理引擎服务,创新解锁FP8大模型算力

    北京2025年730日 /美通社/ -- 近日,北京积算科技有限公司(以下简称"积算科技")宣布其算力服务平台上线赤兔推理引擎。积算科技PowerFul-AI应用开发平台与赤兔合作,
    的头像 发表于 07-30 21:44 ?207次阅读

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    DeepSeek-R1:强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI大模型。其核心优势在于强大的推理引擎能力,融合了自然语言处理(
    发表于 07-16 15:29

    华为宣布开源盘古7B稠密和72B混合专家模型

    电子发烧友网综合报道 2025年630日,华为正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型及基于昇腾的模型推理技术,此举标志着
    的头像 发表于 07-06 05:51 ?6497次阅读

    华为正式开源盘古7B稠密和72B混合专家模型

    [中国,深圳,2025年630日] 今日,华为正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型和基于昇腾的模型推理技术。 此举是
    的头像 发表于 06-30 11:19 ?678次阅读

    华为AI WAN在智算边缘推理网络中的关键优势

    此前, 2025年324日至27日,MPLS&SRv6 AI Net World Congress 2025在法国巴黎会议中心举办。华为数据通信IP标准化高级代表李呈发表了题为“AI
    的头像 发表于 04-09 09:53 ?551次阅读

    英伟达GTC25亮点:NVIDIA Dynamo开源库加速并扩展AI推理模型

    DeepSeek-R1 上的吞吐量提高了 30 倍 NVIDIA 发布了开源推理软件 NVIDIA Dynamo,旨在以高效率、低成本加速并扩展 AI 工厂中的 AI
    的头像 发表于 03-20 15:03 ?729次阅读

    Banana Pi 与瑞萨电子携手共同推动开源创新:BPI-AI2N

    :瑞萨RZ/V2N高性能处理器与Banana PI开源硬件平台的深度融合。 开源优势 :提供部分硬件设计资料、SDK及开发文档。 生态共建 :联合开发者社区推出定制化开发套件,支持AI推理
    发表于 03-12 09:43

    不再是HBMAI推理流行,HBF存储的机会来了?

    NAND闪存和高带宽存储器(HBM)的特性,能更好地满足AI推理的需求。 ? HBF的堆叠设计类似于HBM,通过硅通孔(TSVs)将多个高性能闪存核心芯片堆叠,连接到可并行访问闪存子
    的头像 发表于 02-19 00:51 ?3110次阅读
    不再是<b class='flag-5'>HBM</b>,<b class='flag-5'>AI</b><b class='flag-5'>推理</b>流行,HBF存储的机会来了?

    AI大模型在汽车应用中的推理、降本与可解释性研究

    ,加强大模型对复杂任务处理能力和自主决策能力。 部分大模型公司的推理模型发布情况 来源:佐思汽研《2024-2025年AI大模型及其在汽车领域的应用研究报告》 推理模型的密集上线,是为
    的头像 发表于 02-18 15:02 ?1400次阅读
    <b class='flag-5'>AI</b>大模型在汽车应用中的<b class='flag-5'>推理</b>、降本与可解释性研究

    DeepSeek V3昇思MindSpore版本上线开源社区

    近日,基于昇腾AI硬件与昇思MindSpore AI框架版本的DeepSeek-V3完成开发支持并上线昇思开源社区,面向开发者提供开箱即用的预训练和
    的头像 发表于 02-18 10:12 ?1335次阅读
    DeepSeek V3昇思MindSpore版本<b class='flag-5'>上线</b><b class='flag-5'>开源</b>社区

    阿里云开源推理大模型QwQ

    近日,阿里云通义团队宣布推出全新AI推理模型QwQ-32B-Preview,并同步实现了开源。这一举措标志着阿里云在AI推理领域迈出了重要一
    的头像 发表于 11-29 11:30 ?1254次阅读