0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

摩尔线程Round Attention优化AI对话

摩尔线程 ? 来源:摩尔线程 ? 2025-03-06 09:39 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

【编者按】摩尔线程科研团队发布研究成果《Round Attention:以轮次块稀疏性开辟多轮对话优化新范式》,该方法端到端延迟低于现在主流的Flash Attention推理引擎,kv-cache 显存占用节省55%到82% 。

近年来,大型语言模型的进步推动了语言模型服务在日常问题解决任务中的广泛应用。然而,长时间的交互暴露出两大显著挑战:首先,上下文长度的快速扩张因自注意力机制的平方级复杂度而导致巨大的计算开销;其次,尽管键值( KV )缓存技术能缓解冗余计算,但其显著增加的 GPU 内存需求导致推理批处理规模受限及 GPU 利用率低下。摩尔线程提出 Round Attention 用于解决这些问题。

wKgZO2fI_O-AWQPwAABaa_segco266.png

01论文主要贡献

以轮次为分析单元研究 Attention 规律:Round Attention 专为多轮对话场景推理需求设计,以轮次为自然边界划分 KV 缓存,研究发现轮次粒度的 Attention 分布存在两个重要规律。

提出 Round Attention inference pipeline :基于发现的两个规律提出 Round Attention ,将稀疏性从 Token 级提升至块级,选取最相关的块参与 attention 计算,减少 attention 计算耗时,并将不相关的块 offloadCPU内存节省显存占用。该 pipeline 在保持推理精度的情况下,减少了推理耗时,降低了显存占用。

02核心创新:轮次块稀疏性的三大优势

自然边界的语义完整性

问题洞察:多轮对话中,用户意图常以轮次为单位呈现(如“推荐餐厅”→“询问人均消费”→“确认地址”)。

解决方案:Round Attention 将 KV 缓存按轮次(对)切分为独立块,每个块完整包含一轮对话的提问与回答,确保模型在计算注意力时能直接关联完整语义单元。

分水岭层的注意力稳定性

关键发现:通过分析 SharedGPT 数据集,发现主流开源模型(如 Qwen2.5B )在特定“分水岭层”后,各层对历史轮次的注意力分布高度相似,且同一轮内问题与答案的注意力模式一致。

技术价值:仅需在分水岭层一次性筛选 Top-K 相关轮次,即可覆盖后续所有层的计算需求,相比其他工作逐层动态路由,有效减少 Top-K 计算开销。

端到端的存储与传输优化

存储设计:将每轮 KV 缓存按分水岭层拆分为下层块( b_m )与上层块( u_m ),以轮次为单位整体存储于 CPU 内存,减少 GPU 内存占用。

传输效率:相比其他 kv cache offload 工作以 Token 级细粒度传输, Round Attention 以轮次为单位批量搬运 KV 缓存,单次 H2D 操作即可完成,降低 H2D 操作带来的延迟。

03效果

端到端延迟低于现在主流的 Flash Attention 推理引擎, kv-cache 显存占用节省 55% 到 82% ,并且在主观评测和客观评测两个数据集上模型推理准确率基本未受影响。

wKgZPGfI_O-AcZSGAAAnn-oYOr0288.png

wKgZPGfI_O-AKEHxAAJyGnIc7S8703.png

04未来展望:开源协作与技术融合

摩尔线程 Round Attention 期待与开源社区深度协同,继续探索稀疏注意力可能的优化工作,共同攻克 LLM 落地中的效率与成本难题。该论文已发布在 arXiv :

关于摩尔线程

摩尔线程成立于2020年10月,以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4968

    浏览量

    131661
  • 内存
    +关注

    关注

    8

    文章

    3128

    浏览量

    75361
  • 语言模型
    +关注

    关注

    0

    文章

    563

    浏览量

    10836
  • 摩尔线程
    +关注

    关注

    2

    文章

    242

    浏览量

    5455

原文标题:技术研究 | 摩尔线程 Round Attention:以轮次块稀疏性开辟多轮对话优化新范式

文章出处:【微信号:moorethreads,微信公众号:摩尔线程】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    国产显卡摩尔线程MTT S30讲评

    摩尔线程
    国产计算机小秦
    发布于 :2024年03月20日 16:20:37

    摩尔线程正式加入openKylin开源社区

    近日,摩尔线程智能科技(北京)有限责任公司(简称:摩尔线程)签署了openKylin社区 CLA(Contributor License Agreement 贡献者许可协议),正式加入
    的头像 发表于 09-14 11:57 ?1665次阅读

    摩尔线程计划本周完成“岗位优化

     11月6日,摩尔线程的创始人兼CEO张建中在一份全员信中宣布了公司的人员优化计划,预计将在本周内完成。张建中表示,这是公司发展的必要选择,尽管艰难,但希望大家能够理解。他在信中指出,在这个充满挑战和机遇的时刻,中国的GPU行业
    的头像 发表于 11-07 16:08 ?1523次阅读

    国内GPU龙头!摩尔线程本周人员优化

    据了解,摩尔线程此次优化调整主要涉及组织架构和人员绩效方面。在组织架构方面,公司设立了两个战略部门,分别是AISG(AI战略组)和MCSG(元计算战略组),以整合公司资源,推动产品技术
    的头像 发表于 11-08 16:17 ?1316次阅读

    国产摩尔线程显卡驱动重磅升级!

    今日,摩尔线程正式发布版本号为v250.60的Windows驱动程序,着重对DirectX 11游戏性能进行了大幅优化
    的头像 发表于 02-21 09:13 ?1626次阅读
    国产<b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>显卡驱动重磅升级!

    摩尔线程与亿景智联战略合作,共推生成式AI在高校的应用创新

    近日,摩尔线程与亿景智联达成战略合作,聚焦于将先进的生成式AI技术应用于高校教育教学领域。
    的头像 发表于 05-13 14:07 ?1491次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>与亿景智联战略合作,共推生成式<b class='flag-5'>AI</b>在高校的应用创新

    摩尔线程与师者AI携手完成70亿参数教育AI大模型训练测试

    近日,国内知名的GPU制造商摩尔线程与全学科教育AI大模型“师者AI”联合宣布,双方已成功完成了一项重要的大模型训练测试。此次测试依托摩尔
    的头像 发表于 06-14 16:31 ?970次阅读

    摩尔线程与智谱AI完成大模型性能测试与适配

    近日,摩尔线程与智谱AI在人工智能领域开展了一轮深入的合作,共同对GPU大模型进行了适配及性能测试。此次测试不仅涵盖了大模型的推理能力,还涉及了基于摩尔
    的头像 发表于 06-14 16:40 ?1536次阅读

    摩尔线程携手东华软件完成AI大模型推理测试与适配

    近日,摩尔线程与东华软件云筑AI创新中心宣布,双方已完成大模型推理测试与适配。依托摩尔线程的全功能GPU国产算力,东华软件打造安全可信的基于
    的头像 发表于 07-31 10:51 ?2067次阅读

    摩尔线程GPU与超图软件大模型适配:共筑国产地理空间AI新生态

    10月24日,摩尔线程公司宣布与超图软件达成重要合作里程碑。经过双方的严格测试,摩尔线程的MTT S/X系列全功能GPU已成功与超图软件最新发布的大模型系列产品完成兼容认证。  
    的头像 发表于 10-24 11:29 ?1496次阅读

    摩尔线程完成股改,筹备上市

    近日,摩尔线程智能科技(北京)股份有限公司(简称“摩尔线程”)宣布已完成股改,并正积极筹备上市。据国家企业信用信息公示系统最新查询结果显示,摩尔
    的头像 发表于 11-12 14:15 ?1234次阅读

    摩尔线程AI算力平台AutoDL达成深度合作

    近日,摩尔线程与国内领先的AI算力平台AutoDL宣布达成深度合作,双方联合推出面向个人开发者的“摩尔线程专区”,首次将国产GPU算力开放至
    的头像 发表于 05-23 16:10 ?883次阅读

    摩尔线程AI工厂”:以系统级创新定义新一代AI基础设施

    2025年7月25日,上海——在世界人工智能大会(WAIC 2025)开幕前夕,摩尔线程以“算力进化,精度革命”为主题举办技术分享会,并创新性提出“AI工厂”理念。摩尔
    发表于 07-28 10:34 ?1178次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>“<b class='flag-5'>AI</b>工厂”:以系统级创新定义新一代<b class='flag-5'>AI</b>基础设施

    摩尔线程AI工厂”:五大核心技术支撑,打造大模型训练超级工厂

    2025年7月25日,上海——在世界人工智能大会(WAIC 2025)开幕前夕,摩尔线程以“算力进化,精度革命”为主题举办技术分享会,并创新性提出“AI工厂”理念。摩尔
    的头像 发表于 07-28 11:28 ?415次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>“<b class='flag-5'>AI</b>工厂”:五大核心技术支撑,打造大模型训练超级工厂

    摩尔线程亮相WAIC 2025:以“AI工厂”理念驱动算力进化,全栈AI应用赋能千行百业

    7月26日-29日,2025世界人工智能大会(WAIC)在上海举办。摩尔线程携以全功能GPU为核心的“云边端”全栈AI产品和解决方案精彩亮相,并首次提出“AI工厂”理念,旨在为AGI时
    的头像 发表于 07-28 11:34 ?528次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>亮相WAIC 2025:以“<b class='flag-5'>AI</b>工厂”理念驱动算力进化,全栈<b class='flag-5'>AI</b>应用赋能千行百业