0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

缓解高性能存算一体芯片IR-drop问题的软硬件协同设计

后摩智能 ? 来源:后摩智能 ? 2025-07-11 15:11 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在高性能计算与AI芯片领域,基于SRAM的存算一体(Processing-In-Memory, PIM)架构因兼具计算密度、能效和精度优势成为主流方案。随着存算一体芯片性能的持续攀升,供电电压降(IR-drop)问题日益成为制约其性能、能效与可靠性的关键瓶颈,而传统电路级优化方法往往需在功耗、性能或面积上做出妥协,难以实现系统化解决。

针对这一挑战,后摩智能与北京大学等高校合作的论文《AIM: Software and Hardware Co-design for Architecture-level IR-drop Mitigation in High-performance PIM》,创新性地提出了AIM软硬件协同设计,成功入选ISCA 2025。

该论文首创性地建立了量化工作负载与IR-drop关联的关键参数HR,开发了基于正则化与权重优化的算法以降低权重HR值,设计了动态反馈系统实现电压/频率的实时调节以应对IR-drop波动,并通过HR感知的任务映射机制实现了跨层协同优化。这一系列软硬件协同创新技术有效缓解了高性能PIM芯片的IR-drop问题,同时显著提升了芯片性能与能效表现。基于一款256 TOPS PIM芯片的后仿真验证数据表明,AIM能够将IR-drop大幅降低69.2%,并同步实现能效提升2.29倍或性能增益15.2%。

本文将展开介绍这一创新方法。

研究动机

在高性能存算一体(PIM)芯片中,IR-drop 已成为制约性能与可靠性的关键挑战。7nm 工艺下 256 TOPS SRAM PIM 芯片实测显示,动态 IR-drop 可达 140mV,导致时序违规和计算精度退化。传统电路级方案(如电源平面修改、电容插入)虽能缓解 IR-drop,但会引入高额设计成本并牺牲功耗、性能和面积(PPA)。例如,Graphcore IPU 通过 3D 封装和深槽电容缓解 100mV IR-drop,却导致设计成本激增。

83856f5c-5c69-11f0-baa5-92fbcf53809c.png

图1:(a)IR-drop现象(b)静态和动态电流

图1 IR-drop现象。实际电源电压和理想电压的插值,由电流通过电源网络的寄生电阻引起,这会导致电路单元电压不足,引发时钟延迟、时序违规甚至功能失效。

图1:(b):静态和动态电流。IR-drop 由静态和动态电流共同决定,其中动态电流随计算负载波动,是高性能 PIM 中 IR-drop 恶化的主要原因。

PIM架构的独特优势为架构级优化提供契机:

工作负载规律性: PIM 专为神经网络设计, workload 可预测(如自LLMs的推理的结构和工作流固定);

原位处理特性:权重数据可离线分析,输入数据流和计算模式解耦。这为建立IR-drop和工作负载的关联奠定基础。

方法简介

AIM通过“指标建模-软件优化-硬件协同”三层架构实现端到端IR-drop缓解:

1.架构级指标关联

提出瞬时位流翻转率(Rtog)和权重汉明率(HR),建立工作负载与IR-drop的直接关联。Rtog量化了PIM bank中从SRAM到加法器的位流翻转频率,如图2所示,其与 IR-drop 的线性相关系数在 7nm DPIM 中达 0.977。而HR作为Rtog的理论上界,可通过量化过程优化,且与输入无关,便于离线处理。

8398744e-5c69-11f0-baa5-92fbcf53809c.png

图2:IR-drop和Rtog的相关性

2.软件侧HR优化

2.1 LHR(低汉明率正则化)

在量化训练中引入可微HR近似,惩罚高HR权重,使权重分布趋向低HR局部极小值(如-8、0、8),精度损失可忽略。如图3中所示,Resnet18的可以通过LHR平均降低28%,且精度损失可以忽略。

83a73cb8-5c69-11f0-baa5-92fbcf53809c.png

图3:(a) LHR的权重分布与汉明率的局部极小值对齐 (b) 通过插值计算浮点数的HR及其相应梯度

2.2 WDS(权重分布偏移)

通过向量化偏移δ(如8/16)将权重分布推向正区间,利用补码编码特性降低HR,并通过硬件移位补偿消除计算误差。

3.硬件侧动态调节

3.1 IR-Booster

结合软件HR信息与硬件IR监测,动态调整电压-频率(V-f)对。通过安全级与激进级双层调节,在保障可靠性的同时提升能效(如低功耗模式下能效提升2.29×)。

83baac1c-5c69-11f0-baa5-92fbcf53809c.png

图4:(a) 宏组颗粒度下的电源和V-f调整 (b) 由IRFailure调节的IR-Booster

3.2 HR-aware任务映射

基于模拟退火算法,按 HR 特性分配任务至宏单元组,避免不同 HR 任务相互干扰。与顺序映射相比,如图5所示,该方法将多算子并发时能效提升 15%~22%。

83cce5d0-5c69-11f0-baa5-92fbcf53809c.png

图5:HR感知任务映射与其他方法对比

实验结果

在7nm 256 TOPS PIM芯片的后布局仿真中,AIM展现显著优势:

1.IR-drop缓解

图6展示了展示了应用 AIM 前后,7nm PIM 芯片布局中 IR-drop(电源网络电压降)的分布变化。后布局仿真显示,AIM 将宏单元内的 IR-drop 从 140mV 降至 43.2~58.1mV,缓解率达 58.5%~69.2%,直接证明其在硬件层面的有效性。

83e1317a-5c69-11f0-baa5-92fbcf53809c.png

图6:7nm 工艺 256 TOPS PIM 芯片布局的 IR-drop 缓解效果

2.能效与性能提升

83fc29da-5c69-11f0-baa5-92fbcf53809c.png

图7:IR-drop、功耗与性能的消融研究

如图7所示,AIM在解决IR-drop的同时优化了芯片的功耗和计算性能。

能效比提升1.91~2.29×(宏单元的功耗从4.2978mW降至1.876mW);

计算性能提升1.129~1.152×(256TOPS提升至295TOPS)。

3.任务映射优化

相比顺序映射,HR-aware映射使多算子并发时的能效提升15%~22%,延迟降低9ms。

总结

AIM通过软硬件协同设计,突破传统IR-drop缓解的PPA瓶颈,为高性能PIM提供了兼具效率与可靠性的解决方案。后布局仿真验证了其在7nm工艺下的有效性,未来可扩展至浮点PIM和异构计算架构(如TPU、GPU)。该工作为存算一体芯片的实用化部署提供了关键技术支撑,代码与模型已开源(https://github.com/pku-zyp/LHR-of-AIM-in-ISCA25.git),推动学术界与产业界的进一步创新。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    460

    文章

    52616

    浏览量

    442669
  • 存算一体
    +关注

    关注

    1

    文章

    110

    浏览量

    4702
  • 后摩智能
    +关注

    关注

    0

    文章

    38

    浏览量

    1395

原文标题:后摩前沿 | 缓解高性能存算一体芯片IR-drop问题的软硬件协同设计

文章出处:【微信号:后摩智能,微信公众号:后摩智能】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    一体力AI芯片将逐渐走向落地应用

    电子发烧友网报道(文/李弯弯)前不久,后摩智能宣布,其自主研发的业内首款一体力AI芯片成功点亮,并成功跑通智能驾驶算法模型。 ? 这
    的头像 发表于 05-31 00:03 ?5569次阅读

    谈谈芯片设计中的IR-drop

    什么是IR-drop?其实,IR这个词并不是什么缩写,这里的I就是指电流,R是指电阻,他们放在起相乘,得出来的结果就是电压。
    发表于 06-16 09:26 ?9001次阅读
    谈谈<b class='flag-5'>芯片</b>设计中的<b class='flag-5'>IR-drop</b>

    一体技术路线如何选

    电子发烧友网报道(文/李弯弯)过去几年,越来越多企业加入到一体技术的研究中,如今,一体
    的头像 发表于 06-21 09:27 ?5027次阅读

    一体技术发展现状和未来趋势

    一体
    电子发烧友网官方
    发布于 :2023年04月25日 17:21:41

    基于Altera FPGA的软硬件协同仿真方法介绍

    摘要:简要介绍了软硬件协同仿真技术,指出了在大规模FPGA开发中软硬件协同仿真的重要性和必要性,给出基于Altera FPGA的门级软硬件
    发表于 07-04 06:49

    基于SoPC的嵌入式软硬件协同设计性能怎么优化?

    软硬件协同设计(Hardware/Software Co-deaign)是在20世纪90年代兴起的跨领域交叉学科。随着超大规模集成电路制造工艺的进步,单个芯片所能提供的晶体管数量已经超过了大多数
    发表于 04-08 08:03

    基于软硬件协同设计的低功耗生理信号处理ASIC设计

    摘 要 文主要介绍了种采用软硬件协同设计策略的用于生理信号处理的低功耗医学集成芯片软硬件协同
    发表于 06-19 10:29 ?24次下载

    思科谋求“软硬件一体”转型

    作为路由器和交换机领域的领导者,思科正在谋求在手抓硬件的同时,另手也开始抓软件,实现“软硬件一体”转型。
    发表于 12-10 08:52 ?1060次阅读

    软硬件协同设计是系统芯片的基础设计方法学

    软硬件协同仿真验证是对软硬件功能设计的正确性及性能进行验证和评估。传统设计中,硬件和软件通常是分开独立开发设计的,到系统设计后期才将
    的头像 发表于 08-12 11:28 ?3944次阅读

    一体芯片在可穿戴设备市场有哪些机会

    2022年,TWS耳机厂商在种新型计算架构中找到突破口——一体。与传统冯诺依曼架构相比,基于
    发表于 10-14 09:38 ?1499次阅读

    2023年一体芯片设计的技术趋势

    一体旨在计算单元与存储单元融合,在实现数据存储的同时直接进行计算,以消除数据搬移带来的开销,极大提升运算效率,以实现计算存储的高效节能。
    的头像 发表于 01-13 15:26 ?2645次阅读

    基于3DIC架构的一体芯片仿真解决方案

    的“存储墙”、“功耗墙”问题。一体将存储与计算有机融合以其巨大的能效比提升潜力,有望成为数字经济时代的先进生产力。
    的头像 发表于 02-24 09:34 ?6437次阅读

    一体芯片的技术壁垒

    作为后摩尔时代发展的必然趋势之一体越来越受到行业的关注。在十问的前六问中,我们梳理了
    的头像 发表于 09-22 14:16 ?1416次阅读
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b><b class='flag-5'>芯片</b>的技术壁垒

    一体芯片新突破!清华大学研制出首颗一体芯片

    集成电路学院教授吴华强副教授高滨团队基于一体计算范式研制出的全球首颗全系统集成支持高效片上学习(机器学习能在硬件端直接完成)的忆阻器
    的头像 发表于 10-11 14:39 ?1469次阅读

    一体架构创新助力国产大力AI芯片腾飞

    在湾芯展SEMiBAY2024《AI芯片高性能计算(HPC)应用论坛》上,亿铸科技高级副总裁徐芳发表了题为《一体架构创新助力国产大
    的头像 发表于 10-23 14:48 ?917次阅读