0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

低功耗下,高能效AI加速器如何设计?

新思科技 ? 来源:新思科技 ? 2023-10-26 09:18 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

如果在数据中心和边缘设备中部署上人工智能AI)加速器,那么它们将能够快速处理PB级的数据量,还能帮助克服传统的冯·诺依曼瓶颈。在Chat GPT、高级驾驶辅助系统(ADAS)、摄像头和传感器等智能边缘设备中,我们都能看到AI加速器的身影。

半导体领域,实现出色的性能功耗比永远都是首要目标。AI加速器的能效比通用系统的能效通常会高出100倍甚至1000倍,但生成出色AI模型所需的算力资源每3.4个月就会翻一番。AI产生的能耗不容小觑,以GPT3为例,仅训练这一个深度学习模型所产生的二氧化碳就高达500吨,相当于一辆普通燃油车行驶100多万英里。

降低能耗不仅能够尽量减少对环境的影响,还能降低运营成本,并在有限的功耗预算内尽可能地提高性能,缓解热挑战。

本文将进一步讨论开发者们如何利用端到端功耗分析解决方案,打造新一代更高效节能的AI加速器。

为十亿门级以上设计优化功耗

AI加速器的端到端节能方法必须从设计流程的初始阶段开始,涵盖架构和微架构层面,并一直延续到签核阶段。因此,AI芯片开发者需要利用架构探索平台,对具体训练或推理应用的功耗、性能和面积(PPA)进行权衡分析和评估,并主动识别后续分析的关键矢量。

由于AI硬件通常包括多个由数千个处理单元组成的大型阵列,因此十亿门级以上设计需要进行多域软硬件功耗验证,尽可能降低能耗和漏电。然而,要想分析关键功耗模块和时间窗口,需要先进的硬件加速系统,以便运行数十亿个循环并快速精确地实现多次迭代。只有在完成这一步后,寄存器传输级(RTL)功耗分析和物理实现工具才能有效地优化动态(晶体管门开关)功耗和静态(漏电)功耗。

为了始终提供准确的结果,用于AI芯片设计的RTL功耗分析工具应具备以下功能:

时序驱动型快速综合:内部功耗计算错误通常是基于扇出的快速综合工具未能根据时序约束正确地确定单元大小。同后续的布局布线工具相同,RTL功耗分析工具中嵌入的快速综合功能必须由时序驱动。

物理感知型快速综合:RTL功耗分析工具应该具备“物理感知”能力,能够通过完成一次设计单元摆放以及全局布线就可以获得准确的连线电容值。与基于扇出的方法不同,基于物理感知的电容估算能够为每条连线提供唯一的准确值。

签核质量的功耗计算引擎:传统的RTL功耗分析工具使用word-level逻辑推理进行快速综合,这种方法只能采用启发式算法来计算毛刺功耗,因此并不准确。要准确计算毛刺功耗(可能高达芯片总功耗的40%)并减少高度重复的处理单元,RTL功耗分析工具必须具备签核质量功耗分析引擎、网表级设计表示并集成时序计算引擎。

在完成RTL功耗分析和优化后,便可使用物理实现(综合和布局布线)工具来进一步优化PPA。为确保可靠性、可扩展性以及良好的用户体验,这些实现工具应包含统一的集成式数据模型架构、交错式引擎和统一的命令界面。同样重要的是,实现工具应能对先进节点效应和毛刺功耗进行精确建模,从而加速工程变更命令(ECO)和最终设计收敛。

出色的能效与性能

新思科技提供全面的端到端功耗解决方案,帮助AI芯片开发者以经济高效的方式达成或超越充满挑战性的性能和能效目标,同时缩短产品上市时间。新思科技的Platform Architect用于设计流程的初始阶段,能够为AI芯片开发者提供SystemC事务级建模(TLM)工具和高效方法,帮助开发者快速地对复杂的芯片架构进行建模、分析和优化。新思科技ZeBu Empower是一款快速的功耗分析工具,用于AI芯片设计流程的下一阶段:基于数亿个循环来分析和调试软件实际工作负载下的能耗。

许多业内领先的半导体公司借助新思科技ZeBu Empower大幅降低了功耗,其中包括美国硅谷的AI芯片初创公司SiMa.ai,该公司致力于为智能边缘设计高性能、低能耗的AI芯片。具体而言,该公司的SiMa.ai低功耗MLSoC实现了每瓦特帧率(FPS)提升2.5倍的成果。在2023年硅谷SNUG大会上,SiMa.ai公司的芯片开发总监Sounil Biswas指出,流片后验证结果表明,新思科技ZeBu Empower给出的数据与电路板的测量结果之间具有出色的相关性。

为了补充ZeBu Empower并助力实现低功耗RTL设计,新思科技提供了PrimePower RTL,这是一款RTL功耗分析与优化工具,通过将时序驱动型综合、物理感知型综合与集成式计算引擎相结合,可以持续获得准确的结果(与布线后实现的结果相比误差在+/- 15%以内)。新思科技PrimePower RTL还提供分步指导,帮助AI芯片开发者进一步减少毛刺并降低总功耗。

新思科技的Fusion Compiler是一款综合的集成式RTL-to-GDSII实现系统,可帮助实现进一步的PPA优化。在这之后,可以使用新思科技的黄金功耗签核解决方案PrimePower对AI设计进行分析。新思科技的PrimePower通过了全球多家领先代工厂的认证,3nm工艺能够在签核时实现高精度,同SPICE的芯片测量的误差极小。

为边缘AI推理设计差异化芯片

AI加速器使许多热门应用能够在几毫秒内快速分析海量信息并准确推断结果。与此同时,实现出色的性能功耗比依然是芯片开发者的首要目标。这一点在边缘领域尤为明显,在该领域,为了缩小芯片尺寸并尽可能地降低功耗,性能通常会受到限制。

然而,这些限制也为半导体公司创造了新的机遇,让半导体公司可以通过精确校准PPA来满足低延迟、高带宽应用的特定要求,从而设计出差异化芯片。例如,自主导航应用要求计算响应延迟时间限制在20μs以内,而语音和视频助手则要求能够在10μs之内理解语音关键词,并在几百毫秒内理解手势含义。要想成功实现PPA权衡,芯片开发者应该采用整体性方法,利用端到端解决方案,从早期架构探索到最后的黄金功耗签核,持续优化功耗。








审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 加速器
    +关注

    关注

    2

    文章

    828

    浏览量

    39201
  • 晶体管
    +关注

    关注

    77

    文章

    10029

    浏览量

    142210
  • 人工智能
    +关注

    关注

    1809

    文章

    49160

    浏览量

    250690
  • RTL
    RTL
    +关注

    关注

    1

    文章

    390

    浏览量

    61271
  • AI芯片
    +关注

    关注

    17

    文章

    1990

    浏览量

    35994

原文标题:边缘端也要跑大模型:低功耗下,高能效AI加速器如何设计?

文章出处:【微信号:Synopsys_CN,微信公众号:新思科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    粒子加速器?——?科技前沿的核心装置

    粒子加速器全称“荷电粒子加速器”,是一种利用电磁场在高真空环境中对带电粒子(如电子、质子、离子)进行加速和控制,使其获得高能量的特种装置。粒子加速器
    的头像 发表于 06-19 12:05 ?821次阅读
    粒子<b class='flag-5'>加速器</b>?——?科技前沿的核心装置

    Analog Devices / Maxim Integrated MAX78002人工智能微控制数据手册

    Analog Devices MAX78002人工智能微控制是支持神经网络的AI微控制。Analog Devices MAX78002可在超低功耗
    的头像 发表于 06-18 15:19 ?291次阅读

    比达2TOPS/W!解密边缘AI芯片低功耗设计之法

    、部署成本及用户体验。 ? 为什么边缘AI 芯片需要低功耗设计? ? 从应用场景层面来看,首先是设备供电受限,如智能手表、无线传感、可穿戴设备等依赖电池供电,低功耗设计直接决定续航时
    的头像 发表于 05-17 00:07 ?2912次阅读

    MAX78000采用超低功耗卷积神经网络加速度计的人工智能微控制技术手册

    人工智能(AI)需要超强的计算能力,而Maxim则大大降低了AI计算所需的功耗。MAX78000是一款新型的AI微控制,使神经网络能够在互
    的头像 发表于 05-08 11:42 ?352次阅读
    MAX78000采用超<b class='flag-5'>低功耗</b>卷积神经网络<b class='flag-5'>加速</b>度计的人工智能微控制<b class='flag-5'>器</b>技术手册

    MAX78002带有低功耗卷积神经网络加速器的人工智能微控制技术手册

    人工智能(AI)需要超强的计算能力,而Maxim则大大降低了AI计算所需的功耗。MAX78002是一款新型的AI微控制,使神经网络能够在互
    的头像 发表于 05-08 10:16 ?263次阅读
    MAX78002带有<b class='flag-5'>低功耗</b>卷积神经网络<b class='flag-5'>加速器</b>的人工智能微控制<b class='flag-5'>器</b>技术手册

    嵌入式AI加速器DRP-AI 详细介绍

    的嵌入式设备。此外,人工智能正在不断发展,新的算法不时被开发出来。 在人工智能快速发展的过程中,瑞萨开发了人工智能加速器(DRP-AI)和软件(DRP-AI翻译),既提供高性能又提供
    的头像 发表于 03-15 16:13 ?1072次阅读
    嵌入式<b class='flag-5'>AI</b><b class='flag-5'>加速器</b>DRP-<b class='flag-5'>AI</b> 详细介绍

    Arm 推出 Armv9 边缘 AI 计算平台,以超高能与先进 AI 能力赋能物联网革新

    架构的超高能 CPU——Arm Cortex-A320 以及对 Transformer 网络具有原生支持的 Ethos-U85 AI 加速器为核心的边缘
    的头像 发表于 03-06 11:43 ?1368次阅读
    Arm 推出 Armv9 边缘 <b class='flag-5'>AI</b> 计算平台,以超<b class='flag-5'>高能</b><b class='flag-5'>效</b>与先进 <b class='flag-5'>AI</b> 能力赋能物联网革新

    当我问DeepSeek AI爆发时代的FPGA是否重要?答案是......

    ,这为AI的持续创新提供了有力支持。 6.数据中心与云计算加速 ? 在云计算和数据中心中,FPGA被用作AI计算加速器,尤其是针对深度学习工作负载。例如,微软在其数据中心中使用FPGA
    发表于 02-19 13:55

    ADI 新型AI微控制 # MAX78000 数据手册和芯片介绍

    MAX78000是一款新型的AI微控制,使神经网络能够在互联网边缘端以超低功耗运行,将高能AI
    的头像 发表于 02-08 16:50 ?1012次阅读
    ADI 新型<b class='flag-5'>AI</b>微控制<b class='flag-5'>器</b> # MAX78000 数据手册和芯片介绍

    从版本控制到全流程支持:揭秘Helix Core如何成为您的创意加速器

    加速器
    龙智DevSecOps
    发布于 :2024年11月26日 13:42:47

    IBM与AMD携手部署MI300X加速器,强化AI与HPC能力

    举措预计将于2025年上半年正式推出。 此次合作的核心目标是提升通用人工智能(AI)模型的性能与能,并为企业客户提供高性能计算(HPC)应用的强大支持。AMD的Instinct MI300X加速器凭借其
    的头像 发表于 11-21 11:07 ?823次阅读

    IBM将在云平台部署AMD加速器

    IBM与AMD近期宣布了一项重要合作协议,根据协议,IBM将在其云平台上部署AMD Instinct MI300X加速器。这一举措旨在提升企业客户在生成式AI模型方面的性能和能,进一步推动A
    的头像 发表于 11-19 16:24 ?633次阅读

    联发科天玑9400发布:能比与端侧AI引领移动芯片行业革新

    AI大模型的推动,智能手机市场的高端化进程进一步加速,旗舰机型的竞争已不再单纯依赖于“大力飞砖”式的极限性能比拼,而是更加注重综合素质的提升。特别是在手机芯片领域,高性能与低功耗
    的头像 发表于 10-12 15:56 ?1200次阅读

    瑞萨电子推出新一代高能AI加速器DRP-AI3

    必须兼顾高效能与低能耗,确保在执行复杂计算任务的同时,保持低功耗并有效控制发热,以保障设备的稳定运行,延长设备使用寿命。
    的头像 发表于 10-11 11:47 ?818次阅读

    栅极驱动芯片选型低功耗原因

    ,减少能源浪费,并降低设备的运行成本。 2. 提升能 栅极驱动芯片作为功率转换和驱动控制的关键元件,其功耗直接影响整个系统的能。选择低功耗的栅极驱动芯片,可以在保证系统性能的同时,
    的头像 发表于 09-18 09:20 ?957次阅读