0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

新思科技如何破解边缘AI部署难题

新思科技 ? 来源:新思科技 ? 2025-08-21 16:40 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

神经处理单元(NPU)是一种专为人工智能AI神经网络深度学习任务设计的专用处理器,随着技术从卷积神经网络(CNN)演进至Transformer模型,再到如今的生成式人工智能(GenAI)模型,NPU也需要随之演进。GenAI(尤其是大语言模型LLM)的参数量与日俱增,对带宽的需求更是永无止境,正促使嵌入式AI硬件中所用的数据格式发生转变,包括向低精度和浮点格式发展的趋势,例如新兴的OCP微缩放(MX)数据类型。

卷积神经网络及后续演进

早在2012年,卷积神经网络(CNN)便已超越数字信号处理解决方案,成为图像特征分析、目标检测等视觉处理任务的默认标准。CNN算法的训练与推理最初采用32位浮点(FP32)数据类型,但没过多久,推理引擎就找到了优化CNN引擎功耗与面积的方法,对于面向边缘设备的应用而言尤为重要。在精度损失极小的前提下,8位整数(INT8)成为高吞吐量应用场景下CNN算法的标准格式。当时占据主导地位的AI框架TensorFlow为INT8提供了坚实可靠的支持,不过使用INT8数据类型需要进行训练后量化与校准。

2017年,Transformer神经网络问世(Google发表了《Attention Is All You Need》论文)。由于引入了注意力机制,相较于进行图像分类的CNN,Transformer对INT8量化更为敏感。16位浮点(FP16)和脑浮点(BF16)由此成为Transformer常用的替代数据类型。

Transformer开启了当前的GenAI模型时代,但GenAI模型的参数规模比CNN和许多视觉Transformer高出几个数量级。比如,典型的CNN算法可能需要2500万个参数,而ChatGPT则需要1750亿个参数。参数量的大幅增加导致NPU的计算需求与内存带宽需求之间出现失衡。正如图1所示,面向AI神经网络工作负载的GPU性能增长速度,远快于互连带宽能力的提升速度。

cb27aee0-7dae-11f0-a18e-92fbcf53809c.png

▲图1:AI性能(TOPS)的增长速度,超过了互连带宽(GB/s)的增长速度。

GPU通常用于AI训练和服务器工作负载,而NPU则是AI推理的首选AI处理器;在推理场景中,低功耗和小面积是核心诉求。随着NPU开始处理GenAI工作负载,其计算能力与接口带宽之间的不匹配问题愈发棘手。用于边缘设备的NPU通常配备LPDDR5内存接口,与服务器应用中常用的HBM接口相比,这种接口的带宽存在明显局限。

NPU可通过多种方式降低带宽需求:

NPU内置硬件与软件压缩机制,以此有效削减带宽消耗。

GenAI模型正逐步演进。例如,DeepSeek和Llama 4均采用了一种名为“专家混合”(MOE)的技术。这类模型的参数规模依然庞大,但MOE技术能让任意时刻加载的参数集更为精简,从而提升带宽效率。

降低GenAI模型参数的精度是减少带宽的常用策略。大多数NPU原本针对INT8数据和系数设计,但若参数能采用更低精度的格式(如INT4或FP4),数据便可实现压缩存储,带宽由此翻倍提升。更小的数据类型还能同时减少内存占用和数据加载延迟。

针对窄精度数据类型的新标准应运而生

2023年,OCP微缩放格式(MX)规范发布,其中引入了三种浮点格式和一种整数格式(MXFP8、NXFP6、MXFP4、MXINT8),MXFP8格式源自OCP 8位浮点规范(OFP8),详见图2。

在图2中,四种符合MX规范的数据类型均采用8位指数并在由32个数字组成的块中共享,既能减少内存占用,又能提升硬件性能与效率,进而降低开销和运营成本。MX数据类型的另一优势在于,在离线编译过程中,FP32或FP16的权重与激活值可“直接转换”(压缩/量化)为MX浮点格式。

cb4a2678-7dae-11f0-a18e-92fbcf53809c.png

▲图2:OCP MX规范v1.0中的微缩放(MX)数据类型。

GenAI模型之所以需要更小的数据类型,源于NPU架构的需求变化。由于窄位宽数据格式有助于降低GenAI模型的计算与存储成本,NPU必须支持这些新的格式。

图3展示了新思科技面向具备AI能力的SoC所提供的处理器IP产品。NPX6 NPU IP提供高效、可扩展的AI推理引擎;VPX DSP IP是一款超长指令字(VLIW)/单指令多数据(SIMD)处理器系列,适用于广泛多样的信号处理应用,除了能对神经网络模型进行预处理和后处理外,还可处理自定义神经网络层。

cb5ad5cc-7dae-11f0-a18e-92fbcf53809c.png

▲图3:NPX6 NPU IP和VPX DSP IP为神经网络处理、前瞻性适配及预处理/后处理提供集成解决方案。

新思科技的NPX IP和VPX IP系列现已新增AI数据压缩选项,与浮点单元(FPU)选项结合后,可为任何ARC NPX神经处理单元IP处理器或VPX数字信号处理器IP处理器增加对INT4、BF16、OCP-FP8及OCP-MX数据压缩的支持。新增的AI数据压缩选项完全符合OCP规范,包括《OCP 8位浮点规范(OFP8)》(1.0版,2023年6月20日批准)与《OCP微缩放格式(MX)规范》(1.0版,2023年9月)。

AI数据压缩选项可在DMA中快速执行数据格式转换:从系统内存移入内部存储器时对数据解压缩,从内部存储器移至系统内存时对数据压缩。以NPX6为例,MXFP6格式会转换为FP16格式以用于内部处理。内部计算采用FP16并不会限制整体性能,因为在NPX6 NPU IP上运行的LLM不受计算能力制约,瓶颈在于带宽。下方图4展示了增强型NPX6 NPU IP和VPX DSP IP所支持的数据类型,其中多项数据类型在DMA中得到支持。表格中还列出了每种数据类型所对应的内部数据路径。

cb709e70-7dae-11f0-a18e-92fbcf53809c.png

▲图4:增强型新思科技ARC NPX6 NPU IP和新思科技ARC VPX DSP IP系列所支持的数据类型。

由于VPX与NPX支持相同的数据类型,采用这些新格式在处理器之间传输参数或激活值时,操作简便易行。将这些数据类型集成到DMA中,有助于减少带宽占用和内存开销。在DMA中支持多种数据类型的另一优势在于,处理器IP能够直接与转换器连接。例如,10位模数转换器可连接至NPX或VPX,硬件会自动将其映射为内部数据类型,省去了软件转换的步骤。

结语

GenAI模型在不断演进的过程中,所遵循的发展轨迹很可能与CNN模型类似。在达到令人满意的精度与效率水平之前,模型的参数规模会持续激增;而后,研究重心将转向优化环节,使模型更适配边缘设备应用。目前,增强型新思科技ARC NPX6 NPU IP和新思科技ARC VPX DSP IP已正式推出,可供关注AI(包括GenAI)能力的SoC开发者选用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4815

    浏览量

    104575
  • AI
    AI
    +关注

    关注

    88

    文章

    35902

    浏览量

    282958
  • 新思科技
    +关注

    关注

    5

    文章

    883

    浏览量

    51838

原文标题:4bit破解边缘AI部署难题!新思科技赋能“大模型”跑进“小设备”

文章出处:【微信号:Synopsys_CN,微信公众号:新思科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    边缘AI应用越来越普遍,AI模型在边缘端如何部署

    电子发烧友网报道(文/李弯弯)在人工智能时代,越来越多的AI应用需要从云端扩展到边缘端,比如智能耳机、智能摄像机、智能手环、物流机器人等,在边缘部署
    的头像 发表于 07-04 00:11 ?3670次阅读
    <b class='flag-5'>边缘</b><b class='flag-5'>AI</b>应用越来越普遍,<b class='flag-5'>AI</b>模型在<b class='flag-5'>边缘</b>端如何<b class='flag-5'>部署</b>?

    英特尔发布全新边缘计算平台,解决AI边缘落地难题

    电子发烧友网报道(文/李弯弯)AI越来越多地在边缘部署。Gartner最新预测数据显示,到2025年,50%以上的企业管理数据将在数据中心或云之外创建和处理。随着AI为自动化带来更多
    的头像 发表于 03-12 09:06 ?4970次阅读
    英特尔发布全新<b class='flag-5'>边缘</b>计算平台,解决<b class='flag-5'>AI</b><b class='flag-5'>边缘</b>落地<b class='flag-5'>难题</b>

    边缘AI实现的核心环节:硬件选择和模型部署

    电子发烧友网综合报道 边缘AI的实现原理是将人工智能算法和模型部署到靠近数据源的边缘设备上,使这些设备能够在本地进行数据处理、分析和决策,而无需将数据传输到远程的云端服务器。
    发表于 05-26 07:09 ?1024次阅读

    Deepseek海思SD3403边缘计算AI产品系统

    海思SD3403边缘计算AI框架,提供了一套开放式AI训练产品工具包,解决客户低成本AI系统,针对差异化AI 应用场景,自己采集样本数据,进
    发表于 04-28 11:05

    STM32F769是否可以部署边缘AI

    STM32F769是否可以部署边缘AI
    发表于 06-17 06:44

    EdgeBoard FZ5 边缘AI计算盒及计算卡

    ` 随着应用场景的多样化,利用人工智能技术在边缘部署一系列创新应用解决方案,对企业传统的业务形态进行升级,加速业务增长,增强竞争优势,起着至关重要的作用。 在市场需求和产业趋势的推动下,米尔
    发表于 08-31 14:12

    网络边缘实施AI的原因

    AI推向边缘的影响通过在边缘运行ML模型可以使哪些具体的AI项目更容易运行?
    发表于 02-23 06:21

    嵌入式边缘AI应用开发指南

    部署到TI硬件上。然而,将深度学习模型部署到硬件加速器上只是难题的冰山一角。为帮助您快速构建高效的边缘AI应用,TI采用了GStreamer
    发表于 11-03 06:53

    思科技发布业界首款全栈式AI驱动型EDA解决方案Synopsys.ai

    )、IBM、联发科(MediaTek)和瑞萨电子(Renesas)均对新思科技的AI驱动型EDA设计策略表示支持,并已利用Synopsys.ai解决方案取得显著成果:瑞萨电子在减少功能覆盖盲区方面实现
    发表于 04-03 16:03

    如何通过Astraea一键化部署边缘AI服务?

    前言 为什么说边缘计算带来了数据、计算的根本变化? 边缘AI边缘计算最重要的应用之一,它的挑战是什么? 一个用于边缘计算场景的新型
    的头像 发表于 11-03 11:26 ?2863次阅读

    思科技宣布与SiMa.ai开展合作

    思科技(Synopsys)近日宣布与SiMa.ai开展合作,将其机器学习推理技术大规模引入嵌入式边缘设备。此次合作,SiMa.ai将采用新思科
    的头像 发表于 11-27 14:41 ?2176次阅读

    边缘计算前景很美,安全难题如何破解

    在大规模商用以及快速发展的AI芯片技术双重加持下,边缘计算在未来十年将迎来爆炸性增长。根据Grand View Research的数据,2019年边缘计算所带来的市场价值约为25亿美元。到2027年
    发表于 01-27 09:40 ?7次下载
    <b class='flag-5'>边缘</b>计算前景很美,安全<b class='flag-5'>难题</b>如何<b class='flag-5'>破解</b>?

    AI边缘计算是什么意思?边缘ai是什么?AI边缘计算应用

    AI边缘计算是什么意思?边缘ai是什么?AI边缘计算应用? 随着人工智能技术的不断发展,
    的头像 发表于 08-24 15:18 ?2973次阅读

    中兴通讯AiCube:破解AI模型部署难题

    ,成为制约技术价值释放的新痛点。 异构算力适配困难、算力资源利用率低以及数据安全风险高等问题,让许多企业在AI技术的实际应用中遇到了瓶颈。这些问题不仅增加了部署的难度,还可能导致资源的浪费和潜在的安全威胁。 为了破解这一
    的头像 发表于 02-13 09:11 ?679次阅读

    边缘AI实现的核心环节:硬件选择和模型部署

    边缘AI的实现原理是将人工智能算法和模型部署到靠近数据源的边缘设备上,使这些设备能够在本地进行数据处理、分析和决策,而无需将数据传输到远程的云端服务器。
    的头像 发表于 06-19 12:19 ?634次阅读
    <b class='flag-5'>边缘</b><b class='flag-5'>AI</b>实现的核心环节:硬件选择和模型<b class='flag-5'>部署</b>