0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

并行计算的崛起:为什么GPU将在边缘AI中取代NPU

颖脉Imgtec ? 2025-06-06 14:55 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

文章翻译自EEnews Europe


人工智能AI)不仅是一项技术突破,它更是软件编写、理解和执行方式的一次永久性变革。传统的软件开发基于确定性逻辑和大多是顺序执行的流程,而如今这一范式正在让位于概率模型、训练行为以及数据驱动的计算。这并不是一时的潮流。AI代表了计算机科学的一次根本性、不可逆的转变——从基于规则的编程,迈向自适应的、基于学习的系统,这些系统正逐步被集成到越来越广泛的计算问题与能力中。

这一转变也对硬件提出了相应的变革需求。在AI架构和算法不断演进(并将持续演进)的时代,为狭窄定义任务而打造的高度专用芯片的旧模式已不再适用。为了满足不断变化的AI需求(尤其是在边缘侧),我们需要具备与工作负载同样动态、适应能力强的计算平台。

这正是为什么通用并行处理器(即GPU)正在成为边缘AI的未来,并开始取代诸如神经网络处理器(NPU)这样的专用处理器。这不仅仅是性能的问题——更是关于灵活性、可扩展性,以及与未来软件发展方向保持一致的问题。


Makimoto波动理论与“灵活性”的回归

要理解这一转变,我们只需回顾“Makimoto波动理论”:这是由日本工程师牧本次雄(Tsugio Makimoto)提出的一个概念,描述了计算产业在不同阶段不断在“标准化”与“定制化”之间摆动的趋势,其背后是市场需求、技术创新和软件复杂性等因素的持续变化。

(Makimoto波动理论展现了计算产业在“灵活性”与“专用性”之间的历史摆动。而当前AI的发展轨迹,标志着计算正再次呈现出在“灵活性”和“通用平台”之间的摆动。)

这一模型与AI硬件的演变过程高度契合。在AI发展的早期阶段,工作负载较为明确且稳定,此时采用NPU等固定功能加速器是合理的。这类处理器对特定任务(例如使用CNN进行图像分类或目标检测)进行了深度优化。

但如今AI已进入高速演进阶段。我们已走出简单、静态模型的时代,迈入混合网络、Transformer架构、基础模型和持续创新的浪潮之中。为去年AI打造的定制硬件,根本无法跟上当今的发展节奏。

我们再次站在了“Makimoto拐点”上——从专用硬件,回归到可扩展、可适配的通用计算平台。


AI是一个并行计算问题,而非专用计算问题

AI的本质在于并行计算。深度学习严重依赖并发操作——矩阵运算、张量乘法、向量计算——这些正是GPU天生擅长的工作负载。能够同时渲染数百万像素的架构,如今正好可以处理数百万神经元的激活。

如今的通用GPU早已不仅仅用于图形处理。它们拥有可编程管线、计算着色器,以及日益增强的AI中心化设计,不仅能加速传统负载,也能支持新兴的AI工作负载,是边缘AI中强大而灵活的计算引擎。

相比之下,像NPU这样的专用处理器则难以应对持续的变革。它们对特定操作进行了优化,而当AI领域快速演进时,这些芯片便迅速被淘汰。显然,面对这种全新的软件范式,我们需要的是一种通用的、并行的、灵活的硬件平台—— GPU。


为什么通用平台在边缘侧更具优势

边缘AI不仅需要性能,更需要适应性、可重用性与较长的生命周期。现代GPU等通用并行处理器在这几个方面均具备明显优势:

灵活性:可编程,能够支持新的模型类型而无需更换硬件;

可扩展性:可适配从IoT传感器智能摄像头再到自动驾驶汽车等各种边缘设备;

软件生态成熟:拥有丰富的开源工具与开发标准(如OpenCL、LiteRT、TVM);

可持续性:延长产品生命周期,减少不断重新设计芯片的需求。

简而言之,GPU的通用并行计算从架构层面就为AI的持续演进而设计。


展望未来

尽管有越来越多的证据说明GPU具备的优势,市场仍然习惯将AI加速与NPU或定制芯片划等号。但正如图形行业早年发现,固定功能的图形管线无法跟上游戏创新的节奏,如今AI行业也发现:固定硬件无法匹配快速变化的软件需求。

是时候重新教育整个生态了。边缘AI的未来不属于那些高度优化但功能狭窄的芯片,而是属于可编程的、可适配的并行计算平台,它们能与智能软件共同成长并扩展。

几十年前,Makimoto就洞察了这一趋势。如今,我们正在亲身经历他的远见——顺应着通用性和灵活性的浪潮前行。GPU不再是追赶者,它已处于领先位置。

Dennis Laudick是Imagination Technologies的产品管理副总裁。在加入公司之前,Dennis曾在Arm任职超过13年,担任汽车、AI和GPU相关业务的产品与市场领导职务。在此之前,他还曾在多家半导体与OEM巨头企业担任高级管理岗位。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4968

    浏览量

    131675
  • 并行计算
    +关注

    关注

    0

    文章

    29

    浏览量

    9623
  • NPU
    NPU
    +关注

    关注

    2

    文章

    333

    浏览量

    19848
  • 边缘AI
    +关注

    关注

    0

    文章

    169

    浏览量

    5493
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    arm系统并行计算优化

    32位,这样可以一次性处理4个8为数据,不过gps处理需要对每个数据进行判断而导致无法使用neon。如何数据可以多位一起处理,或者说多层嵌套循环有提前跳出的条件存在,并行计算优化还是有希望。
    发表于 12-30 14:33

    什么是异构并行计算

    先了解什么是异构并行计算同构计算是使用相同类型指令集和体系架构的计算单元组成系统的计算方式。而异构计算主要是指使用不同类型指令集和体系架构的
    发表于 07-19 08:27

    请问openCL并行计算的程序能运行在RK3399Pro的NPU上吗

    请问openCL并行计算的程序能运行在RK3399Pro的NPU上吗? 有哪位大神可以解答一下吗
    发表于 08-19 16:49

    并行计算和嵌入式系统实践教程

    Linux微机应用十分普遍. 高性能并行计算机数量多. 并行计算,我国有自己的理论. 对并行计算的基本原理,算法,程序设计与实现,优化,成熟软件应用的推广不够. 制约并行计算在研究和工
    发表于 05-09 15:54 ?48次下载

    虚拟化环境下多GPU并行计算研究

    虚拟化环境下多GPU并行计算研究_闵芳
    发表于 01-03 15:24 ?0次下载

    基于GPU图像去噪总变分对偶模型的并行计算

    研究基于总变分( TV)的图像去噪问题,针对中央处理器(CPU)计算速度较慢的问题,提出了在图像处理器( GPU)上并行计算的方法。考虑总变分最小问题的对偶模型,建立原始变量与对偶变量的关系,采用
    发表于 12-18 17:09 ?1次下载

    基于Matlab和GPU的BESO方法的全流程并行计算策略

    了Matlab编程环境实现GPU并行计算的三种途径的优缺点和适用范围;其次,分别采用内置函数直接并行的方式实现了拓扑优化算法向量和稠密矩
    发表于 12-21 15:04 ?2次下载
    基于Matlab和<b class='flag-5'>GPU</b>的BESO方法的全流程<b class='flag-5'>并行计算</b>策略

    基于异构并行计算的两个子概念异构和并行的简单分析

    异构并行计算包含两个子概念:异构和并行。 1异构是指异构并行计算需要同时处理多个不同架构的计算平台的问题。 2并行是指异构
    的头像 发表于 01-25 16:37 ?6870次阅读
    基于异构<b class='flag-5'>并行计算</b>的两个子概念异构和<b class='flag-5'>并行</b>的简单分析

    并行计算的黄金时代到了?

    “未来几十年将进入并行计算黄金时代,并行计算软件和算法的开发将从技术驱动转向应用驱动,需要计算与应用等不同领域的专家共同合作开发。”中国工程院院士李国杰日前表示。
    的头像 发表于 04-03 17:18 ?2536次阅读

    浅析云计算并行计算

    并行计算可以划分成时间并行和空间并行。时间并行即流水线技术,空间并行使用多个处理器执行并发计算
    的头像 发表于 05-03 12:01 ?5013次阅读
    浅析云<b class='flag-5'>计算</b>和<b class='flag-5'>并行计算</b>

    NPU技术如何提升AI性能

    设计的处理器,与传统的CPU和GPU相比,它在执行深度学习任务时具有更高的效率和更低的能耗。NPU通过专门优化的硬件结构和指令集,能够更快地处理神经网络的大量并行计算任务。 1. 优
    的头像 发表于 11-15 09:11 ?1531次阅读

    NPU边缘计算的优势

    GPU相比,NPU在处理神经网络相关的计算任务时,能够提供更高的能效比和更快的处理速度。NPU通过优化数据流和计算结构,使得神经网络的前向
    的头像 发表于 11-15 09:13 ?1325次阅读

    xgboost的并行计算原理

    在大数据时代,机器学习算法需要处理的数据量日益增长。为了提高数据处理的效率,许多算法都开始支持并行计算。XGBoost作为一种高效的梯度提升树算法,其并行计算能力是其受欢迎的原因
    的头像 发表于 01-19 11:17 ?1058次阅读

    读懂极易并行计算:定义、挑战与解决方案

    GPU经常与人工智能同时提及,其中一个重要原因在于AI与3D图形处理本质上属于同一类问题——它们都适用极易并行计算。什么是极易并行计算?极易并行计算
    的头像 发表于 04-17 09:11 ?425次阅读
    读懂极易<b class='flag-5'>并行计算</b>:定义、挑战与解决方案

    边缘AI广泛应用推动并行计算崛起及创新GPU渗透率快速提升

    是时候重新教育整个生态了。边缘AI的未来不属于那些高度优化但功能狭窄的芯片,而是属于可编程的、可适配的并行计算平台,它们能与智能软件共同成长并扩展。
    的头像 发表于 06-11 14:57 ?288次阅读