0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于人工智能处理器的11个误解

颖脉Imgtec ? 2025-08-07 13:21 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文转自:TechSugar

编译自Electronic Design


人工智能浪潮已然席卷全球,将人工智能加速器和处理器整合到各类应用中也变得愈发普遍。然而,围绕它们是什么、如何运作、能如何增强应用,以及哪些是真实情况而哪些只是炒作,仍存在诸多误解。


GPU是最佳的人工智能处理器

尽管GPU在人工智能的实现过程中发挥了关键作用,而且如今它们的应用也极为广泛,但将其推崇为“最佳”人工智能处理器,未免过于简化了人工智能硬件不断演变的格局。

GPU非常适合用于大规模模型训练,在这类场景中,需要巨大的吞吐量——包括大容量内存和高精度——来精准处理海量数据集。而像它具有的处理时间长(可能长达数月)、处理效率低(通常仅为个位数)、能耗大(对冷却构成限制),以及延迟较高等缺点,则成了次要问题。

随着该领域的不断成熟,“最佳”的定义越来越取决于应用的使用模式和需求。GPU曾经是合适的答案,但如今已不再是唯一的答案。


人工智能处理器在训练和推理方面表现同样出色

人们通常认为,任何为人工智能优化的处理器都能无缝兼顾训练和推理工作。但实际情况是,训练和推理在计算、效率、内存、延迟、功耗和精度方面有着截然不同的要求。

一款处理器在某一方面表现出色,并不意味着它在另一方面也能有优异表现。这两个部署阶段各自有着不同的计算目标和硬件需求。训练注重的是以高精度和大规模进行学习;而推理则强调速度、效率和响应能力。

若认为一款芯片能在这两方面都表现出色,会导致性能不佳、效率低下,还会错失优化机会。最佳的系统会将两者区分开来,并分别进行优化。


人工智能处理器仅在数据中心有用武之地

在人工智能部署的早期阶段,由于模型规模需要巨大的吞吐量,只有云数据中心具备训练和运行深度学习模型的计算基础设施。

而在如今的格局下,随着推理的普及,人工智能处理器正越来越多地部署在数据中心之外的环境中,从边缘设备、移动电话到汽车和工业系统等,都能看到它们的身影。

如今,人工智能处理器已集成于我们身边的各种设备中,在最需要的地方实现更智能的交互、自主决策和实时处理。从云端到边缘,人工智能无处不在,因为这些地方需要智能。


所有人工智能处理器都可用于通用应用

人工智能处理器是专为特定的人工智能任务而设计的,比如优化矩阵/张量运算等。相比之下,通用计算,如运行网页浏览器、管理操作系统或执行文件压缩等,需要复杂的控制流、分支等功能。

一般来说,人工智能处理器架构并未实现完整的通用指令集架构(ISA),甚至也没有实现精简指令集架构(RISC)。没有丰富的指令集架构和强大的编译器支持,它们就无法高效处理非人工智能应用。人工智能处理器在其设计目标领域表现出色,但它们并不能普遍替代通用中央处理器(CPU)。若不认清这一点,可能会导致系统设计糟糕、投资浪费,以及在非人工智能应用中出现性能瓶颈。


TOPS数值越高,性能就越好

每秒万亿次运算(TOPS)常被用作人工智能处理器的营销指标,但它并不能反映其实际性能。虽然它能衡量人工智能芯片在理想条件下(例如所有计算单元能实现100%利用率)的理论峰值吞吐量,但对于在实际工作负载中该性能的利用效率却只字未提。通过使用低精度运算(例如用INT4或INT8代替FP16或FP32),每秒万亿次运算的数值可能会被夸大。

一款芯片可能拥有很高的TOPS数值,但如果数据无法快速到达计算单元,那么其潜在的运算能力就会被浪费。此外,一种架构可能具备巨大的计算潜力,但如果软件生态系统不成熟或调优不佳,其性能也会大打折扣。

最后,不同的人工智能任务需要不同的特性。视觉模型可能受益于高度并行性(这正是TOPS所衡量的方面),但生成式Transformer需要高内存吞吐量、缓存一致性和数据重用能力,而非原始的TOPS数值。

TOPS只是理论上的上限,并非性能的保证。这就好比仅通过最高时速来评判一辆汽车,却不考虑路况、燃油效率或操控性。真正的人工智能性能取决于架构的平衡性、软件栈、数据移动效率和模型兼容性,而不仅仅是原始的计算数值。


芯片越大、核心越多,性能就一定越好

乍一看,芯片越大、处理核心越多,似乎性能就应该越好。但实际上,增加芯片面积和核心数量会带来显著的边际效益递减,在很多情况下,甚至会降低性能、效率或可用性。

人工智能工作负载的性能并不总是随核心数量呈线性增长。更大的芯片需要更多的内存带宽来为其计算单元提供数据,还需要更长的线路和更复杂的互连结构。这会导致布线拥堵和能耗增加。

性能并不会随芯片尺寸或核心数量呈线性增长。更大的芯片会带来工程、架构和经济方面的权衡,这些权衡可能会抵消其理论上的优势。

在人工智能硬件领域,效率、数据移动、软件优化和任务适配往往比单纯的芯片尺寸更能决定性能。最佳的芯片并非是最大的,而是最能平衡适配工作需求的。


32位浮点(FP32)是人工智能计算的黄金标准

在深度学习训练和推理的早期,32位浮点(FP32)是默认格式。随着人工智能技术的发展,人工智能工作负载已不再采用32位浮点,转而使用精度更低的格式,如16位浮点(FP16)、16位整数(INT16)或8位整数(INT8)。

认为32位浮点仍是黄金标准的观点,忽视了使用低精度替代格式在效率、性能和准确性方面的巨大提升。事实上,通过量化感知训练和混合精度训练等技术,低精度格式能够达到甚至超过32位浮点的精度。模型使用16位浮点或8位浮点通常能保持几乎相同的精度。

因此,32位浮点已不再是黄金标准。如今的趋势正从整数格式转向浮点格式,有些人甚至主张使用4位浮点(FP4)。

人工智能计算依赖于精度优化,而非最大的位宽。最佳的性能和效率来自于为特定任务选择合适的精度,而非使用可用的最高精度格式。


稀疏模式处理优先于密集模式处理

与密集计算相比,稀疏计算似乎具有优势。它通过避免处理张量(权重、激活值甚至数据)中的零值元素,来减少计算量、内存占用和功耗,并在不牺牲模型精度的情况下提高效率。

但事实是,稀疏模式在很大程度上取决于模型结构、数据模式和硬件能力。但稀疏性也并非是放之四海而皆准的优化方式,也不能普遍优于密集计算。简单地说,它是一种有条件的优化。

在许多情况下,密集模式仍是默认选择,因为它具备成熟、可预测且兼容性广泛等优点。稀疏性是一种强大的工具,但只有在合适的环境中并获得适当支持时才能发挥作用。


高效的标量计算是人工智能处理所需的全部

标量计算指的是一次对单个数据元素执行一个操作,它在控制逻辑和编排方面发挥着重要作用。然而,对于现代人工智能工作负载的性能和效率需求,标量计算远远无法满足。

虽然标量计算是必要的,但对于人工智能处理来说并不足够。人工智能的需求需要并行、向量化和矩阵加速计算,而这些最好由为大规模、并发工作负载设计的定制硬件来处理。


仅通过先进的芯粒架构就能实现处理效率

基于芯粒的设计具有多项优势。其中包括,由于更小的芯片更容易制造,因此能提高良率并降低成本;通过实现中央处理器、图形处理器和加速器等功能的混合搭配,可实现模块化的可扩展性;还能在整个组件中更高效地分布热量和电力。这些累积的优势常常让人觉得,效率(尤其是每瓦性能)是其自带的优势。

尽管芯粒技术是实现可扩展性和集成的有效工具,但真正的处理效率需要为人工智能工作负载量身打造全新的软硬件架构。这一架构蓝图应该包括创新的内存架构以克服内存墙问题、为人工智能应用的算法需求量身定制的可动态重配置计算核心,以及旨在简化软件栈的整体设计。

若不具备上述这些要素,仅靠芯粒无法实现预期的收益。


CUDA是人工智能处理器的基准软件

尽管英伟达的CUDA已成为人工智能开发的主流标准,但它并非通用基准。如果有人认为CUDA是所有人工智能处理器的基准或必需接口的观点,那就忽视了如今不断涌现的多样化硬件架构和软件生态系统。

CUDA是一家供应商生态系统中的主流工具。更广泛的人工智能行业正朝着开放、灵活且独立于硬件的软件框架发展。CUDA仍然很重要,但其主导地位正日益受到对可移植性、互操作性和硬件选择自由的需求的挑战。人工智能的未来并不局限于一种软件开发工具包(SDK),而是多语言、开源且具有平台感知能力的。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    19944

    浏览量

    237088
  • AI
    AI
    +关注

    关注

    88

    文章

    35616

    浏览量

    281951
  • 人工智能
    +关注

    关注

    1810

    文章

    49188

    浏览量

    251153
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器

    和生态体系带到使用者身边 ,让我们在技术学习和使用上不再受制于人。 三、多模态实验,解锁AI全流程 它嵌入了2D视觉、深度视觉、机械手臂、语音识别、嵌入式传感等多种类AI模块,涵盖人工智能领域主要
    发表于 08-07 14:30

    挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    和生态体系带到使用者身边 ,让我们在技术学习和使用上不再受制于人。 三、多模态实验,解锁AI全流程 它嵌入了2D视觉、深度视觉、机械手臂、语音识别、嵌入式传感等多种类AI模块,涵盖人工智能领域主要
    发表于 08-07 14:23

    开售RK3576 高性能人工智能主板

    ZYSJ-2476B 高性能智能主板,采用瑞芯微 RK3576 高性能 AI 处理器、神经网络处理器 NPU, Android 14.0/debian11/ubuntu20.04 操
    发表于 04-23 10:55

    支持实时物体识别的视觉人工智能处理器RZ/V2MA数据手册

    DRP-AI 采用了一种由动态可重构处理器(DRP)和 AI-MAC组成的人工智能加速,该加速可加速人工智能推理,实现高速的
    的头像 发表于 03-18 18:12 ?522次阅读
    支持实时物体识别的视觉<b class='flag-5'>人工智能</b>微<b class='flag-5'>处理器</b>RZ/V2MA数据手册

    基于嵌入式人工智能的高速图像处理的微处理器RZ/A2M数据手册

    和特征提取,与ARM?Cortex?A9 CPU紧密结合,用于人工智能推理。 *附件:基于嵌入式人工智能的高速图像处理的微处理器RZA2M数据手册.pdf 特性 中央
    的头像 发表于 03-11 15:54 ?564次阅读
    基于嵌入式<b class='flag-5'>人工智能</b>的高速图像<b class='flag-5'>处理</b>的微<b class='flag-5'>处理器</b>RZ/A2M数据手册

    人工智能推理及神经处理的未来

    人工智能行业所围绕的是一受技术进步、社会需求和监管政策影响的动态环境。机器学习、自然语言处理和计算机视觉方面的技术进步,加速了人工智能的发展和应用。包括医疗保健、金融和制造业在内的各
    的头像 发表于 12-23 11:18 ?630次阅读
    <b class='flag-5'>人工智能</b>推理及神经<b class='flag-5'>处理</b>的未来

    嵌入式和人工智能究竟是什么关系?

    领域,如工业控制、智能家居、医疗设备等。 人工智能是计算机科学的一分支,它研究如何使计算机具备像人类一样思考、学习、推理和决策的能力。人工智能的发展历程可以追溯到上世纪50年代,经
    发表于 11-14 16:39

    《AI for Science:人工智能驱动科学创新》第6章人AI与能源科学读后感

    幸得一好书,特此来分享。感谢平台,感谢作者。受益匪浅。 在阅读《AI for Science:人工智能驱动科学创新》的第6章后,我深刻感受到人工智能在能源科学领域中的巨大潜力和广泛应用。这一章详细
    发表于 10-14 09:27

    AI for Science:人工智能驱动科学创新》第4章-AI与生命科学读后感

    很幸运社区给我一阅读此书的机会,感谢平台。 《AI for Science:人工智能驱动科学创新》第4章关于AI与生命科学的部分,为我们揭示了人工智能技术在生命科学领域中的广泛应用和
    发表于 10-14 09:21

    《AI for Science:人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

    人工智能:科学研究的加速 第一章清晰地阐述了人工智能作为科学研究工具的强大功能。通过机器学习、深度学习等先进技术,AI能够处理和分析海量数据,发现传统方法难以捕捉的模式和规律。这不
    发表于 10-14 09:12

    risc-v在人工智能图像处理应用前景分析

    长时间运行或电池供电的设备尤为重要。 高性能 : 尽管RISC-V架构以低功耗著称,但其高性能也不容忽视。通过优化指令集和处理器设计,RISC-V可以在处理复杂的人工智能图像处理任务
    发表于 09-28 11:00

    人工智能ai4s试读申请

    目前人工智能在绘画对话等大模型领域应用广阔,ai4s也是方兴未艾。但是如何有效利用ai4s工具助力科研是需要研究的课题,本书对ai4s基本原理和原则,方法进行描诉,有利于总结经验,拟按照要求准备相关体会材料。看能否有助于入门和提高ss
    发表于 09-09 15:36

    名单公布!【书籍评测活动NO.44】AI for Science:人工智能驱动科学创新

    芯片设计的自动化水平、优化半导体制造和封测的工艺和水平、寻找新一代半导体材料等方面提供帮助。 第6章介绍了人工智能在化石能源科学研究、可再生能源科学研究、能源转型三方面的落地应用。 第7章从环境监测
    发表于 09-09 13:54

    报名开启!深圳(国际)通用人工智能大会将启幕,国内外大咖齐聚话AI

    8月28日至30日,2024深圳(国际)通用人工智能大会暨深圳(国际)通用人工智能产业博览会将在深圳国际会展中心(宝安)举办。大会以“魅力AI·无限未来”为主题,致力于打造全球通用人工智能领域集产品
    发表于 08-22 15:00

    处理器人工智能方面的应用

    处理器人工智能(AI)方面的应用日益广泛且深入,成为了推动AI技术发展的重要力量。本文将从微处理器在AI中的核心作用、具体应用案例、技术挑战与解决方案、以及未来发展趋势等多个方面进行探讨,旨在全面展现微
    的头像 发表于 08-22 14:21 ?1663次阅读