0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

无缝替代GPU,让FPGA来加速你的AI推理

电子设计 ? 来源:电子设计 ? 作者:电子设计 ? 2020-10-30 12:17 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

如今,基于深度学习(DL)的人工智能AI)应用越来越广泛,不论是在与个人消费者相关的智能家居智能驾驶等领域,还是在视频监控、智慧城市等公共管理领域,我们都能看到其身影。

众所周知,实施一个完整的 AI 应用需要经历训练和推理两个过程。所谓“训练”,就是我们要将大量的数据代入到神经网络模型中运算并反复迭代,“教会”算法模型如何正确的工作,训练出一个 DL 模型。而接下来,我们就可以利用训练出来的模型来在线响应用户的需求,根据输入的新数据做出正确而及时的决策判断,这个过程就是“推理”。

通常来讲,一个 AI 应用中“训练”只需要做一次——有时这个工作会交给第三方专业的且有充沛算力资源的团队去做,而应用开发工程师要做的则是将训练好的模型部署到特定的硬件平台上,满足目标应用场景中推理过程的需要。由于推理过程会直接联系最终用户,推理的准确性和速度也会直接影响到用户体验的好坏,因此如何有效地为 AI 推理做加速,也就成了当下开发者普遍关心的一个热门的话题。


AI 推理加速,FPGA 胜出!

从硬件架构来看,可以支持 AI 推理加速的有四个可选方案,它们分别是:CPUGPU、FPGA 和 ASIC,如果对这几类器件的特性进行比较,会发现按照从左到右的顺序,器件的灵活性 / 适应性是递减的,而处理能力和性能功耗比则是递增的。

CPU 是基于冯?诺依曼架构,虽然其很灵活,但由于存储器访问往往要耗费几个时钟周期才能执行一个简单的任务,延迟会很长,应对神经网络(NN)这种计算密集型的任务,功耗也会比较大,显然最不适合做 AI 推理。

GPU 具有强大的数据并行处理能力,在做海量数据训练方面优势明显,而推理计算通常一次只对一个输入项进行处理的应用,GPU 并行计算的优势发挥不出来,再加上其功耗相对较大,所以在 AI 推理方面也不是最优选择。

从高性能和低功耗的角度来看,定制的 ASIC 似乎是一种理想的解决方案,但其开发周期长、费用高,对于总是处于快速演进和迭代中的 DL 和 NN 算法来说,灵活性严重受限,风险太大,在 AI 推理中人们通常不会考虑它。

所以我们的名单上只剩下 FPGA 了。这些年来大家对于 FPGA 快速、灵活和高效的优点认识越来越深入,硬件可编程的特性使其能够针对 DL 和 NN 处理的需要做针对性的优化,提供充足的算力,而同时又保持了足够的灵活性。今天基于 FPGA 的异构计算平台,除了可编程逻辑,还会集成多个 Arm 处理器内核、DSP、片上存储器等资源,DL 所需的处理能力可以很好地映射到这些 FPGA 资源上,而且所有这些资源都可以并行工作 ,即每个时钟周期可触发多达数百万个同时的操作,这对于 AI 推理是再合适不过了。

与 CPU 和 GPU 相比,FPGA 在 AI 推理应用方面的优势还表现在:

不受数据类型的限制,比如它可以处理非标准的低精度数据,从而提高数据处理的吞吐量。


功耗更低,针对相同的 NN 计算,FPGA 与 CPU/GPU 相比平均功耗低 5~10 倍。


可通过重新编程以适应不同任务的需要,这种灵活性对于适应持续发展中的 DL 和 NN 算法尤为关键。


应用范围广,从云端到边缘端的 AI 推理工作,都可胜任。

总之一句话,在 AI 推理计算的竞争中,FPGA 的胜出没有悬念。


GPU 无缝对接,FPGA 即插即用

不过,虽然 FPGA 看上去“真香”,但是很多 AI 应用的开发者还是对其“敬而远之”,究其原因最重要的一点就是——FPGA 上手使用太难了!

难点主要体现在两个方面:

首先,对 FPGA 进行编程需要特定的技能和知识,要熟悉专门的硬件编程语言,还要熟练使用 FPGA 的特定工具,才能通过综合、布局和布线等复杂的步骤来编译设计。这对于很多嵌入式工程师来说,完全是一套他们所不熟悉的“语言”。


再有,因为很多 DL 模型是在 GPU 等计算架构上训练出来的,这些训练好的模型移植、部署到 FPGA 上时,很可能会遇到需要重新训练和调整参数等问题,这要求开发者有专门的 AI 相关的知识和技能。

如何能够降低大家在 AI 推理中使用 FPGA 的门槛?在这方面,Mipsology 公司给我们带来了一个“惊喜”——该公司开发了一种基于 FPGA 的深度学习推理引擎 Zebra,可以让开发者在“零努力(Zero Effort)”的情况下,对 GPU 训练的模型代码进行转换,使其能够在 FPGA 上运行,而无需改写任何代码或者进行重新训练。

这也就意味着,调整 NN 参数甚至改变神经网络并不需要强制重新编译 FPGA,而这些重新编译工作可能需要花费数小时、数天,甚至更长时间。可以说,Zebra 让 FPGA 对于开发者成了“透明”的,他们可以在 NN 模型训练好之后,无缝地从 CPU 或 GPU 切换到 FPGA 进行推理,而无需花费更多的时间!

目前,Zebra 可以支持 Caffe、Caffe2、MXNet 和 TensorFlow 等主流 NN 框架。在硬件方面,Zebra 已经可以完美地支持 Xilinx 的系列加速卡,如 Alveo U200、Alveo U250 和 Alveo U50 等。对于开发者来说,“一旦将 FPGA 板插入 PC,只需一个 Linux 命令”,FPGA 就能够代替 CPU 或 GPU 立即进行无缝的推断,可以在更低的功耗下将计算速度提高一个数量级。对用户来说,这无疑是一种即插即用的体验。

强强联手,全生态支持

更好的消息是:为了能够加速更多 AI 应用的落地,安富利亚洲和 Mipsology 达成了合作协议,将向其亚太区客户推广和销售 Mipsology 这一独特的 FPGA 深度学习推理加速软件 —— Zebra。

这对于合作的双方无疑是一个双赢的局面:对于 Mipsology 来说,可以让 Zebra 这个创新的工具以更快的速度覆盖和惠及更多的开发者;对安富利来说,此举也进一步扩展了自身强大的物联网生态系统,为客户带来更大的价值,为希望部署 DL 的客户提供一整套全面的服务,包括硬件、软件、系统集成、应用开发、设计链和专业技术。

安富利推理加速成功应用案例:智能网络监控平台 AI Bluebox

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4980

    浏览量

    132116
  • AI
    AI
    +关注

    关注

    88

    文章

    35760

    浏览量

    282527
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI推理的存储,看好SRAM?

    看到了其前景并提前布局。AI推理也使得存储HBM不再是唯一热门,更多存储芯片与AI推理芯片结合,拥有了市场机会。 ? 已经有不少AI
    的头像 发表于 03-03 08:51 ?1835次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>的存储,看好SRAM?

    华为亮相2025金融AI推理应用落地与发展论坛

    创新技术——UCM推理记忆数据管理器,旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循
    的头像 发表于 08-15 09:45 ?174次阅读

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    模态的技术特性,DeepSeek正加速推动AI在金融、政务、科研及网络智能化等关键领域的深度应用。 信而泰:AI推理引擎赋能网络智能诊断新范式信而泰深度整合DeepSeek-R1大模型
    发表于 07-16 15:29

    智算加速卡是什么东西?它真能在AI战场上干掉GPU和TPU!

    随着AI技术火得一塌糊涂,大家都在谈"大模型"、"AI加速"、"智能计算",可真到了落地环节,算力才是硬通货。有没有发现,现在越来越多的AI
    的头像 发表于 06-05 13:39 ?698次阅读
    智算<b class='flag-5'>加速</b>卡是什么东西?它真能在<b class='flag-5'>AI</b>战场上干掉<b class='flag-5'>GPU</b>和TPU!

    RK3588核心板在边缘AI计算中的颠覆性优势与场景落地

    推理任务,需额外部署GPU加速卡,导致成本与功耗飙升。 扩展性受限:老旧接口(如USB 2.0、百兆网口)无法支持5G模组、高速存储等现代外设,升级困难。 开发周期长:BSP适配不完善,跨平台
    发表于 04-15 10:48

    英伟达GTC25亮点:NVIDIA Dynamo开源库加速并扩展AI推理模型

    Triton 推理服务器的后续产品,NVIDIA Dynamo 是一款全新的 AI 推理服务软件,旨在为部署推理 AI 模型的
    的头像 发表于 03-20 15:03 ?734次阅读

    Oracle 与 NVIDIA 合作助力企业加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速计算和推理软件与 Oracle 的 AI 基础设施以及生成式 AI 服务首次实现集成,以帮助全球企业组织
    发表于 03-19 15:24 ?396次阅读
    Oracle 与 NVIDIA 合作助力企业<b class='flag-5'>加速</b>代理式 <b class='flag-5'>AI</b> <b class='flag-5'>推理</b>

    无法调用GPU插件推理的远程张量API怎么解决?

    运行了使用 GPU 插件的远程张量 API 的推理。但是,它未能共享 OpenCL* 内存,但结果不正确。
    发表于 03-06 06:13

    FPGA+AI王炸组合如何重塑未来世界:看看DeepSeek东方神秘力量如何预测......

    。? AI加速器的开发:FPGA被广泛用于开发专为AI算法优化的加速器,例如深度学习推理
    发表于 03-03 11:21

    当我问DeepSeek AI爆发时代的FPGA是否重要?答案是......

    资源浪费。例如,在深度学习模型推理阶段,FPGA可以针对特定的神经网络结构进行硬件加速,提高推理速度。 3.支持边缘计算与实时应用 ? 边缘计算:随着物联网的发展,越来越多的
    发表于 02-19 13:55

    FPGA和ASIC在大模型推理加速中的应用

    随着现在AI的快速发展,使用FPGA和ASIC进行推理加速的研究也越来越多,从目前的市场来说,有些公司已经有了专门做推理的ASIC,像Gro
    的头像 发表于 10-29 14:12 ?2190次阅读
    <b class='flag-5'>FPGA</b>和ASIC在大模型<b class='flag-5'>推理</b><b class='flag-5'>加速</b>中的应用

    NVIDIA助力丽蟾科技打造AI训练与推理加速解决方案

    丽蟾科技通过 Leaper 资源管理平台集成 NVIDIA AI Enterprise,为企业和科研机构提供了一套高效、灵活的 AI 训练与推理加速解决方案。无论是在复杂的
    的头像 发表于 10-27 10:03 ?938次阅读
    NVIDIA助力丽蟾科技打造<b class='flag-5'>AI</b>训练与<b class='flag-5'>推理</b><b class='flag-5'>加速</b>解决方案

    GPU加速计算平台是什么

    GPU加速计算平台,简而言之,是利用图形处理器(GPU)的强大并行计算能力加速科学计算、数据分析、机器学习等复杂计算任务的软硬件结合系统。
    的头像 发表于 10-25 09:23 ?655次阅读

    什么是AI服务器?AI服务器的优势是什么?

    AI服务器是一种专门为人工智能应用设计的服务器,它采用异构形式的硬件架构,通常搭载GPUFPGA、ASIC等加速芯片,利用CPU与加速芯片
    的头像 发表于 09-21 11:43 ?2174次阅读

    AMD助力HyperAccel开发全新AI推理服务器

    HyperAccel 是一家成立于 2023 年 1 月的韩国初创企业,致力于开发 AI 推理专用型半导体器件和硬件,最大限度提升推理工作负载的存储器带宽使用,并通过将此解决方案应用于大型语言模型
    的头像 发表于 09-18 09:37 ?951次阅读
    AMD助力HyperAccel开发全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服务器