0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

卷积神经网络能用INT4为啥要用INT8?

YCqV_FPGA_EETre ? 来源:FPGA开发圈 ? 2020-09-03 10:00 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

1

性能挑战

企业日益重视基于 AI 的系统在数据中心、汽车、工业和医疗等领域中的产品化。

这带来了两大挑战:

AI 推断需要完成的计算量成数量级增加,同时还要保持价格、功耗、时延和尺寸大小不变。 AI 科学家继续日复一日地在算法和模型上开展创新,需要各种不同的硬件架构提供最佳性能。

2

方案概述

对于 AI 推断,在提供与浮点媲美的精度的同时,int8 的性能优于浮点。然而在资源有限的前提下,int8 不能满足性能要求,int4 优化是解决之道。通过 int4 优化,与现有的 int8 解决方案相比,赛灵思在实际硬件上可实现高达 77% 的性能提升。赛灵思4 位激活和 4 位权重 (4A4W) 全流程硬件友好型量化解决方案可实现更优异的精度/资源权衡取舍。

该白皮书介绍了在Zynq UltraScale+ MPSoC 和 Zynq-7000 SoC 系列(16nm和28nm)上面向CNN4位XDPU实现的低精度加速器。这种加速器通过高效地映射卷积计算,充分发挥其DSP功能。这种解决方案可提供优于XDPU两倍的解决方案级性能。在ADAS系统中执行2D检测任务时,这种实现方案能在ZynqUltraScale+MPSoCZCU102板上实现230fps的推断速度,与8位XDPU相比性能提高1.52倍。

此外,在用于ADAS系统中的不同任务时,该解决方案可实现媲美全精度模型的结果。

3

技术导读

对持续创新的强烈需求需要使用灵活应变的领域专用架构 (DSA)。优化 AI 推断性能和降低功耗的主要趋势之一是使用较低精度和混合精度。为降低硬件设计复杂性,模型量化被当作关键技术应用于各类硬件平台。大量工作被投入用于最大限度地降低 CNN 运算量和存储成本。这项研究充分地证明,对于大多数计算机视觉任务,在不严重牺牲精度的情况下,权重和激活可以用 int8 表达。

然而对于某些边缘应用而言,硬件资源仍然不足。在对边缘应用使用较低的位宽(如 1 位、2 位)时,一些常见的硬件设计解决方案使用简化的乘法器。尽管这些解决方案时延低、吞吐量大,但它们与全精度模型相比,仍然存在较大的精度差距。因此,在模型精度和硬件性能之间寻求平衡变得至关重要。

赛灵思运用几种常见的网络结构(ResNet50V1、ResNet50V2 、MobilenetV1和MobilenetV2),在 ImageNet 分类任务上通过使用几种不同的量化算法进行了实验。结果显示精度随着位宽减少而下降。尤其是在位宽低于 4 时精度下降显著。此外,赛灵思也使用 Williams 等介绍的 Roofline 模型,分析不同位宽下的硬件性能。

在ZCU102上以不同位宽运行Roofline模型

如图 1 所示,以赛灵思 ZCU102 评估板为例,随着 MAC 的精度降低,硬件成本降低,性能得到提高。此外,实验结果还显示,低比特量化可通过降低存储器需求提高性能。这在 ResNet-50 神经网络的卷积运算强度上得到证实。该网络分别用 8 位精度和 4 位精度进行了运算。因此,int4 在模型精度和硬件性能之间实现了最佳权衡。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4814

    浏览量

    104460
  • AI
    AI
    +关注

    关注

    88

    文章

    35748

    浏览量

    282376
  • adas
    +关注

    关注

    310

    文章

    2265

    浏览量

    210479

原文标题:卷积神经网络能用 INT4 为啥要用 INT8 ?- 最新白皮书下载

文章出处:【微信号:FPGA-EETrend,微信公众号:FPGA开发圈】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    计算精度对比:FP64、FP32、FP16、TF32、BF16、int8

    、BF16、int8以及混合精度等。本文将浅显易懂地介绍这些精度计算方式及其差别。什么是精度?精度,是数据表示的一个重要参数,它决定了数据的准确性。在计算机科学中,精
    的头像 发表于 06-26 11:09 ?805次阅读
    计算精度对比:FP64、FP32、FP16、TF32、BF16、<b class='flag-5'>int8</b>

    使用 NPU 插件对量化的 Llama 3.1 8b 模型进行推理时出现“从 __Int64 转换为无符号 int 的错误”,怎么解决?

    /Meta-Llama-3.1-8B --weight-format int4 --sym --group-size 128 --ratio 1.0 INT4-llama-3.1-8B 使用 NPU 插件
    发表于 06-25 07:20

    为什么无法在GPU上使用INT8INT4量化模型获得输出?

    安装OpenVINO? 2024.0 版本。 使用 optimum-intel 程序包将 whisper-large-v3 模型转换为 int 4int8,并在 GPU 上使用 OpenVINO? 运行推理。 没有可用的
    发表于 06-23 07:11

    i.mx95的EIQ转换器将int8更改为uint8后出现报错怎么解决?

    我有一个大型量化 tensorflow lite 模型。它包括输入和输出类型为 “int8” 的 “Softmax”作。 我正在运行 eIQ 模型工具版本 1.14.0 将模型转换为 i.MX95
    发表于 04-14 07:15

    在OpenVINO?工具套件的深度学习工作台中无法导出INT8模型怎么解决?

    无法在 OpenVINO? 工具套件的深度学习 (DL) 工作台中导出 INT8 模型
    发表于 03-06 07:54

    是否可以输入随机数据集来生成INT8训练后量化模型?

    无法确定是否可以输入随机数据集来生成 INT8 训练后量化模型。
    发表于 03-06 06:45

    BP神经网络卷积神经网络的比较

    BP神经网络卷积神经网络在多个方面存在显著差异,以下是对两者的比较: 一、结构特点 BP神经网络 : BP神经网络是一种多层的前馈
    的头像 发表于 02-12 15:53 ?822次阅读

    人工神经网络的原理和多种神经网络架构方法

    在上一篇文章中,我们介绍了传统机器学习的基础知识和多种算法。在本文中,我们会介绍人工神经网络的原理和多种神经网络架构方法,供各位老师选择。 01 人工神经网络 ? 人工神经网络模型之所
    的头像 发表于 01-09 10:24 ?1391次阅读
    人工<b class='flag-5'>神经网络</b>的原理和多种<b class='flag-5'>神经网络</b>架构方法

    卷积神经网络的实现工具与框架

    卷积神经网络因其在图像和视频处理任务中的卓越性能而广受欢迎。随着深度学习技术的快速发展,多种实现工具和框架应运而生,为研究人员和开发者提供了强大的支持。 TensorFlow 概述
    的头像 发表于 11-15 15:20 ?766次阅读

    卷积神经网络的参数调整方法

    卷积神经网络因其在处理具有空间层次结构的数据时的卓越性能而受到青睐。然而,CNN的成功很大程度上依赖于其参数的合理设置。参数调整是一个复杂的过程,涉及到多个超参数的选择和优化。 网络架构参数
    的头像 发表于 11-15 15:10 ?1346次阅读

    卷积神经网络在自然语言处理中的应用

    自然语言处理是人工智能领域的一个重要分支,它致力于使计算机能够理解、解释和生成人类语言。随着深度学习技术的发展,卷积神经网络(CNNs)作为一种强大的模型,在图像识别和语音处理等领域取得了显著成果
    的头像 发表于 11-15 14:58 ?906次阅读

    卷积神经网络与传统神经网络的比较

    在深度学习领域,神经网络模型被广泛应用于各种任务,如图像识别、自然语言处理和游戏智能等。其中,卷积神经网络(CNNs)和传统神经网络是两种常见的模型。 1. 结构差异 1.1 传统
    的头像 发表于 11-15 14:53 ?2030次阅读

    深度学习中的卷积神经网络模型

    深度学习近年来在多个领域取得了显著的进展,尤其是在图像识别、语音识别和自然语言处理等方面。卷积神经网络作为深度学习的一个分支,因其在图像处理任务中的卓越性能而受到广泛关注。 卷积神经网络
    的头像 发表于 11-15 14:52 ?927次阅读

    卷积神经网络的基本原理与算法

    卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks
    的头像 发表于 11-15 14:47 ?1919次阅读

    关于卷积神经网络,这些概念你厘清了么~

    随着人工智能(AI)技术的快速发展,AI可以越来越多地支持以前无法实现或者难以实现的应用。本文基于此解释了 卷积神经网络 (CNN)及其对人工智能和机器学习的意义。CNN是一种能够从复杂数据中提
    发表于 10-24 13:56