0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA TensorRT的数据格式定义

星星科技指导员 ? 来源:NVIDIA ? 作者:Ken He ? 2022-05-20 14:48 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

TensorRT 支持不同的数据格式。有两个方面需要考虑:数据类型和布局。

数据类型格式

数据类型是每个单独值的表示。它的大小决定了取值范围和表示的精度,分别是FP32(32位浮点,或单精度),FP16(16位浮点或半精度),INT32(32位整数表示),和 INT8(8 位表示)。

布局格式

布局格式确定存储值的顺序。通常,batch 维度是最左边的维度,其他维度指的是每个数据项的方面,例如图像中的C是通道, H是高度, W是宽度。忽略总是在这些之前的批量大小, C 、 H和W通常被排序为CHW (参见图 1 )或HWC (参见图 2 )。

图1. CHW的布局格式:图像分为HxW矩阵,每个通道一个,矩阵按顺序存储;通道的所有值都是连续存储的。

poYBAGKHOmuAG3jrAABI1Auz45s159.png

图2. HWC的布局格式:图像存储为单个HxW矩阵,其值实际上是 C 元组,每个通道都有一个值;一个点(像素)的所有值都是连续存储的。

pYYBAGKHOmSAF4_4AABE_ZAr4MY310.png

为了实现更快的计算,定义了更多格式以将通道值打包在一起并使用降低的精度。因此,TensorRT 还支持NC / 2HW2和NHWC8等格式。

在NC / 2HW2 ( TensorFormat::kCHW2 ) 中,通道值对在每个HxW矩阵中打包在一起(在奇数通道的情况下为空值)。结果是一种格式,其中? C/2 ? HxW矩阵的值是两个连续通道的值对(参见图 3 );请注意,如果它们在同一对中,则此排序将维度交错为具有步长1的通道的值,否则将步长为 2xHxW 。

图 3. 一对通道值在每个HxW矩阵中打包在一起。结果是一种格式,其中[C/2] HxW矩阵的值是两个连续通道的值对

poYBAGKHOl6AAMv6AABJ1rtP6Z8262.png

在NHWC8 ( TensorFormat::kHWC8 ) 中, HxW矩阵的条目包括所有通道的值。此外,这些值被打包在? C/8 ? 8 元组中,并且C向上舍入到最接近的 8 倍数。

在这种NHWC8格式中, HxW矩阵的条目包括所有通道的值。

其他TensorFormat遵循与前面提到的TensorFormat::kCHW2和TensorFormat::kHWC8类似的规则。

关于作者

Ken He 是 NVIDIA 企业级开发者社区经理 & 高级讲师,拥有多年的 GPU人工智能开发经验。自 2017 年加入 NVIDIA 开发者社区以来,完成过上百场培训,帮助上万个开发者了解人工智能和 GPU 编程开发。在计算机视觉,高性能计算领域完成过多个独立项目。并且,在机器人无人机领域,有过丰富的研发经验。对于图像识别,目标的检测与跟踪完成过多种解决方案。曾经参与 GPU 版气象模式GRAPES,是其主要研发者。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    29829

    浏览量

    213607
  • NVIDIA
    +关注

    关注

    14

    文章

    5324

    浏览量

    106638
  • 人工智能
    +关注

    关注

    1809

    文章

    49151

    浏览量

    250629
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。在单张 NVIDIA Ada Lovelace
    的头像 发表于 06-12 15:37 ?707次阅读
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS应用的最佳实践

    LPC55S28修改音频数据格式后USB Aduio类异常的原因?

    您好 NXP 前辈,我已经更改了 LPC55S28 官方 SDK 上的 USB 音频数据格式。 我的主要问题是修改音频流格式类型描述符。 我的想法是将 USB Aduio 每个通道的数据字节数从 2
    发表于 03-20 07:33

    使用RDATAC指令后,ADS131E04传送的数据格式以及内容是怎样的?

    请问使用RDATAC指令后,ADS131E04传送的数据格式以及内容是怎样的,数据手册是按照ADS131E08为例来说明有27个BYTE,不知道ADS131E04是不是只用15个BYTE?
    发表于 01-10 07:19

    NVIDIA TensorRT-LLM中启用ReDrafter的一些变化

    Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源的一种新型推测解码技术,该技术现在可与 NVIDIA TensorRT-LLM 一起使用。
    的头像 发表于 12-25 17:31 ?800次阅读
    在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM中启用ReDrafter的一些变化

    ads1158读取数据,得到的数据格式是什么样的啊?

    = SPDR; return data; } 想请教一下,其他两种读数据,得到的数据格式是什么样的啊?
    发表于 12-24 08:28

    解锁NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一个专为优化大语言模型 (LLM) 推理而设计的库。它提供了多种先进的优化技术,包括自定义 Attention Kernel、Inflight
    的头像 发表于 12-17 17:47 ?941次阅读

    NVIDIA TensorRT-LLM Roadmap现已在GitHub上公开发布

    感谢众多用户及合作伙伴一直以来对NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 现已在 GitHub 上公开发布!
    的头像 发表于 11-28 10:43 ?762次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM Roadmap现已在GitHub上公开发布

    FP8数据格式在大型模型训练中的应用

    本文主要介绍了 FP8 数据格式在大型模型训练中的应用、挑战及最佳实践,展示了 FP8 在提升训练速度和效率方面的潜力和实际效果。
    的头像 发表于 11-19 14:54 ?1800次阅读
    FP8<b class='flag-5'>数据格式</b>在大型模型训练中的应用

    ADC3561转换成什么数据格式便于高速实时通过WIFI发送?

    5MHz的16位采样率,LVDS格式数据输出,使用串口转WIFI模块受限于串口波特率无法实现实时发送,请问转换成什么数据格式便于高速实时通过WIFI发送
    发表于 11-18 08:06

    PCM2707的S/PDIF输出的数据格式是什么?

    我想问一下PCM2707的S/PDIF输出的数据格式是什么? 在网上查到的资料说是S/PDIF是用来传输数字信号的,可以传输PCM形式的信号,那是不是就是说带有S/PDIF输出的声卡(比如说
    发表于 11-07 06:33

    请问AIC3106怎么设置成单声道32位数据格式

    AIC3106 怎样设置成单声道 32位数据格式
    发表于 11-04 08:17

    SRC4192能否支持输入TDM格式音频数据,输出I2S,进行数据格式转换?

    SRC4192这款芯片能否支持输入TDM格式音频数据,输出I2S,进行数据格式转换。在我看TI这款芯片的datasheet时候管脚描述如下: 我理解是可以TDM输入的,可是后面关于输入输出
    发表于 10-25 11:41

    请问TLV320AIC3268的ADC转换后的数据格式是什么样的?

    我在使用TLV320AIC3268,但是不知道ADC转换后的数据格式是什么样的?比如是二进制补码吗?转后的数据与输入的模拟信号的电压值有什么关系?
    发表于 10-14 07:48

    NVIDIA Nemotron-4 340B模型帮助开发者生成合成训练数据

    Nemotron-4 340B 是针对 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 优化的模型系列,该系列包含最先进的指导和奖励模型,以及一个用于生成式 AI 训练的
    的头像 发表于 09-06 14:59 ?761次阅读
    <b class='flag-5'>NVIDIA</b> Nemotron-4 340B模型帮助开发者生成合成训练<b class='flag-5'>数据</b>

    魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社区是中国最具影响力的模型开源社区,致力给开发者提供模型即服务的体验。魔搭社区利用NVIDIA TensorRT-LLM,大大提高了大语言模型的推理性能,方便了模型应用部署,提高了大模型产业应用效率,更大规模地释放大模型的应用价值。”
    的头像 发表于 08-23 15:48 ?1183次阅读