0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用CUTLASS实现高性能矩阵乘法

星星科技指导员 ? 来源:NVIDIA ? 作者:Matthew Nicely ? 2022-04-15 10:03 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

CUTLASS 是 CUDA C ++模板抽象的集合,用于在 CUDA 的所有级别和规模上实现高性能矩阵乘法( GEMM )。它结合了分层分解和数据移动的策略,类似于用于实现cuBLAS的策略。

CUTLASS 将这些“运动部件”分解为 C ++模板类抽象的可重用和模块化的软件组件。这些线程范围、扭曲范围、块范围和设备范围的原语可以通过自定义平铺大小、数据类型和其他算法策略进行专门化和调优。由此产生的灵活性简化了它们在定制内核和应用程序中作为构建块的使用。

为了支持多种应用程序, CUTLASS 为混合精度计算提供了广泛的支持,提供了专门的数据移动,并为以下各项提供了多重累积抽象:

半精度浮点(FP16)、 BFloat16 (BF16)和张量浮点 32 (TF32)数据类型。

单精度浮点(FP32)数据类型。

双精度浮点(FP64)数据类型。

整数数据类型(4b和8b)。

二进制数据类型(1b)。

此外, CUTLASS 演示了针对 NVIDIA Volta 、 Turing 和 Ampere 体系结构上实现的可编程高通Tensor 核的扭曲同步矩阵乘法操作。

CUTLASS 实现了高性能卷积(隐式 GEMM )。隐式 GEMM 是作为 GEMM 的卷积运算的公式。这允许 Cutslass 通过重用高度优化的 warp-wide GEMM 组件和以下组件来构建卷积。

关于作者

Matthew Nicely 于 2019 年 3 月加入 NVIDIA ,之前曾在美国 AL-Huntsville 的美国陆军航空和导弹研究开发与工程中心工作。在那里,他专注于 CUDA 算法开发和 Jetson 系列的优化。在 NVIDIA ,他曾在联邦部门工作,协助 CUDA 的开发和优化,以及在各种 NVIDIA 工具集上为客户提供教育和概念验证,最近转为 math libraries 产品经理。 2019 年,他获得了博士学位。计算机工程学位,专注于 GPU 的算法优化。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5363

    浏览量

    106909
  • CUDA
    +关注

    关注

    0

    文章

    124

    浏览量

    14189
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Arm KleidiAI与XNNPack集成实现AI性能提升

    INT4 矩阵乘法 (matmul) 优化以增强 Google Gemma 2 模型性能开始,到后续完成多项底层技术增强,Arm 在 XNNPack 上实现了显著的
    的头像 发表于 08-08 15:19 ?1247次阅读
    Arm KleidiAI与XNNPack集成<b class='flag-5'>实现</b>AI<b class='flag-5'>性能</b>提升

    高性能低功耗双核Wi-Fi6+BLE5.3二合一

    随着物联网技术的不断发展,无线通信模块在各种应用场景中扮演着越来越重要的角色。近日,蓝科迅通科技宣布推出一款基于Nordic Semiconductor的Wi-Fi 6芯片nRF7002和高性能双核
    发表于 06-28 21:42

    矩阵变换器在异步电机直接转矩控制中的应用

    方式将矩阵式变换器的良好性能和直接转矩控制的优点结合在一起,实现了并步电动机较好的调控性能,提高了交流调速性能并满足节能要求。仿真结果表明:
    发表于 06-05 11:21

    ADA-28F00WG乘法器Marki

    ADA-28F00WG是一种高性能的模拟乘法器,能够将两个输入信号(电压或电流)进行乘法运算,并输出其结果。ADA-28F00WG乘法器采用高质量材料制造,并结合了最新的肖特基二极管和
    发表于 02-12 09:25

    鸿蒙原生页面高性能解决方案上线OpenHarmony社区 助力打造高性能原生应用

    随着HarmonyOS NEXT的正式推出,鸿蒙原生应用开发热度高涨,数量激增。但在三方应用鸿蒙化进程中,性能问题频出。为此,HarmonyOS NEXT推出了一整套原生页面高性能解决方案,包括
    发表于 01-02 18:00

    赛昉联合国芯推出高性能AI MCU芯片,实现RISC-V+AI新应用

    近日,赛昉科技与苏州国芯科技有限公司(以下简称“国芯科技”)合作研发的高性能AIMCU芯片产品CCR7002已成功通过了内部性能和功能测试,实现了RISC-V+AI技术的新应用。赛昉科技将与国芯
    的头像 发表于 11-27 11:46 ?1200次阅读
    赛昉联合国芯推出<b class='flag-5'>高性能</b>AI MCU芯片,<b class='flag-5'>实现</b>RISC-V+AI新应用

    XD08M3232红外感应单片机拥有哪些配置实现高性能处理能力

    的应用,自带恒流驱动电路可以避免光衰等问题,确保输入信号的稳定性。稳定的输入信号有助于后续的信号处理,减少因信号波动而带来的额外处理负担,使得单片机可以更高效地对数据进行处理,从而有助于实现高性能的处理能力
    发表于 11-23 15:08

    精密脉冲焊接技术的革新:探究高性能精密脉冲焊接电源的应用与实现

    随着科技的发展和制造业对高品质、高精度焊接需求的增长,精密脉冲焊接技术在工业生产中的地位愈发重要。本文将深入探讨高性能精密脉冲焊接电源的应用及其在实际工程中的实现路径。 一、引言 精密
    的头像 发表于 11-16 09:27 ?1223次阅读

    新型高性能阻尼器的特点

    高性能阻尼器的工作原理 新型高性能阻尼器的工作原理主要基于能量耗散原理。它们通过将振动能量转化为热能或其他形式的能量,从而减少结构的振动响应。这些阻尼器的设计通常包括粘弹性材料、金属部件和特殊结构,以实现最佳的振动吸收效
    的头像 发表于 11-14 10:49 ?906次阅读

    AI高性能计算平台是什么

    AI高性能计算平台不仅是AI技术发展的基石,更是推动AI应用落地、加速产业升级的重要工具。以下,是对AI高性能计算平台的介绍,由AI部落小编为您整理分享。
    的头像 发表于 11-11 09:56 ?816次阅读

    XD08M3232红外感应单片机拥有哪些配置实现高性能处理能力

    关于XD08M3232单片机采用哪些配置实现高性能处理能力并没有直接搜索结果提及。如下: 一、内核方面 增强型1T8051内核**** :XD08M3232是一款8位高性能Flash的接近感应单片机
    发表于 11-07 14:04

    Wolfspeed碳化硅助力实现高性能功率系统

    Wolfspeed碳化硅助力实现高性能功率系统
    发表于 10-24 10:51 ?1次下载

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--全书概览

    1章 从TOP500和MLPerf看算力芯片格局 1.1科学算力最前沿TOP500 1.2 AI算力新标准 第2章 高性能 CPU 流水线概览 2.1什么是指令 2.2 流水线与MIPS 2.3
    发表于 10-15 22:08

    请问如何用VCA810实现模拟乘法器?

    我在《德州仪器高性能单片机和模拟器件在高校中的应用和选型指南》中看见,书中说VCA810可以做为模拟乘法器使用,但是应用手册里的公式却不是V0=VC*Vin,而是一个带指数向的公式,所以我很好
    发表于 09-23 07:11

    克服设计难题-实现高性能接口

    电子发烧友网站提供《克服设计难题-实现高性能接口.pdf》资料免费下载
    发表于 08-28 09:41 ?0次下载
    克服设计难题-<b class='flag-5'>实现</b><b class='flag-5'>高性能</b>接口