0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

利用MLPerf 推理 1.1提升NVIDIA绩效领导力

星星科技指导员 ? 来源:NVIDIA ? 作者:NVIDIA ? 2022-04-08 16:03 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

人工智能继续推动跨行业的突破性创新,包括消费互联网、医疗保健和生命科学、金融服务、零售、制造和超级计算。研究人员继续推动快速发展的模型在规模、复杂度和多样性方面的发展。此外,其中许多复杂的大规模模型需要为聊天机器人、数字助理和欺诈检测等人工智能支持的服务提供实时结果。

考虑到人工智能推理的广泛用途,评估性能对开发人员和基础设施管理人员提出了许多挑战。对于数据中心、 edge 和移动平台上的 AI 推理, MLPerf 推理 1.1 是一个行业标准基准,用于衡量计算机视觉医学成像、自然语言和推荐系统的性能。这些基准由人工智能行业领导者组成的联盟制定,为人工智能培训和推理提供了当今最全面的同行评审绩效数据集。

要在这一基准测试中完成大量测试,需要一个具有强大生态系统支持的全堆栈平台,无论是框架还是网络。 NVIDIA 是唯一一家提交所有数据中心和边缘测试并提供全面领先性能的公司。

这项工作的一个重要副产品是,这些优化中的许多已经进入了推理开发工具,如TensorRT和 NVIDIA Triton 。用于高性能深度学习推理的 TensorRT SDK 包括一个深度学习推理优化器和运行时,为深度学习推理应用程序提供低延迟和高吞吐量。

Triton 推理服务器软件简化了人工智能模型在大规模生产中的部署。这种开源推理服务软件使团队能够在任何基于 GPUCPU 的基础设施上从本地存储或云平台的任何框架部署经过培训的人工智能模型。

按数字

在数据中心和边缘两大类中, NVIDIA 凭借 NVIDIA A100 张量核 GPU 和 NVIDIA A30 张量核 GPU 在性能测试中名列榜首。自从 MLPerf 推断 0.7 的结果发布以来,在过去一年中, NVIDIA 仅通过软件改进就提高了 50% 的性能。

在另一个行业中, NVIDIA 首次使用基于 GPU – 加速 ARM 的服务器提交数据中心类别,该服务器支持所有工作负载,并提供与类似配置的基于 x86 的服务器相同的结果。这些基于 ARM 的新提交为 GPU 加速 ARM 服务器创造了新的性能世界记录。这标志着这些平台的一个重要里程碑,因为它们现在已经在同行评审的行业标准基准中证明了自己,以提供市场领先的性能。它还展示了 NVIDIA ARM 软件生态系统的性能、多功能性和就绪性,以应对数据中心的计算挑战。

pYYBAGJP7FSAb4UmAABG9iwx2cg552.png

图 1 。使用 Ampere Altra CPU s 的基于 ARM 的服务器提供的性能与类似配置的基于 x86 的服务器相当

MLPerf v1.1 推理关闭;每个加速器的性能源自使用数据中心脱机中报告的加速器计数的各个提交的最佳 MLPerf 结果。 x86 服务器: 1.1-034 、 ARM 服务器: 1.1-033 MLPerf 名称和徽标是商标。

综观整体表现, NVIDIA 全面领先。图 2 显示了服务器场景的结果,其中使用泊松分布为测试中的系统生成推理工作,以更紧密地模拟真实世界的工作负载模式。

pYYBAGJP7FuAQr9CAACxiiMT8EI989.png

图 2 。 NVIDIA 与 CPU 纯服务器的性能比较

MLPerf v1.1 推理关闭;使用数据中心脱机和服务器中报告的加速器计数,从各个提交的最佳 MLPerf 结果中得出每个加速器的性能。高通 AI 100 : 1.1-057 和 1.1-058 ,英特尔至强 8380 : 1.1-023 和 1.1-024 , NVIDIA A30 : 1.1-43 , NVIDIA A100 ( ARM ): 1.1-033 , NVIDIA A100 ( x86 ): 1.1-047 。 MLPerf 名称和徽标是商标。

NVIDIA 比 CPU 纯服务器的性能全面提高了 104 倍。这种性能优势转化为对更大、更复杂的模型以及在对话 AI 、推荐系统和数字助理中实时作业中运行的多个模型进行推理的能力。

结果背后的优化

我们的工程团队实施了一些优化,使这些伟大的结果成为可能。首先,基于 ARM 的服务器和基于 x86 的服务器的所有这些结果都是使用 TensorRT 8 生成的,现在普遍可用。特别令人感兴趣的是双内核的非幂函数的使用,这是为了加速工作负载而实现的,比如 BERT – 大型单流场景测试。

NVIDIA 提交利用添加到 NVIDIA Triton 推理服务器的新主机策略功能。您可以在配置 NVIDIA Triton 服务器时指定主机策略,以在服务器应用程序中启用线程和内存固定。利用此功能, NVIDIA Triton 可以为系统中的每个 GPU 指定输入的最佳位置。最佳位置可以基于系统的非统一内存体系结构( NUMA )配置,在这种情况下,每个 NUMA 节点上都有一个查询样本库。

您还可以使用主机策略启用“从设备启动”配置设置,服务器将在选择执行的 GPU 上拾取输入。此设置还可以将网络输入直接输入 GPU 内存,完全绕过 CPU 和系统内存副本。

推理能力三人组: TensorRT , NVIDIA Triton 和 NGC

NVIDIA 推理领导力来自于构建最优秀的人工智能加速器,用于培训和推理。但同样重要的是支持所有 AI 框架和 800 多个 HPC 应用程序的 NVIDIA 端到端、全栈软件生态系统。

所有这些软件都可以在NGC、 NVIDIA 集线器上获得,该集线器带有 GPU ——用于深度学习、机器学习和 HPC 的优化软件。 NGC 负责所有管道,因此数据科学家、开发人员和研究人员可以专注于构建解决方案、收集 i NSight 并提供业务价值。

NGC 可通过您首选的云提供商的市场免费获得。在那里,您可以找到 TensorRT 和 NVIDIA Triton 的最新版本,这两个版本都有助于生成最新的 MLPerf 推断 1.1 结果。

关于作者

Dave Salvator 是 NVIDIA 旗下 Tesla 集团的高级产品营销经理,专注于超规模、深度学习和推理。

Jesus Corbal San Adrian 是 NVIDIA 计算架构组的杰出工程师,专注于深度学习推理 GPU 分析和优化。

Madhumitha Sridhara 是 TensorRT 团队的高级软件工程师,专注于使用 Triton 推理服务器的 NVIDIA MLPerf推理提交。她拥有卡内基梅隆大学计算机工程硕士学位和印度卡纳塔克邦苏拉特卡尔国家理工学院电子和通信工程学士学位。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1809

    文章

    49164

    浏览量

    250755
  • 机器学习
    +关注

    关注

    66

    文章

    8510

    浏览量

    134901
  • 深度学习
    +关注

    关注

    73

    文章

    5564

    浏览量

    122964
  • MLPerf
    +关注

    关注

    0

    文章

    36

    浏览量

    831
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    伟创荣获制造业“奥斯卡”大奖 美国制造商协会颁发的“制造业领导力奖”

    数字供应链闪耀全球 ?制造业“奥斯卡”收入囊中 在制造业界, 有一项大奖被誉为“行业奥斯卡”, ?那就是由美国制造商协会颁发的 “制造业领导力奖” 。 而就在最近, 伟创凭借在 数字供应链领域
    的头像 发表于 06-26 09:27 ?607次阅读
    伟创<b class='flag-5'>力</b>荣获制造业“奥斯卡”大奖  美国制造商协会颁发的“制造业<b class='flag-5'>领导力</b>奖”

    伟创凭借在数字供应链领域的卓越成就,荣膺&quot;2025年制造业领导力奖&quot;

    上海?2025年6月25日?/美通社/ --?近日,伟创(纳斯达克股票代码:FLEX)宣布,公司凭借在数字供应链领域的杰出成就,荣获"2025年制造业领导力奖"。该奖项由美国制造商协会主办,旨在
    的头像 发表于 06-25 15:59 ?188次阅读
    伟创<b class='flag-5'>力</b>凭借在数字供应链领域的卓越成就,荣膺&quot;2025年制造业<b class='flag-5'>领导力</b>奖&quot;

    全球各大品牌利用NVIDIA AI技术提升运营效率

    欧莱雅、LVMH 集团和雀巢利用 NVIDIA 加速的智能体 AI 和物理 AI,大幅提升产品设计、营销及物流等方面的运营效率。
    的头像 发表于 06-19 14:36 ?576次阅读

    中兴通讯应邀出席2025年金砖国家女性领导力论坛

    近日,以“金砖织锦、巾帼添彩”为主题的2025年金砖国家女性领导力论坛在北京启幕,来自金砖国家的数百名代表汇聚一堂,围绕科技创新、人文交流等多个议题进行深入研讨,共话女性领导力成长的成功经验及最佳实践。中兴通讯董事长方榕应邀出席,并就“科技向善,共创绿色金砖可持续未来”这
    的头像 发表于 05-09 09:38 ?513次阅读

    英伟达GTC25亮点:NVIDIA Blackwell Ultra 开启 AI 推理新时代

    英伟达GTC25亮点:NVIDIA Blackwell Ultra 开启 AI 推理新时代
    的头像 发表于 03-20 15:35 ?790次阅读

    英伟达GTC25亮点:NVIDIA Dynamo开源库加速并扩展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同时降低了扩展测试时计算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 上的推理优化
    的头像 发表于 03-20 15:03 ?704次阅读

    吉方工控出席新领导力赋能大讲堂暨网络边缘计算培训会

    在全球经济低速增长大环境下,人工智能引领新一轮科技革命和产业变革。在此背景下,由深圳市吉方工控有限公司、英特尔(中国)有限公司联合主办,深圳市零售智能信息化行业协会承办的——“智驭边缘,领袖未来” 新领导力赋能大讲堂暨网络边缘计算培训会,在深圳机场希尔顿逸林酒店隆重举办。
    的头像 发表于 03-07 15:29 ?533次阅读

    使用NVIDIA推理平台提高AI推理性能

    NVIDIA推理平台提高了 AI 推理性能,为零售、电信等行业节省了数百万美元。
    的头像 发表于 02-08 09:59 ?783次阅读
    使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>平台提高AI<b class='flag-5'>推理</b>性能

    纳芯微荣获“战略性人才发展与领导力培育卓越奖”

    人力资源优秀案例征集活动人气赛道的获奖名单。经过专业评审的严格筛选,纳芯微凭借在战略性人才与领导力培养方面的杰出表现,荣获了“战略性人才发展与领导力培育卓越奖”。
    的头像 发表于 01-24 15:39 ?397次阅读
    纳芯微荣获“战略性人才发展与<b class='flag-5'>领导力</b>培育卓越奖”

    Meta计划裁员5%以提升绩效

    近日,Meta公司内部备忘录透露,该公司正计划裁减约5%的低绩效员工,以期在未来的发展中优化团队结构。Meta的CEO马克·扎克伯格在备忘录中明确表示,公司将提高绩效管理的标准,以更快的速度淘汰绩效
    的头像 发表于 01-16 10:36 ?565次阅读

    北京青年领导力研修班走进智行者科技

    在科技蓬勃发展的浪潮中,自动驾驶技术成为备受瞩目的焦点领域,引领着未来交通与生活的变革趋势。值此契机,近日,北京青年领导力研修班满怀探索热情走进智行者,开启了一场深度洞察自动驾驶前沿科技的启迪之旅。
    的头像 发表于 01-15 09:41 ?505次阅读

    借助NVIDIA GPU提升鲁班系统CAE软件计算效率

    本案例中鲁班系统高性能 CAE 软件利用 NVIDIA 高性能 GPU,实现复杂产品的快速仿真,加速产品开发和设计迭代,缩短开发周期,提升产品竞争
    的头像 发表于 12-27 16:24 ?739次阅读

    纳芯微电子荣获“战略性人才发展与领导力培育卓越奖”

    人力资源优秀案例征集活动人气赛道的获奖名单。 经过专业评审的严格筛选, 纳芯微凭借在战略性人才与领导力培养方面的杰出表现,荣获了“战略性人才发展与领导力培育卓越奖” 。 而这也是纳芯微第二年在该活动中斩获奖项, 去年我们荣
    的头像 发表于 12-16 09:13 ?939次阅读
    纳芯微电子荣获“战略性人才发展与<b class='flag-5'>领导力</b>培育卓越奖”

    NVIDIA助力丽蟾科技打造AI训练与推理加速解决方案

    丽蟾科技通过 Leaper 资源管理平台集成 NVIDIA AI Enterprise,为企业和科研机构提供了一套高效、灵活的 AI 训练与推理加速解决方案。无论是在复杂的 AI 开发任务中,还是在高并发推理场景下,都能够确保项
    的头像 发表于 10-27 10:03 ?897次阅读
    <b class='flag-5'>NVIDIA</b>助力丽蟾科技打造AI训练与<b class='flag-5'>推理</b>加速解决方案

    魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社区是中国最具影响的模型开源社区,致力给开发者提供模型即服务的体验。魔搭社区利用NVIDIA TensorRT-LLM,大大提高了大语言模型的推理性能,方便了模型应用部署,提高
    的头像 发表于 08-23 15:48 ?1190次阅读