0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用NVIDIA多个DPU加速HPC集群中的科学应用

星星科技指导员 ? 来源:NVIDIA ? 作者:NVIDIA ? 2022-04-30 07:20 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

高性能计算( HPC )和人工智能已经将超级计算机作为主要的数据处理引擎,广泛应用于商业领域,使研究、科学发现和产品开发成为可能。这些系统可以进行复杂的模拟,开启软件编写软件的人工智能新时代。

超级计算领导力是指科学和创新领导力,它解释了许多政府、研究机构和企业为构建更快、更强大的超级计算平台而进行的投资。从超级计算系统中提取尽可能高的性能,同时实现高效利用,传统上与现代云计算的安全、多租户体系结构不兼容。

一个云本地超级计算平台首次提供了两全其美,将峰值性能和集群效率与安全隔离和多租户的现代零信任模型结合起来。实现这种架构转换的关键元素是 NVIDIA BlueField 数据处理单元( DPU )。 DPU 是一个完全集成的片上数据中心平台,为每个超级计算节点注入了两种新功能:

基础设施控制平面处理器 – 保护用户访问、存储访问、网络和计算节点的生命周期编排,减轻主计算处理器的负担并实现裸机多租户。

带硬件加速的隔离线速率数据通路 – 实现裸机性能。

HPC 和 AI 通信框架和库对延迟和带宽敏感,它们在决定应用程序性能方面起着关键作用。将库从主机 CPUGPU 卸载到 BlueField DPU 为通信和计算的并行进程创建了最高程度的重叠。它还减少了操作系统抖动的负面影响,显著提高了应用程序性能。

云本地超级计算机体系结构的开发基于开放社区开发,包括商业公司、学术组织和政府机构。这个不断增长的社区对于开发下一代超级计算至关重要。

我们在本文中分享的一个例子是 MVAPICH2- DPU 库,由 X-ScaleSolutions 设计和开发。 MVAPICH2- DPU 库包含了消息传递接口( MPI )标准的非阻塞集合的卸载。这篇文章概述了这种卸载背后的基本概念,以及最终用户如何使用 MVAPICH2- DPU MPI 库来加速科学应用程序的执行,特别是使用密集的非阻塞 all-to-all 操作。

BlueField DPU

图 1 显示了 BlueField DPU 体系结构及其与主机计算平台的连接的概述。 DPU 通过 ConnectX-6 适配器具有 InfiniBand 网络连接。此外,它还有一组 Arm 内核。 Bluefield-2 DPU 有一组 8 个 Arm 内核,每个内核的工作频率为 2 。 0ghz 。 Arm 内核还有 16GB 的共享内存。

MVAPICH2- DPU MPI 库

MVAPICH2- DPU MPI 库是 MVMPI 库 的派生。该库经过优化,可利用 InfiniBand 网络充分发挥 BlueField DPU 的潜力。

poYBAGJlFmWABebUAAC0yuqJ7Os775.png

图 1 BlueField DPU 的体系结构及其与主机平台的连接

最新的 MVAPICH2- DPU 2021 。 06 版本具有以下功能:

基于 MVAPICH2 2 。 3 。 6 ,符合 MPI 3 。 1 标准

支持 MV2 。 3 。 6 版本 提供的所有功能

将非阻塞集合卸载到 DPU 的新框架

将非阻塞 Alltoall ( MPI \ Ialltoall )卸载到 DPU

所有非阻塞集合的计算重叠率为 100%

使用 MPI Ialltoall 非阻塞集合加速科学应用

MVAPICH2- DPU MPI 库入门

MVAPICH2- DPU 库可从 X-ScaleSolutions 获得:

发送电子邮件至 contactus@x-scalesolutions.com

填写联系人 形式

有关更多信息,请参阅 MVAPICH2-DPU 产品页。

OSU 微基准的示例执行

OSU MPI 微基准 的副本与 MVAPICH2- DPU MPI 包集成在一起。 OMB 基准套件由非阻塞集体操作的基准组成。这些基准旨在评估非阻塞 MPI 集合使用的计算和通信之间的重叠能力。

可以执行 OMB 包中的非阻塞集体基准,以评估以下指标:

重叠功能

启动非阻塞集合后立即合并计算步骤时的总执行时间

在 HPC-AI 咨询委员会集群上运行了一组 OMB 实验,其中 32 个节点与支持 HDR 200Gb / s InfiniBand 连接的 32 个 BlueField DPU s 相连。每个主机节点都有双插槽 Intel Xeon 16 核 CPU E5-2697A V4 @ 2 。 60 GHz 。每个 Bluefield-2 DPU 有 8 个 Arm 核@ 2 。 0ghz 和 16gb 内存。

图 2 显示了分别运行 512 个( 32 个节点,每个节点有 16 个进程( PPN ))和 1024 个( 32 个节点,每个节点有 32 个 PPN ) MPI 进程的 MPI \ u ialtoall 非阻塞集合基准的性能结果。随着消息大小的增加, MVAPICH2- DPU 库可以显示计算和 MPI Ialltoall 非阻塞集合之间的峰值( 100% )重叠。相比之下,没有这种 DPU 卸载功能的 MVAPICH2 默认库可以在计算和 MPI (所有非阻塞)集合之间提供很少的重叠。

pYYBAGJlFmeAUXXVAACO987vgLM434.png

图 2 MVAPICH2- DPU 库提取主机和服务器上发生的计算之间的峰值重叠的能力 MPI_Ialltoall 通信

当 MPI 应用程序中的计算步骤以重叠方式与 MPI Ialltoall 非阻塞集合操作一起使用时, MVAPICH2- DPU MPI 库在整个程序执行时间内提供了显著的性能优势。这是可能的,因为 DPU 中的 Arm 内核可以实现非阻塞的 all-to-all 操作,而主机上的 Xeon 内核正在执行峰值重叠的计算(图 2 )。

图 3 显示,与基本的 MVAPICH2 MPI 库相比, MVAPICH2- DPU MPI 库可以提供高达 23% 的性能优势。这是在 32 节点的 OMB-MPI-Iall 基准测试中跨消息大小和 ppn 的测试。

poYBAGJlFmiALO45AACbkHIwDY0000.png

图 3 当计算步骤与 MPI_Ialltoall 以重叠方式进行非阻塞集体操作

加速 P3DFFT 应用程序内核

P3DFFT 是一种常见的 MPI 内核,用于许多使用快速傅立叶变换( FFT )的终端应用程序。这个 MPI 内核的一个版本是由 P3DFFT 开发人员设计的,它使用非阻塞的 all-to-all 集合操作和计算步骤来利用最大的重叠。

P3DFFT MPI 内核的增强版本在 32 节点 HPC-AI 集群上使用 MVAPICH2- DPU MPI 库进行了评估。图 4 显示了 MVAPICH2- DPU MPI 库将 P3DFFT 应用程序内核的总体执行时间减少了 21% ,适用于各种网格大小和 ppn 。

pYYBAGJlFmiAbxLCAACQMsGnHiA766.png

图 4 MVAPICH2- DPU 库减少 P3DFFT 应用程序总执行时间的能力。

概括

NVIDIA DPU 体系结构提供了新的功能,可以将任何中间件的功能卸载到 DPU 上的可编程 Arm 内核。必须重新设计 MPI 库,以利用这些功能加速科学应用。

MVAPICH2- DPU MPI 库是利用这种 DPU 功能的领先库。 MVAPICH2- DPU 库的初始版本提供了对 MPI \ u ialtoall nonblocking collectives 的卸载支持,显示了计算和非阻塞 alltoall collective 之间 100% 的重叠。在 1024mpi 进程运行时,它可以将 P3DFFT 应用程序内核执行时间缩短 21% 。

这项研究证明了使用 MVAPICH2- DPU MPI 库的 DPU 体系结构具有很强的 ROI 。随着 DPU 体系结构的进步,即将发布的其他 MPI 功能的附加卸载功能将显著加快云本地超级计算系统上的科学应用。

关于作者

Gilad Shainer 担任 NVIDIA Mellanox networking 的营销高级副总裁,专注于高性能计算、人工智能和 InfiniBand 技术。

Dhabaleswar K (DK) Panda 是 X-SaleSalOffice 的创始人和 CEO ,也是俄亥俄州立大学计算机科学教授和杰出学者。

Nick Sarkauskas 是俄亥俄州立大学计算机科学与工程系博士学位的软件工程师。他目前在 X-ScaleSolutions 的工作是设计和开发 MVAPICH2- DPU 软件堆栈。他的研究兴趣包括高性能计算、高性能互连和并行算法。 Nick Sarkauskas 于 2020 年从 OSU 获得计算机科学与工程学士学位。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5348

    浏览量

    106849
  • 人工智能
    +关注

    关注

    1810

    文章

    49221

    浏览量

    251555
  • 应用程序
    +关注

    关注

    38

    文章

    3339

    浏览量

    59220
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA驱动的现代超级计算机如何突破速度极限并推动科学发展

    ,研究人员用个人电脑构建了强大的集群,甚至改造游戏显卡,把它们用于科学研究。 当今的高性能计算系统专为高速计算而设计,其中许多都采用了 NVIDIA 加速计算技术。在 ISC 2025
    的头像 发表于 06-26 19:39 ?644次阅读
    <b class='flag-5'>NVIDIA</b>驱动的现代超级计算机如何突破速度极限并推动<b class='flag-5'>科学</b>发展

    高性能计算集群在AI领域的应用前景

    随着人工智能技术的飞速发展,高性能计算集群HPC)在AI领域的应用前景日益受到关注。HPC提供的计算能力与AI的智能分析能力相结合,为解决复杂问题和推动科学研究提供了新的动力。1、
    的头像 发表于 06-23 13:07 ?567次阅读
    高性能计算<b class='flag-5'>集群</b>在AI领域的应用前景

    NVIDIA携手微软加速代理式AI发展

    代理式 AI 正在重新定义科学探索,推动各行各业的研究突破和创新发展。NVIDIA 和微软正通过深化合作提供先进的技术,从云到 PC 加速代理式 AI 应用的发展。
    的头像 发表于 05-27 14:03 ?451次阅读

    第三届NVIDIA DPU黑客松开启报名

    第三届 NVIDIA DPU 中国虚拟黑客松(Hackathon)将于 6 月 28 日 - 6 月 30 日正式开启!作为备受广大开发者期待的年度赛事,它将提供与 NVIDIA 加速
    的头像 发表于 05-27 10:16 ?517次阅读

    使用NVIDIA CUDA-X库加速科学和工程发展

    NVIDIA GTC 全球 AI 大会上宣布,开发者现在可以通过 CUDA-X 与新一代超级芯片架构的协同,实现 CPU 和 GPU 资源间深度自动化整合与调度,相较于传统加速计算架构,该技术可使计算工程工具运行速度提升至原来的 11 倍,计算规模增加至 5 倍。
    的头像 发表于 03-25 15:11 ?796次阅读

    Cadence 利用 NVIDIA Grace Blackwell 加速AI驱动的工程设计和科学应用

    融合设计专业知识与加速计算,推动科技创新、实现能效和工程生产力方面的突破性进展,引领全球生活新范式 内容提要 ●?Cadence 借助 NVIDIA 最新 Blackwell 系统,将求解器的速度
    的头像 发表于 03-24 10:14 ?853次阅读

    英伟达GTC2025亮点:Oracle与NVIDIA合作助力企业加速代理式AI推理

    Oracle 数据库与 NVIDIA AI 相集成,使企业能够更轻松、快捷地采用代理式 AI Oracle 和 NVIDIA 宣布,NVIDIA 加速计算和推理软件与 Oracle 的
    的头像 发表于 03-21 12:01 ?813次阅读
    英伟达GTC2025亮点:Oracle与<b class='flag-5'>NVIDIA</b>合作助力企业<b class='flag-5'>加速</b>代理式AI推理

    Oracle 与 NVIDIA 合作助力企业加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速计算和推理软件与 Oracle 的 AI 基础设施以及生成式 AI 服务首次实现集成,以帮助全球企业组织加速创建代理式
    发表于 03-19 15:24 ?396次阅读
    Oracle 与 <b class='flag-5'>NVIDIA</b> 合作助力企业<b class='flag-5'>加速</b>代理式 AI 推理

    利用NVIDIA DPF引领DPU加速云计算的未来

    越来越多的企业开始采用加速计算,从而满足生成式 AI、5G 电信和主权云的需求。NVIDIA 推出了 DOCA 平台框架(DPF),该框架提供了基础构建模块来释放 NVIDIA BlueField
    的头像 发表于 01-24 09:29 ?864次阅读
    利用<b class='flag-5'>NVIDIA</b> DPF引领<b class='flag-5'>DPU</b><b class='flag-5'>加速</b>云计算的未来

    NVIDIA BlueField-3 DPU上运行WEKA客户端的实际优势

    WEKA是可扩展软件定义数据平台的先驱,NVIDIA 正在与其合作,将 WEKA 先进的数据平台解决方案与功能强大的NVIDIA BlueField DPU相结合。
    的头像 发表于 01-07 09:43 ?755次阅读
    在<b class='flag-5'>NVIDIA</b> BlueField-3 <b class='flag-5'>DPU</b>上运行WEKA客户端的实际优势

    盘点NVIDIA 2024年的创新成果

    在2024年,AI 的影响力已经扩展到加速计算和数据科学多个关键领域,成为驱动各行各业技术革新和产业升级的关键因素。在这一年里,NVIDIA 又带来了哪些创新成果,实现了哪些突破?跟
    的头像 发表于 01-02 14:32 ?753次阅读

    云计算HPC软件关键技术

    云计算HPC软件关键技术涉及系统架构、处理器技术、操作系统、计算加速、网络技术以及软件优化等多个方面。下面,AI部落小编带您探讨云计算HPC软件的关键技术。
    的头像 发表于 12-18 11:23 ?526次阅读

    NVIDIA发布cuPyNumeric加速计算库

    加速计算库帮助科研人员无缝地扩展到强大的计算集群,并且无需修改 Python 代码,推进科学发现。
    的头像 发表于 11-21 10:05 ?705次阅读

    NVIDIA加速计算如何推动医疗健康

    近日,NVIDIA 企业平台副总裁 Bob Pette 在 AI Summit 一场演讲重点谈论了 NVIDIA 加速计算如何推动医疗健康、网络安全和制造等行业实现转型。他表示,
    的头像 发表于 11-20 09:10 ?736次阅读

    NVIDIA与思科合作打造企业级生成式AI基础设施

    NVIDIA 加速计算平台、NVIDIA AI Enterprise 软件和 NVIDIA NIM 推理微服务加持的思科 Nexus HyperFabric AI
    的头像 发表于 10-10 09:35 ?956次阅读