0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DGX-2为什么被称为全球最大GPU

NVIDIA英伟达企业解决方案 ? 来源:未知 ? 作者:胡薇 ? 2018-10-25 15:07 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

今年早些时候,NVIDIA首席执行官黄仁勋发布了NVIDIA? DGX-2?服务器,并称其为“全球最大GPU”。DGX-2在单一系统中包含了16个NVIDIA Tesla? V100 32 GB GPU和其他顶级组件(两个24核Xeon CPU、1.5 TB DDR4 DRAM内存和30 TB NVMe存储),通过基于NVSwitch的NVLink结构连接,可提供2 petaFLOPS的性能,堪称最强大的超级计算机之一。

NVSwitch使DGX-2成为了最大的GPU,这意味着其总体并非各部分的简单加成。事实证明,让DGX-2服务器能够称得上“全球最大GPU”的,正是其中看似最不起眼的部分。让我们来看看创新NVIDIA NVSwitch?芯片及其他工程特性如何使DGX-2成为了全球最大的GPU。

注:本文中的信息来自于Alex Ishii 和 Denis Foley 在Hot Chip 2018大会上的专题演示“NVSwitch and DGX?2 – NVIDIA NVLink-Switching Chip and Scale-Up GPU-Compute Server”。

单一GPU

让我们先看看单一多核GPU如何与CPU交互,如图1所示。程序员通过NVIDIA CUDA?技术明确地展现了并行工作。工作流经PCIe I / O端口进入GPU,其中数据由GPU驱动程序分发到可用的图形处理群集(GPC)和流式多处理器(SM)内核。XBAR的采用让GPU / SM内核能够在L2高速缓存和高带宽GPU内存(HBM2)上交换数据。

GPC和GPU内存之间的高带宽可实现大规模计算能力和快速同步,但规模受限,因其要求数据必须适合本地GPU内存,才能有效使用XBAR提供的高带宽。

图1. 连接到CPU的单一GPU

双GPU(PCIe和NVLink)

图2显示了添加另一个GPU是如何增加可用GPU内存量的。在所示配置中,GPU只能以PCIe提供的32 GBps的最大双向带宽,访问其他GPU上的内存。此外,这些交互会与总线上的CPU操作竞争,甚至进一步占用可用带宽。

图2. 通过PCIe总线连接的双GPU

NVIDIA NVLink?技术使GPC无需通过PCIe总线即可访问远程GPU内存,如图3所示。NVLinks实现了XBAR之间的有效桥接。V100 GPU上最多可采用六个NVLink,GPU之间的双向带宽可达300 GBps。但是,在具有两个以上GPU的系统中,六个可用的NVLink必须先分成较小的链接组,每个组专用于访问不同的特定单一GPU。这就限制了可使用直接连接来构建的机器规模,并降低了每对GPU之间的带宽。

图3. 通过NVLink技术连接的双GPU

Super Crossbar将GPU连接在一起

理想的情况是提供某种交叉,让更多GPU能够访问所有GPU内存,所有GPU都可能在单一GPU驱动程序实例的控制下,如图4所示。有了这样的交叉,可在没有其他进程干预的情况对GPU内存进行访问,且可用带宽将足够高,可提供类似于上文所述的双GPU情况下的性能扩展。

图4. 寻找交叉开关设备

最终目标是提供以下所有内容:

更大的问题规模容量。大小受整个GPU集合的GPU内存容量限制,而非单一GPU容量。

强大的可扩展性。与现有解决方案相比,NUMA效应将大大降低。总内存带宽实际上会随GPU数量而增长。

使用便利。针对较少数量的GPU编写的应用程序将更易于移植。此外,丰富的资源可助力快速开展实验。

以上16-GPU配置(假设有32GB V100 GPU)产生的总容量使其能够前所未有地运行“一个超强GPU”的计算。

NVIDIA NVSwitch介绍

NVSwitch(图5)是一款GPU桥接设备,可提供所需的NVLink交叉网络。端口逻辑模块中的数据包转换使得进出多GPU的流量看似是通过单一GPU的。

图5. 带有标注的NVSwitch芯片裸片

NVSwitch芯片并行运行,以支持数量日益增加的GPU之间的互连。可使用三个NVSwitch芯片构建一个8 GPU封闭系统。两条NVLink路径将每个GPU连接至每台交换机,流量在所有NVLink和NVSwitch之间交叉。 GPU使用任意对之间的300 GBps双向带宽成对通信,因为NVSwitch芯片提供了从任何源到任何目的地的唯一路径。

图6. NVSwitch框图

实现了对分带宽

让每个GPU从另一个GPU读取数据,而不会有两个GPU从同一远程GPU读取数据,就实现了无干扰的成对通信能力。使用16个GPU实现的1.98 TBps读取带宽与128B传输在理论上80%的双向NVLink效率相匹配。

图7. 实现的对分带宽结果

使用cuFFT(16K X 16K)

实现更强大的可扩展性

通过在越来越多的GPU上(更高的GFLOPS,相应的总运行时间却更短)、以及搭载V100 GPU的NVIDIA DGX-1服务器上运行“iso-problem instance”计算进行对比,即能证明其强大的可扩展性能,如图8所示。如果没有NVSwitch网络提供的NVLink交叉,由于问题分散在更多GPU上,传输数据所需的时间要长于在本地对相同数据进行简单计算所需的时间。

图8. 使用NVLink与Hybrid Cube Mesh的cuFFT结果

全归约基准测试

图9也体现了NVLink交叉的优势。全归约基准测试是对机器学习应用程序中采用的重要通信原语进行的测量。与两台配备八个GPU的服务器(通过InfiniBand连接)相比,NVLink交叉让16 GPU DGX-2服务器能够提供更高带宽和更低延迟。 针对较小的信息,NVLink网络的效率明显优于InfiniBand。

图9. 全归约基准测试结果显示NVLink与InfiniBand带宽效率的显著差异

HPC和AI训练基准测试的加速

图10所示,与总GPU数相同的两台DGX-1(采用V100)服务器相比,HPC和AI训练基准测试性能得以提升,速度达到了其2到2.7倍。对比所用的DGX-1服务器各采用了8个Tesla V100 32 GB GPU和双槽Xeon E5 2698v4处理器。服务器通过四个EDR IB / GbE端口连接。

图10. HPC和AI训练基准测试的加速

总结

正因有了NVSwitch芯片,DGX-2才可谓全球最大GPU。NVSwitch是一种畅通无阻的设备,具有18个NVLink端口,每端口51.5 GBps,聚合双向带宽达928 GBps。采用了NVSwitch芯片的DGX-2可提供512 GB的总容量,针对特定应用的性能表现超过InfiniBand连接的一对DGX-1服务器的两倍。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5324

    浏览量

    106648
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4968

    浏览量

    131690

原文标题:全球最大GPU 背后的秘密:NVSwitch如何实现NVIDIA DGX-2的超强功力?

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    aicube的n卡gpu索引该如何添加?

    请问有人知道aicube怎样才能读取n卡的gpu索引呢,我已经安装了cuda和cudnn,在全局的py里添加了torch,能够调用gpu,当还是只能看到默认的gpu0,显示不了gpu1
    发表于 07-25 08:18

    NVIDIA计划打造全球首个工业AI云平台

    NVIDIA 宣布,其正在为欧洲制造商构建全球首个工业 AI 云。这家总部位于德国的 AI 工厂将配备 1 万个 GPU,包括通过 NVIDIA DGX B200 系统 和 NVIDIA RTX PRO 服务器版,帮助欧洲行业领
    的头像 发表于 06-16 14:17 ?584次阅读

    NVIDIA推出AI平台DGX Cloud Lepton

    CoreWeave、Crusoe、Firmus、Foxconn、GMI Cloud、Lambda、Nebius、Nscale、SoftBank Corp. 和 Yotta Data Services 为 DGX Cloud Lepton Marketplace 提供数以万计的 G
    的头像 发表于 05-22 09:42 ?412次阅读

    NVIDIA发布AI优先DGX个人计算系统

    NVIDIA 宣布,多家行业领先系统制造商将打造 NVIDIA DGX Spark。
    的头像 发表于 05-22 09:39 ?388次阅读

    萨瑞微电子SiC 和 GaN赋能AI服务器电源系统

    01AI服务器电源的核心挑战与技术需求超高功率密度:单机架功率已从传统服务器的数千瓦提升至数十千瓦(如英伟达DGX-2需10kW,未来GB300芯片预计达1.4kW单芯片功耗),要求电源方案在有
    的头像 发表于 04-03 14:41 ?461次阅读
    萨瑞微电子SiC 和 GaN赋能AI服务器电源系统

    NVIDIA 宣布推出 DGX Spark 个人 AI 计算机

    DGX? 个人 AI 超级计算机。 ? DGX Spark(前身为 Project DIGITS)支持 AI 开发者、研究人员、数据科学家和学生,在台式电脑上对大模型进行原型设计、微调和推理。用
    发表于 03-19 09:59 ?344次阅读
       NVIDIA 宣布推出 <b class='flag-5'>DGX</b> Spark 个人 AI 计算机

    OpenVINO?检测到GPU,但网络无法加载到GPU插件,为什么?

    GPU 插件。 遇到的错误: OpenVINOException: cldnn program build failed! Program build failed(2_part_0)
    发表于 03-05 06:01

    ASIC和GPU的原理和优势

    ? 本文介绍了ASIC和GPU两种能够用于AI计算的半导体芯片各自的原理和优势。 ASIC和GPU是什么 ASIC和GPU,都是用于计算功能的半导体芯片。因为都可以用于AI计算,所以也被称为
    的头像 发表于 01-06 13:58 ?1876次阅读
    ASIC和<b class='flag-5'>GPU</b>的原理和优势

    《CST Studio Suite 2024 GPU加速计算指南》

    2. 操作系统支持:CST Studio Suite在不同操作系统上持续测试,可在支持的操作系统上使用GPU计算,具体参考相关文档。 3. 许可证:GPU计算功能通过CST Studio Suite
    发表于 12-16 14:25

    预计2024年全球GPU市场销售额将超985亿美元

    根据市场研究机构Jon Peddie Research(JPR)最新发布的预测数据,2024年全球GPU市场的销售额预计将超过985亿美元,这一数字凸显出GPU市场的强劲增长势头。
    的头像 发表于 11-15 16:26 ?866次阅读

    【一文看懂】大白话解释“GPUGPU算力”

    GPUGPU算力1.GPU是什么?2.GPU与CPU的区别?3.GPU算力是什么?4.哪些因素影响了G
    的头像 发表于 10-29 08:05 ?2765次阅读
    【一文看懂】大白话解释“<b class='flag-5'>GPU</b>与<b class='flag-5'>GPU</b>算力”

    为什么被称为超级电容?超级电容怎么用?

    说起电容的作用,很多电子人脱口而出:滤波。没错,这是大部分电容在电路中的作用,但有一种电容生而不是为了滤波,那就是超级电容。本期贸泽科普实验室,momo就为大家说一说超级电容。
    的头像 发表于 10-24 10:15 ?3594次阅读
    为什么<b class='flag-5'>被称为</b>超级电容?超级电容怎么用?

    NVIDIA DGX B200首次面向零售市场:配备8块B200 GPU

    10月13日最新消息,NVIDIA的DGX B200 AI服务器近期已在Broadberry上架,标价515,410美元(相当于约364.2万元人民币)。   自发布以来,Blackwell架构就备受业界瞩目,NVIDIA首席执行官黄仁勋对其赞誉有加,微软、Meta等科技巨头也迅速跟进采用。
    的头像 发表于 10-14 14:34 ?2136次阅读

    TI TDA2x SoC上基于GPU的环视优化

    电子发烧友网站提供《TI TDA2x SoC上基于GPU的环视优化.pdf》资料免费下载
    发表于 10-10 09:14 ?0次下载
    TI TDA<b class='flag-5'>2</b>x SoC上基于<b class='flag-5'>GPU</b>的环视优化

    3DP工艺最大的优势是什么

    3DP(Three Dimensional Printing and Gluing)工艺,也被称为三维打印黏结成型、喷墨沉积或粘合喷射、喷墨粉末打印,是一种先进的3D打印技术。其最大的优势主要体现在以下几个方面:
    的头像 发表于 09-16 15:37 ?1888次阅读