0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于云的AI超级计算机正世界上最强大的计算机的榜单上蓄势待发

NVIDIA英伟达企业解决方案 ? 来源:NVIDIA英伟达企业解决方案 ? 作者:NVIDIA英伟达企业解 ? 2021-06-29 09:44 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

基于云的 AI 超级计算机(包括 Microsoft Azure 和剑桥大学的新系统)正在世界上最强大的计算机的最新榜单上蓄势待发

ISC 高性能计算大会 (ISC High Performance) 发布的 TOP500 榜单中,有 342 个系统采用了 NVIDIA 技术提供加速,其中包括70%的新系统,与排名前10的8个。

最新的全球最强系统榜单显示出越来越多的高性能计算中心在使用 AI,也体现出用户们在继续拥抱NVIDIA AI与加速计算、网络技术的组合来运行他们的科学和商业工作负载。

例如,榜单上使用 InfiniBand 的系统数量比去年增加了20%。随着AI,HPC和模拟数据对于低延迟和加速的需求日益增加,InfiniBand已成为首选网络。

此外,名单上的两个新系统便是我们所称的超级云 —— 一种新兴的共享超级计算机,能够同时满足人工智能、高性能计算和云端的需求。

超级云的到来

Microsoft Azure 利用集群将公有云服务提升到一个新的水平,在 TOP500 榜单上连续占据第 26 位到第 29 位。它们是超级云的一部分,是一台全球的人工智能超级计算机,如今地球上的任何用户都可以按需使用。

在HPL基准测试(也成为了Linpack),四个 Azure 系统中的每一个都实现了 16.59 Petaflop 的计算性能。Linpack 是衡量 64 位浮点数学运算的高性能计算性能的传统标准,也是 TOP500 榜单的参考依据。

迈入行业高性能计算时代

Azure 系统便是 NVIDIA 首席执行官黄仁勋所述“行业高性能计算革命”的一例,即 AI 与高性能计算和加速计算融合,正在推动科研和行业各个领域的发展。

在幕后,有 8 个 NVIDIA A100 Tensor Core GPU 为 Azure 系统的各个虚拟实例提供动力支持。每个芯片都有自己的 HDR 200G InfiniBand 通信接口,可以与 Azure 云中的数千个 GPU 建立快速连接。

英国研究人员采用云原生技术

剑桥大学首次成为英国最快的学术系统,其超级计算机在 Green500 世界上最节能的系统名单中排名第三,这是另一种超级云。它被称为 Wilkes-3,是世界上第一台云原生超级计算机,其使研究人员可以在不影响性能的情况下,共享具有隐私和安全性的虚拟资源。这要归功于 经过优化的NVIDIA BlueField DPU可以执行安全、虚拟化和其他数据处理任务。

该系统使用 320 个连接在 HDR 200G Infiniband 网络上的 A100 GPU,为学术研究以及探索科学和医学前沿的商业合作伙伴加速模拟、人工智能和数据分析。

TOP500 榜单新秀采用 AI

榜单上许多由 NVIDIA 提供动力支持的新系统,凸显了 AI 对于科研和商业用户的高性能计算应用的重要性不断提升。

国家能源研究科学计算中心 (NERSC) 的 Perlmutter 以 64.59 Linpack petaflops 在 TOP500 中排名第 5,部分归功于其 6,144 个 A100 GPU。

该系统在最新版本的 HPL-AI 上提供了超过一半的 exaflops 性能。它是融合 HPC 和 AI 工作负载的新兴基准,它使用混合精度数学——深度学习和许多科学和商业工作的基础——同时仍然提供双精度数学的完全准确性。

AI 性能变得越来越重要,因为 AI 是 “美国能源部的一个增长领域,其可行性已被验证,正在计划投入生产,” NERSC 数据和分析服务组代理负责人 Wahid Bhimji 表示。

HiPerGator AI 以 17.20 petaflops 排名第 22 位,在 Green500 榜单中排名第 2,使其成为世界上最节能的学术超级计算机。它与 Green500 的榜首位置相差甚远——仅为 0.18 Gflops/Watt。

与最新名单上的其他 12 款系统一样,该系统采用了 NVIDIA DGX SuperPOD 的模块化架构,这一配置让佛罗里达大学能够快速部署世界上最强大的学术 AI 超级计算机之一。该系统还使其成为领先的AI大学,其既定目标是 在2030 年前有 30,000 名AI相关专业的毕业生。

卢森堡的 MeluXina 在 HPL-AI 上以 10.5 Linpack petaflops排名第 37 位。该系统是首批在欧洲国家超级计算机网络中亮相的首个系统,,将用于在科研和商业应用中运用 AI 和数据分析。

Cambridge-1 在 500 强中排名第 42 位,达到 9.68 Linpack petaflops,成为英国最强大的系统,将为包括阿斯利康(AstraZeneca)、葛兰素史克(GSK)和Oxford Nanopore在内的学术和商业组织的英国医疗保健研究人员提供服务。

BerzeLiUs 以 5.25 petaflops 排名第 83,成为瑞典最快的系统。BerzeLiUs在 200G 的 InfiniBand 网络上连接了 60 个 NVIDIA DGX 系统,将HPC、AI 和数据分析用于学术和商业研究。是榜单上15个基于NVIDIA DGX的其中一个。

10 大系统助推 HPL-AI 采用

另一个迹象表明,AI 工作负载的重要性日益增加,榜单上有 10 个系统报告其 HPL-AI 得分是去年 6 月的 5 倍。大多数系统采用了 3 月发布的针对代码的重大优化,这是自田纳西大学的研究人员在 2018 年底发布该基准以来的首次升级。

新软件简化了通信,实现了 GPU 间链路,从而消除了等待主机 CPU 的时间。它还以 16 位代码的形式实现通信,而不是在Linpack 上默认使用的较慢的 32 位代码。

Azzam Haidar Ahmad 称:“我们将芯片间通信的时间减少了一半,并使其他一些工作负载能够并行运行,因此新代码相较于原代码平均改进了约 2.7 倍”。他帮助定义了该基准,现在是 NVIDIA 的高级工程师

该基准测试虽然专注于混合精度数学计算,但仍然提供与 Linpack 相同的 64 位精度,这要归功于 HPL-AI 的一种循环方法,它能迅速优化一些计算。

Summit 的 HPL-AI 得分超过 1 Exaflop

经过优化后,与去年使用早期版本的代码所报告的得分相比,现在的得分大大高于基准线。

例如,橡树岭国家实验室(Oak Ridge National Lab,ORNL)的 Summit 超级计算机是第一台采用 HPL-AI 基准的超级计算机,其在 2019 年宣布使用第一版代码的得分为 445 Petaflop。今年峰会上的测试使用最新版本的 HPL-AI 测试,得分达到 1.15 Exaflops。

采用该基准的其他超级计算机包括日本的 Fugaku(世界上最快的系统)、NVIDIA 的 Selene(世界上最快的商业系统)和德国的最强超级计算机 Juwels。

于利希超算中心 (Jülich Supercomputing Center) 主任 Thomas Lippert 称:“我们使用 HPL-AI 基准,因为它能很好地衡量我们日益增多的 AI 和科研工作负载中的混合精度作业,而且能反映准确的 64 位浮点运算结果。”

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4969

    浏览量

    131724
  • 超级计算机
    +关注

    关注

    2

    文章

    473

    浏览量

    42509
  • AI
    AI
    +关注

    关注

    88

    文章

    35506

    浏览量

    281399
  • HPC
    HPC
    +关注

    关注

    0

    文章

    333

    浏览量

    24391

原文标题:ISC2021 | 超级云:AI、云原生超级计算机跻身 TOP500 榜单

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA驱动的现代超级计算机如何突破速度极限并推动科学发展

    现代高性能计算不仅使得更快的计算成为可能,它驱动着 AI 系统解锁更多领域的科学突破。 高性能计算经历了多次迭代,每一次都源于对技术的创造
    的头像 发表于 06-26 19:39 ?581次阅读
    NVIDIA驱动的现代<b class='flag-5'>超级</b><b class='flag-5'>计算机</b>如何突破速度极限并推动科学发展

    Blue Lion超级计算机将在NVIDIA Vera Rubin运行

    德国莱布尼茨超算中心(LRZ)将迎来全新超级计算机 Blue Lion,其算力比该中心现有的 SuperMUC-NG 高性能计算机提升了约 30 倍。这台新的超级
    的头像 发表于 06-12 15:39 ?477次阅读

    NVIDIA技术赋能欧洲最快超级计算机JUPITER

    NVIDIA 宣布,搭载 NVIDIA Grace Hopper 平台的 JUPITER 超级计算机成为欧洲最快超级计算机,其运行 HPC 和 AI
    的头像 发表于 06-12 15:33 ?582次阅读

    NVIDIA 宣布推出 DGX Spark 个人 AI 计算机

    的 DGX? 个人 AI 超级计算机。 ? DGX Spark(前身为 Project DIGITS)支持 AI 开发者、研究人员、数据科学家和学生,在台式电脑
    发表于 03-19 09:59 ?345次阅读
       NVIDIA 宣布推出 DGX Spark 个人 <b class='flag-5'>AI</b> <b class='flag-5'>计算机</b>

    NVIDIA推出个人AI超级计算机Project DIGITS

    NVIDIA 推出个人 AI 超级计算机 NVIDIA Project DIGITS,全球的 AI 研究员、数据科学家和学生都可获取 NVIDIA Grace Blackwell 平台
    的头像 发表于 01-08 11:03 ?866次阅读

    云端超级计算机使用教程

    云端超级计算机是一种基于计算的高性能计算服务,它将大量计算资源和存储资源集中在一起,通过网络向
    的头像 发表于 12-17 10:19 ?589次阅读

    NVIDIA加速全球大多数超级计算机推动科技进步

    HPCwire 读者和编辑选择奖。 自 2006 年发布 CUDA 以来,NVIDIA 不断推动 AI 和加速计算的进步,最新发布的全球最强超级
    的头像 发表于 11-24 14:38 ?724次阅读
    NVIDIA加速全球大多数<b class='flag-5'>超级</b><b class='flag-5'>计算机</b>推动科技进步

    量子计算机与普通计算机工作原理的区别

    超越世界上最强大超级计算机,完成以前不可想象的任务!这意味着量子计算机可能会彻底改变我们的生活。 在本文中,我们将先了解普通
    的头像 发表于 11-24 11:00 ?1606次阅读
    量子<b class='flag-5'>计算机</b>与普通<b class='flag-5'>计算机</b>工作原理的区别

    工业计算机类型介绍

    工业领域没有计算机世界就像没有管弦乐队的交响乐,缺乏实现最佳性能所需的和谐和精确度。计算机彻底改变了工业的运作方式,将效率、准确性和创新推向了新的高度。事实,根据最近在印度进行的一
    的头像 发表于 11-04 15:56 ?709次阅读
    工业<b class='flag-5'>计算机</b>类型介绍

    NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机

    、超大规模的 AI 工厂提供卓越性能而设计的 RDMA(Remote Direct Memory Access)网络。 ? Colossus 是世界上最大的 AI 超级
    发表于 10-30 09:33 ?380次阅读
    NVIDIA 以太网加速 xAI 构建的全球最大 <b class='flag-5'>AI</b> <b class='flag-5'>超级</b><b class='flag-5'>计算机</b>

    丹麦推出首台AI超级计算机Gefion

    近日,丹麦正式推出了该国首台人工智能超级计算机,命名为Gefion,以纪念丹麦神话中的女神。此次揭幕仪式由英伟达首席执行官黄仁勋与丹麦国王共同出席,彰显了该项目的重要性和影响力。 Gefion AI
    的头像 发表于 10-29 15:13 ?875次阅读

    NVIDIA助力丹麦发布首台AI超级计算机

    这台丹麦最大的超级计算机由该国政府与丹麦 AI 创新中心共同建设,是一台 NVIDIA DGX SuperPOD 超级计算机
    的头像 发表于 10-27 09:42 ?986次阅读

    云端超级计算机怎么用

    云端超级计算机是一种基于计算的高性能计算服务,它将大量计算资源和存储资源集中在一起,通过网络向
    的头像 发表于 10-18 10:14 ?511次阅读

    计算机接口位于什么之间

    计算机接口是计算机硬件和软件之间、计算机与外部设备之间以及计算机各部件之间传输数据、控制信息和状态信息的硬件设备和软件程序。它在计算机系统中
    的头像 发表于 10-14 14:02 ?1401次阅读

    晶体管计算机和电子管计算机有什么区别

    晶体管计算机和电子管计算机作为计算机发展史上的两个重要阶段,它们在多个方面存在显著的区别。以下是对这两类计算机在硬件、性能、应用以及技术发展等方面区别的详细阐述。
    的头像 发表于 08-23 15:28 ?3749次阅读