0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

被忽视的国之重器:高性能计算那些事儿

智能计算芯世界 ? 来源:智能计算芯世界 ? 作者:东吴证券 ? 2022-12-02 14:25 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

高性能计算机(HPC,High Performance Computer,又称超级计算机)是国之重器。从核爆炸模拟、油藏模拟,到极端天气预报等,高性能计算都守护着国家安全和安宁。因此,高性能计算也成为衡量国家之间综合实力的基准之一,被视为国家实力的象征。

2020 年以来,十四五和新基建驱动我国高性能计算中心建设进入高速增长期,多地地方政府和企事业单位都在积极建设和筹建高性能计算中心。

1、被忽视的国之重器:高性能计算那些事儿

2、高性能计算:不断取得新进展,国产替代未来可期

想象一下,新药的研制时间从数年缩短至数天。高性能计算机 (HPC) 通过模拟、建模和分析,可以轻松解决这类以及更多其他科学难题。高性能计算系统帮助人们解决世界上最棘手的难题,引领人类走向“第四次工业革命”。高性能计算系统现已广泛用于:

寻找全新的药物化合物并测试已知药物组合,从而更好地治疗不同种类的癌症和其他疾病

模拟分子动力学以开发新材料,如防弹纤维织物

提前预测重大天气变化,使受影响的地区做好准备

超级计算机代表着高性能计算系统最尖端的水平。随着处理能力的不断演进,超级计算机的认定标准也会不断提升。单个超级计算集群可能包含数万个处理器,使用全球最昂贵且最强大的系统,成本高达 1 亿美元。

ee50454c-3c22-11ed-9e49-dac502259ad0.png

高性能计算的工作原理

在高性能计算中,处理信息的两种主要方式为:

串行处理,由中央处理器 (CPU) 完成。每个 CPU 核心通常每次只能处理一个任务。CPU 对于运行各种功能而言至关重要,如操作系统和基本应用程序(如文字处理、办公生产力工具等)。

ee5fbaea-3c22-11ed-9e49-dac502259ad0.png

并行处理,可利用多个 CPU 或图形处理器 (GPU) 完成。GPU 最初是专为图形处理而设计的。它可在数据矩阵(如屏幕像素)中同时执行多种算术运算。同时在多个数据平面上工作的能力使 GPU 非常适合在机器学习 (ML) 应用任务中进行并行处理,如识别视频中的物体。

ee6f4528-3c22-11ed-9e49-dac502259ad0.png

突破超级计算的极限需要不同的系统架构。大多数高性能计算系统通过超高带宽将多个处理器和内存模块互连并聚合,从而实现并行处理。一些高性能计算系统将 CPU 和 GPU 结合在一起,被称为异构计算。

计算机计算能力的度量单位被称为“FLOPS”(每秒浮点运算次数)。截至 2019 年初,现有的高端超级计算机可以执行 143.5 千万亿次 FLOPS (143 × 1015)。此类超级计算机被称为千万亿次级,可以执行超过千万亿次 FLOPS。相比之下,高端游戏台式机的速度要慢 1,000,000 倍以上,可执行约 200 千兆次 FLOPS (1 × 109)。超级计算在处理和吞吐量方面的重大突破很快将会实现超级计算的下一个重大级别——百亿亿次级,该级别的速度比千万亿次级约快 1,000 倍。这意味着百亿亿次级超级计算机每秒将能够执行 1018(或者 10 亿 x 10 亿)次运算。

ee862022-3c22-11ed-9e49-dac502259ad0.png

“FLOPS”是对理论处理速度的描述,实现该速度需要连续向处理器传输数据。因此,系统设计必须考虑到数据吞吐量这一因素。系统内存以及处理节点之间的互连会影响数据传输到处理器的速度。

ee9f76e4-3c22-11ed-9e49-dac502259ad0.png

为了实现1百亿亿次级 FLOPS 的下一级超级计算机处理性能,大概需要 5,000,000 个台式机。*假定每个台式机具备 200 千兆次 FLOPS 的能力。

术语知识

高性能计算 (HPC):一个广义上的强大计算系统,其范围涵盖简单计算机(如 1 个 CPU + 8 个 GPU),乃至世界一流的超级计算机

超级计算机:最先进的高性能计算机,以不断提高的性能标准为依据

异构计算:优化串行 (CPU) 和并行 (GPU) 处理能力的高性能计算架构

内存:在高性能计算系统中为实现快速访问而存储数据的地方

互连:可令处理节点互相通信的系统层;在超级计算机中存在多个级别的互连

千万亿次级:为达到每秒执行千万亿次 (1015) 运算而设计的超级计算机

百亿亿次级:为达到每秒执行百亿亿次 (1018) 运算而设计的超级计算机

高性能计算是什么?

高性能计算是指将多个计算节点组织起来,通过网络连接在一起,进行协同工作,组成一台性能更强大的计算机,通常指具有极快运算速度、极大存储容量、极高通信带宽的一类计算机。高性能计算能够让整个计算机集群为同一个任务工作,以更快的速度来解决一个复杂问题。一台高性能计算上往往执行一个任务(或者有限的几个任务)。全部的计算机资源都被倾注到同一个任务中。为了解决同一个问题,集群的不同计算机之间要有非常好的沟通能力。

eebd9caa-3c22-11ed-9e49-dac502259ad0.png

高性能计算机是计算机和网络的结合。假设说互联网从外部将分立的计算机连接在一起,那么集群则是将网络内部化,让网络成为系统内部不同计算机的沟通桥梁。首先创造性发明集群的是有“高性能计算之父”之称的 Seymour Cray。在 1960 年代,可以进行高性能运算的仅仅是经过特别设计的、昂贵的大型机。这些大型机需要复杂的回路以实现高运算频率,所以其设计和生产周期都非常长。Seymour Cray 提出并行是提高计算机性能的有效方式。1964 年,Seymour Cray 研制的 CDC 6600 问世,他将多个普通的处理器连接起来,并使得这些处理器协同工作。政府和科研部门开始采购这样的新型的高性能计算机,以代替原有的大型机。高性能计算机为登月计划等大型科研项目做出了不可磨灭的贡献,开启了高性能计算技术和产业多年的持续发展与繁荣。

高性能计算近 60 年的演变路线可简单地分为 2 个阶段:Cray 时代和多计算机时代。

(1)Cray 时代。从 20 世纪 60—90 年代初期的 30 年被称为“Cray 时代”,以单一内存向量机的技术革新为主导,Cray 定义和引领了前 30 年的高性能计算市场。第一个30 年研制以“顶天”为主,仅服务于国家战略部门。

(2)多计算机时代。从 20 世纪 90年代迄今的后 30 年被称为“多计算机时代”,由于微处理器的出现,以及大量工业标准硬件的普及,以大规模互连多个通用乃至商用的计算部件的可扩展系统结构的技术创新主导了迄今为止的高性能计算发展。后 30 年的高性能计算机在满足国家战略应用对性能巅峰需求的同时,“立地”成为发展的主要目标,市场驱动、高性能计算应用普及成为第二阶段的显著特点。

eee3aec2-3c22-11ed-9e49-dac502259ad0.png

高性能计算为什么重要?

高性能计算是计算机科学与工程的“皇冠”。高性能计算是计算机技术的源头之一。互联网产业依赖的数据中心的核心技术,诸如 Hadoop 等并行编程工具和 RDMA 等远程通信技术大多脱胎于此。因此,高性能计算机被视为计算机科学与工程的“皇冠”。各国均频繁从国家层面启动研制计划。在中国多次上榜全球高性能计算 TOP500 后,美国自2015 年起将多所中国高性能计算相关机构或企业列入实体清单,包括国防科大、无锡江南计算技术研究所、曙光、申威等。而我国高性能计算整体实力和美国相比仍然有较大差距。因此,发展自主可控的高性能计算至关重要。

ef14e316-3c22-11ed-9e49-dac502259ad0.png

高性能计算的核心能力是 64 位双精度浮点运算能力。高性能计算是一种通用算力,其设计目标是提供完备、复杂的计算能力,在高精度计算能力更强。业界广泛用于衡量高性能计算性能的 Linpack 测试,测试的是高性能计算的“双精度浮点运算能力”,即 64位浮点数字的计算(FP64),这是一种高精度的数值计算。在以二进制所表示数字精度中,还有单精度(32 位,FP32)、半精度(16 位,FP16)以及整数类型(如 INT8、INT4)等。数字位数越高,意味着人们可以在更大范围内的数值内体现两个数值的变化,从而实现更精确计算。

高性能计算在底层芯片性能要求上高于普通的数据中心和智算中心。算力中心有多种,大致可分为数据中心、高性能计算中心、智算中心等,而它们都可以用云的形式来提供服务。以实现人工智能需求为例,推理、训练和模拟为 AI 的三类主要任务。在此维度上,芯片的应用上限由其底层构造所决定,即使采用软件优化也无法再提升。从芯片层面来看,如果底层芯片采用的是 CPU+专用 AI 芯片,那么其只能完成 AI 推理和训练任务,而无法完成模拟。因为 AI 芯片无法实现双精度浮点运算,双精度浮点运算大量涉及线性代数方程求解,而自然界的很多问题,包括科学问题、社会问题等,最后都可转化为线性代数方程求解问题。

ef3d57ba-3c22-11ed-9e49-dac502259ad0.png

高性能计算的体系结构设计和软件同样重要。芯片是高性能计算的重要组成部分,但不是高性能计算技术的全部。高性能计算不是简单的 CPU 堆砌,体系结构设计、高速互联网络、并行文件系统、储存列阵等方面如果有所欠缺,即使堆再多的 CPU,高性能计算性能也无法提高。随着计算能力的增强、应用课题规模和复杂度的增加,高性能计算机对并行文件系统等性能要求越来越高。高性能计算的技术溢出效益非常明显。由于服务器可以平滑地采用高性能计算的互联技术、CPU 技术、操作系统技术和并行软件设计等技术,在高性能计算方面的积累能够自然地溢出到服务器产业。

高性能计算主要应用于哪些场景?

高性能计算适用于需要并行运算的任务,应用场景持续拓展。高性能计算主要应用场景分为两类,一类是飞行器设计、核模拟实验、星云模拟、解密码等数值模拟场景,一类是大数据分析、统计和人工智能等数据分析场景。由于飞行器等工程设计中很多情况无法实测,只能进行计算模拟,因此美国对出口高性能计算十分谨慎。高性能计算应用正在从过去的高精尖向更广更宽的方向发展。随着高性能计算的发展,尤其是使用成本的不断下降,其应用领域也从具有国家战略意义的核武器研制、信息安全、石油勘探等科学计算领域向更广泛的国民经济主战场快速扩张,比如制药、基因测序、动漫渲染、数据挖掘、金融分析以及互联网服务等等。

从 2021 年 11 月中国高性能计算机 TOP100中的行业应用领域 Linpack 性能份额来看,算力服务、高性能计算中心、人工智能、科学计算等领域是高性能计算的主要用户,互联网大数据特别是 AI 领域增长强劲。

ef5be7c0-3c22-11ed-9e49-dac502259ad0.png

高性能计算的市场空间有多大?

十四五和新基建驱动高性能计算进入快速增长期。2021 年 3 月,我国“十四五规划”中明确提出,要“加快构建全国一体化大数据中心体系,强化算力统筹智能调度,建设若干国家枢纽节点和大数据中心集群,建设 E 级和 10E 级超级计算中心。”根据规划,合肥、兰州、厦门、太原等地多地都将陆续建立高性能计算中心。

2022 年中国整体高性能计算市场规模将超 400 亿元。除政府规划外,阿里、腾讯等多家互联网巨头均积极布局高性能计算建设。以腾讯为例,其于 2020 年 6 月正式开工的长三角人工智能高性能计算中心投资超 450 亿元,建成后将承担各种大规模 AI 算法计算、机器学习、图像处理、科学计算和工程计算任务。此外,金融机构、运营商等均在积极部署自己的高性能计算。根据观研天下预测,2022 年中国高性能计算行业总体市场规模将超 400 亿元,2021-2025 年 CAGR 为 13%左右。

高性能计算市场竞争格局稳定

联想、曙光、浪潮市占率分列前三。从中国高性能计算 TOP100 中主要公司系统个数统计来看,2002 年之前,TOP100 主要是国外的 HP、IBM 为主,后期以中国的联想、曙光和浪潮为主。中科曙光在 1998 年完成 863 项目“曙光 2000”可扩展机群体系结构的超级服务器,2001 年完成“曙光 3000”超级服务器后,从 2005 年开始,市场竞争开始有突出表现,曙光 2010-2019 年连续 10 年按装机台数市场份额第一,2019 年占到接近 40%。浪潮在 2012 年完成“863 计划”容错服务器项目后,2014 年开始有明显起色。联想公司通过 2014 年对 IBM 公司 X86 HPC 产品线的并购,市场份额异军突起,到 2021年已实现 TOP100 装机台数份额第一。而联想、浪潮、曙光中,只有曙光拥有从芯片等硬件到软件系统的国产自主知识产权。

ef89c924-3c22-11ed-9e49-dac502259ad0.png

“东数西算”工程落地有望进一步促进西部地区发展高性能计算中心。2022 年 2月,国家发改委批复同意在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏等 8 地启动建设国家算力枢纽节点,并规划了 10 个国家数据中心集群。至此,全国一体化大数据中心体系完成总体布局设计,代表着“东数西算”工程正式全面启动。西部有风力发电、光伏发电,能源丰富,而且年平均气温比较低,十分适合计算中心的生存,而高性能计算业务对实时通讯的需求不高,未来高性能计算中心有望成为优化算力布局的重要载体。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11115

    浏览量

    218274
  • 计算机
    +关注

    关注

    19

    文章

    7688

    浏览量

    91186
  • HPC
    HPC
    +关注

    关注

    0

    文章

    333

    浏览量

    24427
  • 高性能计算
    +关注

    关注

    0

    文章

    93

    浏览量

    13682

原文标题:被忽视的国之重器:高性能计算那些事儿

文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    探索CPU架构的奥秘,揭秘高性能计算的隐形引擎

    的深海,揭开那些隐藏在高性能计算背后的神秘面纱。1.取指令(Fetch)程序计数(PC):CPU通过程序计数获取下一条指令的内存地址。指
    的头像 发表于 08-13 11:58 ?101次阅读
    探索CPU架构的奥秘,揭秘<b class='flag-5'>高性能</b><b class='flag-5'>计算</b>的隐形引擎

    知合计算:RISC-V架构创新,阿基米德系列剑指高性能计算

    在2025 RISC-V中国峰会上,知合计算处理设计总监刘畅就高性能RISC-V处理架构探索与实践进行了精彩分享。 在以X86和ARM为代表的处理
    的头像 发表于 07-18 14:17 ?1676次阅读
    知合<b class='flag-5'>计算</b>:RISC-V架构创新,阿基米德系列剑指<b class='flag-5'>高性能</b><b class='flag-5'>计算</b>

    高性能计算集群在AI领域的应用前景

    随着人工智能技术的飞速发展,高性能计算集群(HPC)在AI领域的应用前景日益受到关注。HPC提供的计算能力与AI的智能分析能力相结合,为解决复杂问题和推动科学研究提供了新的动力。1、HPC与AI
    的头像 发表于 06-23 13:07 ?565次阅读
    <b class='flag-5'>高性能</b><b class='flag-5'>计算</b>集群在AI领域的应用前景

    使用树莓派构建 Slurm 高性能计算集群:分步指南!

    在这篇文章中,我将分享我尝试使用树莓派构建Slurm高性能计算集群的经历。一段时间前,我开始使用这个集群作为测试平台,来创建一个更大的、支持GPU计算高性能
    的头像 发表于 06-17 16:27 ?730次阅读
    使用树莓派构建 Slurm <b class='flag-5'>高性能</b><b class='flag-5'>计算</b>集群:分步指南!

    高性能计算面临的芯片挑战

    高性能计算(简称HPC)听起来像是科学家在秘密实验室里才会用到的东西,但它实际上是当今世界上最重要的技术之一。从预测天气到研发新药,甚至训练人工智能,高性能计算系统都能帮助解决普通
    的头像 发表于 05-27 11:08 ?506次阅读
    <b class='flag-5'>高性能</b><b class='flag-5'>计算</b>面临的芯片挑战

    罗德与施瓦茨出席AI与高性能计算服务测试解决方案研讨会

    随着AI技术以惊人的速度不断更新迭代,与紧密相关的高性能计算(HPC)需求也呈现出持续且迅猛的增长趋势。与此同时,服务计算集群、芯片以及
    的头像 发表于 04-07 10:24 ?588次阅读

    高性能计算,名副其实的“算力皇冠”

    和推理的高性能计算技术。今天,我们就来聊一聊高性能计算计算机科学的“皇冠”初次涉及高性能
    的头像 发表于 02-08 14:27 ?953次阅读
    <b class='flag-5'>高性能</b><b class='flag-5'>计算</b>,名副其实的“算力皇冠”

    Triton编译高性能计算中的应用

    高性能计算(High-Performance Computing,HPC)是现代科学研究和工程计算中不可或缺的一部分。随着计算需求的不断增长,对计算
    的头像 发表于 12-25 09:11 ?1093次阅读

    电平匹配问题,简单却容易被忽视

    导读在电路设计中,电平匹配是一个基本要求,但常常被忽视,可能导致设备故障和通信异常。本文我们将揭示如何避免因电平不匹配导致的设备故障,并提供实用的设计建议,确保您的电路设计既高效又稳定。电平匹配
    的头像 发表于 12-20 11:34 ?1359次阅读
    电平匹配问题,简单却容易<b class='flag-5'>被忽视</b>

    赛昉联合芯推出高性能AI MCU芯片,实现RISC-V+AI新应用

    近日,赛昉科技与苏州芯科技有限公司(以下简称“芯科技”)合作研发的高性能AIMCU芯片产品CCR7002已成功通过了内部性能和功能测试,实现了RISC-V+AI技术的新应用。赛昉科
    的头像 发表于 11-27 11:46 ?1174次阅读
    赛昉联合<b class='flag-5'>国</b>芯推出<b class='flag-5'>高性能</b>AI MCU芯片,实现RISC-V+AI新应用

    芯科技:高性能AI MCU芯片CCR7002内部测试成功

    近日,芯科技宣布了一项重要研发成果。11月24日,公司正式公告,其高性能AI MCU芯片新产品CCR7002在公司内部测试中取得了圆满成功。这一成果标志着芯科技在AI芯片研发领域取得了新的突破
    的头像 发表于 11-25 14:45 ?1014次阅读

    芯科技携手赛昉科技发布高性能AI MCU芯片

    近日,从芯科技再次传来喜讯,芯科技与广东赛昉科技有限公司(以下简称“赛昉科技”)合作研发的高性能AI MCU芯片产品CCR7002已成功通过了内部性能和功能测试,实现了RISC-V
    的头像 发表于 11-25 10:11 ?842次阅读

    AI高性能计算平台是什么

    AI高性能计算平台不仅是AI技术发展的基石,更是推动AI应用落地、加速产业升级的重要工具。以下,是对AI高性能计算平台的介绍,由AI部落小编为您整理分享。
    的头像 发表于 11-11 09:56 ?789次阅读

    高性能云服务有什么用处?

    高性能云服务是一种基于云计算技术的虚拟化服务,具有高性能、灵活性、可靠性和安全性等特点。它广泛应用于网络托管服务、数据备份与恢复、大数据
    的头像 发表于 11-04 10:22 ?655次阅读

    GPU高性能服务配置

    GPU高性能服务作为提升计算速度和效率的关键设备,在各大应用场景中发挥着越来越重要的作用。在此,petacloud.ai小编为你介绍GPU高性能服务
    的头像 发表于 10-21 10:42 ?984次阅读