0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPU竞争壁垒:微架构和平台生态

架构师技术联盟 ? 来源:架构师技术联盟 ? 2023-05-15 11:00 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

据Global Market Insights 数据,全球 GPU 市场预计将以 CAGR 25.9%持续增长,至 2030 年达到 4000 亿美元规模。其中 AI 领域大语言模型的持续推出以及参数量的不断增长有望驱动模型训练端、推理端 GPU 需求快速增长。

近年来,国产 GPU 厂商在图形渲染 GPU 和高性能计算 GPGPU 领域上均推出了较为成熟的产品,在性能上不断追赶行业主流产品,在特定领域达到业界一流水平。生态方面国产厂商大多兼容英伟达 CUDA,融入大生态进而实现客户端不断导入。在高端GPU 芯片进口受限的背景下,国产 GPU 厂商预计将乘政策东风,抓住国产替代契机快速成长。

a0f44268-f251-11ed-90ce-dac502259ad0.png

GPU(图形处理器)最初是为了解决 CPU 在图形处理领域性能不足的问题而诞生。CPU 作为核心控制计算单元,高速缓冲存储器(Cache)、控制单元(Control)在 CPU 硬件架构设计中所占比例较大,主要为实现低延迟和处理单位内核性能要求较高的工作而存在,而计算单元(ALU)所占比例较小,这使得 CPU 的大规模并行计算表现不佳。GPU 架构内主要为计算单元,采用极简的流水线进行设计,适合处理高度线程化、相对简单的并行计算,在图像渲染等涉及大量重复运算的领域拥有更强运算能力。 GPGPU脱胎于GPU,通用性提升

a0ff6404-f251-11ed-90ce-dac502259ad0.png

CPU+GPU 异构计算解决多元化计算需求

a10960ee-f251-11ed-90ce-dac502259ad0.png

大语言模型开启 AI 元年

a110f944-f251-11ed-90ce-dac502259ad0.png

常见的AI 加速芯片主要为GPU、FPGAASIC

a11ae1ac-f251-11ed-90ce-dac502259ad0.png

大语言模型有望拉动 GPU 需求增量

a12385d2-f251-11ed-90ce-dac502259ad0.png

a12faf6a-f251-11ed-90ce-dac502259ad0.png

GPU 的微架构是用以实现指令执行的硬件电路结构设计 以 Nvidia 第一个实现统一着色器模型的 Tesla 微架构为例,从顶层 Host Interface 接受来自 CPU 的数据,藉由 Vertex(顶点)、Pixel(片元)、Compute(计算着色器)分发给各 TPC(Texture Processing Clusters 纹理处理集群)进行处理。

a13a875a-f251-11ed-90ce-dac502259ad0.png

流处理器、特殊函数计算单元构成计算核心 在单个 TPC 中主要的运算结构为SM(Streaming Multiprocessor 流式多处理器),其内在蕴含 I Cache(指令缓存)、C Cache(常量缓存)以及核心的计算单元 SP(Streaming Processor 流处理器)和 SFU(Special Function Unit 特殊函数计算单元),外加 Texture Unit(纹理单元)。

a1467a60-f251-11ed-90ce-dac502259ad0.png

解耦计算单元,拥抱通用计算 由于图形渲染流管线相对固定,Nvidia 在 Tesla构中将部分重要环节剥离并实现可编程,解耦出 SM 计算单元用于通用计算,即可实现根据具体任务需要分配相应线程实现通用计算处理。

a14f464a-f251-11ed-90ce-dac502259ad0.png

计算核心、纹理单元增加, GPC 功能更加完整,Nvidia Fermi 架构奠定完整GPU 计算架构基础。

a1596788-f251-11ed-90ce-dac502259ad0.png

在Tesla 之后,Nvidia 第一个完整的 GPU 计算架构 Fermi通过制程微缩增加更多计算核心、纹理单元,并且通过增加 PolyMorph Engine(多形体引擎)和 Raster Engine(光栅引擎)使得原来 TPC 升级成为拥有更加完整功能的 GPC(Graphics Processing Clusters 图形处理器集群)。Fermi 架构共包含 4 个 GPC,16 个 SM,512 个CUDA Core。

英伟达GPU从最初 Fermi 架构到最新的 Ampere 架构和 Hopper 架构

a166f9f2-f251-11ed-90ce-dac502259ad0.png

每一阶段都在性能和能效比方面得到提升,引入了新技术,如 CUDA、GPUBoost、RT 核心和 Tensor 核心等,在图形渲染、科学计算和深度学习等领域发挥重要作用。最新一代 Hopper 架构在 2022 年 3 月推出,旨在加速 AI 模型训练,使用 Hopper Tensor Core 进行 FP8 和 FP16 的混合精度计算,以大幅加速Transformer 模型的 AI 计算。与上一代相比,Hopper 还将 TF32、FP64、FP16 和INT8 精度的每秒浮点运算(FLOPS)提高了 3 倍。

AMD 作为全球第二大GPU厂商,亦通过持续的架构演进保持其市场领先地位

a16fa23c-f251-11ed-90ce-dac502259ad0.png

从2010年以来,AMD 相继推出:GCN 架构、RDNA 架构、RDNA 2 架构、RDNA 3 架构、CDNA 架构和 CDNA 2 架构。最新一代面向高性能计算和人工智能 CDNA 2 架构于架构采用增强型 Matrix Core 技术,支持更广泛的数据型和应用,针对高性能计算工作负载带来全速率双精度和全新 FP64 矩阵运算。基于 CDNA2 架构的 AMD Instinct MI250X GPU FP64 双精度运算算力最高可达 95.7 TFLOPs。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4969

    浏览量

    131728
  • 微架构
    +关注

    关注

    0

    文章

    22

    浏览量

    7209

原文标题:GPU竞争壁垒:微架构和平台生态

文章出处:【微信号:架构师技术联盟,微信公众号:架构师技术联盟】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【「算力芯片 | 高性能 CPU/GPU/NPU 架构分析」阅读体验】+NVlink技术从应用到原理

    前言 【「算力芯片 | 高性能 CPU/GPU/NPU 架构分析」书中的芯片知识是比较接近当前的顶尖芯片水平的,同时包含了芯片架构的基础知识,但该部分知识比较晦涩难懂,或许是由于我一
    发表于 06-18 19:31

    从封闭到开放:聚徽解码安卓工控机如何打破工业软件生态壁垒

    、模块化设计与生态协同能力,正成为破解工业软件生态壁垒的关键突破口。 一、开源架构:重构工业软件开发范式 安卓系统的开源特性彻底颠覆了传统工业软件开发模式。传统工控系统依赖厂商封闭AP
    的头像 发表于 06-09 15:42 ?232次阅读

    GPU架构深度解析

    GPU架构深度解析从图形处理到通用计算的进化之路图形处理单元(GPU),作为现代计算机中不可或缺的一部分,已经从最初的图形渲染专用处理器,发展成为强大的并行计算引擎,广泛应用于人工智能、科学计算
    的头像 发表于 05-30 10:36 ?479次阅读
    <b class='flag-5'>GPU</b><b class='flag-5'>架构</b>深度解析

    ARM Mali GPU 深度解读

    ARM Mali GPU 深度解读 ARM Mali 是 Arm 公司面向移动设备、嵌入式系统和基础设施市场设计的图形处理器(GPU)IP 核,凭借其异构计算架构、能效优化和生态协同,
    的头像 发表于 05-29 10:12 ?1349次阅读

    iTOP-3588S开发板四核心架构GPU内置GPU可以完全兼容0penGLES1.1、2.0和3.2。

    性能强 iTOP-3588S开发板采用瑞芯RK3588S处理器,是全新一代AloT高端应用芯片,搭载八核64位CPU,四核Cortex-A76和四核Cortex-A55架构主频高达2.4GHZ
    发表于 05-15 10:36

    GPU加速计算平台的优势

    传统的CPU虽然在日常计算任务中表现出色,但在面对大规模并行计算需求时,其性能往往捉襟见肘。而GPU加速计算平台凭借其独特的优势,吸引了行业内人士的广泛关注和应用。下面,AI部落小编为大家分享GPU加速计算
    的头像 发表于 02-23 16:16 ?461次阅读

    《算力芯片 高性能 CPUGPUNPU 架构分析》第3篇阅读心得:GPU革命:从图形引擎到AI加速器的蜕变

    在数据挖掘工作中,我经常需要处理海量数据的深度学习任务,这让我对GPU架构和张量运算充满好奇。阅读《算力芯片》第7-9章,让我对这些关键技术有了全新认识。 GPU架构从早期的固定功能流
    发表于 11-24 17:12

    GPU服务器AI网络架构设计

    众所周知,在大型模型训练中,通常采用每台服务器配备多个GPU的集群架构。在上一篇文章《高性能GPU服务器AI网络架构(上篇)》中,我们对GPU
    的头像 发表于 11-05 16:20 ?1315次阅读
    <b class='flag-5'>GPU</b>服务器AI网络<b class='flag-5'>架构</b>设计

    【「算力芯片 | 高性能 CPU/GPU/NPU 架构分析」阅读体验】--了解算力芯片GPU

    本篇阅读学习第七、八章,了解GPU架构演进及CPGPU存储体系与线程管理 █从图形到计算的GPU架构演进 GPU图像计算发展 ●从三角形开始
    发表于 11-03 12:55

    GPU加速计算平台是什么

    GPU加速计算平台,简而言之,是利用图形处理器(GPU)的强大并行计算能力来加速科学计算、数据分析、机器学习等复杂计算任务的软硬件结合系统。
    的头像 发表于 10-25 09:23 ?623次阅读

    GPU算力租用平台是什么

    GPU算力租用平台是一种基于云计算的服务模式,它允许用户通过互联网按需租用高性能GPU资源,而无需自行购买、部署和维护这些硬件。
    的头像 发表于 10-16 10:15 ?722次阅读

    【「算力芯片 | 高性能 CPU/GPU/NPU 架构分析」阅读体验】--全书概览

    GPU、NPU,给我们剖析了算力芯片的架构。书中有对芯片方案商处理器的讲解,理论联系实际,使读者能更好理解算力芯片。 全书共11章,由浅入深,较系统全面进行讲解。下面目录对全书内容有一个整体了解
    发表于 10-15 22:08

    【「大模型时代的基础架构」阅读体验】+ 未知领域的感受

    算法的引擎GPUGPU硬件架构剖析、GPU服务器的设计与实现、GPU集群的网络设计与实现、GPU
    发表于 10-08 10:40

    名单公布!【书籍评测活动NO.43】 算力芯片 | 高性能 CPU/GPU/NPU 架构分析

    ,即大模型专用AI超级计算机的中枢核心。 作者介绍: 濮元恺,曾就职于中关村在线核心硬件事业部,负责CPU和GPU类产品评测,长期关注GPGPU并行计算相关芯片架构。目前在量化金融领域,主要负表
    发表于 09-02 10:09

    ALINX FPGA+GPU架构视频图像处理开发平台介绍

    Alinx 最新发布的新品 Z19-M 是一款创新的 FPGA+GPU 异构架构视频图像处理开发平台,它结合了 AMD Zynq UltraScale+ MPSoC(FPGA)与 NVIDIA Jetson Orin NX(
    的头像 发表于 08-29 14:43 ?2223次阅读