0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CPU 的浮点运算能力比 GPU 差,为什么不提高 CPU 的浮点运算能力呢

Dbwd_Imgtec ? 来源:未知 ? 作者:李建兵 ? 2018-03-16 15:12 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

问:为什么 CPU 的浮点运算能力比 GPU 差,为什么不提高 CPU 的浮点运算能力?


「速度区别主要是来自于架构上的区别」是一个表面化的解释。对,架构是不同。但是这种不同是目前各个厂家选择的现状,还是由于本质的原因决定的?CPU 能不能增加核?GPU 那张图为什么不需要 cache?

首先,CPU 能不能像 GPU 那样去掉 cache?不行。GPU 能去掉 cache 关键在于两个因素:数据的特殊性(高度对齐,pipeline 处理,不符合局部化假设,很少回写数据)、高速度的总线。对于后一个问题,CPU 受制于落后的数据总线标准,理论上这是可以改观的。对于前一个问题,从理论上就很难解决。因为 CPU 要提供通用性,就不能限制处理数据的种类。这也是 GPGPU 永远无法取代 CPU 的原因。

其次,CPU 能不能增加很多核?不行。首先 cache 占掉了面积。其次,CPU 为了维护 cache 的一致性,要增加每个核的复杂度。还有,为了更好的利用 cache 和处理非对齐以及需要大量回写的数据,CPU 需要复杂的优化(分支预测、out-of-order 执行、以及部分模拟 GPU 的 vectorization 指令和长流水线)。所以一个 CPU 核的复杂度要比 GPU 高的多,进而成本就更高(并不是说蚀刻的成本高,而是复杂度降低了成片率,所以最终成本会高)。所以 CPU 不能像 GPU 那样增加核。

至于控制能力,GPU 的现状是差于 CPU,但是并不是本质问题。而像递归这样的控制,并不适合高度对齐和 pipeline 处理的数据,本质上还是数据问题。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11099

    浏览量

    217751
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4969

    浏览量

    131723

原文标题:为什么 CPU 的浮点运算能力比 GPU 差,为什么不提高 CPU 的浮点运算能力?

文章出处:【微信号:Imgtec,微信公众号:Imagination Tech】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    定点小数运算

    许多 MCU 芯片只支持整数运算,如果要在这些芯片上进行小数运算,定点运算应该是最佳选择了;此外即使芯片支持浮点数,定点小数运算也是最佳的速
    发表于 07-25 14:02

    MemryX 推出浮点运算 AI 芯片,引领精准运算新时代

    点击蓝字关注我们一、概述近年来,随着半导体制程的进步,硬件计算能力和数据量都有了飞跃性的提升,使得计算机视觉(ComputerVision)领域迎来了全新的发展阶段。过去,图像处理大多依赖像素级别
    的头像 发表于 04-21 16:33 ?628次阅读
    MemryX 推出<b class='flag-5'>浮点</b><b class='flag-5'>运算</b> AI 芯片,引领精准<b class='flag-5'>运算</b>新时代

    搭载32位RXv2 CPU内核以及增强型DSP和FPU的RX230系列低功耗、高性能微控制器数据手册

    RX230 系列器件充分利用了 32 位 RXv2 CPU 内核、经过改进的数字信号处理器(DSP)/浮点单元(FPU)以及低功耗技术的最佳组合,从而实现了极高的电源效率。即使在低电流供电能力的环境
    的头像 发表于 03-20 17:26 ?617次阅读
    搭载32位RXv2 <b class='flag-5'>CPU</b>内核以及增强型DSP和FPU的RX230系列低功耗、高性能微控制器数据手册

    ?为什么GPU性能效率峰值性能更关键

    在评估GPU性能时,通常首先考察三个指标:图形工作负载的纹理率(GPixel/s)、浮点运算次数(FLOPS)以及它们能处理计算和AI工作负载的每秒8-bittera运算次数(TOPS
    的头像 发表于 03-13 08:34 ?437次阅读
    ?为什么<b class='flag-5'>GPU</b>性能效率<b class='flag-5'>比</b>峰值性能更关键

    设计了一个基于浮点运算的协处理器,使用C语言编程时没法输入float型数据,请问有哪些部分需要修改?

    我设计了一个基于浮点运算的协处理器,使用C语言编程时没法输入float型数据,请问有哪些部分需要修改?SDK,EXU_decoder浮点寄存器都需要修改吗,谢谢
    发表于 03-07 16:03

    2024年GPU出货量增长显著,超越CPU

    6%的同比增长,总量超过2.51亿颗,这一数据不仅彰显了GPU市场的繁荣,也反映了当前市场对于图形处理能力的巨大需求。 尤为值得一提的是,与同样作为计算机核心部件的CPU相比,GPU
    的头像 发表于 01-17 14:12 ?568次阅读

    西门子TIA Portal如何比较两个浮点数相等

    概述: 由于浮点数的定义规则,导致浮点数不能通过二进制精确表示,所以在浮点数计算过程中,会出现两个值一样的浮点数进行比较相等计算时结果并不相等的情况。下面先设计一个实例说明该问题,并给
    的头像 发表于 01-06 10:07 ?797次阅读
    西门子TIA Portal如何比较两个<b class='flag-5'>浮点</b>数相等

    【RA-Eco-RA4E2-64PIN-V1.0开发板试用】RA4E2的DSP浮点性能的软件浮点测试和硬件浮点测试对比

    , atan,等等基本操作。 当然为了测试出硬件浮点运算性能,这里很有必要在测试一下软件浮点运算能力,方便做个测试对比,怎么做软件
    发表于 12-30 17:55

    FPGA中的浮点四则运算是什么

    由于定点的四则运算比较简单,如加减法只要注意符号扩展,小数点对齐等问题即可。在本文中,运用在前一节中描述的自定义浮点格式FPGA中数的表示方法(下),完成浮点四则运算的实现过程 1.自
    的头像 发表于 11-16 12:51 ?1001次阅读
    FPGA中的<b class='flag-5'>浮点</b>四则<b class='flag-5'>运算</b>是什么

    FPGA中浮点四则运算的实现过程

    由于定点的四则运算比较简单,如加减法只要注意符号扩展,小数点对齐等问题即可。在本文中,运用在前一节中描述的自定义浮点格式FPGA中数的表示方法(下),完成浮点四则运算的实现过程 1.自
    的头像 发表于 11-16 11:19 ?1505次阅读
    FPGA中<b class='flag-5'>浮点</b>四则<b class='flag-5'>运算</b>的实现过程

    【RA-Eco-RA2E1-48PIN-V1.0开发板试用】在M23内核上使用qfplib浮点运算库进行浮点运算

    运算。难道由于硬件不支持FPU, 常用的M0/M0+/M23/M3内核就无缘浮点运算?答案是显然不是的。 我们可以移植使用开源的qfplib库来实现
    发表于 11-05 22:07

    【AG32开发板免费试用】+数据采集存储系统(2)-串口输出+浮点运算验证

    本次学习下串口配置和输出。 并验证芯片的浮点运算能力。 下面直接上干货哦。 VE 配置 SYSCLK 100 HSECLK 8 GPIO4_1 PIN_31 # LED4 GPIO4_2
    发表于 10-31 21:22

    《算力芯片 高性能 CPU/GPU/NPU 微架构分析》第1-4章阅读心得——算力之巅:从基准测试到CPU微架构的深度探索

    叫好。SIMD就像是一位指挥家,用一个指令指挥整个乐团同时演奏,大大提高了计算效率。计算单元设计是CPU性能提升的另一重要方向。ALU(算术逻辑单元)作为CPU的核心,负责执行整数运算
    发表于 10-19 01:21

    双核cpu和单核cpu的区别

    双核CPU与单核CPU在多个方面存在显著差异,这些差异主要体现在处理能力、性能、运行效率、功耗以及适用场景等方面。 一、概念与结构 双核CPU :指在一个处理器上集成两个
    的头像 发表于 09-24 16:17 ?7450次阅读

    请问AURIX TC3xx tricore架构下浮点运算和将浮点数小数点去掉变成整数来计算哪种方式更加节省算力?

    ? tricore架构下CPU有专门的FPU来处理浮点运算,是否意味着用12.89参与运算,在调用FPU来计算的情况下,计算时间不会比12890参与计算的时间长,甚至可能
    发表于 08-26 06:54