0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

百核千核,服务器芯片多核才是王道?

E4Life ? 来源:电子发烧友网 ? 作者:周凯扬 ? 2022-06-01 00:05 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

要说造芯这件事,不仅手机和汽车厂商热衷于此,如今服务器厂商也纷纷投入自研大军中来,无论是国内的阿里云,还是国外的亚马逊,在收购一大批芯片设计厂商网罗了一众芯片设计精锐后,也开始推出基于自己芯片的服务器,所用工艺也已经升级到了7nm和5nm。

此外,第三方服务器芯片厂商也顺势发力,打算为这些云服务厂商提供更高的吸引力,而不是让他们整天想着节省成本用自研方案替换掉自己的产品。好在大部分云服务厂商自研的芯片主要还是集中在AI加速芯片和网络芯片这一块,CPU很大一部分仍是第三方的地盘。而在第三方的CPU设计中,我们可以看到多核已经成了当下的主流方案。

多核云端更吃香?

首先我们来看最常见也最直接的一种提升性能方式,堆核心。这种操作我们已经在消费芯片或是各个电子产品的宣传术语中听得耳朵生茧了,且向来都是一种相当有效的性能提升方式。尽管则对芯片的面积限制较大,但不可否认的是,在对面积没那么看重的服务器市场上,走多核路线的芯片厂商越来越多。

AmpereComputing的AmpereAltra应该是国内出货量最高的Arm服务器CPU系列了,这款最高128核的处理器已经在不少云服务的实例上亮相。AmpereComputing与微软Azure和OracleCloud达成了合作,在中国不仅拥有阿里云、腾讯云、京东云和UCloud这些公有云客户,百度、美团和字节跳动等公司也在使用其产品。

AmpereAltraMax封装 / AmpereComputing


再来看看英伟达的ArmCPU Grace,虽然采用了Arm的Neoverse参考设计,但英伟达同样选了144核的多核心设计,那么为何多核在服务器上如此吃香呢?我们上面也提到了AmpereAltra在中国收获了不小的市场,其实归根结底就是其多核心数的功劳。

国内使用公有云的用户数远超国外,对于云服务厂商来说,这种多核处理器意味着可以将单服务器切分为更多的vCPU,也就意味着更多的可用实例。这还没完,以AmpereAltra为例,每个核心上只运行单个线程,这样即便多用户同时使用下,依然能够维持稳定的性能。

Ampere处理器路线图 / AmpereComputing


值得一提的是,Ampere近期发布了自研5nm处理器,AmpereOne,一个基于自研Arm核心的服务器处理器。这对于其他厂商来说或许无法实现,但Ampere作为Arm架构的授权商,是可以像高通、华为和苹果等厂商一样,开发定制自己的Arm核心的。

也或许是因为这次终于没有继续沿用ArmNeoverseN1或N2这样的参考设计,Ampere才将这一产品命名为AmpereOne。Ampere并没有公布这一产品的核心数,但从现有产品最小核心数也有32核的设计,以及AmpereOne实物图与AmpereAltraMax近似的封装来推断,这一新品追求的必然是更高性能的云原生应用,而不是面向只需较低核心数就能满足需求的边缘计算市场。

服务器AI芯片靠数量和能耗制胜

与处理器芯片处理通用计算的多核策略不同,AI芯片的多核主要还是提高AI计算效率,而且单核能效比和单位面积效率往往高于传统的处理器架构,导致核心数更多。以打造千核RISC-V AI芯片的Esperanto为例,其ET-SoC-1芯片基于台积电7nm打造,集成了1092个RISC-V核心。

ET-SoC-1芯片 / Esperanto


但就是这样一个千核芯片,却可以做到20W以内的功耗和570mm2的diesize。正因如此,即便单个ET-SoC-1的算力不及英伟达A100这类GPU,也可以凭借多块芯片组成的AI加速器板卡来实现同等的性能,甚至低上一大截的功耗。

对于依赖阵列乘法器这类专用硬件和少量CPU核心的芯片,一旦问题不能完全由专用硬件解决,就会把任务交给有限的通用CPU核心。而Esperanto的ET-SoC-1方案中,上千颗通用RISC-V核心带来的完全并行可以显著加快执行速度。何况哪怕相较于5nm而言,7nm的能效比也还是非常优异的,所以更适合这类超多核心数的设计,也更符合数字中心的低碳设计理念。

结语

有的读者可能会有疑惑,既然多核能给服务器芯片带来显著的提升,为何英特尔AMD这些x86服务器芯片厂商不设计百核以上的架构呢?这就与CISC与RISC架构的差异有关了,哪怕在同等工艺和同等核心数下,x86芯片的diesize也绝对要大于Arm和RISC-V芯片,而随着diesize的增加,芯片的良率也会一并减少。再者就是多核下的并行问题了,一些通用计算任务在多核下的并行执行效率并不高,而且会大幅提升复杂性。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    460

    文章

    52737

    浏览量

    444170
  • 服务器
    +关注

    关注

    13

    文章

    9859

    浏览量

    88424
  • 服务器芯片
    +关注

    关注

    2

    文章

    126

    浏览量

    19568
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【老法师】多核异构处理中M程序的启动、编写和仿真

    文章,小编就将以飞凌嵌入式的OKMX8MP-C开发板为例,为大家介绍多核异构处理M程序的启动配置、程序编写和实时仿真的过程。
    的头像 发表于 08-13 09:05 ?1493次阅读
    【老法师】<b class='flag-5'>多核</b>异构处理<b class='flag-5'>器</b>中M<b class='flag-5'>核</b>程序的启动、编写和仿真

    国产算力新标杆:集特GSC-2000-12双路服务器,重塑高性能计算的“中国方案”

    以“全栈国产化”基因和“卡集群”的硬核实力,悄然改写着中国高端服务器的市场格局。搭载飞腾新一代旗舰芯片腾云S5000C-64,这款专为大数据、AI训练设计的机架
    的头像 发表于 07-03 11:14 ?901次阅读
    国产算力新标杆:集特GSC-2000-12双路<b class='flag-5'>服务器</b>,重塑高性能计算的“中国方案”

    请问双芯片如何调试?

    芯片如何调试?比如有很多M4+M0的芯片,是分开调试合适可以一起调试?
    发表于 06-19 07:32

    新加坡服务器延迟大吗?真相在这里#新加坡服务器 #服务器

    服务器
    jf_57681485
    发布于 :2025年04月18日 13:48:50

    龙芯3C6000服务器CPU,1632线程,国产CPU新标杆!

    服务器
    国产计算机小秦
    发布于 :2025年04月10日 11:10:04

    龙芯3C6000服务器CPU,1632线程,国产CPU新标杆!

    服务器
    jf_10805031
    发布于 :2025年04月09日 10:44:40

    RZT2H CR52双BOOT流程和例程代码分析

    RZT2H是多核处理,启动时,需要一个“主”先启动,然后主根据规则,加载和启动其他内核。本文以T2H内部的CR52双为例,说明T2H
    的头像 发表于 04-03 17:14 ?2463次阅读
    RZT2H CR52双<b class='flag-5'>核</b>BOOT流程和例程代码分析

    双倍能效阵列云,重新定义服务器性价比

    力高达48TOPS*72,满足高并发AI训练需求?。 ARM架构通过多核并行计算与动态电源管理技术,实现“按需供电”,单位机架算力密度显著提升,功耗较传统x86服务器降低30%-50%?。 ?先进制程与能效优化? 采用4nm工艺的芯片
    的头像 发表于 03-26 08:35 ?312次阅读
    双倍能效阵列云,重新定义<b class='flag-5'>服务器</b>性价比

    NTP校时服务器 时钟同步服务器

    服务器
    jf_75250307
    发布于 :2025年03月19日 20:56:34

    高流量网站需要什么样的服务器配置?

    数量至少4以上,根据网站负载可扩展至更多核心。 内存:至少需要32GB RAM,对于大型网站可能需要64GB或更多。内存越大,服务器能够同时处理的请求越多,性能也越好。 存储:使用固态硬盘(SSD)或NVMe驱动
    的头像 发表于 03-17 16:43 ?606次阅读

    景锐51芯片ISP烧录工具免费下载

    景锐51芯片ISP烧录工具
    发表于 01-22 17:24 ?0次下载

    Flexus 云服务器 X 实例部署宝塔运维面板

    近期正在筹办华为云 828 企业节活动,90+款免费云产品,15+款长期免费云产品 2 服务器 28 元起、新用户专区低至 2.8 折、全球热销域名,1 元随心购 点击链接直达华为云活动会场2
    的头像 发表于 01-08 11:50 ?456次阅读
    Flexus 云<b class='flag-5'>服务器</b> X 实例部署宝塔运维面板

    服务器部署k8s需要什么配置?

    服务器部署K8s需要至少2CPU、4GB内存、50GBSSD存储的主节点用于管理集群,工作节点建议至少2CPU、2GB内存、20GBSSD。还需安装Docker,选择兼容的Kubernetes版本,配置网络插件,以及确保系
    的头像 发表于 10-09 15:31 ?604次阅读

    高斯滤波的卷积怎么确定

    N为一个奇数,如3、5、7等。奇数大小的卷积有助于确定一个中心像素点,便于计算。 大小选择 :卷积的大小决定了滤波的范围。较大的卷积核可以覆盖更多的像素点,从而更好地平滑图像,但也可能导致图像细节丢失过多。因此,在
    的头像 发表于 09-29 09:29 ?1822次阅读

    关于2K1000LA的间中断

    我试图阅读2K1000LA处理器用户手册(V1.0)以在我开发的操作系统中支持多核启动。实际上我对此有一些疑惑,2K1000LA启动的时候,是两个核心都会一起启动,还是只会启动一个,而另一个等待
    发表于 08-27 22:04