0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

决战方寸之间——在Socket上迎战数据中心的成本与架构之困

科讯视点 ? 2020-03-25 17:13 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

编者按:以云计算为代表的信息化手段对于当下疫情的防控工作有着卓然的成效,无论是远程视讯、病毒分析、疫情风控分析、视频监控、前端如体温和人脸采集分析等都离不开后端数据中心的支持。这势必牵扯到海量的数据处理能力,而这海量的数据处理能力则依托的是服务器集群所提供的计算能力。

没有技术能够一劳永逸地解决所有问题,当年的主机如是,现今的PC Server如是,代表未来的云计算更如是。于是,我们也只能边用边改、边总结边探索。

虽然我们已经推开了数字时代的门扉,看到了数字技术给商业和社会带来的巨大改变。但在数字基础架构层面,问题还远远没有结束。甚至可以说,即使最先进的超大规模数据中心也同样有着自己的近忧和远虑。

近忧是数据中心的建设和运维成本;而远虑则是全新计算类型不断出现所带来的架构性挑战。

成本——数据中心永远在翻越的山峰

即便将数据中心选址在地价、电价相对便宜的地区,数据中心仍是IT建设中最显而易见的重资产项目,其建设与运营都需要巨量的资本。由于需要大量土建工程和基础设备的支持,数据中心内每一平米能够留给IT设备的面积都需要五位数乃至六位数的价格。

面对堪比北上广房价的数据中心建设费用,计算的密度就成为了任何数据中心建设者都会关心的核心设备指标。而在对于计算密度的极致追求之下,Olympus、Open19、ODCC天蝎项目、OpenRack等定制服务器项目的不断出现也就不足为奇了。

当然,除了在设备结构上精雕细琢,对于绝大多数数据中心而言,提升计算密度和效率还有另外一条更直接的道路可选——拥有更多核心、更高性能的计算平台。

AMD第二代EPYC平台:巅峰性能且更具性价比

继2017年推出代号为“那不勒斯”的第一代EPYC处理器后,AMD于2019年发布了代号为“罗马”的第二代EPYC处理器。

代号为“罗马”的AMD第二代EPYC系列处理器

作为业界首款基于7nm工艺的处理器,第二代EPYC处理器最高内置64核128线程,256M三级缓存,八通道DDR4-3200内存(单路4TB)、128条PCIe 4.0等一系列新特性。根据AMD公布的数据,其双倍核心数量加上针对提升周期指令数进行的优化,其浮点性能相较上一代产品提升约4倍。同时,引入7nm制程工艺带来了更高能效;这也意味着第二代EPYC的能效比是上一代产品的2倍。第二代EPYC处理器在多种业内性能基准测试中领先,迄今为止保持超过了 140项世界纪录。

得益于Chiplets设计,第二代EPYC平台在较短的时间内完成了产品的迭代升级。相比较单片SoC的方式,采用Chiplets设计更具灵活性,因为在许多场景下如果将功能都集成在一颗die上,其性能、功耗、面积通常难以做到最优。而采用Chiplets还可以缩短产品的开发周期,并从一定程度上降低设计风险。AMD将其称为“AMD Infinity”混合多芯片架构,这种架构在第二代EPYC处理器中的应用达到了新的高度。

在第二代EPYC平台上,AMD采用了最新的7nm工艺设计了Core Chiplet Die(简称CCD)部分,而每个CCD部分均包含两个CPU Complex(简称CCX),每个CCX整合了四个core。而在内存、PCI-e以及磁盘控制器等I/O处理的部分,则采用了14nm的工艺来降低成本与开发周期。每个I/O核心最多可与8个CCD核心相连,即最高64核的设计。

在2月份举行的SSCC2020大会上,AMD方面谈到了采用7nm+14nm工艺对比单纯7nm工艺设计有效降低了成本:如果将64核产品作为基准比较,在48核、32核、24核、16核产品上有着最高约两倍的节省,其中核心数量越大,所节约的成本越多。

而采用台积电7nm工艺封装的核心部分不仅大幅提升了能效比,相比第一代EPYC还有效降低了CCD的面积,这使得在第二代EPYC平台中的CCD部分可以塞入更多的内核。同时,改进了的分支预测器,优化过的 L1 指令缓存,两倍的浮点单元数据宽度,指令存储队列,两倍的 L1 数据缓存读写带宽。单个CCX两倍的 L3 缓存等多种改动使得 Zen 2 相对于 Zen1 有超过 15% 的 IPC 提升。最终使得Zen 2相较Zen 1有了约两倍的能效比提升。值得一提的是,由于采用这种非一体化的芯片设计有效地缩短了产品设计周期,AMD还将推出代号“米兰”的第三代EPYC,采用台积电7nm+工艺有望进一步提高能效比。

目前,AMD EPYC平台已经得到了包括腾讯云、亚马逊、微软、甲骨文、谷歌等大型云服务提供商的青睐;此外,包括戴尔、HPE、H3C、联想等顶级OEM合作伙伴也与AMD合作推出了丰富的基于第二代EPYC平台的服务器产品。

从另一层面来看,在EPYC平台从第一代到第二代的升级过程中,AMD并没有更换处理器插座。这意味着,用户可以通过升级固件并安装新CPU的形式在不更换服务器整机的前提下就获得更多核心及更多性能。显然,这对于一些用户来说是十分具有吸引力的。

回看文章最初的问题,构建数据中心通常需要一个相对复杂的流程,实际情况根本没有那么多推倒重来的可能。而在不改变原有风火水电等配套设施的前提下,如何在持续提高计算性能的同时保证出色的能效比则是企业数据中心长期的追求。而纵观AMD EPYC平台的设计思路,则可以很大程度上对客户的原有投资进行保护,满足大多数用户分批次升级的产品生命周期规划。

Chiplets助力摩尔定律 开创更多可能

面对越来越丰富的计算类型,服务器也出现了计算场景化的趋势。通过安装GPUFPGAAISC等不同类型的计算核心,服务器往往能够获得在特定应用场景中更好的计算效率。但与此同时,通过不断增加计算卡的方式来实现算力多元化,也会对服务器的功耗、散热、物理空间占用等方面提出更高要求。

面对这样的矛盾, 由AMD在数据中心计算平台中首先实践的Chiplets则给出了令人期待的解决路径。未来,通过将不同的晶片集成在同一基板之上,AMD及其合作伙伴则可以在Socket的方寸之间就解决算力多元化的大挑战。而由于CPU在服务器内往往有着最好的供电和散热资源,通过计算卡形式进行算力多元化所带来的多种问题也将因此迎刃而解。

换句话说,在已有的基板之上,AMD可以较为方便的对晶片数量进行增减。这就让AMD可以用更低的成本和售价来推出面向中端或入门纯处理器产品。当然,在去掉一些CCD之后,空余的IO带宽和总线还可以用来与同样集成在基板上的其他类型晶片相接驳,从而打造面向特定应用的“异构”处理器。

顺着这一思路想象,我们可以期待的未来将更加丰富多彩。例如,我们可以将CPU上的其中一个或多个CCD替换为GPU并增加相应的HBM,从而获得更好的ML/DL及推理应用性能(而这种方式也很有可能是解决多GPU之间数据交换与同步的新方法);再比如,我们也可以将这些CCD替换为更有针对性的ASIC来增强CPU在其他特定算法中的性能表现,进而打造出更具场景化的计算平台方案。

相对于以往的芯片整体设计思路,这种利用Chiplets技术打造异构芯片的方法不仅能够让现有IP继续发挥价值,更可以大幅降低新处理器或计算平台的研发周期和成本,让更多计算场景能够以更低成本获得大幅度的性能优化和基础设施架构简化。

而从更宏观的层面来看,Chiplets技术也很可能是延续摩尔定律的有效催化剂。

决战方寸之间

作为服务器乃至整个数字基础架构的核心,处理器是一门相当复杂的艺术。说它是艺术不仅因为它需要在设计、制程与工程之间不断探索新的平衡,更因为一款处理器要应对来自当下和未来的双重挑战。

而一款优秀的处理器所代表的计算平台则要做到在为用户提供可见的性能提升的同时,为用户乃至行业的未来提供新的发展方向、新的发展思路。

从这两方面来看,第二代EPYC处理器都具备独特的意义。64核与7nm的组合为用户带来了肉眼可见的计算性能和密度提升,能够帮助数据中心站上成本与性能的新高度。而Chiplets技术的应用则为制程进步趋缓背景下摩尔定律的继续生效提供了全新路径。

能够在几百平方毫米的方寸之间将对技术和未来洞察演绎至此,几年以来,这样的产品的确罕见。

在这里我并不想着墨过多溢美之词;并不是因为这款产品不值得,而是因为很快我们还会有全新的Milan可以期待。届时在做品读亦为时不晚。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Socket
    +关注

    关注

    1

    文章

    213

    浏览量

    36102
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    中型数据中心中的差分晶体振荡器应用与匹配方案

    中型数据中心的定义与特点 中型数据中心通常服务于中大型企业、科研机构或地方行业节点,具备50至200个机柜,部署多台服务器、交换设备、存储系统与光通信链路等,强调高带宽、低延迟与高可用性。关键设备
    发表于 07-01 16:33

    小型数据中心晶振选型关键参数全解

    Series:用于数据中心之间的光纤连接,确保数据稳定传输。 匹配原因 FCO-3L提供的精确时钟信号非常适合光纤通信设备,尤其需要高带宽的光模块中,确保
    发表于 06-11 13:37

    数据中心都在用的差分晶振,看完你就懂了

    数据中心
    FCom富士晶振
    发布于 :2025年05月30日 13:12:30

    适用于数据中心和AI时代的800G网络

    选择无拥塞路径,提高数据传输效率。 多租户性能隔离:确保不同用户任务之间带宽分配合理。 飞速(FS)800G光模块AI数据中心中的作用 为满足AI和大规模
    发表于 03-25 17:35

    优化800G数据中心:高速线缆、有源光缆和光纤跳线解决方案

    和800G OSFP XDR8光模块直连设计。MTP/MPO布线解决方案为数据中心提供了高密度、可靠性和灵活性,可用于核心层、脊架构和叶架构之间的连接。该线缆还具备即插即用、易于管理、
    发表于 03-24 14:20

    华为发布新一代站点能源架构及AI数据中心建设原则

    MWC25巴塞罗那期间举办的产品与解决方案发布会上,华为数据中心能源及关键供电产品线总裁何波发布新一代站点能源架构“Single SitePower”及AI数据中心建设原则RASTM
    的头像 发表于 03-06 11:16 ?689次阅读

    数据中心发展与改造

    存在的问题 1.?电费成本高企,占比超40% 数据中心电力成本占运营总成本的40%-60%,部分AI算力密集型场景甚至高达70%。以年耗电2000万度的中型
    的头像 发表于 02-28 16:50 ?494次阅读
    <b class='flag-5'>数据中心</b>发展与改造

    数据中心机房冷水系统

    如需了解详细产品资料、配置方案、产品价格、产品技术参数; ? ? ? 依据自身情况选择冷却技术 数据中心选择冷却技术时,不能盲目跟风,而要充分考虑自身的实际情况。规模较小、功率密度较低的数据中心
    的头像 发表于 02-24 13:52 ?408次阅读
    <b class='flag-5'>数据中心</b>机房冷水系统

    速看!Atlassian云版与数据中心版的创新进展

    数据中心
    龙智DevSecOps
    发布于 :2024年11月22日 17:29:05

    云计算与数据中心的关系

    云计算与数据中心之间存在着密切且复杂的关系,它们相互依存、互相促进。 一、数据中心是云计算的基础设施 数据中心是一整套复杂的设施,用于传递、加速、展示、计算和存储
    的头像 发表于 10-24 16:15 ?1696次阅读

    数据中心虚拟化应用案例

    数据中心虚拟化应用案例展示了虚拟化技术提高资源利用率、降低成本、增强系统灵活性和快速响应等方面的显著优势。以下是一些具体的数据中心虚拟化应用案例: 案例一:苏州某三甲医院
    的头像 发表于 10-24 15:18 ?1401次阅读

    简述数据中心网络架构的演变

    随着全球对人工智能(AI)的需求不断增长,数据中心作为AI计算的重要基础设施,其网络架构与连接技术的发展变得尤为关键。
    的头像 发表于 10-22 16:23 ?1026次阅读

    数据中心产品通常包括哪些

    应用在数据中心的分立器件产品而言,这是巨大的市场机遇。信息时代下,数据中心价值会越来越高,可靠性能也需要进一步加强。好的分立器件才能更好支持数据中心快速发展。
    的头像 发表于 10-11 11:12 ?1707次阅读
    <b class='flag-5'>数据中心</b>产品通常包括哪些

    请问AIC3104内部采样是否有偏置,有的话如何去掉偏置使数据中心0附过?

    您好,我们AIC3104 linein口上进行采样,输入为500Hz正弦,通过DSP读入后的3104采样数据有偏置,中心不是0附近,请问AIC3104内部采样是否有偏置,有的话如
    发表于 09-29 08:08

    怎样保障数据中心不间断电源不断电 提供可靠安全的供配电#数据中心

    数据中心配电系统
    安科瑞王金晶
    发布于 :2024年08月29日 14:51:36