0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何减少数据中心中最严重硬件故障?

lhl545545 ? 来源:千家网 ? 作者:千家网 ? 2021-02-25 16:40 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

硬件故障在大型数据中心和云服务基础设施中非常普遍,这些故障可能导致违反服务水平协议(SLA)并造成巨大经济损失。

内存故障是当今数据中心中最严重的硬件故障之一,众所周知,它严重影响了系统的可靠性、可用性和可维护性(RAS)。这些故障可能是由超出正常使用范围的多种因素引起的,包括制造缺陷以及极端的环境或操作条件。

虽然普遍接受的技术,例如,纠错码(ECC)和可纠正错误,基于阈值的预测性故障分析(PFA))可克服双列直插式内存模块(DIMM)的一些可纠正错误,但它们具有成本、可靠性、覆盖范围和性能方面的影响。

可纠正错误数量的激增可能导致服务器性能下降,甚至导致拒绝服务。此外,ECC和基于阈值的可纠正错误的PFA不能帮助克服无法纠正的错误,如灾难性故障通常导致崩溃。

对于严重依赖服务器可靠性、可用性和可维护性的组织,英特尔内存故障预测(Intel MFP)是理想的解决方案。对于当今的数据中心而言,提前预测未来的内存故障已变得至关重要。通过分析历史数据以预测潜在的灾难性事件,英特尔?MFP可以在内存故障事件发生之前对其进行预测。

该解决方案具有多项创新和原始功能。它基于历史数据来预测行、列和单元格中的微型故障,并使用低开销的在线学习方法来提高其预测精度并避免干扰关键的计算任务。

这也使Intel MFP能够为主动内存故障管理生成估计的内存运行状况评分,从而使用户能够采取相应的措施。英特尔MFP与供应商无关,并且可以与其他数据中心管理解决方案(包括英特尔数据中心管理器(Intel DCM))一起使用。

将与内存故障相关的服务器崩溃减少40%

在腾讯的一个案例研究中,英特尔MFP算法的初步协作测试显示出快速的结果,并将内存故障和系统停机时间减少了五倍。合作伙伴还通过在操作系统级别明智地避免出现内存故障,直到更换了该内存模块为止,从而扩展了此支持。

在与美团的类似案例研究中,该公司发现由于内存错误导致的服务器崩溃减少了40%。该公司通过将Intel MFP集成到其现有数据中心管理解决方案中,监控了服务器内存模块的运行状况。通过分析以前由其数据中心管理软件收集的数据,他们能够为每个DRAM模块生成预测分数,然后采取适当的措施来维护其SLA并最大化服务正常运行时间。

借助新功能,英特尔与全球领先的AMI合作,通过其BIOS、BMC和安全解决方案为全球互联数字基础架构提供电源、管理和保护,并决心将这种支持扩展到整个行业。

因为捕获和分析内存错误需要UEFI和BMC固件之间紧密的联系,所以AMI致力于使Intel MFP易于被现有和将来的服务器平台采用。

捕获错误后,它们将由BIOS记录,然后某些元数据信息将传递到BMC固件。然后,BMC固件将获取此元数据,并通过Intel MFP引擎运行,以计算内存模块的运行状况得分。当检测到新的错误时,AMI解决方案将跟踪每个内存模块的运行状况评分,并公开结果供系统管理员进行分析。

AMI的默认实现在BUI的Web UI中提供当前的内存模块运行状况得分信息,并通过遵循DMTF Redfish标准的RESTful API公开相同的内存运行状况得分信息。

RESTful API可轻松与现有数据中心管理软件集成。但是,对于那些不太愿意与自己的软件集成的数据中心,AMI提供了一个称为AMI Composer的数据管理工具,该工具开发为完全符合Intel Rack Scale Design和DMTF Redfish标准,它将汇总所有信息并通过一个基于Web的仪表板。

为数据中心和云服务提供商带来的直接好处

当然,在创建机器学习算法时,它实际上永远不会完成。当前的Intel MFP模型支持在具有Intel Xeon可扩展处理器的平台上运行的DDR4内存模块,并且Intel继续收集有关内存错误和内存模块故障的更多信息,以改进模型。

此外,当新的内存模块类型引入行业或对现有技术进行改进时,英特尔?MFP将为它们提供支持。

最重要的是,将对所有更新进行适当的分析以包含在MFP模型中,以便在英特尔更新MFP模型时,AMI将为提供给行业合作伙伴的现有技术提供易于实现的更新。

对于数据中心和云服务提供商而言,在Aptio V UEFI固件和MegaRAC BMC固件中添加Intel MFP支持的好处显而易见。改进了数据中心SLA。通过主动的内存运行状况评估和增强的内存页面脱机策略,可以降低DIMM故障率。

而且,最重要的是,更高的DIMM性能和可靠性可优化工作负载和虚拟机(VM)迁移决策,从而提高效率和灵活性,同时降低总拥有成本。

对于希望在配备AMI Aptio V UEFI BIOS和MegaRAC BMC固件的系统上利用英特尔MFP的公司,建议他们要求其系统制造商将AMI连同用于MegaRAC BMC固件的带有Intel MFP选件包的AMI和具有英特尔内存故障预测功能的AMI一起包括在内。适用于Aptio UEFI固件的eModule。
责任编辑:pj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    61

    文章

    10213

    浏览量

    175513
  • 服务器
    +关注

    关注

    13

    文章

    9863

    浏览量

    88438
  • 数据中心
    +关注

    关注

    16

    文章

    5292

    浏览量

    73731
  • 腾讯
    +关注

    关注

    7

    文章

    1679

    浏览量

    50443
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    PCIe协议分析仪在数据中心中有何作用?

    PCIe协议分析仪在数据中心中扮演着至关重要的角色,它通过深度解析PCIe总线的物理层、链路层、事务层及应用层协议,帮助运维人员、硬件工程师和系统架构师优化性能、诊断故障、验证设计合规性,并提
    发表于 07-29 15:02

    大型数据中心中的差分晶体振荡器应用与频率匹配方案解析

    介绍差分晶体振荡器在数据中心中在交换芯片、AI服务器、存储控制器等场景下的频率匹配和接口设计方案。
    的头像 发表于 07-16 08:00 ?1048次阅读
    大型<b class='flag-5'>数据中心中</b>的差分晶体振荡器应用与频率匹配方案解析

    中型数据中心中的差分晶体振荡器应用与匹配方案

    中型数据中心的定义与特点 中型数据中心通常服务于中大型企业、科研机构或地方行业节点,具备50至200个机柜,部署多台服务器、交换设备、存储系统与光通信链路等,强调高带宽、低延迟与高可用性。关键设备
    发表于 07-01 16:33

    小型数据中心晶振选型关键参数全解

    。建议使用良好的接地设计和低阻抗走线来减少干扰。 总结 在小型数据中心中,差分晶体振荡器(DCO)扮演着至关重要的角色,尤其是在交换机、路由器、网络接口卡(NIC)、存储设备和光纤通信设备等高速、精密
    发表于 06-11 13:37

    曙光数创SLiquid智能运维系统解决数据中心运维难题

    面对数字时代的海量需求,传统数据中心正遭遇系统性挑战:告警风暴引发的故障定位迟滞、能效困局导致的PUE优化瓶颈、资产迷雾造成的资源错配、容量盲区引发的规划失焦。这些问题严重阻碍了数据中心
    的头像 发表于 06-03 10:21 ?548次阅读

    适用于数据中心和AI时代的800G网络

    。 高可靠性与低延迟 飞速(FS)800G光模块具有超低功耗和高信号完整性特性,有助于减少数据中心的能源消耗,同时保障数据传输的低延迟和高可靠性。 灵活扩展与兼容性 飞速(FS)800G光
    发表于 03-25 17:35

    优化800G数据中心:高速线缆、有源光缆和光纤跳线解决方案

    广泛应用于网卡、交换机、服务器、超级计算机、云计算和数据中心的短距离互连。 800G高速线缆 随着大规模和超大规模数据中心的兴起,服务器机架的功耗显著增加,垂直布线距离减少。因此,800G
    发表于 03-24 14:20

    数据中心中的FPGA硬件加速器

    ? 再来看一篇FPGA的综述,我们都知道微软包括国内的云厂商其实都在数据中心的服务器中部署了FPGA,所以这篇论文就以数据中心的视角,来看下FPGA这个硬件加速器。 还是一样,想要论文原文的可以私信
    的头像 发表于 01-14 10:29 ?780次阅读
    <b class='flag-5'>数据中心中</b>的FPGA<b class='flag-5'>硬件</b>加速器

    亚马逊云科技发布全新数据中心组件

    近日,亚马逊云科技宣布了一项重大创新,推出了一系列全新的数据中心组件。这些组件旨在满足新一代人工智能(AI)创新的需求,并帮助客户应对日益复杂且多变的应用场景。 亚马逊云科技通过对电源、冷却以及硬件
    的头像 发表于 12-24 15:05 ?595次阅读

    能耗管理 能源分析为什么要在数据中心中进行管理呢?

    电气工程师:18721098782 王盼盼 可能有很多人还不太明白能耗的管理为什么对数据中心来说如此重要,那首先来说因为数据中心拥有能量密集和高耗能的标签,耗能是很大的。所以,数据中心的能耗问题也
    的头像 发表于 09-10 11:00 ?525次阅读
    能耗管理  能源分析为什么要在<b class='flag-5'>数据中心中</b>进行管理呢?

    浅析如何降低数据中心电力能耗

    ,如何减少数据中心的电力消耗成为了焦点问题。 ? 1 IT设备能耗的降低 数据中心的能耗主要源自IT设备。这些设备的直接能耗不仅增加了电费成本,而且还需要配备相应的电源和冷却系统,这些系统同样消耗大量电力,从而进一步增加
    的头像 发表于 09-02 12:31 ?662次阅读
    浅析如何降低<b class='flag-5'>数据中心</b>电力能耗

    怎样保障数据中心不间断电源不断电 提供可靠安全的供配电#数据中心

    数据中心配电系统
    安科瑞王金晶
    发布于 :2024年08月29日 14:51:36

    非稳压中间总线转换器在数据中心中的应用

    随着数据中心的供电需求不断攀升,尤其是那些致力于满足于AI算力需求的数据中心,电源系统不仅必须要持续提供更高的效率,还要提供更高的功率密度。
    的头像 发表于 08-22 09:14 ?1621次阅读
    非稳压中间总线转换器在<b class='flag-5'>数据中心中</b>的应用

    半导体存储器在数据中心中的应用

    半导体存储器在数据中心中的应用是极其重要且广泛的,它们不仅是数据中心存储系统的核心组件,还直接关系到数据处理的效率、可靠性和安全性。以下将详细阐述半导体存储器在数据中心中的具体应用,包
    的头像 发表于 08-20 10:17 ?1389次阅读

    数据中心使用智能负载组是个好主意#负载 #负载组

    数据中心
    深圳崧皓电子
    发布于 :2024年08月19日 07:43:30