0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

存储磁盘故障预测和性能容量预测技术

浪潮存储 ? 来源:浪潮存储 ? 作者:浪潮存储 ? 2020-09-08 11:49 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着“新基建”的逐步发展落地,现代数据中心迅速崛起,数据量呈指数级增长,同时各种新存储介质和技术的应用,使得存储系统变得越来越复杂。用户需要一套稳定、高性能且简单易用的存储系统。 AI技术可以解决存储系统使用的复杂性问题,提供简单易用、智能化的存储系统。AI会不断地从存储及其运行环境中采集存储的各种状态信息和性能数据,用机器学习算法分析,学习用户的存储使用情况,进而自动化的调整并优化存储系统,使存储服务能更好地适应用户的需求。有AI加持的智能化存储可以增强系统的可靠性,降低存储的复杂性和维护成本。 因此,在前期的文章中,我们提出”客户的未来,从AI加持的新存储开始”的观点,并介绍了存储AIOps的五大关键技术:监控、学习、预测、推荐、实施。 今天我们来具体探讨一下被客户重点关注的存储磁盘故障预测和性能容量预测技术。

1

磁盘故障预测和性能容量预测

给复杂的存储管理做“减法”

存储本身很复杂,数据中心环境和客户应用也很复杂,预测性分析技术是准确预测存储风险和故障,解决存储的复杂性的重要一部分。预测性分析技术是通过分析历史的日志、告警、报错等信息,AI算法可以自动分析出问题出现前的频繁出现的数据模式,之后在从正常存储系统上匹配这些AI学习到模式就能形成预测。 对于一个复杂的存储系统来说,用户关注最多的是硬盘、性能和容量的预测分析,磁盘故障预测和性能容量预测则成为两大关键功能。 为什么关注硬盘故障预测?

公开数据显示百度数据中心4年29万次硬件故障中,硬盘故障占比高达81.84%。对于传统的存储厂商来说,虽然磁盘的绝对故障率不高,但是在所有的存储部件中,如CPU、内存、主板、网卡、HBA卡、电源等,磁盘的故障率是最高的。

虽然传统存储有RAID、副本等机制,但是数据重建过程中使用了大量IO资源,这导致存储性能严重下降,而且重建时间很长往往以天计。因此,数据重建对客户的业务影响很大。如果我们可以提前预测磁盘故障,用户可以选择业务不繁忙的时间来重建数据,那么重建带来的影响可以忽略不计。同时,预测可以把突发事件变为计划事件,也降低了存储的维护成本。

为什么关注容量性能预测?

除故障外,用户在日常使用存储的过程中关注最多的就是容量和性能。系统容量不足会导致系统不可用,客户业务中断。性能指标主要指时延、带宽、IOPS,随着用户业务的发展,给存储带来的性能压力越来越大,性能不足会让客户的应用变慢甚至无响应。

利用AI技术,对存储的性能、容量变化趋势进行准确预测,一方面可以告知客户进行扩容、软硬件升级的时间点,另一方面也能提供存储规划的具体参考指标。

2

存储磁盘故障预测技术 同典型的AI系统一样,先对历史数据进行训练,生成AI模型,最后在新的数据到来时形成预测。具体说包括以下五个部分:输入数据、预处理、模型训练、优化集成和预测。对于软件系统来说关键点有:数据来源、算法选择和评估指标。

磁盘故障预测系统整体架构 数据来源

硬盘本身提供了SMART数据(Self-Monitoring Analysis andReporting Technology)。SMART是90年代定义的硬盘状态检测和预警系统的规范,提供了磁头、磁盘、电机、电路等硬盘硬件的运行数据。目前几乎所有的硬盘厂商都已经支持了该规范。下表列出了与故障相关的SMART值。

表1:故障相关的SMART值

绝大多数的厂商和科研院校都是基于SMART数据进行磁盘故障预测,且都取得了不错的效果。但是在2020年2月的存储顶会FAST(USENIXConference on File and Storage Technologies)上发表的最新论文表明,SMART再加上存储性能数据可以进一步提升预测准确率。作者采用了12个磁盘IO性能指标、18个服务器性能指标、4个位置信息,基于CNN和LSTM的AI算法实现了提前10天故障预测误报率0.5%、漏报率5.1%。我们期待着存储产品上能应用最新的技术来进一步提高预测的准确性。

算法选择

可用于磁盘故障预测的AI算法有很多,如传统算法决策树、经典的SVM(Support Vector Machine)、在各种竞赛上大放异彩的XGBoost(Gradient Tree Boosting)以及深度学习算法CNN和LSTM。实际效果及顶级会议KDD、ATC、FAST的论文实验结果都表明,XGBoost、CNN、LSTM的效果比传统算法有明显优势。

评价指标在完成了历史数据训练,故障预测之后,我们需要对预测的效果进行评估。表2描述了机器学习中标准的评价指标。

表2:机器学习模型评价指标

基于表2中的定义,评价磁盘故障预测的主要有准确率、漏报率和误报率:

准确率=:判定正确的盘(含好盘和坏盘)占所有盘的比例

误报率=:好盘被误判成坏盘占所有好盘的比例

漏报率=:没有识别出的坏盘占所有坏盘的比例

准确率高,误报和漏报低,是我们追求的目标。这相当于我们在发现几乎坏盘的同时没有把好盘误判成坏盘。但是从算法调优的角度看,误报率和漏报率是一对矛盾,误报率的降低会引起漏报率的上升,漏报率的降低会引起误报率的上升。对于同一个算法来说,如果误报和漏洞同时降低,很可能发生了过拟合现象,当换一类盘后,误报和漏报都会大幅上升。

3

存储性能容量预测技术 对于存储来说,性能和容量预测是两件不同的事情,都为客户带来不同的价值。但是站在技术角度,两者都属于数据挖掘中时间序列预测问题(Time Series Prediction)。时间序列,也叫时间数列、历史复数或动态数列。它是将某种统计指标的数值,按时间先后顺序排到所形成的数列。预测的基本原理是:统计分析过去的时间序列数据,形成拟合函数或者AI算法模型,以拟合的函数结果或模型来预测未来的趋势。

时间序列预测法可用于短期、中期和长期预测。造成时间序列数据发生变化的因素主要有以下四个:

趋势性:时间序列曲线呈现出一种缓慢而长期的持续上升、下降、不变的整体趋势。

周期性:由于外部的影响,随季节的交替,时间序列曲线有明显的周期性的高峰、低谷。

随机性:个别的数据变化为随机变动,但整体呈现出统计规律。

综合性:以上几种变化因素的叠加或组合。预测时可以过滤除去不规则的随机因素,最终展现出趋势性和周期性变动。

经典的时间序列预测算法有ARIMA、线性回归、深度学习算法等。这些算法有各自的优劣势,产品会根据不同的客户应用场景来选择不同的算法。下图展示了各个算法的实际效果。

时间序列算法效果比较

对于存储来说,除核心算法外,存储还有自身的容量和性能指标。表3列出了浪潮智能存储管理平台InView支持的未来1天、7天、30天、90天的3个容量趋势指标,15个性能趋势指标。

表3:浪潮存储性能容量预测指标

4

存储AIOps的产业落地浪潮智能存储管理平台InView 存储产业界中,作为新数据时代“新存储”引领者,浪潮存储推出了领先且独具特色的智能存储管理平台InView,提供了预测性分析、端到端的故障定位、性能洞察等一系列的智能化功能,帮助用户分析复杂应用环境下从虚拟机到后端存储端到端的性能瓶颈,确定影响性能瓶颈的主要因素,并最终给出可行的优化或解决问题的建议。 其中磁盘故障预测、性能容量预测的智能化功能,可以帮助客户预防硬件故障带来的损失,并给出具体的扩容建议,为客户提供更稳定、高性能、智能化的存储服务,使存储服务能更好地适应用户需求,同时降低存储的复杂性和维护成本。 注:感谢我的同事叶毓睿对本篇文章提供启发。

原文标题:【科技放大镜】AI加持,给复杂存储管理做“减法”

文章出处:【微信公众号:浪潮存储】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储
    +关注

    关注

    13

    文章

    4557

    浏览量

    87737
  • 磁盘
    +关注

    关注

    1

    文章

    392

    浏览量

    25930
  • AI
    AI
    +关注

    关注

    88

    文章

    35758

    浏览量

    282453

原文标题:【科技放大镜】AI加持,给复杂存储管理做“减法”

文章出处:【微信号:inspurstorage,微信公众号:浪潮存储】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    MES系统怎么实现数字化闭环与设备预测性维护?

    预测性维护代表了MES系统从被动应对到主动预防的转变,通过数据驱动的方法预测设备故障,实现从"预防性维护"到"预测性维护"的跨越。
    的头像 发表于 08-14 11:35 ?116次阅读
    MES系统怎么实现数字化闭环与设备<b class='flag-5'>预测</b>性维护?

    如何统计蜂鸟E203的分支预测率?

    想请问大家如何统计蜂鸟E203的分支预测率,我尝试在exu_commit模块里统计,但是发现预测率都有写问题,想请教以下大家
    发表于 06-10 07:05

    边缘计算网关的实时监控与预测性维护都有哪些方面?适合哪些行业使用?

    边缘计算网关的实时监控与预测性维护都有哪些方面?适合哪些行业使用? 有实施过得案例的介绍吗? 深控技术的不需要点表的边缘计算网关如何?
    发表于 04-01 09:44

    预测性维护实战:如何通过数据模型实现故障预警?

    预测性维护正逐步成为企业降本增效的核心手段,通过数据驱动的故障预警逻辑框架,可以预测设备是否正常运行,提前预警并避免损失。案例中,通过振动传感器采集数据,发现轴承故障,通过随机森林模型
    的头像 发表于 03-21 10:21 ?1221次阅读
    <b class='flag-5'>预测</b>性维护实战:如何通过数据模型实现<b class='flag-5'>故障</b>预警?

    深控技术工业网关通过集成边缘AI引擎与多源数据融合技术,实现设备健康状态的实时预测与能效优化

    深控技术不需要点表的工业网关通过集成边缘AI引擎与多源数据融合技术,实现设备健康状态的实时预测与能效优化: 多维数据采集:实时采集设备振动、温度、电流、压力等参数(如电机电流波动±5%阈值监测
    的头像 发表于 03-06 11:12 ?439次阅读
    深控<b class='flag-5'>技术</b>工业网关通过集成边缘AI引擎与多源数据融合<b class='flag-5'>技术</b>,实现设备健康状态的实时<b class='flag-5'>预测</b>与能效优化

    设备管理系统:如何实现预测性维护与故障预防?

    设备管理系统通过数据收集与分析、智能算法和维护策略制定,实现预测性维护与故障预防。通过建立设备模型,预测设备性能变化趋势。设定预警阈值,确定关键指标。通过数据分析,发现设备潜在
    的头像 发表于 02-13 09:56 ?766次阅读
    设备管理系统:如何实现<b class='flag-5'>预测</b>性维护与<b class='flag-5'>故障</b>预防?

    信道预测模型在数据通信中的作用

    在现代通信系统中,数据传输的可靠性和效率是衡量系统性能的关键指标。信道预测模型作为通信系统中的一个核心组件,其作用在于预测信道条件的变化,从而优化数据传输策略,提高通信质量。 信道预测
    的头像 发表于 01-22 17:16 ?927次阅读

    MVTRF:多视图特征预测SSD故障

    固态硬盘( Solid State Drive,SSD )在大型数据中心中发挥着重要作用。SSD故障会影响存储系统的稳定性,造成额外的维护开销。为了提前预测和处理SSD故障,本文提出了
    的头像 发表于 12-30 11:04 ?693次阅读
    MVTRF:多视图特征<b class='flag-5'>预测</b>SSD<b class='flag-5'>故障</b>

    服务器数据恢复—磁盘出现故障导致Mdisk成员盘上线失败的数据恢复案例

    。 服务器存储故障: V7000存储磁盘出现故障,管理员发现问题后立即更换磁盘。新更换的硬
    的头像 发表于 12-20 14:22 ?592次阅读
    服务器数据恢复—<b class='flag-5'>磁盘</b>出现<b class='flag-5'>故障</b>导致Mdisk成员盘上线失败的数据恢复案例

    EEPROM存储容量选择技巧 EEPROM的故障排查与维修

    EEPROM存储容量选择技巧 选择合适的EEPROM存储容量需要考虑多个因素,以确保所选型号能够满足应用需求并具备良好的性能和可靠性。以
    的头像 发表于 12-16 16:47 ?1997次阅读

    什么是raid磁盘冗余阵列

    读写、如实现数据备份。 ? raid技术的作用 ? - 提高IO能力,磁盘并行读写 - 提高耐用性,磁盘冗余算法来实现- 具备冗余功能,节约成本 ? raid级别的作用、以及区别 ? - raid0 最小
    的头像 发表于 12-16 16:41 ?1042次阅读
    什么是raid<b class='flag-5'>磁盘</b>冗余阵列

    服务器数据恢复—EVA存储磁盘磁盘掉线的数据恢复案例

    服务器存储数据恢复环境: 一台EVA某型号控制器+EVA扩展柜+FC磁盘。 服务器存储故障&检测: 磁盘
    的头像 发表于 11-06 13:46 ?549次阅读
    服务器数据恢复—EVA<b class='flag-5'>存储</b><b class='flag-5'>磁盘</b>组<b class='flag-5'>磁盘</b>掉线的数据恢复案例

    一种创新的动态轨迹预测方法

    本文提出了一种动态轨迹预测方法,通过结合历史帧和历史预测结果来提高预测的稳定性和准确性。它引入了历史预测注意力模块,以编码连续预测之间的动态
    的头像 发表于 10-28 14:34 ?1214次阅读
    一种创新的动态轨迹<b class='flag-5'>预测</b>方法

    电梯按需维保——“故障预测”算法模型数据分析

    梯云物联的智能AI终端在故障预测算法模型数据分析中扮演着核心角色,其工作流程涵盖了数据采集、特征提取、模型构建、故障预测与预警等多个环节,形成了一套完整的电梯
    的头像 发表于 10-15 14:32 ?1226次阅读

    什么是开关设备温升预测预警解决方案

    蜀瑞创新科普:电力开关设备温升预测预警解决方案是一种针对电力设备在运行过程中可能因温度升高而引发故障或事故的问题,通过先进的预测和预警技术来提前识别并采取措施的解决方案。这一解决方案旨
    的头像 发表于 09-13 09:39 ?759次阅读
    什么是开关设备温升<b class='flag-5'>预测</b>预警解决方案