打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
IDC运维之预防性维护和预测性维护
userphoto

2017.10.25 上海

关注

2016年,美国独立研究机构波莱蒙研究所发布了数据中心停机成本的最新数据,2016年数据中心电力中断的平均一分钟成本为7900美元,有报告显示,数据中心平均停机事故时长为90分钟,估计估算每次停机损失在700000美元左右。如此重大的成本损失是由于现代数据中心均支持着企业的至关重要的网站和相关的云软件应用程序。如何最大程度的保证最高的可靠性稳定性,通过采取积极的预防措施,以减少数据中心计划外的设备停机时间和其他可以避免的故障。是运维人员必须考虑的一个课题。本文将从预防性维护和预测性维护两个方面进行讨论。



首先解释一下预防性维护和预测性的区别。早在汽车行业,就已经有两者的区分。


汽车行业质量管理体系IATF16949:2016标准

3.1.7 预见性维护(predictive maintenance) 基于过程数据,通过预测可能的失效模式以避免维护性问题的活动。 

3.1.8 预防性维护(prevention maintenance)  为消除设备失效和生产的计划外中断的原因而策划的措施,作为制造过程设计的一项输出。


在数据中心行业,基本还是沿用了汽车行业的定义。

预/防/性/维/护

预防性维护:比较常见,也为国内大多数运维及相关人员所熟知。通常由各零部件、设备、系统的厂家提出相关的固定周期的计划性维护。部分优秀运维团队,也根据自身实际运维经验进行了一些完善和修订。

其特点:

一、固定周期,通常一次性制定全年甚至是多年的计划;

二、通常仅以设备进行分类,较为优秀者通常会根据项目所在地区,维护团队实力,客户性质,等项目特点而进适当调整;

三、但往往与设备实际运行状态和数据无关。针对的是一类产品、系统。而非根据实际设备/产品实际运行状态/性能而特意定制的以指定项目中的指定产品为准的维护。

预/测/性/维/护

由于数据中心行业蓬勃发展,行业近年来广受关注,受益于技术进步,预见性维护近来备受重视。

预见性维护(预测性维护)是以运行状态(性能)为依据的维修与维护,在设备/系统运行时,对它的主要(或需要)部位进行定期(或连续)的状态监测和故障诊断,判定设备/系统所处的状态,预测设备/系统状态未来的发展趋势,依据设备/系统的状态发展趋势和可能的故障模式,预先制定预测性维护计划,确定设备/系统应该保养/修理的时间、内容、方式和必需的技术和物资支持。预测性维修集状态监测、故障诊断、故障(状态)预测、维修决策支持和维修活动于一体,结合大数据分析将成为数据中心行业的一种新兴的维护方式。

(早在1999年既已成为汽车行业标准维修方式)。



预防性维护

七个方面


预防性维护是现在数据中心最普遍的运维方式,通过对设备的定期检查,确保整个设备系统处于正常运转的良好状态。一流数据中心的预防性维护通常包含以下几个方面:



01
安全第一



数据中心包含着许多会影响技术人员的生命和健康的危险因素。数据中心的技术人员们必须在进行预防性维护活动时意识到这些潜在的安全风险。在必要的地方使用锁定标签。在执行预防性维护任务时,数据中心的技术人员必须保证对于相关的健康和安全程序相当熟悉,严格按照流程执行,记录每个点的程序,并定期进行安全培训。



02
安排定期维护和检查计划



针对UPS和电池执行预防性维护可以在停电期间大大减少其运行失败的机会。根据艾默生网络能源公司最近的一项研究显示,对于UPS单位而言,每年两次预防性维护(PM)服务事件的平均故障间隔时间(MTBF)是每年没有预防性维护服务事件的23倍。对于其他关键系统,如暖通空调、发电机等同样如此。定期的预防性维护可以减少设备运行失败的机会,减少能源消耗量并延长设备使用寿命。根据设备制造商的建议实施预防性维护是一个好的开始。而这些预防性维护计划可以随着时间的推移进行修改。



03
使用标准化的检查清单



使用标准化的检查清单能够确保技术人员知道在预防性维护阶段需要做什么工作,同时保证了每一次的预防性维护均执行相同的检查标准。同样,根据设备制造商的建议实施预防性维护是一个好的开始,并可以随着时间的推移进一步的细化。在数据中心,这些被称为标准操作程序(SOP),程序方式(MOP)和紧急操作程序(EOP)。某些工作可能需要额外的培训和安全程序,因此,SOPEOPMOP应列出哪些是必需的。



04
根据规定执行预防性维护



鉴于数据中心停机存在潜在的成本,因此,及时完成预防性维护是非常重要的。要做到这一点最简单的方法是测量和执行预防性维护的相关规定。您企业的预防性维护合规性(PMC)的得分即是您根据相关规定实施完成维护工作的百分比。10%的维修规定就是一个很好的起点。规则规定,预防性维护措施应定期维护以间隔10%的速率完成。例如,预防性季度维护要求每隔90天进行一次,故预防性季度维护应在到期日的9天完成,否则就是不符合的规定的。采用10%的规则可以帮助保持您企业的预防性维护间隔不变,减少了时间变量的变化,从而提高了可靠性。



05
保持详细的工作订单记录



如果出了问题,没有足够的文件记录可能会导致更大的麻烦。当审计人员来检查时,请务必确保预防性维护工作订单记录是详细可查的。同时,预防性维护工作的历史工作订单记录信息可用于识别慢性设备问题和不可接受的停机时间水平,以便更好的找出解决方案,如定期检查或预防性维护是否到位,以主动在未来减少停机水平。



06
测量



就如同Facebook的CEO马克·扎克伯格说过的那样:“您不能改变您无法衡量的东西。”通过诸如预防性维护的合规性、可用性和可靠性等KPI可以衡量您企业的预防性维护工作效果。进而优化您的预防性维护,以最大限度地发挥其效力,同时最大限度地降低成本。



07
采用CMMS



计算机化维护管理系统(CMMS)是帮助跟踪,测量和改善您企业的预防性维护,并满足上述6大提示和技巧的最好方法。计算机化维护管理系统(CMMS)有时也被称为预防性维护软件,其可以使设备管理人员及其下属和客户跟踪他们的资产维护工作的状态,了解综合系统的相关成本。CMMS软件可以帮助数据中心降低维护成本,提高设备使用寿命,提高可靠性和生产效率,降低设备停机时间。其可以确保预防性维护是根据既定的协议定期进行。其也大大方便了维修技师能够快速访问设备的信息,如程序,工作秩序的历史维护数据以及度量指标。



预测性维护

工业互联网


机房运维人员经常要会感受到一种压力,需要不断改进机房和运行环境下的维护流程。根据麦肯锡公司最近的一份大数据报告,生产过程所产生的数据要多于任何其它来源产生的数据。产生的数据,远未得到足够的开发。

如果以这些数据为基础,从策略层面来实施维护流程,那么机房运维人员就可以实现所谓的预测性维护——将维护技术与从不同设备和机器上得到的实时信息关联起来,从而可以实现按需完成维护工作。这样不仅可以降低停机时间,还能消除在不必要的维护上所花费的时间和资源。

通过实施预测性维护——而不是应对性维护,可以降低设备整个生命周期内的费用,这样大多数的生产设施都有机会大幅提升它们的盈利水平。这有助于优化能源利用,减少设备停机,以及获得在其它方面的提升。



为什么需要预测性维护?


对于那些存在老旧、甚至是过时设备的生产设施来讲,维护程序经常会导致不必要的费用,比如运行停机、能源浪费和人力成本等。

按照传统的维护程序,定期进行日常维护,这就意味着操作人员很有可能在对一些并不需要维护的设备进行保养,这就意味着时间和资源的浪费;或者更换掉那些仍具有使用价值的设备。

使用传统的维护程序,如果一个设备没有按规定进行日常维护,那即使有某些征兆显示其要发生事故,也可能被忽视。

另一方面,那些已经按照实际需要,对设备和机器进行预测性维护的生产设施,与定期维护相比,在频率上会差异。利用网络、互联设备等基础设施所产生的数据,来处理诸如能源利用效率、温度、产量等事项,运维人员和可以判断哪些设备运转正常、哪些设备可能要出故障。

运维人员就可以据此做出决策:何时进行维护、安排设备离线,或者在当前的条件下,安排某些设备持续运行。

当某些设备不能满负荷运行、但是其输出仍可以保持在正常变动范围之内时,运维人员就可以利用预测维护,避免“事实”上的停机。



大数据是预测性维护的基础            



网络、互联设备、以及采集、监视和分析得到的数据(通常被称之为大数据)是预测性维护流程的基础。这些数据基础设施以及数据驱动的智能信息,也就是我们正在热议的物联网(IoT)。根据Gartner公司的定义,物联网就是包含嵌入式技术以实现与内部状态或外部环境之间的通讯、感知、或互动的物理对象和连接的设施,它能实现对整个机房设备的监视。运维人员可以根据物联网所提供的数据和信息,将机房切换到预定的预测维护模式。
预测性维护可以利用很多种类型的数据,包括设备运行时间、温度、能源利用、产出以及更多其它数据来改善决策的制定和运行



实施预测性维护的关键步骤            



实现预测性维护,不能一蹴而就,需要多层次、逐步完成。下面是在生产设施内开始实施预测性维护的两个关键步骤:

改变采购优先等级工欲善其事,必先利其器,想要利用大数据以及物联网来实现预测维护,必须要有能够产生这些运营数据的设备。互联设备逐渐成为范式,但是在采购流程中,必须将采购优先级从传统设备转移到可以使用网络通讯的互联机器上。

利用互联设备所产生的数据,可以避免单一故障事件以及因之而引起的生产线停机所造成的损失,在一定程度上可以补偿采购具有网络功能的设备所需要付出的额外成本。采购决策必须基于整个生命周期内的使用成本而不仅仅是前期的投资。

启用数据专家一旦设备完成网络连接,具有测量和监视数据功能,运维人员就可以与数据专家合作,确保设备能够以最优的方式采集和使用数据。数据专家可以通过对现场甚至是虚拟场景的评估,来改进数据运营。

联网设备采集的数据,可以存储在云端,通过一个基于服务器的模型来实现虚拟监视。当数据被虚拟存储时,就可以对其进行访问、分析,并在数据专家的帮助和指导下,用其指挥和实施预测性维护。这种虚拟化,作为数据专家提供服务的一种,可以加速在机房内实现预测维护。

结/语

经过综合考虑的预测性维护程序,可以为数据中心运行带来显著的收益。有效利用预测性维护的数据中心,可以获得可观的运营收益以及竞争优势。一旦某个设备实现互联,相关运维人员必须相信由这些数据所得出的结论,从而可以从基于数据的预测性维护中获得最大的收益,尽管这些结论可能会对以前的优化生产参数认知造成挑战。

-End-


*本文由磐石运维组整理

(来源 IDC思想库)


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
浅谈腾讯数据中心现场外包管理
世纪互联交付中心总监李少春:数据中心基础与服务探讨
国外IDC机房评测分级的标准(T4标准数据中心)
这就是IDC机房空调制冷系统!
电信级IDC分为A、B、C三级,各级数据中心机房技术要求
智简魔方DCIM与传统数据中心设施管理有什么区别
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服