打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
机房安全量化评估,真可行吗?


摘要

上期我们探讨了在数字化时代,数据中心设施安全量化评估的必要性。说明把模糊的安全定性评估升级到定量评估,是时代的需求,是安全管理进步的要求。但安全这个东西能否量化?该如何进行量化?如何做到客观公正,最大化减少人的客观因素?本期继续探讨。


量化的路径

影响数据中心安全的因素是多方面的,本文探讨的是基础设施层面,网络和IT应用层面不作论述。即使基础设施层面,也包括了很多的专业或分系统:供电系统(市电、高低压配电、发电机、UPS、直流电源、蓄电池、机房配电等)、制冷系统(冷机、水泵、冷塔、阀门管路、机房空调或各类末端空调、补水、净化)、保护系统(防雷、接地、等电位)、监控系统、消防系统、安防系统、 BA系统、机房设施(围护、地板、机柜、走线架等)…。如果这些专业分系统的安全性是可以量化的,才有机房基础设施层面的安全量化评估可能。由于供电系统和制冷系统是关系机房安全的关键因素,因此我们需要先探讨其量化的可行性。


供电系统按其拓扑链路,可以划分为几个分系统:高低压配电(含ATS)、发电机系统、电源变换的UPS或高压直流(含蓄电池)、机房配电(含STS、PPC、PDU等),如果我们对每个分系统设计一套安全量化评分规则,评估出每个分系统的安全分值,再按照供电系统的整体拓扑架构,将分系统的分值加权,就可以得到整个供电系统的安全量化评估的结果。对制冷系统也按照同样思路进行先细分再综合的评估。


这个思路和系统可用性计算类似,可用性计算只考虑了系统拓扑架构和设备可靠性指标,对工程质量、机房环境、运维管理、厂商服务等外部影响因素没有考虑,因此其局限性明显。从大量的运行实践看,外部因素对安全的影响更大,即使最高可用性设计的系统,如果外部因素上出现问题,比如工程安装连接不紧,可能造成重大的火灾事故,所以4个9、6个9的可用性指标,仅对系统架构选择有一点点的参考意义。即使这样,由于供电系统的多样性,目前也少有人计算整个供电系统的可用性指标,更多是计算比较不同UPS系统的可用性。


因此,从底层的设备出发,进而逐渐上升到供电系统整体的安全量化评估,才是我们需要的。我们设计安全量化评估的路径应该是:设备→分系统→上层系统→大系统→机房基础设施(简称机房),设备层面安全量化是最基础的,下面就从设备层面开始探讨。


量化的要素

影响到设备的安全,主要是如下几个方面:当前运行状态、设计与配置、机房环境、工程规范性、可维护性与可靠性、运维管理、厂商服务支持。


1、当前运行状态

当前运行状态,直接反应了设备的当前健康情况,运行有问题的设备无法认定它是安全的。一个刹车有问题、转向有问题的车,怎么开也不能说其安全可靠。每种设备,可以定义不同的当前运行指标或参数。比如,UPS可以定义10多个运行指标,蓄电池只能定义几个指标参数。


2、设计与配置

设计与配置,对设备的安全可靠性有本质的影响,特别是在异常情况下。就如同车辆是否配置了:ABS、安全气囊、车身稳定系统、自动刹车系统等。不同类设备的设计与配置评估项目不同,但同种设备可以依照相同项目进行评估,比如UPS的设计配置可从以下方面:输入/输出开关、主旁路分离、电池接入控制、电池配置、充电容量、均流电感、维修旁路、信息交互界面、防错设计等。


3、机房环境

机房环境对设备安全有现实或潜在的影响,现实影响因素比如:环境温度、湿度、震动、灰尘、污染物。这些因素很快会导致设备运行状态恶化,从而导致故障。潜在因素可能有:设备上方的管道、机房防火或消防、机房照明、海拔高度。管道可能破裂漏液导致设备损坏,机房防火或消防不佳,其他设备的小事故可能影响到该设备的安全,照明不佳可能导致误操作或维修不当。有时我们把输入电源质量也归入机房环境,输入电源的电压、频率、谐波高低和稳定性,即使在设备的参数指标范围内,也影响到设备健康和安全。


4、工程规范性

工程规范性,对于设备安全来说,就如同婴儿出生,一次不恰当的生产过程,可能导致婴儿健康受损或残疾。比如UPS工程规范性可从以下方面进行评估:电缆规格、电缆连接、接地、标识、电缆布放、安装固定、并机连接、通风散热。这些因素有一定的隐蔽性,运行后检查有一定困难。比如:电缆连接是否紧固,带电运行后无法校正,低负载时也表现正常。


5、可维护性与可靠性

设备的安全运行,离不开良好的维护。设备的可维护性直接关系到每次维护是否到位,比如:设备背后维护通道过小,维护人员无法仔细检查设备,甚至有触电危险。比如:设备的盖板设计不当,打开后可能掉下短路。比如UPS的风扇是否设计了冗余和故障报警,这些都是为增强可靠性或可用性做的设计,有和没有,对以后的设备安全运行关系很大。


6、维护管理

设备的安全运行离不开良好的维护管理,好的管理制度、流程、规范,可以减少设备出故障的几率、减少人为错误的机会。维护管理包括了:日常维护、故障处理、备件管理、人员培训、档案资料、应急管理。


7、厂商服务支持

设备的安全运行,当然也离不开设备厂商的服务和支持,这点大家不难理解。数据统计发现,国内经济发达的大城市人均寿命排名前列,无疑是和其生活条件好、医疗保障好有关。厂商的服务支持就是设备的医疗保障,小病小患及时消除了,就不容易发生大毛病大故障。


可见,对于设备的安全评估,要素必须是非常全面的,是360度全方位审视。过去,大家也会从这些方面来审视评估安全,但没有做到量化,仅仅是依据某些标准指出了这些方面存在的问题。问题是对于安全,哪些问题可以一票否定?哪些问题可以有回旋余地?可以回旋的余地太多了也不行,量变导致质变。因此,需要进一步对评估要素进行量化。

 

行文至此,安全量化评估这个路径大家应该不会反对,关键是对每个分系统的权重划分、要素划分,各人有不同的看法。分歧不能否定我们安全量化评估的前进方向,下期将给出我们总结和研究的量化方案,以供参考。


点击“机房安全量化,数字化时代的必然要求”了解上一期精彩内容。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
计算机中机房UPS电源应该怎么选?
通信机房电源-48V和48V同样吗?
供电安全评估
广播电视技术维护管理工作的思考(下)-广播电视技术,自动播出系统,播控技术-广电行业-hc...
企业信息化风险与对策研究
德鸣大数据的核心技术解密
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服