探究数据中心供配电系统的可靠性

数据中心基础设施根据业务应用规模和服务对象等方面的不同，其规模和配置也不尽相同，业界通常采用等级划分的方式来规划和评估一个数据中心的整体可靠性，国内标准GB50174、国际标准Uptime和TIA942，均提出数据中心的等级分类，这成为设计工程师在规划数据中心时的重要参考依据。数据中心设计需要引入冗余备份机制，但过于复杂的冗余可能会画蛇添足，需要提前对可能出现的异常状态进行模拟规避。本文以某数据中心实际工程为例，探讨一下影响配电系统可靠性的因素，以及提高配电系统可靠性的措施。

数据中心可靠性术语：

可用性 Availability (A): A = MTBF/(MTBF MTTR)
可靠性 Reliability (R)：R(t) = e-λt
失效率 Failure rate(λ)
平均无故障时间Mean time between failures (MTBF) MTBF = 1/λ
平均修复时间 Mean time to repair (MTTR)

数据中心可靠性分析的几种建模技术：

有三种常用的建模技术适合于电气或暖通的可靠性分析，分别是：

可靠性框图RBD(Reliability Block Diagram)
故障树分析FTA(Fault Tree Analysis)
故障类型与理象分析FMEA(Failure Mode Effects and Criticality Analysis)

以上几种通用的方法可以进行可靠性计算，本文为大家介绍RBD，它根据电气单线图将主要部件连接在一起，每一个块中包含了相关部件的维修数据和故障数据。以数据中心电气系统为例，每一个主要部件（如配电柜、发电机、UPS、变压器等）在建模框图上都是以不同的图块来表示，为每个图块设定自己的失效率和维修时间属性。两个部件的连接有两种方式，一种是串联，另一种是并联：

某数据中心工程电气系统单线图如下所示：该工程电源引自两个不同的变电站，每个变电站的两条支路回路引至ALTS-A1和ALTS-A2，中压变压器M4、M5、M6电源分别引自A1和A2，M4变压器带左面的IT负荷以及配套的暖通负荷，M6压器带右面IT负荷以及配套的暖通负荷，M5作为备用变压器，在M4和M6的每条馈线回路均有柴发电作为备用电源。在左右两边的每个低压变压器的出线回路均有TR-2A变压器作为备用电源,TR-2A变压器电源分别来自A4和A6。正常工况下的运行情况如下图红色标注所示。

在RBD框图建模过程中，应将实际运行情况下、故障自投的逻辑关系以及投切时间和概率写入到模型属性，在本例中可以看到高压侧有双回路进线，但其运维方式并非自投方式，所以在RBD模型中实为单路进线；同样方式，M4、M5、M6高压进线同样设置为单路；中压变压器M4、M6的馈线回路的柴发备用电源的切换方式为自投方式，在RBD中应将此部分冗余反应在模型中；低压公共冗余变压器TR-2A运行方式仅在有计划地检修条件下作为其余低压变压器备份使用，因此此部分冗余关系并不需要反映RBD模型中。

本例中一共为三组DC机房，每个机房的配电方式基本相同，下图为其中一组DC机房的配电系统，在每个机房中的末端IT设备的种类以及配电方式分为以下几种：

电源引自DR UPS经STS切换供给单电源IT负荷；
电源引自单路 UPS供给单电源IT负荷；
电源引自DR UPS供给双电源IT负荷；
电源引自2N UPS经STS切换供给双电源IT负荷。

在搭建RBD模型应遵循“典型”系统原则。可靠性分析的研究范围如何定义对可靠性分析的结果有较大的影响, 如果绝对的将配电系统中所有元件建立在模型中,那么得到的可靠性分析结果将不是针对某一拓扑而得出的准确结果, 规范IEEE P3006.7中规定可靠性分析通常选取“典型”的系统来搭建RBD模型，而并非是整个系统的所有部件。在本例中，有三组似配电系统的DC机房，因为在模型中仅反映一组即可，这样的计算结果才能够反映机房配电的真实可靠性。对于单电源IT设备和双电源IT设备可靠性数据如下表：

设备名称	MTBF(h)	MTTR(h)	Failure Rate
单电源IT	2,000,000	4	5.000E-07
双电源IT	10,922,693	2	9.155E-08

由表可知单电源和双电源IT设备的可靠性数据差别很大，甚至差出一个数量级，因此单电源设备系统的可靠性势必会低于双电源设备系统可靠性。

通过本例分析，系统的结构及配置直接决定了数据中心的可用性和可靠性。若整个系统的组成均有各子系统的串联，那么任何一子系统出线故障将导致整个系统瘫痪，且可靠性会低于任何一个子系统的可靠性，这就要求我们在方案设计时消除和减少单点故障，冗余配置可以减少系统的单点故障，如本案中公共冗余变为个体冗余，会提高系统可靠性。数据中心的运维管理同样也很重要，科学合理的运维管理体系可以直接降低系统发生故障的可能性，如本案中压部分的投切逻辑为自动方式，会提高整个配电系统的可靠性。设备的可靠性会影响系统可靠性，尤其是末端设备和串联在系统中的部件，高可靠性的设备对系统的可靠性贡献很大，如本例中双电源IT设备。

总之数据中心提高可靠性有多种途径，但在设计前期，需要准确定位数据中心的等级，不能盲目追求高可靠性，在满足功能需求的前提下，设计建设一个绿色、低耗、安全可靠的数据中心。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。