打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
第三方数据中心服务商如何对外展现业务连续性能力 (管理篇)

随着第三方数据中心的兴起,第三方数据中心服务商(以下简称数据中心服务商)能够提供的服务能力日渐强大和全面。与此同时,考虑到自建数据中心的巨额成本,越来越多的企业选择将自己的系统托管给靠谱的数据中心服务商。

(图片来源网络,版权归原作者所有,如有侵权,请与我联系删除)

如何从众多数据中心服务商中脱颖而出成为了各服务商的战略方针,向客户展现自家数据中心的业务连续性能力无疑是一种很好的办法。很多数据中心服务商的领导层将目光放到了ISO 22301认证。

(图片来源网络,版权归原作者所有,如有侵权,请与我联系删除)

近期,我担纲了上海某大型数据中心服务商ISO 22301咨询认证项目的项目经理,下文就本次项目的情况为大家讲解数据中心如何搭建业务连续性管理体系。

ISO 22301认证流程包括:

1) 识别业务

2) 风险评估

3) 业务影响分析

4) 制定业务连续性策略

5) 制定业务连续性计划与演练

6) 内审

7) 管审

8) 第三方审核

其中内审、管审、第三方审核与其他ISO标准认证项目基本一致,因此本篇略过内审、管审、第三方审核的内容,主要讲述风险评估、业务影响分析、制定业务连续性策略、制定业务连续性计划与演练这五阶段的内容。

一、 识别业务

业务连续性管理体系,首先得了解组织有哪些业务,才能开展后续的工作。业务的分类方法有很多,目标是识别全部核心业务,其方式和方法并不唯一。

在本次项目,我将第三方数据中心的业务分为:

1) 电气运维

2) 暖通运维

3) 弱电运维

4) 消防运维

二、 风险评估

风险评估在很多体系中都有出现,比如:

1) 环境管理体系

2) 职业健康安全管理体系

3) 信息安全管理体系

4) 业务连续性管理体系等

风险评估的方法论大多相似,只不过评估的角度不一致罢了,业务连续性管理体系的风险评估主要着重于可能影响业务连续的风险。如:

1) 机房火灾

2) 设备故障

3) 停电断水等

即便没有建立和实施业务连续性管理体系,组织在实践中也已经有意无意做过一些风险评估,比如:

· 点检清单

· 巡检清单

· 应急预案的场景

· 操作手册的场景等

这些实际都是可能发生或已经发生过的风险,并且组织已在实际的应对和管理过程中制定了相应的处置措施。

风险是无穷无尽的,新的风险会不断出现,如新型勒索病毒等;也有可能随着技术的更新,之前的风险已经不会造成影响了。因此对风险的识别和评估需要不断的完善。

每个组织因自身情况不同,遇到的同类风险的承受能力和应对措施也有所不同,需要组织在咨询方的建议和指导下,完成符合自身条件的风险识别和对应决策。

三、业务影响分析

组织需要对其每一个业务进行业务影响分析,了解当该业务中断会带来哪些影响,中断多久在可接受范围内,从而设定,RTO,MTPD,RPO等具体指标。

这里我对业务影响分析的方法不做详细的说明,以下是本次项目过程中的几个要点:

1. 现有设备性能情况

例:如图所示,当发生断电,不间断电源将会自动供电,不间断电源最长可支撑30分钟,当中断至15分钟时,将会采取一些应急措施,如切断非核心设备的供电,因此柴油发电机的启动时间建议在15分钟内,可保障关键设备(或者业务)不中断。

2.与客户签订的服务级别协议(SLA)中关键的信息可作为业务影响分析的输入,如:

· 恢复时间要求

· 网络可用性

· 供电中断次数限制

· 赔偿条款等

3.设备修复的时间

(图片来源网络,版权归原作者所有,如有侵权,请与我联系删除)

在这个项目中我们听到这样的说法,“我们的设备都有冗余配置的,全部损坏的几率太小,单个损坏不会影响业务。在单个损坏的情况下,我们承诺尽快修复,但是因为设备损坏情况不同,所以无法给出具体时间”。

实际上,这里的“尽快”存在问题,无法给予管理层数值型的参考数据,因此我们需要把“尽快”定量化,在这里建议大家可以从以下两个角度去考虑:

· 有备件

· 无备件

有备件的情况下,需要考虑备件的替换时间;无备件的情况下,需要考虑订货到场及更换需要的时间,可以有一定的余量。

四、制定业务连续性策略

(图片来源网络,版权归原作者所有,如有侵权,请与我联系删除)

面对大型地域型灾难,建立两地三中心是业务连续性策略中最安全、最可靠的策略。数据中心服务商主营业务是机房运维,机房就是他的核心业务,也是主要的收益来源。目前也没有客户愿意出高昂的价格要求第三方数据中心为其准备两地三中心,客户更愿意购买不同的数据中心服务商的服务来实现他的两地三中心。单个的数据中心服务商,可能只是客户两地三中心中的一个点,但却是第三方数据中心的全部业务。客户也深知这一点,就算一个数据中心因为灾难无法开展,他可以启动灾备方案,将业务转移至另一个数据中心。因此数据中心服务商与客户签订的服务级别协议中,经常有“除地震、海啸等不可抗力因素等条件约束”,这也是数据中心服务商重要的业务连续性策略之一。其他业务连续性策略还有设备冗余配置等。

五、制定业务连续性计划与演练

该部分不止包括常规的应急预案,还包括应急预案结束后,如何恢复至正常的业务运行水平。比如场景为发生火灾,导致3人受伤,6台暖通设备损坏,9台电气设备损坏,办公场所损坏。

一般应急预案会提到如何修复这6台暖通设备损坏,9台电气设备损坏,以业务抢通为主要目的。但是业务连续性计划不止如此,还需要考虑受伤的3人,包括打120、通知伤者家属、为伤者支付医疗住院费用、到医院探望等,只有照顾到所有员工,稳定员工情绪,让员工体会到企业的温暖,才能使员工全身心地投入到业务恢复工作中。场景还提到办公场所损坏,员工没有地方办公,也将间接导致业务无法开展,因此协调员工的办公场所,也是业务连续性计划中不可缺少的一环。

光制定业务连续性计划还不行,需要定期演练加深员工的印象,如发生如下场景,需要考虑增加演练次数:

1. 人员岗位职责变动

2. 新员工入职

3. 自己或同行发生类似情况

演练注重的是练,而非演,如果只是大家聚在一起演给高管层、审核老师看,并没有意义,演练的主要目的还是在发生类似事件的情况下,帮助大家能从容地、有信心地进行业务恢复工作。

由于机柜内的设备均为客户所有,实操演练可能导致客户业务受到影响,但是桌面演练的效果又比较弱,因此该数据中心服务商专门针对演练研发了一套3D模拟演练系统。将机房所有设备的部署情况,利用3D技术,制作了1比1的机房模型,然后将应急预案录入,模拟真人实施应急预案。每个步骤还包括了相应的操作手册及图片指引,从而起到演练的效果。3D模拟演练相对于桌面演练的的好处如下:

1) 无需繁琐的纸质文档

2) 相对于纸质文档,形象化地展现了在发生事件后,详细的跑位及操作方法,并关联了相关的操作手册

3) 以3D动画的形式展现,无需所有相关人到场,一人也可进行相应的培训

六、体系融合

该数据中心服务商在建立ISO 22301体系前,已经通过了质量/环境/职业健康管理体系以及Uptime M&O认证。质量/环境/职业健康管理体系同为ISO标准,编写方式一致,易于融合。Uptime M&O和ISO标准稍有区别。

1. Uptime 组织

Uptime,是数据中心标准组织和第三方认证机构,是数据中心tier拓扑标准的提出者。


2. M&O 认证

M&O的全称为Management&Operation,即运营及管理认证,是针对已建设投用的数据中心,基于电力、暖通、消防安全基础设施的运营与管理的一类认证。

Uptime M&O要求数据中心的运维要有完备的指导体系,即由原本的经验主义转变为标准化流程,如设备的操作、日常的运维、紧急情况的处置乃至系统的参数设定都需要由相应的指导书。该第三方数据中心在搭建Uptime M&O时,已经大幅度提高了业务连续性能力,强化了数据中心事件发生前及事件发生时的应对能力。再经由业务连续性管理体系(ISO 22301)强化事件发生后的业务恢复能力,形成整个的业务连续性体系,从事前到事后,一整套业务恢复的标准化流程。

七、结束语

业务连续性管理体系,首先需要知道:

1)组织希望哪些业务连续(业务影响分析)

2)有哪些情况可能会导致这些业务不连续(风险评估)

根据以上分析的结果制定业务连续性的策略和计划并定期演练,确认策略和计划的可执行性,持续不断地完善(PDCA),才能形成有效的业务连续性管理体系。

因为数据中心服务商的主营业务为机房运维,也只是入驻企业业务连续性中的一环,当不可抗力灾难发生,恢复成本超过损失时,也可选择暂停提供服务,只要及时通知入驻企业,对入驻企业的影响也在可控范围内。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
首家部分参与网络清算平台切量 腾讯支付金融业务低调崛起
加快新基建,数据中心如何加速跑?
蓝汛王松:只有少数人看到了CDN之上的蓝海
2020年度中国IDC产业第三方数据中心排行
创新区块链高可用模式 提升应用系统业务连续性
数据中心运维需要的三大认证
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服