打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
BIM IDC智造更好运维V2.0

导语

BIM IDC从2017年1.0版本,历经一次1.1版本更新,迭代至2020年2.0版本。从基于设备父子关系定位数据中心配电设备故障的根因,到探索全设备拓扑关系及IDC仿真模拟,并最终在2020年实现了基于数据中心全生命周期内各项数据的采集清洗,训练出一套基于大数据分析、专家判断、物理关系搭建的根因分析模型。

历时3年,我们逐步完成了7D-BIM概念的现场落地。基于数据中心系统图、设备属性与告警信息构建BIM数据库;在此基础上构建拓扑结构,实现三级分层(物理层[配电、空调系统]、管控层[告警]、能量层[电流电量,水流水量]);进而建立一套完整的神经网络系统(获取运行数据、反馈运行状态、发出控制指令);通过智能、多维度的综合分析,实现快速诊断、准确定位故障并给出有效的专家修复建议。


00

灵魂拷问:机房高温后,你该怎么办?

2020年6月11日上午09:46:01,系统发现一条列间空调送风温度高的告警。该类型告警在数据中心机房极为常见,末端高温往往是基础设施故障发生后的最直接表象。作为运维同学,你计划做哪些操作来应对机房高温呢?

是调整列间空调风机转速迅速降温?还是检查水阀开度?或者迅速前往冷机房查看冷机是否有异常?再之后呢?

在庞杂的数据中心基础设施系统里,引发末端危机的根本原因常会出其不意,有时你可以依据常年运维积累的经验,判断出一个迅速解决表象问题的方法,但故障的根因,你是否有把握每次都判断准确并且解决?

带着同样的疑问,我们于2017年提出了《BIM IDC智造更好运维V1.0》产品解决方案,历经三年产品打磨与迭代,升级至V2.0版本,并于2020年5月在腾讯天津滨海数据中心全面落地。

BIM IDC V2.0版本落地

本文将从V2.0版本的产品对比、技术更新、理论分析等多角度阐述该产品在现场的应用详情,解析BIM IDC在数据中心运维领域应用的智能解决方案。

01

V2.0版本有何不同?

1.1 拓扑关系升级

从V1.0版本的设备父子关系至V1.1二维拓扑关系建立;V2.0版本在前期探索基础上,基于数据分析,输出了设备间不同层级交错的复杂拓扑关系,精确绘制数据中心不同设备间的关联关系。


V2.0 基于数据分析输出设备复杂拓扑关系

1.2 根因分析升级

V1.1版本搭建了基于数据中心设备间物理关系、逻辑关系的告警根因判断模型,可用于分析数据中心常见故障场景,但不能分析未知故障场景或进行拓扑关系较复杂系统下的根因判断。

于是V2.0版本应用数据分析,依托腾讯天津滨海数据中心2年历史运营数据,搭建出一套智能根因分析模型——当数据中心发生告警时,系统将弹出AI分析结论,供现场工程师参考。

V2.0 基于大数据根因分析

1.3 提出影响因子模型

V2.0版本不再局限于设备关系,深入探索到单个设备内各个测点参数;研究设备输入和输出参数对内和对外影响关系,深挖测点与测点影响因子,搭建一套辅助于根因分析的影响因子模型。帮助现场工程师快速发现故障设备,准确定位到引起设备故障的测点参数,缩短故障处理时间。

V2.0 影响因子模型页面

1.4 MDC模型升级

该版本细化微模块内部结构,由模块级绘图升级至MDC内机架、服务器及监控。当前版本可展示MDC单机架实时功耗、服务器及微模块内温湿度等参数,还可依据客户需求添加监控测点数据。

V2.0 MDC模型页面

1.5 告警系统升级

不仅在告警二维页面弹出告警内容,点击定位按钮跳转到模型页面可快速聚焦到告警设备,帮助工程师确认现场告警的实际物理位置。同时V2.0版本增加了告警分析按钮,转入智能分析页面后,可根据系统运算的根因分析结果,快速判断造成该告警产生的根本原因。

V2.0 告警与告警定位页面

挥别传统的二维页面告警内容集成,该版本可在BIM模型上全部点亮某时刻数据中心产生的告警;可速览机房内尚未关闭告警或未解决故障的全部告警设备及其位置。辅助一线运维工程师迅速发现当前机房整体存在的运维风险及机房尚未解决的隐患。

V2.0 机房全部设备告警高亮模型显示

02

平台展示

平台新增智能分析功能,根据运维需求,增加大数据分析接口和运算。而关于平台主页,V2.0版本修改了工作台页面,显示数据采集量、MDC微模块总电能、IT负载TOP5,实时告警数量、基础设施监控第三方通信失败数量,告警历史记录。针对不同运维团队使用习惯,可修改展示页面模块,增加现场人员需要监控的数据,满足使用者速览机房工况的需求。

图2.1 数据中心系统截图

V2.0模型在V1.0基础上优化完善了数据中心全部模型构建(如图2.2),可在BIM模型中漫游,便于新用户快速了解机房实景。针对疫情期间,远程办公场景,漫游功能可辅助远程办公的工程师在家完成对机房现场运维的部分要求。

图2.2 BIM渲染页面

智能分析页面是V2.0版本新增内容,也是项目研究的重点模块。该模块基于BIM技术和腾讯数据中心历史数据分析,实现重要设备预测及告警设备根因判断与解析;同时该模块引入设备间输入输出影响因子模型,计算设备影响因子,辅助智能分析结果的判定,进一步判断计算结果的准确性。

智能分析工作台

根因分析工作台

数据中心运维人员众多,每招聘一个新人均需做细致的培训与带教工作,如何让新员工迅速了解数据中心基础环境及各项设备参数、不同设备间物理关系与逻辑关系等,是数据中心管理者十分关注的问题。

平台单独增加一项用于教学的仿真管理功能,助力新员工快速了解数据中心各专业架构,并可通过模拟实操环境来练习。例如,仿真管理模块可模拟双路市电停电时,现场设备切换,开关投切,计算设备开启所需延迟时间等等;便于新员工在执行变更演练时,进行提前模拟,发现操作中可能发生的风险和隐患。

教学功能对于一个数据中心的长久运营是十分关键的,做好知识传承,方法论输出,经验总结,可以使数据中心维持在一个不断更新且向上的过程中——让新人不新,老人不老。

 


仿真模拟:全部失压启动柴发视频演示

03

智能分析平台概述

(与北工大联合发布)

为弥补冷水机组在故障诊断领域的缺失,20世纪90年代后期,美国采暖、制冷与空调工程师学会(ASHRAE)开展的RP1043项目满足了冷水机组的故障诊断的需求。Comstock 和 Braun 在项目中通过调查和实验创建了用于冷水机组故障诊断的数据集 。

本项目基于数据中心运维中存在的故障诊断痛点,结合当前最前沿的人工智能机器学习技术,开发出一套智能分析平台,该阶段项目着重分析制冷系统健康状态参数与其根因分析。

数据中心制冷系统是一个高度非线性的复杂系统,其反映系统运行机理和状态的监测数据呈现出海量、多模态、不确定性、涌现性、多源异构性和价值低密度性等“大数据”特性和时间序列相关性特征。虽然传统的基于数据驱动的故障诊断方法在智能故障诊断方面已经取得了很大的进展,但是在先验知识较少的复杂故障分析中,预测精度不高,使得该方法无法适应工业互联网2.0时代这种普遍存在 “大数据”特性的故障诊断需求。

本期项目选取了具有更好的逼近复杂函数能力的深度学习算法作为冷水机组故障诊断的方法,包含多隐层结构,以实现数据特征的逐层转换,保证最有效地信息提取与特征表达。

根据腾讯天津滨海数据中心3号楼制冷系统和测点分析,共选取制冷系统49个维度特征变量数据作为根因分析研究范围,独创性地提出基于卷积神经网络和循环神经网络的混合神经网络进行故障诊断的方法,该方法融合了一维卷积神经网络和循环神经网络在时间序列特征提取上的优势。

3.1 训练方法及步骤

步骤1:通过传感器收集不同工况条件下的数据样本,并建立多维故障样本。

步骤2:通过z-score对样本进行标准化。

步骤3:将数据集分为训练、验证和测试样本。

步骤4:用训练样本训练混合模型。

步骤5:分别以3级严重度的故障作为模型的输入,验证算法的有效性和灵敏度。

3.2 诊断指标

评价诊断效果的指标一般是准确率,其定义为对于给定的样本,正确被诊断为故障的样本占总样本的比例。但是该指标在正负样本不平衡的情况下表现的效果不理想。

例如有9900个正样本,100个负样本,如果模型把所有正样本都预测为正,那么准确率为99%,虽然准确高,但是仅用该指标不具有说服力,因为不能充分比较模型的优劣。因此本研究采用多评价指标综合反映模型性能,包括准确率(Accuracy)、精确度(Precision)、召回率(Recall)、综合评价指标(F-measure)。

3.3  智能分析成果

智能分析模块可以完成模型的训练以及实时故障诊断及数据预测。系统可针对用户需要预测的重要数据进行5分钟、30分钟、2小时或1天的预测。

如图3.1,预测冷冻水出水温度,当前为12.3℃,智能分析模块预测一天后出水温度为12.39℃。

图3.1 重要测点数值预测

对于平台产生的告警,智能分析模块可实时给出根因分析判断结论,辅助现场工程师快速定位故障产生的根本原因,帮助一线运维工程师迅速甄别机房众多告警的“罪魁祸首”。对于历史数据较少的用户,考虑数据量不足情况下,模型训练结果准确性有待考证,我们在根因分析结果上特别追加一条专家判断功能——即当专家用户不认同智能分析结果时,可手动输入专家或现场工程师处理故障后的正确结论(如下图3.2所示);专家结论输入系统后,帮助模型动态调整,周而复始进行训练,直至最终输出用户认可的准确模型。

图3.2 专家判断选择框

针对测点数值预测,产品对其增加了预测值的预警功能,即平台可早于真实环境5分钟或30分钟或一天时间,对超出正常值运行范围的设备发出预警提示。点击“查询该测点曲线”,可以查看该测点运行状态曲线图,辅助现场工程师对有预警设备加强巡检,或提前检查,尽早排除风险消除隐患。







图3.3 测点预测页面及真实值与预测值对比曲线

3.4 案例解析

回到文章开篇提到的2020年6月11日上午09:46:01的故障,现场运维人员发现一条列间空调送风温度高的告警故障后,点击根因分析按钮,系统弹出根因判断结果为:冷水机组蒸发小温差异常。此结果可提醒工程师是否该检查冷机有无脏堵,是否该清洗冷机。

如图3.4所示,除系统自动弹出分析结果外,下方还设有制冷系统设备间关联关系及影响因子连线图,根据影响因子占比以及同一时间段内告警,经综合判断可得出冷机蒸发小温差极有可能为触发列间空调送风温度高的直接原因。

图3.4 根因分析案例

V2.0版本采样数据相对于十年运营的数据中心来说还很渺小,基于两年历史数据而搭建的模型仍需不断采集真实的实时数据进行自我训练与修正。随着该系统在天津滨海数据中心的全面落地和应用,专家判断与实践经验的结合,将给予AI持续的引导,根因分析和影响因子模型也将更加准确。

未来数据中心能否做到无人值守,实现全面的自动化,或许在V2.0版本的落地中,可以找到一些可能的答案。

04

 BIM IDC还能做什么?

BIM IDC V2.0产品已在腾讯天津滨海数据中心ECC服务台落地使用,我们不仅用历史数据打造了准确率高达97%的预测模型,同时也将数据中心的真实运行数据及专家意见持续不断的输入系统,来矫正模型精度,完善模型。

而在DCIM、DCOM相关平台开发错综复杂的市场上,BIM IDC还能做些什么?

从V1.0至V2.0版本,产品已从创新研发走进行业应用。接下来,我们将引入能耗分析平台,帮助高能耗数据中心的管理者,随时发现数据中心可节能的空间,协同政府相关单位向绿色、可持续发展的道路上更进一步。

而设备健康状态评估模型将是下一步研究重点。借用BIM技术,我们将在数据中心全生命周期的初期,对全部设备进行建模和属性录入,记录运行设备在全生命周期内的状态,以此辅助解决我们运营中的难题——即当数据中心运行5年、10年后,到底需要更换哪些设备?大修哪些设备?有没有可能延长某些设备的使用寿命,减少不必要的维修成本和采购成本?这都是我们长久运营中所要面对的运行安全、成本节省的相关问题。



图4.1 设备健康状态评估设计初稿

此外,针对前期版本中我们研究的根因分析,仿真模拟,未来仍有很大的提升空间。在不断迭代的根因分析模型中,数据中心是否可以真正实现无人化值守?是否可以更加真实的模拟实际变更中的每一个场景与操作步骤?甚至像真人操作一样,模拟全部变更流程?在AI来袭的大时代下,数据中心从业者应该如何转型?数据中心的下一次变革,又将在何时到来?

参 考 文 献

[1] Krizhevsky A , Sutskever I , Hinton G . ImageNet Classification with Deep Convolutional Neural Networks[J]. Advances in neural information processing systems, 2012, 25(2)

[2] 罗晨娴. 基于稀疏自编码器的空调制冷系统故障诊断研究[D]

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
IDC BIM,或将带来数据中心新革命
阿里数据中心数字孪生可视化 · 视觉篇
【智慧建造】国内首个以工业互联网平台实现全生命周期BIM应用的大型综合图书馆将于4月底开放
国外IDC机房评测分级的标准(T4标准数据中心)
基于知识图谱的根因分析方法与应用
数据科学热到爆,如何让数据成为运维的大脑?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服