【故事】这电掉的那叫一个万中无一,惊鸿一瞥|第四夜|阅尽一千零一夜难倒运维“扫地僧”
1.故事背景
在辽阔的祖国大地上有那么一个超大型数据中心,服务机柜数量超过上万台。曾经该机房出现过一件极其诡异的事情。那就是在复查某机柜掉电的原因时,厂家、集成商、客户、运营商数十上百位专家,百思不得其解,别说原因了,连故障都无法复现,真称的上是惊鸿一瞥,万中无一了。话说第一次故障就出现在某次高压切换的过程中,但是,最重要的是这个但是,只在从备用切换回主用出现一次掉电,而且上万机柜仅此一台从事后记录看,出现过不到数秒的电压波动,要不是有那刺眼的难以抹除的掉电黑记录,大家肯定会觉得幸运的看见该故障的人在说谎。因为再次进行的切换,该故障却消失了,仿佛从来就不曾存在过。而且在第一次故障前几十分钟,在高压主用切备用却正常运转,最诡异的是后续对于该机柜的设备及两路pdu进行各项常规测试均正常,当初满载测试也正常,并无任何异常的蛛丝马迹。2.初步分析
从故障影响面来看,可以断定这种局部故障,不像我们在《疑是电压故障,实为零线断开|第一夜|阅尽一千零一夜难倒运维“扫地僧”》中的范围故障,其故障原因肯定局限在出现故障的局部区域,也就是该掉电机柜及其到上端列头柜这两段pdu线路。(这也是扫地僧曾经总结的第一大法,故障范围判断故障原因范围,范围大而全,则原因必不在其内,而在其共有上游,范围小而窄,则原因必在离其故障点非常近的一个范围内)这种诡异事件马上引来扫地僧的兴趣,在数月后终于轮到一次柴发带载+变压器维护+高压切换的大型测试与检测,能够完美复现第一次故障时的操作。并分出一组人员专门对故障机柜架设了多台摄像设备及监视仪表,这一次没有任何诡异,故障果然再一次出现了。(限于隐私问题,以后一千零一夜中的故事会将不出现任何实体照片)该数据中心相关系统简图如下(想了想还是把手图给改成ppt方块图了)注意低压母联和ATS均为4P开关。油机为低压油机,所以大家也可以判断下这个故事是从多少年前的故纸堆里翻出来的。经过系统测试和高度关注,发现无论高压切换还是油机带载的过程中,只要ATS动作过,该故障机柜就会出现电压波动然后短暂掉电接着又恢复。而只要ATS没有动作过,无论高压从主切备,还是从备恢复到主,该机柜均正常工作,无任何异常。3.故障检测和分析
在确认了低压母联和ATS均为4P开关后,且故障在ATS的4P开关切换时,总是稳定的出现,并不是不确定的出现,基本可以把关注重心移出线路虚接问题。考虑到如果问题出在列头柜与ups输出柜之间,影响范围应是整个列头柜。而实际仅为一个机柜,因此
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请
点击举报。