问题管理的目标是找出突发事件产生的根本原因,最小化由于IT基础架构错误引起的突发事件和问题的负面影响,防止与错误相关的突发事件的再次发生。通过实施主动问题管理,在事件发生之前将问题发现并解决,从而减少事件发生的数量。
问题是导致一个或多个事件的根本原因,而这些根本原因还没有诊断出来。事件管理强调在给用户和公司的正常业务活动带来最小影响的情况下,尽快恢复到SLA中定义的正常服务级别。采取任何可能的方法,包括一个临时解决方案(应急措施)来快速地解决事件,尽可能确保最好的服务质量和可用性。与事件管理强调速度不同,问题管理则注重诊断事件的根源,确定问题的根本原因,从而制定恰当的解决方案,从根本上解决问题,防止类似事件的再次发生。事件管理为了尽可能快地恢复服务,往往会采用临时解决方案,问题管理比起事件管理则会花费更长的时间。
问题管理的关键点包括:
1、问题的识别和记录
原则上,任何一个由未知原因引起的事件都与某个问题有关。问题的识别通常会发生在以下情况:在事件管理流程中没有问题或已知错误来匹配事件;通过分析发现该事件又再次发生了,或者发生了重大事件;事件不能与现有问题或已知错误相匹配;通过对IT基础设施的分析识别出导致事件的问题。
问题记录和事件记录一样都被记录在配置管理数据库(Configuration Management Database,CMDB)中,问题记录会跟所有有关联的事件记录关联在一起。事件的解决方案以及临时解决方案的细节都应该被记录在问题记录中而不是事件记录中,以便它们可以用于将来有关联的事件中。
2、问题的诊断和处理
通过问题诊断成功获取问题的根本原因并找到解决途径后,该问题将转变为一个已知错误。问题调查除了与事件调查的目标不同外,其流程类似。事件调查的主要目的是为了恢复服务的正常运作,而问题管理则是为了确定问题的根源。
在事件调查期间所采用的任何应急措施,都应该在问题调查阶段考虑,如果有必要的话,在问题记录中还要更新与已知错误、解决方案和应急措施相关的信息。
一旦诊断出配置项中的故障,那么该问题状态被转变为已知错误,然后开始进行错误控制。当一个问题被诊断为一个程序错误而不是配置项故障时,记录应该被更新为正确的代码然后关闭该问题,通常这样的问题不会转化成已知错误。
3、问题的关闭
在满足问题关闭规则指定的条件之后,关闭问题,同时可将关联的所有事件一同关闭。
问题管理关键点的具体实例如下:
1、数据中心问题的定级
根据问题引发事件的程度,将问题定级为高风险问题和普通级问题;高风险问题是指问题不被解决,再度引发事件的可能性很大;普通级问题指问题不被解决,暂时不会引发事件。读者可以根据自己的情况进行问题定级的划分,在实际问题定级中,没有统一的强制标准,是由具体的业务和管理要求决定的。
2、数据中心问题的分类
数据中心问题分类有多种方式,可以按照问题所处的区域和类别来进行分类。下面是一个可以参考的问题分类方式:
(1)从业务角度分类:与事件分类相似,可参考数据中心事件分类。
(2)从管理或治理角度分类,可以根据不同企业的管理目标来分,例如:流程问题、工具问题、人员问题、供应商的问题、技术架构问题。
(3)管理角度还可以再细分,如人员问题中可以细分为:人员执行力问题、人员技能问题、人员责任心问题、职责不清问题等等。
问题的分类不是固定的,而是在问题的生命周期内可能发生变化的,问题管理的核心就是将问题多维度、多视角深度剖析,找出管理上、架构上的“短板”,从根本上去解决,这样才可以使得问题管理真正在IT管理或数据中心管理中发挥作用。在数据中心的管理中,问题管理通常因为没有事件管理、变更管理那么直接影响服务的可用性而被忽视,使得遗留下来的问题没有被及时解决,也会导致事件的重复发生,从而降低系统和服务的整体可用性。
为了更有效推进问题管理,第一,形式很重要,可以将问题按照月度或者季度来跟踪和回顾,而不是作为每天的流程性工作;第二,问题经理人的选择非常重要,通常问题经理是具有丰富经验和行政级别的经理,才能调度资源和有这个迫切感来解决问题。如果是流程经理兼职问题经理,问题管理推行的难度和阻力将会很大。
(本文节选自《中国数据中心运维管理指针》,如需购买或转载请发送留言至本公众号,将有工作人员与您联系)
联系客服