打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
【IT人独家】IT人俱乐部第53期沙龙研讨会实录丨众说IT运维管理(二)



  2016年3月31日,IT人俱乐部第53期沙龙研讨会在苏州园区举行。本次研讨会为IT人俱乐部会员提供30个参会名额,与上海迈辰信息科技有限公司业务发展总监罗建宏就“IT运维管理”进行了一次深度地、开放地探讨。以下为精选内容,欢迎各位看客在文末留言中拍砖、发表您的看法~


  罗总:下面谈一下安全运维的思路。其实安全是管出来的,大家熟知的2701这个体系里面有很多,有14个控制领域,有35个控制分析,100多个控制措施。刚才讲到运维,如果把信息这些东西弄好了,安全运维管理,其实要做的事情无外乎这么几个事情。首先是资产,每一台设备安全级别是什么,你要有详细的分析,资产要经常分析。第二是运维管理人员谁来负责哪些设备的安全管理控制,怎么来做。安全职责权限,你能不能看,你能不能对它运维,你能不能做变更有什么好坏,这些事情。其实把刚才的运维做好了,这些事情都比较容易解决及安全事件的管理,比如说防火墙、防病毒这些我有日志分析监控的东西,能够把一些安全上的问题输入到流程里面来,就变成一个事件管理,就可以解决这个事情,当然安全的变更也可以存。


  安全管理我想重点谈一下合规性的管控,这块很多企业可能是缺的,容易忽略的地方。因为防火墙这些东西大家都很熟悉了,不谈了。把运维做好,安全体系这些东西,其实你都顺理成章就可以去做了。


  还有我们要形成长效机制,很多企业讲信息安全的时候,公司一强调做巡检的时候,很忙的来做安全扫描检测,实际上信息安全跟运维有很大的关系,它是融合到运维当中。大家知道信息安全都是三个方面,信息的完整性、信息防泄露、信息业务连续性。业务连续性的东西就是我们日常运维要做的事情,信息安全包括我的重要系统瘫掉了,这就是严重的安全事故。纯的防火墙这些安全的东西,其实它是一个特别的东西,通过事件可以变更。它怎么样形成长效机制?其实这块很轻松,大家看一下和运维这块有相似性,我的资产信息如果足够,我就很容易的实现资产的安全评估,安全评估就有等级,过来的一些故障我都可以按照等级进行流转。等级高的我交给水平能力高的人,他们去处理这块的事情。等级低的可能就是新人去做这个事情,那我的要求可能就会低。

  这个东西可能就是闭环控制,大家不要就说,我不经请示悄悄做很多事情,大家现在比较缺乏的。这个运维做好了,这个东西根本不是问题。重大事故的应急机制,这在很多国企里头是重中之重,出事故不要紧,你得有应急机制。那有重大事故我能预知,各层领导能够很快的参与进去,能够迅速的启动这个应急机制,这是很重要的。

  安全运维简单来讲,如果把运维做好,安全运维这块的东西,其实大家一看,运维事件的变更,如果和一些安全条件的,比如说ERP宕了一个小时,这已经是严重安全事故,那我就要进入到安全管控。资产变更的安全管理,它的等级,重要信息的及时更新,这是安全管理的东西。安全工具,日志的告警全部输入进来在流程里面来做这个事情,通过流程来管控,从信息安全角度来讲,在运维刚才谈到有很多信息数据,其实牵扯到很多授权,哪些信息是你可以看的,哪些信息是你不可以看的。

  比如说在资产配置上面有很多配置文件,一般的巡检人员可以看资产其他信息,但是路由器重要的部分就不适合所有人都能看到,因为你看到了就会有很大的危险。还有我访问这些设备,它的日志记录。日志记录里面有很多很多,比如说ERP系统,服务器里有很多重要的信息,那这个过程不能随便看,这就是授权。


  上面是合规监督管控的过程,安全你一定是管理的过程,安全不是说我设置几个指标自动运行就可以,一定是一个管理体系。合规,你的行为,你做得事情符合我们制定的安全规范,这个要管控。下面这个设备访问审计立马把闭环控制住,这是目前很多企业在安全运维方面很大的一个漏洞,这块是一个缺陷。所以我这块主要是讲合规监督管控一些事例,闭环的控制和闭环的管理,另外是流程的管控对安全运维方面的帮助。

  闭环的管控这块是很重要的事情,我们在国内很多企业这块都放的很松,业务人员有很高的权限,我们可以随心所欲。我打个补丁,我去升个级,分分钟到系统里面就可以把它做了。按规程来说,我应该报告上级知道,但是他不批准我其实我也可以做,这就是体外循环的问题。在座都是IT主管老总,在量化管理,可视化管理这块可能看得更重一些。可视化管理你的数据从哪来?如果我们的运维人员自己就跑到那个机器上把这个活干了,没有任何痕迹化,也不需要流程监控他,那你哪里来的数据呢?所以这个体外循环这个要控制,这是从安全角度,你必须得控制。

  第二个从管理上来讲,如果他体外循环的,你得不到管理信息,你其实没法考核他,没法用好他。这个是设备访问控制和密码的管理,像ISO2701的2013版本增加了访问控制和密码学,就是我的这个设备,特别是到服务端的这些东西,访问是不是受控的,你的密码是不是经常更新的,你有没有这个机制?如果靠人工去更新这个密码那肯定不行,所以要解决的事情是账户和密码在运维平台集中管理,那你要使用的时候,首先要识别你是谁,你的授权里面有哪些,你可以用哪些账号?比如说你是做巡检的,我可能给你一个只读的账号,你只看就行了。如果你是做数据库的,我给你一个可以操作的功能。如果你是要做变更的话,那我给你一个超级权限的账户给你使用,这是授权。授权可以使用这个账号,不是说你随时都可以干的,你能干嘛,什么时候可以干这是有规矩的,这就是账号的使用权你要申请,你要及时的设置。


  然后你要做什么,你要进去之前,你得告诉我,你要做什么。你做什么,我要审批,我不同意你做什么,你进不去,这就是我们的控制。做了之后你是不是按照你跟我说的那个东西去做的,你做的多了没有,你看了不该看的没有?所以我们IT人员运维HR、财务一些内容,可以看到别的公司,或者把别人的公司档下来做这个,你看了没有,我规定你不准看,你看了没有?看没看这个地方可以有审计,这就是闭环的控制,这是从信息安全角度来讲,很多信息安全问题的发生都是我们IT部门人搞的,外部的攻击有的时候是一些偶然的情况,很多时候是因为我们工作流程方面的控制或者人员因素。比如我们看到一些国企外包人员,他知道一些服务器的账号密码,这些人员离职了,离开了外包公司了,但没有把这个账号密码更改,找个机会跑到内网里面,跑到服务器把一些数据下了,都是这样出来的问题。

  这里举个例子,这些设备我授权你,在CMDB配置库里,你给我看这个资产信息的时候,你就可以直接去访它,甚至连密码都不知道,你可以访问,访问调动工具,系统自动给你链接过去,账户密码也可能不知道,系统会自动改掉这些账户密码。

  第二种,对于一些关键设备,刚才讲的是一些简单的设备,比如说交换机或者分支机构的路由器了,可能就是我给你这个服务,你们几个负责运维这个设备,那么我可能就给你权限,你随时可以访问进去,因为我不是太担心你造成很大的危害。但是我数据中心的服务器,我的应用软件系统,我可能就需要查。虽然我授权你可以访问,你有这个功能,这个权限给你了,但是你每次访问还是我要审批,你要访问它,你就变成一个申请,你申请完了,审批,审批完了以后才可以点击出来一个访问的按纽。进去访问过后,什么系统,什么账户,哪个人,在什么时间访问这个系统,它的访问记录在这个地方,你可以调出来查看。比如我审计你做了什么,你进去是不是干了一些不该干的事情,那我可以来审计。这是闭环控制,访问控制和密码管理。

  另外就读合规监督,你做了事情,你要做到事前要有预警,事中要有监督,事后要有评估考核。怎么来做呢?事前要有告警,包括短信、邮件、APP,像处理过程当中有SLA的监控,多级预警,短信、邮件、APP。事后我有监督,我有大数据的分析,每一个评价合规整改,闭环的控制,到了最后有KPI各种统计考核。

  整个信息安全和运维管理里头有很多控制点,在每一个环节都有各种控制点。在运维管理的体系里头,这些控制点,它的数据,比如说你要控制它得有数据分析,你不合规我得分析数据,分析数据你不合规了,KPI达不到要求了,我要通知你警告你要求你改正,有自动的,有人工的。那这些数据到什么地方呢?到这个流程权限去,这个平台谁可以管什么东西,你有什么功能。

  CMTP是资产对象的信息,比如说要求你更新数据库版本,CMTP里面可以看得出来,你说上个星期更新了,我CMTP里面看还是7.0,你不是搞8.0吗?这些都是可以算出来的。运维工单就是痕迹化的技术原来里面有没有,你原来做这个工作,历史上有几百个,上千个运维的工作,你做的时候怎么弄呢?比如说有现象、根源、解决方案,有些结果的东西有没有描述清楚。账户和密码授权访问的数据,你进去干了什么,看看授权、访问审计系统。

  监控工具会监控出给你分析的各种数据,你干的事情,监控工具能够监测到,你是不是照你说的这么干的,这些都可以查到,这些数据分析之后合规的进行管控。

  合规管控有两大块数据。一个是监控、工具和CMTP核实这样一个大的CMDB关联数据库。二个是运维工单账户。它跟CMTP是有关联的,是哪个设备产生的这样一个事件、问题、变更。运维的授权流程,资产、管理、访问、服务台、试用期变更、计划、配置、管理、备件、服务级别、CLA、业务关系供应商是谁,监督管理流程、告警、通告一系列的东西,由此产生很多KPI的参数指标,这些KPI参数可以分成比如说效能的指标、结果的指标、合规程度的指标,还有一些待管理的东西。

  有些指标是数据量化的,有些指标不是一些数据,一些行为的合规,你处理过程是不是符合要求,它不是简单的数字,目前的趋势就是大数据的方式进行分析。我要分析你操作的时间,什么时候干的,里面填写的这些文字的东西,过程是否符合要求,我再结合监控的东西来对比,CMTP参数和访问记录来对比,你是不是这么干的,这样就能够得到合规的控制。当然这种大数据控制,有的企业大,他要求很严,这个管的范围就更宽一点。

  这是一个事例,流程节点精细化控制,怎么样对每个人的任务节点进行控制,相当于说,刚才谈到了服务目录,我是给你权责,有权,但是从安全上来讲,有权,但是我要控制管你的权,怎么管?那我就需要有精细化的控制,你在这个权限过程中,哪些事情你是可以干得,哪些事情你是不可以干的,这在流程里面进行定义,这就是一个简单的事例。

  刚才讲到应急机制,我们的很多安全事情,我们的领导能不能第一时间知道,正常启动应急或者重大事故的处理流程这就相当于新的技术手段,我对符合某些特征的一些事件或者变更,我是IT主管,比如ERP出现什么级别风险的时候,我要感知,你的手机、短信、APP上要推送给我,我知道然后我来做决定是不是启动重大应急的流程,这就是重大安全事故的关注介入,我这边做一些过滤控制,自动的获取信息。

  这是SLA多级管控,比如说这个地方我们一个客户做的,他分一级、二级、三级通告。比如SLA是4个小时,那2个小时的时候他觉得你可能搞不定,一线工程师可能搞不定,你2个小时搞不定,那我可能要升级,二级通告就是4个小时已经用到3.5小时,估计你们是搞不定的,这个时候一线IT经理可能就需要通告了,他要想办法找厂商一起来解决。三级公告就是超时了,原来4个小时,你做了4.5小时还没搞定,那我们CIO可能要知道这个事情,更多的人介入,这就是SLA的功能。

  合规性监督,这个事例是我们客户他们有服务监理,大型企业有服务监理公司来专门监理各个厂商,各个外协厂商,包括他们内部人员服务合规性的问题。就是你所有做的事件问题变更的这些工单,他要去审核你,是不是达到了时间上SLA的要求,你是不是符合规范的,你变更的申请变更的方案是不是完善的,变更的策略是不是到位的,做得审批是不是严格来做这个事情。如果你不合规,可能监督流程就给你发整改通知书,整改通知书这也是KPI。你一年吃了多少个整改通知书,比如说我们的客户他的外协厂商服务公司好几家,年终给你打分,你得到多少个整改通知书可能就要扣钱了,服务费可能就要扣百分之几,这样来做这个事情。

  这是人工审核,当然合规管控里面谈到自动化,自动化设计一些机制之后,我测给你修正,这是自动的。另外就是安全巡检的一些任务追溯,我安排安全巡检,你们十个人去做这个事情,你是不是做到位了,什么时候做,这就是有一系列的管控,你如果没按时间完成,或者完成不好就告警,我就要通知你,通知你的上级,这就是一些管控流程。

  另外就是授权,哪个人能干什么事儿,比如你是搞配置管理的,你是对应哪个地方做配置管理?配置管理能具体做哪些事情?你是能访问这个设备,这个设备你具有访问权限或者说你可以做这个设备的资产变更处置的审批。从权限上来讲,我们要做信息安全这块的控制。

  否则这个设备谁都可以看,谁都可以访问,什么东西都可以看到,那运维也是没有区分授权,这就会乱套,一定会有安全隐患。

  现在谈一下量化,量化这个东西就比较简单了前面两步如果做好了,量化的东西就是分析,就是报表。当然有很多KPI指标,比如说运维多维度,我可以从组织机构,当然有些企业会有很多分支机构,有分公司,那有资产然后分组,是广告组,还是服务组,还是PC组,还是弱电,还是机房,哪些服务它有什么任务,事件问题变更或者牌照哪里被兼顾的,还是什么样子。

  KPI维度就是把平均故障时间、数量、一次成功率、平均响应SLA这些东西,还有自定义的维护,比如说年终审批,工单也有很多分类,服务器可能有硬件的问题,可能有网卡的问题,可能有硬盘的问题,存储的问题,软件操作系统的问题,那么就可以统计出很多。

  接下来给大家看一下,我们做的一些事例。工单指标的可视化,你做得事情,这是组织,哪些组织,我有分支机构,比如这是我分公司,哪些分公司工单的数量。这是设备组,这是网络的有多少,服务器PC的有多少,业务运营系统有多少,这是以服务目录的方式,不同的流程,不同的运维人员组和流程组等等,他们的工作量是什么样子。

  运维组织,有的企业它有很多外包商,每个组ABCD,有的负责ERP,有的负责网络,有的负责服务器,这些运维组织是怎么样子的。每个人是什么样子的,一个运维组织里面每个人的工作量是什么样子的,这都可以看得到。

  你填工单,甚至可以填钱,后面可能出来一个帐单,就是这一年你干的活值多少钱,这一个月干的活值多少钱。这个是系统运营情况的量化指标,哪些设备组,哪些分公司的设备,哪些人员维护的设备都可以统计处各种图表。SLA合规的有多少,不合规的有多少,超时的百分之多少,哪个人SLA超时最多,哪个组织都可以看出来。领导安排的任务或者安排巡检的任务,你是否按时完成,你完成的情况怎么样,也是可以有各种量化的统计。还有自定义的绩效考核,这是我们的客户他的绩效,他的KPI指标,你可以选择每个分公司可以选择这些KPI指标,每个指标有权值,你占5%,我占20%,按照这个指标系统统计,它就可以按照各种方式,这就是我们的客户对外协厂商考核的排名,你到了季度或者年终的时候,大家评比,哪个人是我优秀的服务商都在这里罗列出来。工时、费用、设备、资产、可视化,这是运行情况的各种图形。

  从前面几件事情推过来,安全运维管理体系怎么建设?我们的目标就是要高效、安全、量化管理的,最终是要做一个完善的量化管控体系,这个体系我们总结有九化:管理的可视化、流程的规范化、过程的痕迹化、安全的长效化、运维主动化、考核数量化、控制自动化、平台一体化。通常总的方向,流程平台和工具这一定要集成才有用,这是初步实践的优化。然后工具完善,有机房监控,网络服务器数据库这些应用软件的监控,包括安全系统也就是痕迹的监控要完善,然后是流程控制这块要更加精细化。流程精细化,你的KPI数据、控制相对比较清晰了,最后我们把安全和运维整合,形成安全和运维一体化。

  最后形成集运维和安全管理一体化的管控体系,这是从管理手段上来讲ISO20000和2701整个管理体系,我们都可以从主管的角度来讲,运行监管指标和可视化、执行效能指标可视化、合规指标可视化都可以做了,谈到管理,IT主管CIO老总最想要的是希望通过这个系统得到很多数据,可以来分析大家的行为,管理大家的业绩做一个考评。刚才谈到在高效、安全、量化考核。高效的方法,我们搞平台,为什么一线员工他不愿意用?不愿意用是因为没有什么好处,除了被你管之外,不能提高他的效率,对他没帮助。如果我们有足够的信息,他们离不开运维管理了,为什么?他有问题进去把工具调取出来一下子就可以判断出来,十几分钟就可以做决策处理这个问题。所以高效的东西是一线员工愿意用这样的平台来做事情,他就愿意痕迹化。安全管控,就是说你必须痕迹化,如果这两步做好了。前面一线员工愿意用,再加上一定的控制你必须用,这两个合起来,你的数据自然就变成完善可靠的数据,这样的话得到的考核、指标就是完全可信,员工他是信服的,你自己看下来也知道这些东西可靠,可以作为我重要参考的管理指标。时间关系,我就介绍到这个地方,如果大家有兴趣,我们下面可以接着讨论。



未完待续

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
IT服务管理指标体系与报表体系
孙永玲:平衡计分卡在中国的实践运用
《阿里帝国的发动机》系列5
0048028麦肯锡:昆明本地网BPR项目方案
绩效管理手册
为什么ITR流程是实现企业发展战略的助推器?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服