导读:
前期在《承载运维成功之梦:精准运维》一文中阐述了精准运维的原理、方法和实例。所谓精准运维,就是通过一系列方法掌握服务对象所使用信息系统的特性及其所服务企业的业务特性,通过掌控信息系统运行风险、运行特点、资源调配情况和业务部门反馈的意见来优化信息系统,从而精准的预测服务要求并开展服务计划,最终实现信息系统与业务心跳同步。精准运维让运维服务的价值更得以突显,使运维服务过程更重视用户体验,使运维更加有计划性、条理性、预见性,让运维更加向运营靠拢,成为运营的一部分。而实现精准运维的第一步就是建立风控模型,这是决定精准运维成败的关键。那么,如何建立风控模型呢?很多读者对此莫衷一是。有的人甚至直接套用信息安全风险评估模型,这是以偏概全的方式,其结果往往是管中窥豹。为此,作者特将风控模型的建立方法及其运用实例摘编出来,以飨读者。
随着精准运维时代的到来,信息系统与业务的心跳同步将得以实现,运维不再局限于维护,而是能为企业创造出新的价值,将运维效能提升到一个新的高度。精准运维有别于传统运维最重要的地方在于:运维方只有对系统运行、维护中可能出现异常的精准化把握,才能做到提前防控、有效规避风险。为此,我们在系统运维中首次引入了风险防控的概念,它就像汽车4S店进行车辆维护保养一样,进行一系列检测将系统运行与维护中的隐患梳理明晰,主动采取措施消除、防患于未然,实现维护的针对性、精确性,从而利用有限的资源实现规避事故发生的目标。因此,可以说,建立风控模型是开展精准运维的关键一步。
一、风控模型及其意义
所谓风控模型,就是评价信息系统在运行和维护过程中的风险及其等级的一套标准或方法。要保持信息系统的各类风险得到完整、客观的评价,就需要一套成熟的模型来进行识别和校验。建立风控模型具有多方面意义:
Ø 风控模型是精准运维的核心,各项运维都是围绕这一核心来开展的;
Ø 将运维方、业务相关方置于同等位置,目标一致;
Ø 做好风控模型,使运维工作摆脱救火队角色,变为主动预防;
Ø 风控模型实施了信息系统与业务的匹配度分析,使系统更贴近用户及业务需求,实现心跳同步。
二、如何建立风控模型
1.风控模型框架
建立风控模型需要运维方和业务所有者共同参与,通过用户访谈、系统历史数据梳理、系统运维数据分析等等,综合各方面的信息,结合业务运行特点,建立起风险防控模型,梳理出风险清单,从而在日常运维中开展主动防控,消灭或减少各种风险事件发生的各种可能性,减少风险事件发生时造成的损失,提升企业运营效率。
风控模型的建立,从两个维度考量:横向维度从风险类型的角度进行考量;纵向维度:从企业4类主要人员角色对各类风险的关注重点进行考量。具体见下表(因篇幅的关系,这里只展示了第一类人员所关注的各类风险):
1.作业风险 | 2.业绩风险 | 3.政策风险 | 4.管理风险 | 5.安全风险 | |
高级管理人员 | l因内部作业流程相关事件所造成重大损失的风险,如审批/审核作业不及时等影响作业效率的风险; | 因系统运行出现重大安全事故而导致业绩严重受到影响; | l 由对某些政策要求评估不足而对系统、业务产生了重大影响而带来的风险; | l系统运行与维护制度不完善,导致出现运行与维护方面问题,进而严重影响业务的风险; | l系统运行、业务开展等可能存在的重大人员安全、设备安全风险,如全部或关键设备损坏; |
中层管理人员 | …… | …… | …… | …… | …… |
维护人员 | …… | …… | …… | …… | …… |
作业人员 | …… | …… | …… | …… | …… |
风险包括:
Ø 作业风险:因内部作业、人员及系统之不当与失误,或其它外部作业与相关事件,所造成损失的操作风险。
Ø 业绩风险:因系统运行、管理之不当,或操作不规范等导致的影响企业生产经营效率或效果下降的风险。
Ø 政策风险:因违反了相应的政策、要求,或缺乏对政策、要求的了解,或对政策、要求理解不到位,进而使系统运行、维护产生重大偏差的风险。
Ø 管理风险:因管理运作过程中信息不对称、判断失误、落实不到位、应急措施不完善等导致影响企业效率或效果下降的风险。
Ø 安全风险:因系统运行、业务开展等可能存在的人员、设备、信息、网络、环境等方面的安全隐患,或缺乏安全意识、安全管理措施不全面等,导致企业出现安全事件的风险。
纵向维度从企业4类主要人员角色对各类风险的关注重点进行梳理,这4类人员角色及其关注点包括:
Ø 高级管理人员:更为关注对系统运行、维护产生了重大影响的风险,进而对企业绩效产生影响的风险。
Ø 中层管理人员:关注系统运行、维护过程中产生的各类等级较高的风险,应侧重于业绩、管理、安全类风险,并给予及时防范与控制。
Ø 维护人员:应侧重于所负责系统在运行、维护过程中产生的作业类风险及政策违规类、安全类操作风险,并给予及时防范、有效控制,确保系统运行正常。
Ø 作业人员:主要关注于系统使用过程中产生的各类操作风险,应避免违规操作、人为失误操作、安全性事故等,发现风险隐患能够及时上报。
2.风控评估方法
风控模型建立之后,对采集到的风险点需进行风险等级的划分。风险等级是IT系统所面临的威胁、存在的弱点、造成的影响三者综合作用的结果,因此,风险评估将对这三者综合作用带来的风险可能性进行评估。
威胁性threat
可能导致对决策管理系统或组织危害的不希望事故潜在起因,主要是指风险出现的频度来决定。
脆弱性vulnerability
可能被威胁所利用的资产或若干资产的弱点,主要是风险发生对业务、组织产生的破坏程度及组织自身的控制力度来决定。
风险后果系数
风险发生后对业务、组织、绩效产生的影响程度。
风险等级
风险等级=(威胁性 * 脆弱性)*风险后果系数