1966年,管理学领域被誉为“大师中的大师”的彼得德鲁克出版了日后被无数次再版的经典作品——《卓有成效的管理者》。
在书中他提到:管理者的使命就是“卓有成效”,但是卓有成效并非天分赋予,而是可以通过后天学习和实践获取的能力。这无异是给每一位普通管理者的一针强心剂,鞭策着一代又一代管理者向着卓有成效的目标迈进。
运维管理也是一种管理事务,因此运维管理者同样应该以卓有成效为目标。无论什么样的管理类产品,其优劣都应该以是否促进“卓有成效”为唯一的检验标准。
那么当前,运维市场中炙手可热的智能运维AIOps作为一种全新的技术解决方案和产品,需要拥有什么能力才能使运维管理者达到卓有成效的目标?
小编将选择智能运维中一个极为重要的应用场景——智能告警(也称为精准告警或者告警精细化)作为实例,并结合书中阐述的达成卓有成效的四要素来回答上面的问题。
一、 懂得时间管理,并做到要事为先
时间管理对任何人来说都非常重要,如何把自己的有效时间投入在最重要的事情上,如何按照事情的轻重缓急安排时间,有效利用整块时间去做有价值的事都是我们或多或少会思考的问题。(比如应急修复肯定没有故障预案设计重要,但大多数人的时间耗费在前者而非后者)
就拿运维人员来说,每天都要面对数不胜数的故障与问题,单纯依靠传统的经验来判断故障出现的原因已经无法满足快速增长的业务需求了。其次传统的集中监控方式只是集中采集告警信息,杂乱无章且充斥冗余信息的告警事件让人疲于奔命,无法厘清究竟应该以哪些事件为处理重点,很难准确记录处理事件所花费的时间,也无法把有效工作时间投入到需要长期思考和规划性的工作上,所以很多情况下,他们要么是在应急处理,要么是在去应急处理的路上,久而久之会出现越来越疲惫的状态。
所以很多运维人员在思考后,选择了工具辅助这一解决方案。比如我们AIOps智能告警平台,在如下层面帮助了运维人员与公司实现了效率大提升的效果。
-
能够有效集中管理多样化事件信息,通过智能事件压缩,去除其中重复性噪音,而且具备一站式的事件处理能力,满足事件处理全流程,如事件丰富、压缩、关联和升级等,不但事件处理的时间可记录和回溯,而且极大节约了运维人员的处理时间。
-
因为来自不同监控工具的事件质量良莠不齐,很多事件的级别定义有误导嫌疑,比如大量高频告警虽说常常出现,但并不影响生产,应该能识别出来并推荐降低处理级别;再比如一些突然出现的新增告警虽说级别不高,但影响度可能很大,智能运维应该能在这方面发挥作用,根据事件真实的严重程度推荐处理的级别,真正有效地实现要事为先。
二、重视对外部的贡献
任何运维管理人员都要理解,运维的贡献不是在组织内部,而在于外部,只有获得业务部门的认可,才是意义的体现。
传统运维往往拘泥于各种IT组件的管理,缺乏业务运营思维,那么智能运维应如何帮助我们体现对于业务的贡献呢?关键在于用业务能够理解的语言去展示运维的成果,而智能运维就是实现的途径之一。
-
从业务视角去看待故障场景,场景的有效性是为业务排障服务的,通过智能算法甄别出有效的故障传播链,从而使得业务部门理解故障过程,同时又体现出较强的根因推荐能力,这才是业务希望看到的运维价值。
-
从业务视角展示全局性状况,既有实时的数据更新,又有历史数据的挖掘分析,这样会令业务部门清晰了解业务的状态和IT支撑服务的关系,有利于统一双方的目标。
三、发挥人的长处
发挥所长,规避所短,是德鲁克极为强调的管理思维。
任何人都不完美,在管理中应该避免设计出只有“天才”或者“通才”方能完成的职务。身为管理者,必须要发挥人之所长,并用于合适的位置,才能保证最大的有效性。
在运维管理中,运维管理者和智能运维的关系也是如此,智能运维是一种特殊的“人”,运维管理者要懂得用其所长,发挥其作用。下面以智能告警为例,来看一看如何在具体工作中充分利用双方所长:
-
充分发挥机器学习算法的洞察力,通过智能告警工具找出具备相关性的告警组合,我们称其为告警场景。在这个方面,机器学习算法的能力是人难以企及的,“他”可以从时间维度、拓扑维度甚至告警语义的维度去洞察原始告警的相关性,并且把所发现的结论以友好的方式展示出来,消除人类识别数据能力的不足和可能存在的盲区。
-
作为运维管理者,我们则可以利用专业知识和经验,对于洞察的结果进行判断,因为对于自身业务逻辑最清楚的莫过于具体运维者,而且人的思维具备一种机器所无法企及的发散性,这对于利用经验判断尤为有效。这就要求智能运维工具能够允许多种不同专业的运维专家对场景进行评判,并对判断结果进行吸纳和回溯,从而既能对未来的算法洞察起到积极影响,又能作为知识沉淀对之后的故障分析管理起到指导作用,从而把个别专家的能力通过智能运维逐步平台化后演变为组织能力。这样的人机互动和闭环使得运维管理者和智能运维工具各自发挥所长,从而达到最卓越的成效。
四、提升决策的有效性
德鲁克在谈论“决策”时花了最大的篇幅,整整三章都在论述决策的有效性,说明管理者的决策力是制约有效性的极其重要的因素。其中有两个点,对运维管理中发挥智能化手段的价值具有很大的指导意义。
1.在决策前必须先搞清楚问题的性质,判断是经常性还是偶发性,若是经常性发生则必须分析其成因,并从更高的维度上审视解决办法,一般通过原则上的修改才能解决问题。
这是一个对于运维管理极为有价值的点,我们在事件处理中,时而会头痛医头,脚痛医脚,原因就是无法判断事件真正的性质。所以智能告警系统需要能从历史事件的维度甄别发生事件的性质,判断这究竟是一种高频的、偶发的、周期性的还是属于阶段性出现的事件。
比如阶段性可能是某一种周期性维护动作造成的,而偶发的事件,也未必就能确保今后不会演变成经常发生的。比如应用升级后,第一次出现的事件,虽然级别很低,但却值得关注,所以关键是要找出发生的内在机理,以及相关性规律,按德鲁克的建议,任何事件都首先要假定是存在更深层的原因,所以精细化的分析成因可以说是持续改进运维水平的关键。
2.决策的反馈,任何决策的执行有效性需要获得反馈方能验证。
我们在传统运维中的集中监控平台一般采用人工经验梳理规则,而静态规则最大的问题就是随着时移势易,许多既有规则变得无效但却没有人知道,智能告警并不是不需要依赖人的经验和规则,而是要能够利用智能手段从无序的事件中归纳出可能的规律,再通过运维者的实际反馈,逐渐梳理成为规则。因此优秀的智能告警平台,反馈机制的设定非常重要,要能够随着使用深入不断优化,达成持续的有效性。
本文以智能告警这个场景为例谈智能运维的必备能力,是因为智能运维可使用的场景虽然很多,但告警管理是企业运维事务中最重要的部分,几乎没有之一,因为其水平直接影响业务的可用性和客户满意度,是实时监控第一要务。告警是整体事后分析的触发器和抓手,无论是来自各种监控源的指标类数据,还是日志类数据,都可以提炼归结为告警维度,统一进行管理。几乎所有的企业都需要建立自身的集中监控平台,核心就是为了提升告警管理的能力。
因此在这个场景下引入智能运维,只要能够具备上述分析的能力,合理布局,充分发挥好人和“智能”的价值,一定能起到事半功倍的效果。而智能运维的建设可以在此基础上,再进一步展开,引入其他应用场景,比如指标的异常检测和根因定位、日志的精细化管理、容量的分析和预测等,逐步激活指标、日志、工单等其他类别运维数据的价值。
从集中监控中引入智能告警后,如何进一步展开其他的智能运维应用场景,需要具备哪些条件,能够达成怎样的有效性,将会在后续文章中逐一分析。
擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。
行业龙头客户的共同选择
了解更多运维干货与技术分享
可以右上角一键关注
我们是深耕智能运维领域近十年的
连续多年获Gartner推荐的AIOps标杆供应商
下期我们不见不散