老杨说运维 | 如何成为卓有成效的管理者(关于AIOps的几点思考)

news2024/12/23 18:01:01

1966年,管理学领域被誉为“大师中的大师”的彼得德鲁克出版了日后被无数次再版的经典作品——《卓有成效的管理者》。

在书中他提到:管理者的使命就是“卓有成效”,但是卓有成效并非天分赋予,而是可以通过后天学习和实践获取的能力。这无异是给每一位普通管理者的一针强心剂,鞭策着一代又一代管理者向着卓有成效的目标迈进。

运维管理也是一种管理事务,因此运维管理者同样应该以卓有成效为目标。无论什么样的管理类产品,其优劣都应该以是否促进“卓有成效”为唯一的检验标准。

那么当前,运维市场中炙手可热的智能运维AIOps作为一种全新的技术解决方案和产品,需要拥有什么能力才能使运维管理者达到卓有成效的目标?

小编将选择智能运维中一个极为重要的应用场景——智能告警(也称为精准告警或者告警精细化)作为实例,并结合书中阐述的达成卓有成效的四要素来回答上面的问题。

一、 懂得时间管理,并做到要事为先

时间管理对任何人来说都非常重要,如何把自己的有效时间投入在最重要的事情上,如何按照事情的轻重缓急安排时间,有效利用整块时间去做有价值的事都是我们或多或少会思考的问题。(比如应急修复肯定没有故障预案设计重要,但大多数人的时间耗费在前者而非后者)

就拿运维人员来说,每天都要面对数不胜数的故障与问题,单纯依靠传统的经验来判断故障出现的原因已经无法满足快速增长的业务需求了。其次传统的集中监控方式只是集中采集告警信息,杂乱无章且充斥冗余信息的告警事件让人疲于奔命,无法厘清究竟应该以哪些事件为处理重点,很难准确记录处理事件所花费的时间,也无法把有效工作时间投入到需要长期思考和规划性的工作上,所以很多情况下,他们要么是在应急处理,要么是在去应急处理的路上,久而久之会出现越来越疲惫的状态。

所以很多运维人员在思考后,选择了工具辅助这一解决方案。比如我们AIOps智能告警平台,在如下层面帮助了运维人员与公司实现了效率大提升的效果。

  • 能够有效集中管理多样化事件信息,通过智能事件压缩,去除其中重复性噪音,而且具备一站式的事件处理能力,满足事件处理全流程,如事件丰富、压缩、关联和升级等,不但事件处理的时间可记录和回溯,而且极大节约了运维人员的处理时间。

  • 因为来自不同监控工具的事件质量良莠不齐,很多事件的级别定义有误导嫌疑,比如大量高频告警虽说常常出现,但并不影响生产,应该能识别出来并推荐降低处理级别;再比如一些突然出现的新增告警虽说级别不高,但影响度可能很大,智能运维应该能在这方面发挥作用,根据事件真实的严重程度推荐处理的级别,真正有效地实现要事为先。

二、重视对外部的贡献

任何运维管理人员都要理解,运维的贡献不是在组织内部,而在于外部,只有获得业务部门的认可,才是意义的体现。

传统运维往往拘泥于各种IT组件的管理,缺乏业务运营思维,那么智能运维应如何帮助我们体现对于业务的贡献呢?关键在于用业务能够理解的语言去展示运维的成果,而智能运维就是实现的途径之一。

  • 从业务视角去看待故障场景,场景的有效性是为业务排障服务的,通过智能算法甄别出有效的故障传播链,从而使得业务部门理解故障过程,同时又体现出较强的根因推荐能力,这才是业务希望看到的运维价值。

  • 从业务视角展示全局性状况,既有实时的数据更新,又有历史数据的挖掘分析,这样会令业务部门清晰了解业务的状态和IT支撑服务的关系,有利于统一双方的目标。

三、发挥人的长处

发挥所长,规避所短,是德鲁克极为强调的管理思维。

任何人都不完美,在管理中应该避免设计出只有“天才”或者“通才”方能完成的职务。身为管理者,必须要发挥人之所长,并用于合适的位置,才能保证最大的有效性。

在运维管理中,运维管理者和智能运维的关系也是如此,智能运维是一种特殊的“人”,运维管理者要懂得用其所长,发挥其作用。下面以智能告警为例,来看一看如何在具体工作中充分利用双方所长:

  • 充分发挥机器学习算法的洞察力,通过智能告警工具找出具备相关性的告警组合,我们称其为告警场景。在这个方面,机器学习算法的能力是人难以企及的,“他”可以从时间维度、拓扑维度甚至告警语义的维度去洞察原始告警的相关性,并且把所发现的结论以友好的方式展示出来,消除人类识别数据能力的不足和可能存在的盲区。

  • 作为运维管理者,我们则可以利用专业知识和经验,对于洞察的结果进行判断,因为对于自身业务逻辑最清楚的莫过于具体运维者,而且人的思维具备一种机器所无法企及的发散性,这对于利用经验判断尤为有效。这就要求智能运维工具能够允许多种不同专业的运维专家对场景进行评判,并对判断结果进行吸纳和回溯,从而既能对未来的算法洞察起到积极影响,又能作为知识沉淀对之后的故障分析管理起到指导作用,从而把个别专家的能力通过智能运维逐步平台化后演变为组织能力。这样的人机互动和闭环使得运维管理者和智能运维工具各自发挥所长,从而达到最卓越的成效。

四、提升决策的有效性

德鲁克在谈论“决策”时花了最大的篇幅,整整三章都在论述决策的有效性,说明管理者的决策力是制约有效性的极其重要的因素。其中有两个点,对运维管理中发挥智能化手段的价值具有很大的指导意义。

1.在决策前必须先搞清楚问题的性质,判断是经常性还是偶发性,若是经常性发生则必须分析其成因,并从更高的维度上审视解决办法,一般通过原则上的修改才能解决问题。

这是一个对于运维管理极为有价值的点,我们在事件处理中,时而会头痛医头,脚痛医脚,原因就是无法判断事件真正的性质。所以智能告警系统需要能从历史事件的维度甄别发生事件的性质,判断这究竟是一种高频的、偶发的、周期性的还是属于阶段性出现的事件。

比如阶段性可能是某一种周期性维护动作造成的,而偶发的事件,也未必就能确保今后不会演变成经常发生的。比如应用升级后,第一次出现的事件,虽然级别很低,但却值得关注,所以关键是要找出发生的内在机理,以及相关性规律,按德鲁克的建议,任何事件都首先要假定是存在更深层的原因,所以精细化的分析成因可以说是持续改进运维水平的关键。

2.决策的反馈,任何决策的执行有效性需要获得反馈方能验证。

我们在传统运维中的集中监控平台一般采用人工经验梳理规则,而静态规则最大的问题就是随着时移势易,许多既有规则变得无效但却没有人知道,智能告警并不是不需要依赖人的经验和规则,而是要能够利用智能手段从无序的事件中归纳出可能的规律,再通过运维者的实际反馈,逐渐梳理成为规则。因此优秀的智能告警平台,反馈机制的设定非常重要,要能够随着使用深入不断优化,达成持续的有效性。

本文以智能告警这个场景为例谈智能运维的必备能力,是因为智能运维可使用的场景虽然很多,但告警管理是企业运维事务中最重要的部分,几乎没有之一,因为其水平直接影响业务的可用性和客户满意度,是实时监控第一要务。告警是整体事后分析的触发器和抓手,无论是来自各种监控源的指标类数据,还是日志类数据,都可以提炼归结为告警维度,统一进行管理。几乎所有的企业都需要建立自身的集中监控平台,核心就是为了提升告警管理的能力。

因此在这个场景下引入智能运维,只要能够具备上述分析的能力,合理布局,充分发挥好人和“智能”的价值,一定能起到事半功倍的效果。而智能运维的建设可以在此基础上,再进一步展开,引入其他应用场景,比如指标的异常检测和根因定位、日志的精细化管理、容量的分析和预测等,逐步激活指标、日志、工单等其他类别运维数据的价值。

从集中监控中引入智能告警后,如何进一步展开其他的智能运维应用场景,需要具备哪些条件,能够达成怎样的有效性,将会在后续文章中逐一分析。


​擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。

行业龙头客户的共同选择

​了解更多运维干货与技术分享

可以右上角一键关注

我们是深耕智能运维领域近十年的

连续多年获Gartner推荐的AIOps标杆供应商

下期我们不见不散

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/514612.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python 反编译

步骤1: (前置)下载pyinstxtractor.py ①将pyinstxtractor.py文件移动到想要解包的文件目录下 ②并在当前目录下输入cmd打开终端,执行>python pyinstxtractor.py 待反编译.exe eg:E:\my_decode>python pyinstxtractor.py …

单向散列函数——获取消息的 “指纹”

目录 什么是单向散列函数散列算法的特征散列算法的用途散列算法的分类密码学哈希和非密码学哈希不安全的密码学哈希算法主流的密码学哈希算法 SHA256散列算法(SHA2算法)SHA256算法过程SM3散列算法 应该使用哪种单向散列函数呢 什么是单向散列函数 单向散…

【920信号与系统笔记】第二章 连续时间系统的时域分析

连续时间系统的时域分析 2.1引言综述n阶线性系统1.数学模型2.解法古典解法近代时域法(卷积法、算子法) 叠加积分法1.本质2. 待解决问题 2.2系统方程的算子表示法算子及其运算规则1.微分算子和积分算子2.运算规则3.电容和电感的伏安特性 转移算子1.定义2.…

20230508MTCNN1

多目标检测思路 单目标检测:图片 输入到 模型,模型输出 4个值 为什么模型只能检测单个目标? 因为模型 固定输出4个值,表示 一个目标 如何实现多目标检测?思路:一个一个地数 模型要能够 认识目标&#xff…

LiangGaRy-学习笔记-Day12

1、作业回顾 1.1、判断磁盘利用率 要求: 判断磁盘的使用率,如果超过了90%就警告 [rootNode1 sh]# vim disk_check.sh #!/bin/bash #Author By LiangGaRy #2023年5月9日 #Usage:检测硬盘的使用率 ########################################### #定义一…

蓝奥声核心技术分享——用电插座的安全保护技术(安全计量插座)

1.技术背景 用电插座的安全保护技术主要针对在用电负载接入接出(即插拔)用电插座的过程,解决瞬态异常监控及安全保护问题。该项技术涉及物联网智能硬件设备与测控技术领域,尤其涉及电能信号监测与用电安全监控的技术领域。 随着…

【Redis高级应用】分布式缓存

文章目录 单机Redis存在的问题Redis持久化RDB持久化执行时机RDB原理 AOF持久化AOF原理AOF配置AOF文件重写 RDB与AOF对比 Redis主从搭建主从架构主从数据同步原理全量同步增量同步repl_backlog原理 主从同步优化小结 Redis哨兵哨兵原理集群结构和作用集群监控原理集群故障恢复原…

MySQL多列字段去重的案例实践

同事提了个需求,如下测试表,有code、cdate和ctotal三列, select * from tt;现在要得到code的唯一值,但同时带着cdate和ctotal两个字段。 提起"唯一值",想到的就是distinct。distinct关键字可以过滤多余的重…

Machine Learning-Ex8(吴恩达课后习题)Anomaly Detection and Recommender Systems

1. Anomaly detection 内容:使用高斯模型来检测数据集中异常的数据(概率低的),先在2维数据中进行实验。样本具有两个特征:a. 服务器响应的吞吐量(mb/s) b. 延迟(ms)。 …

【linux网络】正则表达式

一、正则表达式 1.1作用范围 通常用于判断语句中,用来检查某一个字符串是否满足某一格式 1.2正则表达式的组成 普通字符包括大小写字母、数字、标点符号及其它符号元字符元字符是指在正则表达式中具有特殊意思的专用字符,可以用来规定其导字符&#…

【P18】JMeter JSON JMESPath Extractor

文章目录 一、准备工作二、测试计划设计 一、准备工作 慕慕生鲜: http://111.231.103.117/#/login 进入网页后,登录,页面提供了账户和密码 搜索框输入“虾” 右键检查或按F12,打开调试工具,点击搜索 二、测试计划设…

Bean的存取、五大注解、对象的注入方式、Bean的作用域和生命周期

一、Bean 的创建、存储和使用 PS:Java语言中的对象也叫作 Bean。 1、创建一个maven项目 PS:要在 pom.xml 中添加 spring 框架支持 PS:引入 lombok 依赖(可以帮助实现 get 和 set 方法) 2、存对象 2.1、创建类 启…

Linux 蜂鸣器驱动实验

蜂鸣器驱动原理 ①、在设备树中添加 SNVS_TAMPER1 引脚的 pinctrl 信息。 ②、在设备树中创建蜂鸣器节点,在蜂鸣器节点中加入 GPIO 信息。 1、修改设备树文件 添加 pinctrl 节点 I.MX6U-ALPHA开发板上的BEEP使用了SNVS_TAMPER1这个PIN,打开imx6ull-alien…

【01】C++的第一个程序Hello World

C的第一个应用程序(Hello World程序) 引言一、代码二、代码解释三、注意事项总结 引言 💡 作者简介:专注于C/C高性能程序设计和开发,理论与代码实践结合,让世界没有难学的技术。 👉 &#x1f39…

报表生成工具Stimulsoft Reports.JS如何减少产品脚本的加载时间

Stimulsoft Reports 是一款报告编写器,主要用于在桌面和Web上从头开始创建任何复杂的报告。可以在大多数平台上轻松实现部署,如ASP.NET, WinForms, .NET Core, JavaScript, WPF, Angular, Blazor, PHP, Java等,在你的应用程序中嵌入报告设计器…

Django框架之视图HttpResponse 对象

本篇文章主要内容为:视图中HttpResponse对象的属性、方法及json、redirect子类包含使用cookie使用、跳转、json返回的示例。 概述 HttpResponse对象是对用户访问的响应,与HttpRequest对象由django创建,HttpResponse对象是由开发人员创建。Ht…

001+limou+MySQL的基础命令

0.前言 您好,这里是limou3434的一篇个人博文,感兴趣的话您也可以看看我的其他文章。本博文是借鉴于李小威前辈所著的书籍《SQL 基础教程》所成的博文笔记,这本书真的很适合新手学习数据库相关的内容。本次我想给您带来的是关于MySQL的一些基…

网站神奇工具Viewport Resizer,支持手机、pad和电脑等不同尺寸大小

标题:Viewport Resizer:让网站适应不同设备的神奇工具! 导语: 在互联网世界中,我们常常需要在不同设备上浏览网站。为了让用户在手机、平板或电脑上都能看到美观易用的页面,网站开发者们努力优化网站的适应…

qemu-虚拟机

qemu 官网下载地址 https://www.qemu.org/ 跨平台虚拟机,类型vmware,执行效率比vmware高 官方参考文档:https://www.qemu.org/docs/master/system/introduction.html kvm,轻量级虚拟机,可以加速qemu的执行 qemu-e…

微信云开发技术架构

(仅有把抱怨环境的情绪,化为上进的力量,才是成功的保证。——罗曼罗兰) 微信云开发 官方文档 文本只用来概述微信云开发的技术架构,并结合实战场景进行说明。更详细的请直接查看微信官方文档。 背景 微信云开发是微…