老杨说运维 | 2023,浅谈智能运维趋势(二)

news2024/10/5 19:14:16

(文末附视频,一键观看精彩内容)

前言:

上文提到了智能运维现状中的变化趋势以及

上文提到了智能运维现状中的变化趋势以及过往误区,老杨认为智能运维的体系化建设还需从抓牢数据治理为起点,以终为始做好规划。

数据治理团体标准的发布,能够有效帮助企业对现有智能运维建设成果进行评估,依据结果对应的成熟度体系指导企业确立建设目标,并形成相应的建设规划,这或许会是未来智能运维建设的范式。

老杨说运维 | 2023,浅谈智能运维趋势(一)

作为数据治理团体标准的编撰组成员,擎创科技在标准颁布之后即将其应用到数个项目中,目前已初具成效。对于标准的落地应用,老杨带来了2个不同项目的实践分享。

一、实践分享一

敏稳双态共存挑战,建立标准体系应对

这是某金融客户的案例,首先建设之前从两个角度入手进行短板评估。

1.从运维部门组织角度去看,我们发现客户群体中普遍都存在敏稳双态共存的挑战。

  • 在运行部门方面,多业务系统发生问题时很难理清排障方向,告警量超过了万级/日,事后复盘十分困难;

  • 在应用部门方面,出现问题需要花费大量成本去联动其他部门进行排障,自研的应用监控处理能力有限,面对传统环境和云环境并行运维的局面,压力巨大;

  • 在系统部门方面,由于处在资源的夹心层,监控手段又比较单一,对阈值管理的负担很大且经常不准等。

2.从运维工具角度去看

  • 集中告警平台利用规则来降噪的维护负担过大,告警风暴出现时没有很好的熔断通知机制等;

  • 自建的数据平台靠纯算法的能化检测效果不佳,数据不全面,难以形成可靠的根因定障能力;

  • 可视化平台由分散式的数据集成,重复承担数据清洗工作,导致可视化需求出现时实现时间延长;

  • 应用监控的交易指标维度拆分不够,没有动态阈值的检测能力,不能和静态阈值融合,用户体验十分不佳。

根据评估出来短板做相应的治用一体规划,从标准指标体系建立出发,根据客户行业特点及要求对运维数据指标类型进行多维度综合分类分层。其中按照关键级别可分为关键指标、主要指标、次要指标;根据统计维度分为标准指标、衍生指标、聚合指标,辅以编码规则并对指标进行标签化,形成标签库,为后期的监控、排障分析、系统画像等场景提供有力的支撑。

同时,对于告警质量的管理在数据治理的过程中也不可或缺,从体系化的角度开展,做到源末同治。何为源末同治?告警并非一种先天事件,它由各类监控指标触发,其准确程度与各环节的质量有关联。源是从指标体系规划、指标采集质量管控、阈值配置要求开始,到末端处置规则筛查保证准确性,都要做好数据的治理。这样如果出现告警质量问题,则能全面了解是哪个环节的具体步骤不到位,迅速找到问题根本并解决。

二、实践分享二

场景不应臆想,从过往事件中取经

运维中发生过的生产事件能够为场景规划提供重要根据,按照时间序列去复盘能够看清整个事件当中发生的各类状况,例如耗时长短、故障根因等。这是某银行在云上生产事件的调研复盘,我们可以看到从故障出现(交易量陡增,响应时间大幅增长)造成客户投诉,这期间总共花费了40分钟。在故障发生后,尝试过扩容、重启Gateway,但都没有解决问题,最后又扩容重启了微服务的容器才得以恢复。

在面对这样的故障时,如果能够有效地关联事件、厘清相关数据(指标、日志、告警),则能够从数据层面进行有效的排障分析,进而解决问题。

根据这次事故我们可以从中定义一个场景故事:运维过程中经常会遇到多业务系统同时发生问题,面对大量告警仍依赖经验排查,如果优先级不明确、无法厘清事件关联,就难以快速诊断问题,严重影响业务运营。

老杨认为,当多个业务系统告警出现时,可以从上下游关系影响和同源影响两个方面先行着手判断,逐步下钻分析数据、确认关联性、厘清问题源头。每一步诊断都对应有相关的场景平台功能去完成,并相互支撑相互配合形成有效的解决方案。

通过数据评估、生产事件分析以及方案场景推敲。最终得出一期项目的建设逻辑和规划。

关于标准和数据治理的分享到这里就告一段落了。

三、三个阶段和五个统一理论

而对于AIOps建设的实践我们仍想分享“三个阶段和五个统一”的理论,在相对应的阶段下做合理的建设规划,相信最终一定能将智能运维推向智慧化运营的光辉前景中去,具体内容在此不做赘述,请点击下方图片重温三个阶段与五个统一的建设规划思路。

精彩内容直达,戳↓↓↓

老杨说运维直播回顾2


擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。

行业龙头客户的共同选择

更多运维思路与案例持续更新中,敬请期待

随手点关注,更新不迷路~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/168986.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

miniconda虚拟环境安装使用jupyter notebook及相关

一、安装jupyter 1创建miniconda虚拟环境。(前面文章讲过了) 2在创建的虚拟环境下,conda install ipython jupyter 3在该环境下执行jupyter notebook。 注意:此时打开的jupyter notebook内核Python 3(ipykernel)对应该虚拟环境&am…

数据安全治理 1

数据安全治理应以数据为中心,多元化主体共同参与,兼顾发展与安全。 数据安全总体视图,包含了体系,维度,目标,实践。 制度建设 技术体系,如加密、脱敏等手段,进行数据全生命周期的管…

盘点:2022年豆瓣评分8.0以上的计算机书籍有哪些?

2022年已经结束 ,小编来盘点一下过去一年里出版的计算机图书里,有哪些计算机书籍是豆瓣评分8.0以上图书。 1、人工智能:现代方法(第4版)(上下册) ​ 系统性总结人工智能的方方面面,…

寒假每日一题2023——4261. 孤独的照片

写在前面 题目来源:AcWing 寒假每日一题2023活动 链接:https://www.acwing.com/problem/content/description/4264/ 题目 Farmer John 最近购入了 N 头新的奶牛,每头奶牛的品种是更赛牛(Guernsey)或荷斯坦牛&#x…

论文解读12——NGBoost: Natural Gradient Boosting for Probabilistic Prediction

目录1、文章贡献2、评分规则3、自然梯度4、自然梯度提升算法NGBoost1、文章贡献 由吴恩达团队提出的NGBoost是一种通过梯度提升进行概率预测的算法,与经典的回归模型返回一个点估计结果不同,概率回归模型返回全概率分布,将条件分布的参数视为…

Windows系统安装jenkins服务 war包形式

1.首先下载 jenkins war包 注意和jdk 的版本匹配 https://www.jenkins.io/zh/download/ 2.配置jenkins环境变量 如果不配置环境变量, jenkins的主目录默认生成在c盘下 环境变量怎么配? 请自行百度 3.运行jar包 注意修改war包路径 java -jar /data/jenkins/jenkins.war…

DNS原理与搭建(一)

文章目录一、DNS的概念与原理二、DNS私服搭建一、DNS的概念与原理 概念 DNS指的是域名服务器,就是将域名转换成IP[或者将IP转换成域名];当我们在浏览器中输入域名并按下回车,会对我们输入的域名进行解析,并返回一个IP地址,在通过…

Deepin系统深度学习环境配置指南

Deepin深度操作系统在众多Linux发行版本中深受欢迎,在实用性和专业方面到达了很好的均衡,该系统软件适配丰富支持很多第三方软件,增加了系统任务的灵活性。在装好该系统后,如何在该系统上进行深度学习代码训练调试,这就…

网络编程.

文章目录一、概述通信要素一:IP和端口号IP端口号通信要素二:网络协议TCP网络编程UDP网络编程URL网络编程每日一考一、概述 1、网络编程中两个主要问题: 如何定位网上的一台或多台主机,定位主机上的特定应用 找到主机后&#xff0…

北京化工大学1/17寒假集训题解(>1800)

目录 A - 文艺平衡树 B - 可持久化文艺平衡树 C - 可持久化平衡树 主要思路:FHQ Treap 可持久化 D - 维护数列 初始化 Insert操作 Delete操作 Reverse操作 Make-Same操作 Get-Sum操作 Max-Sum操作 懒标记的处理 E - 文本编辑器 A - 文艺平衡树 这里的…

贪心策略(二)兑换零钱(最后还得是动规)

兑换零钱(一)_牛客题霸_牛客网 兑换零钱(二)_牛客题霸_牛客网 兑换零钱(一)_牛客题霸_牛客网 描述 给定数组arr,arr中所有的值都为正整数且不重复。每个值代表一种面值的货币,每种面值的货币可以使用任意张,再给定一个aim,代表要…

C++程序设计——类和对象II

一、再谈构造函数 1.构造函数体赋值 在创建对象时,编译器通过调用构造函数,给对象中各个成员变量赋一个合适的初始值。 虽然上述构造函数调用后,对象中已经有了初始值,但是不能将其称之为类对象成员的初始化,构造函数…

Vue学习笔记(三)

Vue学习笔记三1.组件的引入及使用2.插槽3. 插槽三种写法3.1 第一种3.2 第二种3.3 第三种简化写法4.组件生命周期4.Vue路由1.组件的引入及使用 在components中写入组件Header.vue 在App.vue中进行引入 <template><div><!-- 组件化: 1个页面由不同的部分组合而…

excel日期函数:DATEDIF的几个实际应用公式编写

DATEDIF函数不仅可以用来计算年龄、工龄、工龄工资、项目周期&#xff0c;还可以用来做生日倒计时提醒&#xff0c;项目竣工日倒计时提醒等等。用上它&#xff0c;您再也不会缺席那些重要的日子&#xff0c;不论是亲人生日、项目竣工日&#xff0c;还是儿女的毕业典礼日。DATED…

明道云大湾区2023年季度闭门会议圆满结束

2023年1月12日&#xff0c;明道云在深圳坂田天安云谷召开明道云大湾区2023年季度闭门分享会。超过百位来自中大型企业组织的IT部门代表和业务技术专家莅临现场&#xff0c;进行了一下午的同台交流。广汽本田、深圳龙华区人民医院、民生银行及华润置地的项目代表&#xff0c;深度…

WebService最优方案选择

需求 最近&#xff0c;接触到了一个java对接C#的项目&#xff0c;使用WebService技术开发。项目已经快告一段落了&#xff0c;经过这几个月接触和使用。我有了一个清晰的认识&#xff0c;之前也调研了互联网上大部分实现的通讯&#xff0c;他们的优缺点&#xff0c;我都有一定…

linux系统下如何获取文件的创建时间

linux 获取文件的创建时间 提到获取文件的创建时间&#xff0c;写Java的小伙伴可能会说&#xff0c;那太简单了&#xff0c;java.nio.file.attribute.BasicFileAttributes下这个类不就记录了文件的相关信息吗&#xff0c;比如下面这段代码不就得到文件的创建时间了嘛&#xff…

chrono_CLOCK(二)

chrono_CLOCK&#xff08;二&#xff09; 文章目录chrono_CLOCK&#xff08;二&#xff09;从测量C程序运行时间引入C风格C风格时钟的成员和源码分析成员函数成员变量Clock提供的操作例子三个clock区别例子三个clock的精度问题方式一方式二从测量C程序运行时间引入 C风格 在C…

数据库,计算机网络、操作系统刷题笔记33

数据库&#xff0c;计算机网络、操作系统刷题笔记33 2022找工作是学历、能力和运气的超强结合体&#xff0c;遇到寒冬&#xff0c;大厂不招人&#xff0c;可能很多算法学生都得去找开发&#xff0c;测开 测开的话&#xff0c;你就得学数据库&#xff0c;sql&#xff0c;oracle…

自定义View的学习笔记1-1

这一系列主要是跟随扔物线的学习笔记。 自定义View主要是三个部分&#xff0c;绘制&#xff0c;布局&#xff0c;触摸反馈。 绘制是这三个部分中&#xff0c;最重要的一个。 先说绘制&#xff0c;所谓绘制&#xff0c;指的就是控件内容的显示。啥意思&#xff0c;比如我们作…