一文讲清场景工程方法论及运维组织能力内化

news2024/9/22 16:34:36

随着业务支撑要求的变化,和技术架构的升级,运维管理建设模式跟之前也有了很大区别,场景上更注重主动工作、防范风险,而体系上更注重赋能组织、平台化、一体化。

因而,我们基于过去几年的大量客户实践,分享一些场景的工程落地,包括可观测、大规模发布、灾备应急、服务敏捷化等,并进一步分享如何把这些能力赋能给客户,把运维能力的产品化和组织赋能关联起来。

* 注:以下内容整理自:嘉为科技运维产品及解决方案负责人 张敏 于嘉为蓝鲸2022研运一体创新峰会的精彩分享——《从场景工程,到运维赋能》。

01. 运维的熵减:场景工程

1)熵减,降低运维体系的复杂性

熵是一个热力学概念,表示体系的混乱程度。熵增表示系统越来越混乱,熵减则表示系统归于有序。在没有外力作用的情况下,一切事物都是从有序向无序发展,最终形成熵死。而要使混乱往有序发展,就需要做熵减,通过不断做功,增加有效能量。

运维是一个复杂的体系,主要体现在两个方面。

一方面是管理体系带来的复杂性。不同的组织架构、工作流程、工具平台和技术路线、文化氛围等,都可能导致运维的低效和不完善,例如人员能力高低、流程复杂度不一、工具建设的烟囱化竖井化等。

另一方面则是技术对象变化带来的复杂性。例如云原生、微服务、国产化信创适配等,技术对象的更新迭代、规模发展及横纵的复杂性,都让运维这一保障性工作变得复杂。

如果没有有效的管理规划和技术规划,运维体系必然会走向混乱。我们需要不断有效做功,进行熵减,让运维体系归于有序。

2)有效做功:分级分域场景模型

怎么做熵减呢?

我们可以从经典运维原理(PPTR)出发,制定符合企业个性的管理体系,统一组织保障、流程管控、标准规范,然后选择匹配的工具平台和技术架构,设计满足企业需求的运维场景,最后逐步进行PDCA循环演进。

听起来很简单,但是在这个演进的过程中会遇到一个很大的问题,就是我们知道了如何做运维管理,也建设了很多工具系统,但是仍旧不知道现在运维的薄弱点。

问题出在从管理体系落地到工具系统的过程中间,我们要找准连接点。这个连接点即场景。

企业运维的场景非常多,可以大到做业务连续保障管理,也可以小到一个告警的丰富。如果没有对场景进行有效梳理,将会导致后续系统建设越发混乱。

基于过去几年的实践,我们总结出了一套分级分域的场景模型,能很好的解决这个问题。

L1:运维价值

最顶层,找到想要实现的运维价值,也即管理目标,例如业务连续性保障、IT服务满意度、IT运营等等;

L2:运维领域

找到价值目标以后,需要梳理运维领域,思考通过哪些运维领域的组合,能够实现此运维价值。例如要实现业务连续性保障这一价值,不能单单只做监控,而是需要有应急管理、灾备管理、故障管理,还有风险变更管控等等,通过多领域的组合配套,才能实现业务连续性保障的运维价值。

L3:运维活动

运维领域确定以后,就到运维活动。例如故障管理领域,对应需要做故障发现、故障定位、故障恢复、故障预防与改进等活动。

L4:运维操作

运维活动再往下是更细节的运维操作,例如告警源接入、多告警的标准化、如何进行告警收敛、告警分级、事件分派及对应处置,如何联动自动化做故障自愈、如何联动ITSM做事件委派,告警自动关闭等。

我们将管理目标拆解,逐层拆分后再进行工具落地。曾经在项目中遇到过有客户希望将监控指标放到CMDB里面去建设,这种情况就是没有梳理清楚场景。CMDB就应该聚焦在对象和配置,而IT对象的各种指标和状态应该放到监控里,最后将监控与CMDB做关联,这才是有效的做功。

3)一体化、平台化建设的必要性

从2004年起,嘉为就开始面向企业提供IT运维服务,并于2016年正式发布嘉为蓝鲸自动化运维解决方案。经过多年的实践,我们落地了很多运维场景,也愈发认识到一体化和平台化建设的重要性。

一体化,指的是管理一体、流程一体、工具一体,最后形态是以一体化运维工具系统支撑企业的运维场景。以自动化发布为例,运维团队通过开源的或者自研的工具就可以完成编排发布。但是当遇到发布规模变大,或者即有传统发布又有容器发布的复杂情况,或是需要编排多种发布策略的时候,就会发现搞不定了,因为这涉及到多种工具体系的联动。底层需要依赖CMDB、需要作业Agent管控、需要可以联动容器调动K8S,上层需要封装多种发布策略的逻辑,最终才能形成适应各种情况的自动化发布。这就是落地的一体化形态,如果我们建设单个领域能力的时候没有考虑到联动,就会形成烟囱。

平台化,指的是可持续发展。运维场景会随着技术对象和管理要求的变化而不断发展,怎么保证现有建设的能力体系和工具平台能够满足这种发展呢?我们通过PaaS模式做平台化建设,来满足可持续发展的需要。

4)场景到工程的设计方法:MSCP

有了管理目标、梳理好了场景以后,我们是否就可以进行工程落地了呢?并不是。

经过我们多年的实践,我们总结出了一套从场景到工程的设计方法:管理(M)、场景(S)、能力(C)、产品(P)。

起点,是管理(M)

我们希望达到的管理目标、配套的制度规范、对应的组织岗位能力体系、工作流程、工程落地、度量改进,这是一个不断做功的过程。

其次,是场景(S)

如ITOM、ITSM等经典的运维场景。

再次,是能力(C)

场景到产品中间很重要的一步,是要将能力进行抽象和解耦。我们推荐的最好的解耦方式,就是PaaS。将可复用的能力沉淀为原子,通过API方式调用原子能力和联动第三方能力;同时提供开发框架等,便于进行自定义扩展。

最后,形成产品(P)

基于PaaS自定义开发形成产品,实现可持续的延展。

如下是我们做的两个客户案例,通过MSCP方法指导,最终实现从管理到产品的软件落地:

第一个案例,是大规模发布的场景,应该算是国内除了BAT这几家互联网公司以外,企业级发布规模最大的一个场景了。

客户有业务系统100+、主机节点5万+、K8S集群的主机节点5千+,需要实现高质量、高安全、高效率的统一发布。

最后产品落地,纳管主机实例5W+,容器实例11W+,制定应用发布管理规范,实现对软件交付全流程统一管控;实现CI CD CO全流程贯通、提升发布质量和效率。

第二个案例,是一家大型银行,ITSM替换的场景。

客户的业务系统有200+、主机节点3千+,用户数特别多,需要替换掉之前4大的传统巨石型ITSM管理系统,并且满足ISO标准。

最后产品落地,服务内部运维用户1000+,业务用户10000+,制定关键运维管理活动流程规范,满足ISO20000合规,实现事件管理闭环,提升问题处置效率80%,有效的变更管控,减少变更事故风险。

场景到工程的设计方法MSCP,是我们实践的总结,希望能够给企业的运维建设带来一些思考。

5)数字化运维场景活动蓝图

谈了方法,我们来看下嘉为对数字化运维场景活动的定义。

最上层,是我们运维的本质和价值:用户和业务支撑。下方,是ITSM、ITOM和ITOA活动。其中最重要的是1+4个域:观测域、配置域、作业域、服务域,以及生态域。而对当前AIOps的能力和实践,我们的看法是,这是一个技术补充,仍然回归到运维管理层面,也就是我们定义的AIOps in Ops。

采用PaaS平台技术架构打造生态,实现观测、配置、作业、服务整体协同的一体化。通过ITOA不断持续运营改进,从而把我们的管理体系、对应场景、对应能力、对应工程产品完整落地到IT运维系统,提升组织能力。

02. 运维组织能力内化的三个步骤

组织能力提升对于运维来说特别重要。运维组织的能力不能仅仅依托于内部几个老专家,技术对象的复杂、管理要求的复杂、外部数字化转型加内部技术架构变化等因素,都需要我们将运维作为一个体系去思考。

如何系统性建设我们的运维能力呢?我们跟随一个大的股份制银行客户经过近五年的组织打造,抽象了三个步骤

1)第一步:激活组织

运维组织激活其实是一件很困难的事情,运维本身干的活特别苦逼,某种程度上讲往往也是比较被动的。

激活组织的起点,从让运维人员有成就感开始,而成就感则来源于持续的自我提升。建设侧重点要从如何快速处理故障转向如何减少故障,围绕服务连续性和主动管理,持续建设运维能力。

让组织的成员看到有奔头,看到有改变,这样才能激活人更大的创造力和求变的能力。

2)第二步:可持续建设+可扩展建设

企业IT运维建设最大的浪费,是历史投资无法被保护的浪费。所以,我们需要采取可持续+可扩展的建设模式。

  • 可持续是指,建设的系统有延续性;
  • 可扩展是指,沉淀能力应对未来变化。

我们可以采用能力+场景的抽象架构,也就是PaaS化的架构,抽象和解耦能力沉淀于底层,在上层去构建场景和工具,适配多环境多对象。同时不同的场景工具之间联动作业,形成真正的管理闭环,满足现在和未来的需要。

3)第三步:提升生产力,改变生产关系

  • 生产力,指的是运维团队的人员能够快速去满足运维和业务支撑所需要的能力;
  • 生产关系,是指运维和业务的关系,不再偏于被动,而是更加主动去提供甚至运营辅助等服务。

具体怎么落地?关键点在于给不同类型的运维人员,找到发挥价值的位置。

团队中工作多年的运维专家,对运维的管理、联动和执行理解非常深刻,适合转型做运维规划;团队中有编码基础、脚本基础的运维工程师,可以转型运维开发,基于平台提供的开发框架、低代码、原子能力等,快速组装工具系统,由此实现运维体系的自生长。

通过这三个步骤,就能够让整个运维团队,实现从活力到能力,最后提升生产力的转变。

03. 与客户共赢

长期深耕行业,以客户为中心,加上我们对管理经验和工程产品的抽象,形成了目前嘉为1+7的运维产品体系。

基于腾讯蓝鲸PaaS平台沉淀共性能力,可持续可扩展地进行运维体系建设;嘉为自研的配置管理、可观测产品、IT服务管理、自动化运维、多云管理、数据与智能中心、数据运营中心等,一体化联动。

同时,我们也会秉持MSCP方法论,从管理实践、行业场景、架构设计到工具工程去进行长期的产品战略规划,持续输出价值,与客户共赢。

最后,我们希望与客户一起共赢,客户可以用新的运维模式更好支撑业务,嘉为则用新的方法以及对应的工具体系,帮助客户进一步提升运维价值,与客户一起改变运维行业,一起走得更远。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/32905.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

关于HashMap默认容量的选择

HashMap默认容量思量什么是容量容量与哈希hash的实现指定容量初始化扩容思考总结集合是Java开发日常开发中经常会使用到的,而作为一种典型的K-V结构的数据结构,HashMap对于Java开发者一定不陌生。 在日常开发中,经常会像如下方式创建一个Has…

使用IntelliJ IDEA创建Maven项目并上传项目至gitlab等远程仓库

步骤: 新建Maven项目,添加web.xml文件,只编写一个html页面用于测试,tomcat部署,配置git,上传到gitlab 1. Maven创建Web项目,命名为testci 2. 点击File —> Project Structure —>Facets—…

分享35个ASP源码,总有一款适合您

链接:https://pan.baidu.com/s/1t-Biw9LihpPwrwfJNLoTPw?pwdfxol 提取码:fxol 下面是文件的名字,我放了一些图片,文章里不是所有的图主要是放不下...,大家下载后可以看到。 40400互联网上报名系统 医院会员注册系统…

132-142-Hadoop-Yarn-常用命令生产环境等配置

132-Hadoop-Yarn-常用命令生产环境等配置: Yarn常用命令: 1、启动集群 2、执行一个案例 [roothadoop102 hadoop-3.1.4]# hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.4.jar wordcount /input /ouput013、查看结果 yarn applic…

【云原生 | Kubernetes 实战】02、k8s 核心资源 Pod 介绍

目录 一、Pod是什么? 白话解释: 1.1 Pod如何管理多个容器? 1.1.2 Pod网络 1.1.3 Pod存储 1.2 之前学习过容器(如docker),为什么还需要Pod? 1.2.1 代码自动发版更新 1.2.2 收集业务日志 …

【Kubernetes系列】工作负载资源之ReplicaSet

文章目录概述工作原理何时使用示例ReplicaSet的配置Pod 模板Pod 选择算符Replicas操作使用ReplicaSet删除 ReplicaSet 和它的 Pod只删除 ReplicaSet将 Pod 从 ReplicaSet 中隔离扩缩 ReplicaSetReplicaSet 的替代方案Deployment(推荐)裸 PodJobDaemonSet…

twitter推文采集案例

案例内容:twitter的推文采集。 通过游客身份获取twitter中用户的推文。 用户推文:只能翻22页,1页45条左右。 每个用户最多获取最近900条推文 (登录后),不登录区别也不大。 UserByScreenName 一般只有用户名的时候,需要先通过UserByScreenName接口获取 rest_id 用于后…

frp穿透你的远程桌面

缘起 作为一个程序员,经常会遇到需要使用远程桌面的述求(居家办公、加班,你懂的)。所以,在网上找一圈远程桌面解决方案之后,最终还是使用frp来穿透远程桌面。(推荐使用) 前提 需要…

计算机内功修炼:程序的机器级表示(C与汇编)

程序的机器级表示历史观点程序编码1. 机器级代码2. 代码示例数据格式访问信息1. 操作数指示符2. 数据传送指令算术与逻辑操作1. 加载有效地址2. 一元操作和二元操作3. 移位操作例子特殊的算术操作控制1. 条件码2. 访问条件码3. 跳转指令及编码4. 翻译条件分支5. 循环6. 条件传送…

[附源码]计算机毕业设计JAVA龙虎时代健身房管理系统

[附源码]计算机毕业设计JAVA龙虎时代健身房管理系统 项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM …

JDBC数据库的连接

JDBC数据库的连接 简介:本文以简洁的篇幅带领大家快速入门java连接数据库,以查询为演示方案。 编写代码步骤 创建工程,导入驱动jar包 下载官网:https://downloads.mysql.com/archives/c-j/ 注册驱动 # mysql5的注册驱动的办法…

BEV感知PETR-V1和PETR-V2

参考代码:PETR 1. 概述 介绍:这两篇文章提出了以位置编码转换(PETR,position embedding transformation)为基础的BEV感知方法,按照方法中组件不同可将PETR划分为V1和V2版本。在V1版本中提出了基础版本的PE…

【C++】c++11学习-常用特性总结

前言 由于种种历史原因,C的C11版本更新带来了很多有用的东西~,在C98的基础语法体系之上,来看看C11新增了哪些实用的特性吧~ (加把劲~~(๑╹◡╹)ノ""") 目录 一、列表初始化 1.原始的列…

Mysql8.x版本主从加读写分离(二) mysql8.x读写分离

Mysql8.x版本主从加读写分离(一) mysql8.x主从_争取不加班!的博客-CSDN博客 Mycata需要使用jdk 单独一台服务器部署的mycat 192.168.11.143 手动上传jdk的包 tar zxvf jdk-8u121-linux-x64.tar.gz -C /usr/local/ 解压 cd /usr/local…

c++ - 第14节 - c++中的多态

1. 多态的概念 多态的概念:通俗来说,就是多种形态,具体点就是去完成某个行为,当不同的对象去完成时会产生出不同的状态。举个栗子:比如买票这个行为,当普通人买票时,是全价买票;学生…

如何运行黑马程序员redis项目黑马点评(hm-dianping)、常见报错解决与部分接口的测试方法

文章目录一、相关链接二、下载代码方法一:使用git clone方法二:直接下载程序zip压缩包三、如何运行这份代码运行sql文件1、先新建数据库hmdp2、导入项目中的hmdp.sql文件修改application.yaml配置文件配置Mysql1、配置驱动2、配置url(这个不一…

Allwinner T3 汽车级处理器为工业级 SoM 提供动力

Allwinner T3 是一款四核 Cortex-A7 汽车级处理器,支持 -40C 至 85C 的宽工业温度范围。对比了全志T3的规格后,我觉得和全志A40i差不多,因为全志有不同的事业部,T系列是面向车规级市场,而A系列一直以来都是面向平板市场…

python之Matplotlib

1.数据可视化是什么? 数据可视化是将数据转换为图或表等信息图像,以一种更直观的方式展示和呈现数据.可视化,是通过图形化的手段进行有效地表达,准确高效,简洁全面地传递某种信息,甚至帮助我们发现某种规律和特征,挖掘数据背后的价值. 2. Matplotlib是什么? matplotlib是一…

教程:如何将一首歌生成一个二维码?

大雨打在树叶上的声音、烟花绽放的声音、邻居家的狗叫声、海浪和沙滩的决斗声、冬天的风掀翻路人衣服的声音、小孩练琴的声音、啤酒冒泡的声音…… 哦,还有你唱歌的声音,这些都可以做成一个二维码。扫码后就可以听到。 如今,声音二维码已经…

华为云GaussDB打造金融行业坚实数据底座,共创数字金融新未来

近期,由北京金融信息化研究所主办的首届中国金融业数据库技术大会在京顺利举行,大会邀请了金融主管单位领导、金融机构高层、以及数据库企业代表和众多数据库领域专家,共同畅谈金融行业数据库应用的创新发展和实践成果。华为云数据库服务产品…