浅谈运维工程师的开发能力的培养

news2025/2/24 6:22:36

写在前面

本文已获得作者授权,作者的博客地址:https://www.cuiliangblog.cn/
原文链接:浅谈运维工程师的开发能力的培养

在这里插入图片描述

一、运维工程师发展路线

1. 传统运维

侧重点是解决具体的问题。要求具备扎实的底层的知识储备,如网络、linux、数据库、硬件设备调试、服务部署等。以及一定的故障处理能力和经验,能够快速解决问题,实施变更。能够处理突发故障,顺利完成服务的部署,变更的实施。

2. 云计算运维

侧重点是开源技术方案的使用,为云服务的稳定提供保证。随着业务不断发展,服务器规模扩大,就需要具备大规模服务器的批量管理能力。要求对开源技术解决方案有一定的掌握,主要面向基础运维平台建设,运维工具的开发,提高运维效率。硬件层面的资产管理。系统层面的管理例如vmware openstack虚拟化,以及docker k8s容器化。应用层面例如prometheus监控,elk日志,集群,数据库等开源服务管理。重点在于广泛使用开源技术保障服务的稳定,为项目的稳定运行提供保障。

3. DevOps

侧重点是开发运维平台,要求较高的开发能力。主要是管理应用的全生命周期,负责自动化运维平台的设计和开发,实现运维标准化、自动化、平台化。例如开发CMDB平台、作业平台、工单系统、告警平台等。以及充当业务开发与业务运维中间人的身份,从中发掘业务瓶颈并推动优化与改进。

4. SRE

侧重点是从业务角度提升运维质量*。负责软件和系统的架构设计,运维流程的优化,让公司服务以及系统运行得更加可靠,更加稳定,扩展性更好,更能有效地利用计算机资源。要求技能包括算法,数据结构,编程能力,网络编程,分布式系统,架构设计,故障排除等能力。SRE重视开发,重视效率,追求自动化,专注于整个软件系统的生命周期管理。
需要明确的一点是DevOps 首先是一种文化,后期逐渐独立成一个职位,而SRE从一开始就明确是一个职位。DevOps更需要开发能力,而SRE更需要知识的广度。DevOps 工程师掌握相关技能之后,也有机会可以发展为 SRE 工程师。 而一位合格 SRE 工程师,在有选择情况下面,我相信不会去转型为 DevOps 工程师。

二、运维开发技能学习路线

在这里插入图片描述

三、常见的运维开发项目案例

1. 公有云管理平台

● 项目背景
大型互联网公司出于成本、可靠性等因素,往往会购买多家云厂商产品提供服务。但在日常运维工作中,高频的操作往往也只是查看主机配置信息、当前机器状态、以及资源到期时间、服务器强制重启、CDN资源刷新、COS存储查看、日志下载等操作。

可以根据上述需求,开发一套公有云管理平台。将所有资源列表形式展现出来,配置信息、当前状态、到期时间等关键内容直观展现出来,并使用标签的方式,实现资产的便捷筛选。

只授予开发人员常用操作,例如CDN刷新,日志下载,COS存储查询等操作权限,避免登录云服务器控制台误操作情况发生。

● 项目亮点
使用腾讯云、阿里云、华为云等公有云厂商sdk,实现资产信息的查询等高频操作

使用celery实现信息异步定时更新入库

用户权限管理,开发人员和运维人员权限分离

使用antv-g6实现资产树结构

使用echarts将资产统计信息可视化展示

2. CMDB

● 项目背景
企业中IT资源种类繁多(机房、服务器、存储设备、网络设备、项目业务划分等)且需要频繁更新,传统的excel表格维护更新方式已不能满足需求。此时就需要通过开发资产管理系统,实现资产的自动发现和信息同步更新,保证数据的准确和一致性。除此之外还开放API接口与现有的运维体系结合,为作业系统、工单系统等平台提高IT数据支撑。

● 项目亮点
由于资产的字段,对应关系频繁更改,传统的关系型数据库已无法满足需求。通常采用MongoDB存储数据。使用mongoengine库完成数据库的操作。

使用ansible的API接口调用setup模块抓取服务器硬件信息,支持手动同步和定时同步信息。

也可以使用shell脚本或者go开发exporter,定期向cmdb接口上报服务器信息。

提供动态 Inventory 清单接口,方便ansible调用执行批量化操作。

提供完善的资产信息、模型、对应关系增删改查接口,方便其他工具平台调用。

3. 作业平台

● 项目背景
面对批量管理主机的需求,已有成熟的ansible,以及web工具Tower,但是缺乏现成的API接口,无法与现有的自动化运维平台直接调用。

随着服务器规模增多,存在大量的定时同步、备份、清理等任务脚本。需要集中化管理定时任务,并对任务执行情况一目了然。

当进行服务批量部署、软件包批量更新时,具备批量文件传输的能力。

记录所有通过作业平台页面或者API调用的操作记录,提供任务重试和历史记录查询的功能。

● 项目亮点
将常用自动化操作(例如给开发人员创建普通用户账户设置权限、常见服务部署、配置文件更新等操作)提前编写playbook。当需要执行常用自动化操作时,调用CMDB接口获取动态主机清单,并在前端传入相关变量参数,完成playbook变量替换,使用ansible执行playbook,完成相关的自动化操作。

使用对象存储或者ansible所在服务器本地目录,实现文件上传功能。存放常用shell脚本、需要批量分发的文件,便于ansible调用相关文件执行自动化操作。

开发定时任务管理模块,使用异步多线程执行。支持任务结果查询验证功能,实现定时任务的统一集中化管理。

开放提供API接口,支持传参调用执行批量任务并返回执行结果。

4. 工单系统

● 项目背景
在公司内部,项目上线、配置变更、调整权限等操作,往往都按照运维管理制度,依次由负责人审批,通过后再执行相关具体操作。传统的资源申请基本是通过邮件,存在沟通成本高,消息处理不及时的问题,且出现问题后回溯麻烦。

开发一套工单系统,可以将运维平台各个自动化程序组件相关联打通,可以极大的规范内部管理流程,提升沟通及管理效率。

● 项目亮点
与公司内部邮箱或通讯软件集成,实现每步流程申请人和相关审批人邮件或消息通知。

与钉钉或企业微信的用户列表集成,避免人员流动时频繁手动更新维护数据。

与作业平台集成,当领导完成审批后,直接调用作业平台API,执行一系列自动化的操作。

在前端使用流程图方式展示整个操作的完成流程,以及当前完成进度。

5. 告警平台

● 项目背景
为了保障业务稳定,通常会采用多种监控服务实现告警通知,但通常都存在告警复杂而凌乱,无法将告警信息进行灵活分类,缺乏统一管理的能力。这样就加大了运维人员对告警信息的判断难度,进而无法快速的的定位到根因,也就无法快速的解决问题。

传统的告警配置,告警通知人员/通知组,告警等级在创建告警时已配置,不具备灵活将告警内容通知至值班人员和告警长期未处理,告警严重性等级提升的功能。

● 项目亮点
告警统一收集汇总。将现有的Alertmanager、grafana、kibana、以及其他的脚本告警统一收集展示,方便运维人员清楚知道当前系统存在的问题。并提供历史告警查询功能,便于分析当前容易产生的告警,促使不断优化改进,降低告警产生。

灵活的分配策略。根据不同的应用,选定不同的筛选条件,将条件相结合,让指定的告警通知到特定的人。并于现有的值班系统相结合,使每条告警按不同的告警等级以微信、邮件、短信、电话的方式通知到值班人员和第一负责人。

当告警在指定的时间段内未恢复时,启动告警升级策略。将告警通知至第二负责人,以此类推。

与工单系统集成,自动将告警事件指派给对应负责人,并创建工单提示负责人及时处理故障。

6. 应用发布系统

● 项目背景
应用发布系统使用现有的Jenkins发布平台或者Gitlab CI均可。但是缺乏与现有的运维平台建立连接的能力。理想的应用发布系统应当是当开发人员提交申请单,领导审批完成触发自动更新操作,从发起到结束形成闭环。可以利用Jira、Gitlab的webhook功能,以及Jenkins插件的灵活性,实现应用发布系统与工单系统的紧密结合。为项目的敏捷开发、快速迭代提供运维保障支撑。

● 项目亮点
与工单系统紧密结合。当开发人员完成新功能开发后,只需在工单系统提交新版本上线流程。待领导审批后,执行自动化部署操作。

与Jenkins紧密结合。通过webhook自动化完成分支更改、部署发布流程,减轻人工运维操作工作量。

与CMDB紧密结合。当完成版本发布后,自动更新相关记录。

四、运维平台案例参考

1. 蓝鲸智云平台

https://bk.tencent.com/docs/

2. spug

https://spug.cc/docs/about-spug/

3.CODO

https://github.com/opendevops-cn/opendevops

五、常见运维场景自动化思路

1. 新建资源

在这里插入图片描述

2. 发布流程

在这里插入图片描述

3. 配置变更

在这里插入图片描述

4. 故障处理

在这里插入图片描述

六、学习资料视频推荐

1. python后端

python菜鸟教程(适合有一定开发基础,直接查看文档,节省时间)
https://www.runoob.com/python3/python3-tutorial.html

python黑马程序员视频(适合从0开始学习入门)
https://yun.itheima.com/course/542.html

django视频教程(主要学会url view models admin)
https://www.bilibili.com/video/BV1jx41197Qv?p=1

django文章专利(目前已知国内研究django最深入的博主了)
https://pythondjango.cn/django/basic-tutorials

flask教程(学会了django后,学习flask直接参考文档即可)
https://www.cainiaojc.com/flask/

DRF视频教程(学完DRF基础知识后,跟着老师做一个项目,就可以完全掌握了)
https://space.bilibili.com/481846903

request爬虫(根据实际需求,网上现查即可,如果想系统学习,推荐购买书籍)
https://item.jd.com/13527222.html

2. 前端

html css视频教程(黑马的pink前端必须强烈推荐)
https://www.bilibili.com/video/BV14J4114768?p=1

JavaScript视频教程(推荐李南江,自带二倍速的男人)
https://www.bilibili.com/video/BV1rt4y1Q7wo?p=1

jQuery+ajax(了解即可,现在基本都是前后端分离开发)
https://www.bilibili.com/video/BV17W41137jn?p=1

echarts数据可视化(还是推荐黑马的pink)
https://www.bilibili.com/video/BV1v7411R7mp?p=1

vue视频教程(还是建议大家多看官方文档,毕竟国人写的,还是很容易理解)
https://www.bilibili.com/video/BV1Zy4y1K7SH?p=1

vue2 PC端项目实战(适合新人入门,代码并没有高度组件化)
https://www.bilibili.com/video/BV1eh411d7zD?p=1

vue3 手机端项目实战(接近实际项目开发,强烈推荐)
https://www.bilibili.com/video/BV1YK4y1W7k5?p=1

微信小程序(微信小程序入门较为简单,主要参考官方文档即可)
https://www.bilibili.com/video/BV1WP4y137EE

七、运维思考

1. 如何从0开始实现运维自动化

梳理目前手头的工作,你会发现其中有一半的运维工作都存在重复性,或者满足某些特定场景条件下触发,且每次操作的步骤基本相同,存在较少的意外情况发生。那么就对这些常见问题进行分类和梳理,考虑能否将这些工作内容改造成自动化操作。起步初期不一定需要做多么完善的平台出来,可以先着手于解决实际运维工作中的一个个具体的实际小问题,并听取其他同事的意见,帮助他们开发特定场景需求下的自动化工具,积累开发经验。先从最基本的操作自动化做起,逐步拓展到特定场景下的自动化处理,再到最后实现智能化运维。

运维自动化不是一蹴而就的,他是一个漫长的逐步演进的过程。通常都是遵循这样的演变:运维人员手动支撑 => 运维标准规范化 => 运维工具化 => 平台自自动化。

2. 运维自动化与运维标准

要想解决运维自动化的问题,前提是在运维团队内部已形成运维标准化/规范化。试想一下,如果同样的一个nginx服务,由不同的人操作部署。由于每个人操作习惯不同,且没有运维标准,必然会导致服务的部署方式、部署目录、启动用户五花八门。当你想开发一个工具管理所有nginx服务时,你会发现,有半数的工作量是要编写一堆if条件判断,来适配各种各样的环境目录问题。

因此,要想实现运维自动化的首要条件是避免差异性,实现环境的统一。因为团队中每个人的习惯不同,没有规范必将导致服务器配置差异,这将在无形中大大增加了运维的难度。只有实现了运维标准规范化,才能为后续的自动化打下坚实的基础。

但是需要注意的是,在运维标准的实践过程中,标准的制定很容易,但是人为执行起来却很难。因此,在规范制定之时,应该要满足大多数人的风格习惯,制定的规则简明扼要,不要让理解规则成为负担,最后是需要运维团队每个人需要明确规范的目的,让运维规范成为大家的共识。才能让每个人在以后的运维工作严格的按规范去执行、不断的进行优化改进,为自动化运维打下坚实的基础。

3. 运维思路转变

纵观整个IT技术岗位,运维人员应该算是最为“苦逼”的一波人了,没有经历过半夜被故障告警电话吵醒、通宵实施变更的运维职业生涯是不完整的。但是公司的管理者往往有些对技术了解并不深入。无论是出现网站访问缓慢,还是系统各种错误,管理层首先想到的第一件事就是找运维这个“救火员”。从一定意义上讲,保障业务的稳定运行是运维人员的基本岗位职责,但是不排除很多情况下是因为开发人员代码质量低,导致运行出现问题,然而有些开发人员未经自查便得出结论,是系统环境的问题,所以运维充当“背黑锅”是常事。不仅要承担别人犯下的错误,还要拼死拼活地去解决可能非自身原因造成的问题。

但是随着IT规模越来越大、系统越来越复杂,以故障事件驱动的“救火员”,依靠人工检查处理的工作方式,不仅会让自己的工作被动,还效率低下。而且随着最近几年各家公有云厂商产品不断完善,云计算对于运维人员来说,既是机遇,也是挑战。一方面,云计算使得运维门槛越来越低,运维人员不再需要关注机房、硬件、网络、系统这些底层的技术保障,只需要在控制台web页面点点鼠标就能完成日常的运维操作,遇到疑难问题也只需要提交客服工单即可解决,但是只会提交工单的运维又怎么能为企业带来更高的价值呢?

基于以上原因,自动化运维应运而生。自动化运维的基本目标解决的是“能程序完成的事情尽量不要用人去干”,具体来说就是把周期性、重复性、规律性的工作都交给工具去做,最终达到提升运维效率的目的。简单来说,就是运维思路的转变,不再像以往那样仅仅是保证服务的正常稳定运行,出现故障能第一时间修复的这种以事件为驱动的运维工作。而是要让自己的精力从底层简单的日常运维工作中解放出来,做一些更具价值的事,以建设一套完善的自动化的运维体系为目标,充分发挥自己的核心竞争力,毕竟没有哪个开发能比运维更懂运维自动化产品的需求。在运维自动化建设中,每个运维人员即是优秀的产品经理,也是产品的开发者和使用者。

原文链接

浅谈运维工程师的开发能力的培养
https://www.cuiliangblog.cn/detail/article/39

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/396538.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

安卓 Frament + ViewPager使用示例

1. 组成架构 整个架构被包在一个外部Fragment之中,也可以放在一个Activity之中,随意。外部的fragment包含了两个组件,即途中的ViewPager和TabLayoutViewPager要套上一个FragmentStatePagerAdapter ,适配器负责new出一个个fragment…

基于Jetson NX的模型部署

系统安装 系统安装过程分为3步: 下载必要的软件及镜像 Jetson Nano Developer Kit SD卡映像 https://developer.nvidia.com/jetson-nano-sd-card-image Windows版SD存储卡格式化程序 https://www.sdcard.org/downloads/formatter_4/eula_windows/ 镜像烧录工具…

嵌入式C语言九大数据结构操作方式详解

在C语言的开发过程中,灵活使用数据结构,对提高编程效率有极大的帮助。 目录 1 数组 2 链表 3 跳表 4 栈 5 队列 6 树 7 堆 8 散列表 9 图 10 总结 数据结构想必大家都不会陌生,对于一个成熟的程序员而言,熟悉和掌握数据…

【C++、C++11】列表初始化、右值引用

文章目录📖 前言1. 统一的列表初始化1.1 { } 花括号初始化:1.2 std::initializer_list:2. 右值引用2.1 什么是左值和右值:2.2 右值的分类:2.3 左值引用和右值引用的比较2.3 右值的使用场景:2.4 新的类功能&…

SpringBoot整合Quartz以及异步调用

文章目录前言一、异步方法调用1、导入依赖2、创建异步执行任务线程池3、创建业务层接口和实现类4、创建业务层接口和实现类二、测试定时任务1.导入依赖2.编写测试类,开启扫描定时任务3.测试三、实现定时发送邮件案例1.邮箱开启IMAP服务2.导入依赖3.导入EmailUtil4.编…

为「IT女神勋章」而战

大家好,我是空空star,今天为「IT女神勋章」而战 文章目录前言一、IT女神勋章二、绘制爱心1.htmlcssjs来源:一行代码代码效果2.python来源:C知道代码效果3.go来源:复制代码片代码效果4.java来源:download代码…

游戏算法-游戏AI状态机,python实现

AI概述 游戏AI是对游戏内所有非玩家控制角色的行为进行研究和设计,使得游戏内的单位能够感知周围环境,并做出相应的动作表现的技术。游戏AI作为游戏玩法的一大补充,在各种游戏中都有广泛的应用,比如可以和玩家交互聊天的NPC&#…

用户体验设计—影响定制化设计的因素

0 前言最近在上信息构建这门课(名为信息构建,但感觉叫用户体验设计更好。。。)老师是研究信息行为、人智交互这块的,所以实验课要求我们先学习一个实际的设计案例,让我们搞懂影响定制化设计的因素。所以这篇文章讲讲我…

七色电子标签

机种名 电子会议桌牌 型号 ESL_7color_7.3_D 外观尺寸 176.2x137.15x80mm 产品重量 268g 可视区域 163.297.92mm 外观颜色 银色 供电方式 锂电池供电2300mAh(Type-C 接口可充电) 显示技术 E-INK电子纸,双屏 像素 800x480 像…

ByteTrack: Multi-Object Tracking by Associating Every Detection Box 论文详细解读

ByteTrack: Multi-Object Tracking by Associating Every Detection Box 论文详细解读 文章目录ByteTrack: Multi-Object Tracking by Associating Every Detection Box 论文详细解读ByteTrackByteTrack算法简介ByteTrack算法流程ByteTrack算法描述一:对检测框进行分…

SOA架构的理解

1. SOA概述 SOA(Service-Oriented Architecture,面向服务的架构)是一种在计算机环境中设计、开发、部署和管理离散模型的方法。SOA不是一种新鲜事物,它是在企业内部IT系统重复构建以及效率低下的背景下提出的。在SOA模型中&#x…

Nexus 3 清理docker镜像

该文章提供了一种清理nexus3中存储的docker镜像的一种新思路 查看docker repo 比如你的docker repo名字叫做test-repo,然后在nexus3首页的seatch下面找到docker,点进去随便查看一个已经上传的镜像 记住上面的Name选项,之后要用到 设定清理…

centos7 oracle19c安装||新建用户|| ORA-01012: not logged on

总共分三步 1.下载安装包:里面有一份详细的安装教程 链接:https://pan.baidu.com/s/1Of2a72pNLZ-DDIWKrTQfLw?pwd8NAx 提取码:8NAx 2.安装后,执行初始化:时间较长 /etc/init.d/oracledb_ORCLCDB-19c configure 3.配置环境变量,不配置环境变量,sq…

【Linux快速入门】文件目录操作

文章目录概念1. Linux文件系统概述2. Linux文件目录结构3. Linux文件和目录操作3.1 文件操作3.1.1 创建文件3.1.2 复制文件3.1.3 移动文件3.1.4 删除文件3.1.5 查看文件3.1.6 输出指令3.1.7 >和>>指令3.2 目录操作3.2.1 创建目录3.2.2 复制目录3.2.3 移动目录3.2.4 删…

Lesson 8.3 ID3、C4.5 决策树的建模流程 Lesson 8.4 CART 回归树的建模流程与 sklearn 参数详解

文章目录一、ID3 决策树的基本建模流程二、C4.5 决策树的基本建模流程1. 信息值(information value)2. C4.5 的连续变量处理方法三、CART 回归树的基本建模流程1. 数据准备2. 生成备选规则3. 挑选规则4. 进行多轮迭代5. 回归树的预测过程四、CART 回归树…

关于推荐系统的详细介绍

简介推荐系统是一种信息过滤系统,能够自动预测用户对特定产品或服务的偏好,并向其提供个性化的推荐。它通常基于用户的历史行为、个人喜好、兴趣和偏好等,通过数据挖掘和机器学习算法,在大数据的支持下生成个性化的推荐内容&#…

智云通CRM:与权力者沟通的策略有哪些?

权力者通常具备两个特点:忙和目标导向 1.忙 权力者都很忙(不忙也会装出很忙的样子),时间精力有限,销售人员眼里的大项目在权力者看来很有可能只是他诸多工作中的一项。因此,即使有不满者的引荐,…

ChatGPT露馅了,它明明就是人

让人工智能理解句子成分和语义,这看起来是件不可能的事,看过流浪地球的都知道,那里面的人工智能哪怕发展到2057年,也听不懂比喻和反问。 那最近大火的chatGPT能不能听懂冷笑话呢?它不仅能写代码、论文,居然…

Spring学习——拦截器

拦截器概念 拦截器(Interceptor )是一种动态拦截方法调用的机制,在SpringMVC中动态拦截控制器方法的执行作用: 在指定的方法调用前后执行预先设定的代码阻止原始方法的执行 拦截器与过滤器区别 归属不同:Filter属于Servlet技术&#xff0…

[oeasy]python0101_尾声_PC_wintel_8080_诸神的黄昏_arm_riscv

尾声 回忆上次内容 回顾了 ibm 使用开放架构 用 pc兼容机 战胜了 dec 小型机apple 个人电脑 触击牺牲打 也破掉了 自己 软硬一体全自主的 金身 借助了 各种 软硬件厂商的 力量 最终完成了 pc架构上 的 大一统 操作系统层面 IBM 计划让 msdos和cp/m 分庭抗礼为什么 最后微软…