AIOps探索 | AI与人类协作:未来IT运维应急响应的新模式

news2024/12/22 23:56:52

内容来源于--布博士(擎创科技产品解决方案专家)

在科技日新月异的今天,人工智能(AI)如同一场汹涌澎湃的浪潮,席卷着各个行业领域,IT 运维应急响应也正站在这一变革的风口浪尖。随着信息技术架构的不断扩张和复杂度的急剧攀升,传统的 IT 运维应急响应方式在应对海量数据、快速故障定位和高效问题解决等方面面临着前所未有的压力。

而 AI 技术的蓬勃发展为这一领域带来了新的曙光,AI 与人类协作的模式正逐渐崭露头角,相信不久的将来有望重塑未来 IT 运维应急响应的新格局,开启一个高效、精准且充满创新活力的新时代。

在智能运维领域,博主展望了未来人类和AI协作的几个协作的场景,应该很快就能体验了。话不多说,我们一起往下看

时间:2050年9月30日 14:00

地点:应急作战室

一、参与人员

网络工程师 :负责网络问题排查及带宽控制

数据库管理员:负责数据库锁表及同步延迟处理

应用管理员:负责应用服务性能问题处理

安全分析师:负责流量分析及安全告警处理

应急指挥官:协调整体应急恢复

AI运维机器人:负责自动化监控、分析和初步故障应对

二、应急响应场景

场景①:14:00 - 核心告警:网络丢包问题

AI运维机器人 R: "告警已收到,核心路由器端口丢包率为65%,超过阈值50%。可能原因:带宽饱和或突发流量。我将立即分析流量数据并建议流量限制方案。" 应急指挥官 E: "很好,AI R,进行流量源分析并给出初步建议。" AI运维机器人 R: "分析结果:突发流量来自外部IP地址群 [X.X.X.X] 和 [Y.Y.Y.Y]。建议限制外部流量峰值至70%,优先保证内部服务带宽。" 网络工程师 A: "我将按照建议立即限制外部流量,确保内部核心业务的带宽。"

场景②14:02 - 相关告警:网络带宽告警

AI运维机器人 R: "外网流量使用率达到95%,带宽即将饱和。建议立即启用流量分流策略,减少外部访问的带宽占用。" 应急指挥官 E: "网络工程师 A,执行AI R的分流建议。" 网络工程师 A: "收到,正在执行。"

场景③14:03 - 相关告警:数据库同步延迟

AI运维机器人 R: "数据库主从同步延迟为1.2秒,原因:网络不稳定导致同步阻塞。我建议对主数据库的同步任务进行暂时延迟处理,以避免锁表现象进一步恶化。" 数据库管理员 B: "好的,我将调整同步策略,等网络稳定后再恢复同步进程。"

场景④14:05 - 连锁告警:应用性能问题

AI运维机器人 R: "生产环境应用服务超时,超过20%的请求响应时间超过2秒。初步判断是由于数据库延迟和网络问题。建议限制应用的重试操作并减少连接池请求。" 应用管理员 C: "明白,我将减少重试操作频率,控制连接池的使用。"

场景⑤14:06 - 次级告警:数据库锁表问题

AI运维机器人 R: "数据库出现锁表现象,持续时间过长。建议暂时冻结长时间查询,并通过索引优化提升查询效率。" 数据库管理员 B: "收到,我将处理长时间查询,并优化索引。"

场景⑥14:07 - 次级告警:服务器资源告警

AI运维机器人 R: "服务器CPU使用率95%,内存使用率90%。建议调整应用服务的优先级,暂停非核心任务,以释放资源。" 应用管理员 C: "我将按照建议,暂停非关键服务,并监控服务器资源使用情况。"

场景⑦14:08 - 次级告警:安全流量告警

AI运维机器人 R: "检测到外部来源IP地址 [X.X.X.X] 短时间内发起大量请求,初步判断为合法流量激增,可能是正常用户访问量增加。我将持续监控流量以排除异常行为。" 安全分析师 D: "我会进一步确认流量情况,确保没有安全威胁。"

场景⑧14:12 - 恢复告警:网络丢包恢复

AI运维机器人 R: "网络丢包率已恢复至1.5%,带宽使用率下降至70%,流量源已限制。建议继续观察外部流量并逐步恢复带宽策略。" 网络工程师 A: "明白,网络问题已基本恢复,我将继续监控。"

场景⑨14:15 - 恢复告警:数据库同步恢复

AI运维机器人 R: "主从数据库同步延迟恢复至100ms,锁表问题已经解决。建议恢复正常的同步任务,继续优化数据库查询性能。" 数据库管理员 B: "同步恢复正常,锁表问题解除。我将按计划优化查询。"

场景⑩14:18 - 恢复告警:应用服务恢复

AI运维机器人 R: "应用服务响应时间恢复至1.5秒,服务器资源使用恢复正常。建议恢复全量服务并继续监控应用性能。" 应用管理员 C: "应用服务恢复正常,连接池饱和问题也已解除,我会继续监控性能。"

场景①①14:20 - 恢复告警:安全访问恢复

AI运维机器人 R: "外部访问流量恢复正常,确认来源IP为合法用户,无恶意攻击行为。" 安全分析师 D: "确认流量安全无虞,安全告警解除。"

三、应急过程总结

应急指挥官 E:

"此次应急作战在AI运维机器人的帮助下,极大加快了数据分析和应对流程。AI R在流量控制、数据库同步调整、应用性能监控等方面提供了关键支持,所有告警现已恢复。感谢大家的配合,继续保持监控,确保系统完全恢复稳定。AI R请持续监控。"

AI运维机器人 R:

"系统已恢复正常,正在持续监控。"

四、人工智能时代IT运维应急响应转变分析

1.AI机器人职能

①实时监控与分析:AI可以快速分析大量的告警数据,给出精确的应对方案,减少人为分析的时间。将最新的故障情况实时同步到应急作战室中,减少人为通知的时间。

②辅助问答:AI可以快速总结分析进展及过程,当领导关注当前故障处置状况时,可以实时进行总结应答。

③故障预判与建议:基于历史故障数据和模型自身知识数据,AI能够给出有效的预判和应对建议,减少了应急团队的分析负担。

④自动化响应:可以对某些场景下的告警自动执行操作,如调整带宽、暂停非关键服务、自动化登录主机搜寻故障时段日志并分析日志等。

2.人类职能

①决策与指挥:人类仍然在应急作战中扮演决策者的角色,基于AI的建议快速做出判断。

②复杂问题的处理:AI对某些复杂场景(如数据库锁表、应用性能调优等)的建议依赖于人类的执行与优化。

③协同与确认:在安全问题和特殊情况处理上,人类的判断力和经验仍然不可替代,需要根据AI的分析作出最终确认。

擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司专注于通过提升企业客户对运维数据的洞见能力,为运维降本增效,充分体现科技运维对业务运营的影响力。

  行业龙头客户的共同选择

了解更多运维干货与行业前沿动态

可以右上角一键关注

我们是深耕智能运维领域近十年的

连续多年获Gartner推荐的AIOps标杆供应商

下期我们不见不散~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2203083.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

为什么越来越多的男性开始光顾美容机构?美业管理系统/个案疗愈系统源码

近年来,我们可以清晰地观察到一个明显的趋势:越来越多的男性开始光顾医美美容机构。这种现象的出现并非偶然,而是由多种因素共同作用的结果。 本文将结合社会观念的转变、媒体和广告的影响、职业发展压力、技术进步以及自我关注和健康意识的…

基于非线性干扰观测器的六自由度机械臂控制

1.观测器公式推导 当存在扰动时,机械臂的动力学方程如下: 对上式进行恒等变化得: 设计干扰观测器: 令,则: 观测误差满足 ,取,因加速度不可测,定义辅助向量: …

爬虫工具——Fidder的安装

一、Fidder的安装 出现这样的界面就是安装成功了 二、Fiddler的配置 1.端监听手机端设置 但是如果你想要对手机上的app进行抓包怎么办呢,那么你还需要进行以下操作: 首先你的Fiddler所在的电脑和手机必须处在同一个局域网内(即连着同一个路由器)。 …

【MySQL 10】索引

目录 1.初始索引 1.1索引概念 1.2常见索引分类 1.3 见一下索引(案例) 2.关于物理磁盘 2.1见一下物理磁盘 2.2 了解磁盘的存储结构 2.3对磁盘的逻辑结构进行抽象 4.磁盘随机访问与连续访问 5.MySQL表与磁盘 3. MySQL 与磁盘的交互 3.1MySQL 与…

中国市场的NFT生存法则:消费属性与圈子文化

自2021年NFT数字藏品概念爆发以来,它迅速吸引了全球范围内的玩家、投资者以及艺术家和品牌的参与。然而,随着市场逐渐冷却,尤其是在中国市场,NFT的定位变得越来越微妙和复杂。在全球其他地区,NFT逐渐走向金融化&#x…

开源2+1链动S2B2C商城小程序下社区团长的社群温度营造与商业价值实现

摘要:本文聚焦于社区团长在社群运营中的角色,阐述在开源21链动S2B2C商城小程序的背景下,社区团长如何通过多种角色互动营造社群温度,进而实现商业价值中的复购增长等目标,分析其中的作用机制、面临的挑战及应对策略。 …

数据结构-八大排序之基数排序

基数排序(RadixSort) 1. 理论知识: 1.1 原理: 定义0-9 十个桶 (数组),先排序个位,再排序十位,排序百位... 1.2 例子: ①根据最大值确定需要执行多少遍(这里…

Python编程:创意爱心表白代码集

在寻找一种特别的方式来表达你的爱意吗?使用Python编程,你可以创造出独一无二的爱心图案,为你的表白增添一份特别的浪漫。这里为你精选了六种不同风格的爱心表白代码,让你的创意和情感通过代码展现出来。 话不多说,咱…

太速科技-607-基于FMC的12收和12发的光纤子卡

基于FMC的12收和12发的光纤子卡 一、板卡概述 本卡是一个FPGA夹层卡(FMC)模块,可提供高达2个CXP模块接口,提供12路收,12路发的光纤通道。每个通道支持10Gbps,通过Aurora协议,可以组成X4&#xff0…

【力扣刷题实战】(顺序表)删除有序数组中的重复项

大家好,我是小卡皮巴拉 文章目录 目录 ​编辑 力扣题目:删除有序数组中的重复项 题目描述 示例 1: 示例 2: 解题思路 具体思路 题目要点 完整代码(C语言) 兄弟们共勉 !!&a…

树控件QTreeWidget

树控件跟表格控件类似,也可以有多列,也可以只有1列,可以有多行,只不过每一行都是一个QTreeWidgetItem,每一行都是一个可以展开的树 常用属性和方法 显示和隐藏标题栏 树控件只有水平标题栏 //获取和设置标题栏的显…

为什么链表算法题如此亲睐虚拟节点..........

欢迎来到 破晓的历程的 博客 ⛺️不负时光,不负己✈️ 引言 相信大家在做算法题的时候,会经常用到虚拟节点这个技巧。但是却不明白它会给我们带来多大的便利,今天我们利用几道算法题来分析一下。 如何使用? 我们定义的链表结构…

封装的线程池

1.首先写一个队列来存&#xff0c;线程 queue.c #ifndef QUEUE_H #define QUEUE_H #include <stdbool.h> #include <stdlib.h> #include <stdio.h> typedef struct Queue {void **arr;int cap;int front;int rear; } Queue; //创建队列 Queue *create_queu…

手动nginx平滑升级

一、下载nginx安装包 wget http://nginx.org/download/nginx-1.24.0.tar.gz 二、解压缩 tar -zxf nginx-1.24.0.tar.gz 三、进入解压缩后文件 3.1 cd /usr/local/nginx/sbin 预编译 进入如下命令 ./configure -prefix/usr/local/nginx --with-http_ssl_module --with…

Rust 与生成式 AI:从语言选择到开发工具的演进

在现代软件开发领域&#xff0c;Rust 语言正在逐步崭露头角&#xff0c;尤其是在高性能和可靠性要求较高的应用场景。与此同时&#xff0c;生成式 AI 的崛起正在重新塑造开发者的工作方式&#xff0c;从代码生成到智能调试&#xff0c;生成式 AI 的应用正成为提升开发效率和质量…

Linux操作系统小项目——实现《进程池》

文章目录 前言&#xff1a;代码实现&#xff1a;原理讲解&#xff1a;细节处理&#xff1a; 前言&#xff1a; 在前面的学习中&#xff0c;我们简单的了解了下进程之间的通信方式&#xff0c;目前我们只能知道父子进程的通信是通过匿名管道的方式进行通信的&#xff0c;这是因…

Linux权限和软件包

前言 今天我们简单的介绍Linux中的两个概念&#xff0c;分别是权限和软件包。Linux中一切皆文件&#xff0c;权限无非就是限制不同的角色对文件的能不能得问题&#xff0c;软件包则是简单介绍一下Linux中安装卸载程序 权限 权限针对的对象是角色&#xff0c;首先我们先来介绍…

阿里云dataworks测试

文章目录 开始查看全局信息查看数据源信息(endpoint与project的信息)查看绑定、解绑钉钉创建、查看AccessKey(Access Key ID与Access Key Secret) 线上开发新建开发节点mysqlpython 本地开发python 程序调度 开始 参考文档&#xff1a;https://help.aliyun.com/zh/ram/user-gu…

新建的SpringBoot项目结构为空的可能问题与解决方案

问题&#xff1a; 如下图&#xff0c;创建一个名为springboot_demo05的SpringBoot项目的时候&#xff0c;发现创建的项目结构为空&#xff0c;没有下一级目录。但是在新窗口新建一个项目的时候没有这个问题。 打开Maven工具发现也没有关联Maven依赖模型 原因排查&#xff1a; …

abc371 f

F - Takahashi in Narrow Road 我们可以发现&#xff0c;每次操作后&#xff0c;对于一段变化后的区间&#xff0c;其变为了一段公差为1的等差数列&#xff0c;所以我们如果把每个值减去对应的下标&#xff0c;那么对应的区间变化后&#xff0c;都为一个相同的值&#xff0c;这…