老杨说运维 | 数智时代,运维一体化如何落地实践?

news2024/11/25 2:23:21

在IT运维的发展过程中,随着分布式架构的加速推进,云原生技术加入应用,运维工具相比过去呈现出了更高强度的进化态势,即从多个相对独立的软件向EA形态的一体化系统进化。本次樱花论坛正是基于这一新的变革点,邀请了行业内的各路大咖,全面深入的探讨了分布式架构和云原生时代的运维平台发展之道。擎创科技创始人兼CEO杨辰,带来了《一体化数智运维平台的规划思路和建设实践》分享。

一、AIOps建设中存在的问题

擎创科技经过百余个项目的实践,发现很多企业在AIOps的建设中存在一些过于理想化的误区,这些误区随着项目的逐步落地不断带来现实的打击,最终导致了很多企业对于AIOps的价值产生了怀疑。具体表现在以下几个方面

  • 在建设初期,很多企业认为AIOps是银弹可以洞穿一切难题,希望它能够为企业解决所有问题

  • 没有做到自顶而下的统筹规划,在建设过程中把它独立,未与现有工具进行联合

  • 希望快速看到成效而选择速成建设,本应是多期规划的建设只选择一期完成,导致因为预期评估的方法不够合理得当,最终交付质量无法达到全局目标,不能满足场景效果,渐渐地认为AIOps无法为企业来带实际

对此,老杨认为AIOps的建设不应一蹴而就。

首先,在初期要重视数据底座的建设,通过合理的方法(如依据行业认可的数据治理成熟度标准)进行企业现状评估。

其次,从业务视角出发,由业务战略逐层拆解需求,以用促建、治用并举的进行一体化规划。

最后,优先关注工具、跨领域场景等之间的关联性,保留专业领域的垂直分析工具,进行以场景为驱动的敏捷建设。

通过这三方面的结合,完成AIOps全局规划及建设,才能使得AIOps为企业带来真正的业务价值。

二、如何搭建AIOps平台

智能运维平台经历了多个发展阶段,到今天演化出来的主流建设趋势大致有三种:统一运维平台Observability、统一风险管控平台RiskOps、统一成本评估平台FinOps。

1.统一运维监控平台

即以统一数据建设为底座,进行“眼耳”能力建设的统一监控平台。

  • 数据建设

由底层数据基础建设为起点,对多维多角度的各类运维数据实现应接尽接,在当下云原生时代应优先对接业务和云上数据,以监控对象为核心进行统一建模。

  • 智能化和利旧

将算法融合业务输入,力求数据的实用准确,对重要业务系统及相关资源优先覆盖,同时替代功能重叠性强的平台,并保留垂直领域的专业工具,实现智能化平台的完整建设。

  • 做好定位和场景设计

保证以业务视角为顶层设计,优先建设跨领域的场景关联,及云上云下的可观测一体化监控,减少云原生运维的复杂性,实现1、5、10(即1分钟发现问题、5分钟定位问题、10分钟解决问题)的快速定障排障能力,为业务运营提供最大化保障。

2.统一风险管控平台

作为提升二道防线生产运营风险管控能力的环节,该平台要求建设结果能够达到事前风险预警、事中风险等位、事后风险总结改进的能力。

建设规划围绕基础面和风险盘两大块,构建风险防控评分体系,通过分级权重提升健康评分准度。

  • 基础面

围绕业务类、技术类指标以及特殊项扣分规则构建单系统基础盘。

  • 风险盘

在基础面得分的基础上根据告警、事件、问题、业务指标同环比的权重设置。做为单系统附加扣分项,进一步识别风险。

3.统一成本评估平台

即能够帮助企业有效合理分配资源,实现健壮的成本管理以及健康的运行效率的运维平台。

据Flexera《2022年云状态报告》指出,企业在每100万元云设施相关的花费中,有约32万元是被浪费掉的。当下很多企业处于多云的状态,由于云与云之间的基架模式不同,所以当多个BU申请资源的时候,得到的结果不见得是最优化的。

统一成本评估平台能够纳管多种管理平台的IT资源数据,如云网管理平台、网络管理平台、配置管理平台、自动化平台、运维数据中台等,能够帮助企业实现不同团队之间能够迅速地在速度、成本和质量之间进行业务权衡,确保不会出现业务交易量大但资源配比低或业务交易量小但资源配比高的情况。

三、一体化数智运维平台如何建设?

就像家具越过越多一样,IT运维工具的形式、数量随着数字化转型的不断革新也变得越来越繁多。从最初因点状需求匹配而产生的单一工具到由场景化需求升级的工具组合+可视化再到现今为破除数据竖井而衍生的运维数据平台,企业对智能运维的要求越发严谨,亟需一种全新的方式来使得各类工具形成整体价值。

所以老杨表示,未来一定是一体化的数智运维平台,它是基于各类运营运维的软件工具、场景,通过DataFabric对多样化的数据进行编织后统一完成纳管,再将数据价值通过可视化的方式体现出来,为运营决策提供帮助。

擎创自研的数智运维管理解决方案如下:

四、谈谈云原生运维和GPT-Ops

1.云原生运维

会更智能,随着分布式架构的加速,未来云原生运维监控或许会更智能,能够基于机器学习实现自动异常检测和修复,建立起自动化的容器和服务自愈机制等;

会更实时,能够与业务同频感知,即时的更新资源关系,智能分析事件触发原因等;

会更可视,帮助运维减少复杂性,从用户视角出发更具同理心,实现多角度的监控数据关联;

会更云原生,无论是容器、微服务、服务网络还是云网络、云拓扑及多云混合模式等,会为数字化转型提供一个更好的场地。

2.GPT-Ops

谈及到GPT,老杨表示对于智能运维而言,很难与GPT产生关联。其原因在于GPT的本质是大模型,而运维需要从繁复的数据中挖掘数据,会分为很多个小场景,但如果未来在大量云化的情况下,或许会产生AIOps对应的大模型,能够得以融合。

至于未来AIOps本身而言,应当会走向GPT-Ops的形式,这里是指主要借鉴GPT大模型中提示模块,即通过小数据训练而成的模型,在经过专家的提示调整后(类似语标注),然后继续自动学习校准模型,实现运维真正的智能化,产生的效益也越来越大。


​擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。

行业龙头客户的共同选择

​了解更多运维干货与技术分享

可以右上角一键关注

我们是深耕智能运维领域近十年的

连续多年获Gartner推荐的AIOps标杆供应商

下期我们不见不散

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/448026.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

(十二)rk3568 NPU 中部署自己训练的模型,(2)模型转换

对于rknn 模型部署,本人使用*.pt -> *.onnx -> *.rknn的方式。 一、首先是pt文件到onnx文件的转换。 onnx文件导出时,需要修改models/yolo.py文件中的后处理部分。 注意:在训练时不要修改yolo.py的这段代码,训练完成后使用export.py进行模型导出转换时一定要进行修…

RHCE第六次作业

目录 一、编写脚本for1.sh,使用for循环创建20账户,账户名前缀由用户从键盘输入,账户初始密码由用户输入,例如: test1、test2、test3、.....、 test10 1.创建脚本for1.sh 2.执行脚本并查看是否创建成功 二、编写脚本for2.sh,使用for循环,通过…

微积分:微分

目录 1.代数推导 2.几何推导 3.总结 1.代数推导 假设我们有一个正方形初始边长为X,这时面积S1x 然后正方形的边长增加△x,此时面积S2(x△x) 变化的面积大小是△s(x△x)- x2x△x(△x&#x…

软件测试外包干了4年,感觉废了..

先说一下自己的情况,大专生,18年通过校招进入湖南某软件公司,干了接近4年的功能测试,今年年初,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了四年的功能测试…

c++算法——枚举法

枚举概念 枚举法是通过计算机速度快的特点,对问题所有可能性进行枚举,从中找到答案,需要利用循环。 例题 1,简单数字谜 题目描述 在□内填上一个合适的相同的数字,使等式“□365283□8256”成立。 输入格式 无 输出…

5.2 构造数值积分公式的基本方法与有关概念

学习目标: 如果要学习构造数值积分公式的基本方法与有关概念,可以遵循以下步骤: 1.了解数值积分的基本概念和性质:包括积分的定义、积分的性质、数值积分的定义及其误差等。这可以通过课本或相关的学习资料来了解。 2.掌握构造…

ubuntu 安装vmware tool(优先安装最新ubantu,可以不安装vmware tools)

1在虚拟机种站到安装vmware-tools 然后重启虚拟机 2在磁盘中可以看到如下文件,将zip文件移动到桌面解压备用 3关闭虚拟机 找到编辑虚拟机设置 4点击左侧 CD/dvd(SATA) 如果是使用镜像文件,改成使用物理驱动器. 5 打开命令行 cd 桌面 (如…

yara规则--构建yara规则库

零、快速构建yara规则库的方案 Yara官方预置的规则库,链接 https://github.com/Yara-Rules/rules ClamAV的特征码转换为yara规则,利用工具clamav_to_yara.py将clamav的特征码转换为yara规则 从yara-generator爬取别人上传的样本的规则 利用 yarGen工具 …

电容笔和触控笔有什么区别?2023平价好用的电容笔测评

无论是导电的材料,还是工作的原理,还是操作的方式,甚至是价格,电容笔都和一般的触控笔有着明显的区别。电容笔具有更小的笔尖,并且具有更好的耐磨性。而且现在科技进步很快,IPAD的市场也越来越大&#xff0…

【蓝桥杯省赛真题18】python阴影图形面积 青少年组蓝桥杯python编程省赛真题解析

目录 python阴影图形面积 一、题目要求 1、编程实现 2、输入输出

Linux-零拷贝及Java实现

RabbitMQ比RocketMQ、Kafka较慢点一点重要原因就是 零拷贝 什么是零拷贝? 零拷贝指的是在进行IO的时候减少或避免让CPU拷贝数据(数据在IO缓冲区中进行拷贝) 零拷贝的优点: 减少甚至完全避免不必要的CPU拷贝,从而让C…

paddlepaddle 的 CPU 和 GPU

想记录一下一个 bug 改了一上午改到最后发现并没有 bug 的 bug。 总结: 因为下午要跑很久,为了省 GPU 算力,我想上午先用 CPU 把数据处理部分跑出来(感觉数据处理部分不像网络训练那样涉及太多计算,所以感觉用 CPU 就…

JavaWeb开发 —— MyBatis动态SQL

目录 一、XML映射文件 1. 介绍 2. MyBatisX插件 二、MyBatis动态SQL 1. if 2. foreach 3. sql & include 一、XML映射文件 1. 介绍 ① XML映射文件的名称与Mapper接口名称一致,并且将XML映射文件和Mapper接口放置在相同包下(同包同名…

【Java EE】-网络编程(三) TCP/IP协议详解

作者:学Java的冬瓜 博客主页:☀冬瓜的主页🌙 专栏:【JavaEE】 主要内容:应用层HTTP协议、DNS域名解析系统、传输层UDP协议,TCP协议。TCP协议的工作机制:确认应答、超时重传、连接管理、滑动窗口…

【Linux】MySQL高可用之读写分离监控实践

一、Mycat-web安装配置 1、Mycat节点安装zookeeper(在mycat实现了读写分离上安装) ① 解压zookeeper压缩包 tar -zxvf zookeeper-3.4.14.tar.gz -C /opt/② cd到cnf目录下将文件复制 ③ cd到bin目录下启动 ./zkServer.sh start2、Mycat节点安装mycat-we…

跨境卖家不可错过的2023开斋节选品和营销技巧,轻松拓展海外市场

开斋节是穆斯林世界最重要的节日之一,同时也是跨境电商一个非常重要的销售节点。在这个节日期间,跨境卖家可以通过合适的选品和营销策略吸引更多的消费者,提高销售额。本文将探讨2023年跨境卖家在开斋节期间如何做好选品和营销。 一、选品 1…

MySQL到ClickHouse数据同步方案对比

ClickHouse 在执行分析查询时的速度优势很好的弥补了 MySQL 的不足,但是对于很多开发者和DBA来说,如何将MySQL稳定、高效、简单的同步到 ClickHouse 却很困难。本文对比了 NineData、MaterializeMySQL(ClickHouse自带)、Bifrost 三…

下一代听歌识曲技术——从信号处理到深度学习

音乐丰富我们的生活;音乐传达人类的情感;音乐表达人类的艺术。人类文明的进程中离不开音乐这个载体,音乐也离不开人类的真情创作。在听到好听却没听过的歌曲时,如何快速准确得到该歌曲的歌名成为当务之急。LiveVideoStackCon 2022…

网页学习-小试牛刀

网页学习 一、 网页组成二、HTML认知2.1 结构2.2 常用标签2.3 列表标签2.4 表格标签2.5 表单标签2.6 语义化标签2.7 字符实体 三、CSS认知四、JS认知 一、 网页组成 分为三大部分:HTML、CSS和JavaScript。 HTML(Hyper Text Markup Language&#xff0c…

根据端口号查询进程路径

研究背景: 在工作的时候,有时候我们会在服务器上部署很多API接口程式,每个程式都有不同的端口号,便于提供服务。当时间久了,我们需要对接口操作的时候,我们有可能会忘掉接口程式所在的路径,而只…