第五届双态IT北京用户大会回顾 | 基于运维数据治理的数智化转型

news2024/10/7 4:30:01

专题演讲人:擎创科技CTO 葛晓波

文末附有本场专题演讲视频

●前言

各行业的云原生发展程度各有不同,并不是所有业务应用都适合云原生的形态,如若过度追求云原生化反而会使得企业运维压力骤增,运维成本激增。

从数字化转型的角度结合自主可控要求,我们认为云原生化的本质应该是能够帮助企业更敏捷地应对业务变化、加速业务应用迭代,从而实现业务运营的更加高效。在云原生时代下,企业运维必须拥有数据思维,这样在面对敏稳两态、云上云下以及容器内外同步运行的局面时,才能更加主动、动态地去罗织、分析和处理数据,向历史数据要到答案,从未来数据中预见端倪。

一、无数据,不智能

从擎创过往7年的经验里总结,我们认为运维工作的核心是数据,而不是一味地、茫然地谋求算法更优化。只有数据规范化、标准化且具备准确性,才能为上层的消费场景提供有效价值,否则算法如何精妙,数据基础不稳,跑出来的结果也无法为企业运维乃至运营提供帮助。

擎创科技CTO 葛晓波

说归实际,本质上来讲运维的对象是软件、应用,对此而言无论是集中式、分布式亦或云原生,其实表象上是架构和技术在变化,但软件、应用的核心是不变的。很多企业发现到了云原生时代,运维变得更加难管,其原因并不是技术不行,而是因为最初的运维体系规划没有做好、规则没有定清等。

根据我们数年的实践总结,发现企业常会出现以下一些难题:

1.告警不精确

由于告警过多缺乏精度,导致很难厘清当下业务系统的工作状态,无法做到早于最终用户发现系统故障。

2.发现问题不及时

现有异常检测手段只能在故障发生前几分钟或十几分钟内发现问题,无法在业务调整完成后就快速发现端倪。

3.根因难找

应急处置后,没有合适的手段通过时间线重现故障、发现问题真正根因,因此同样问题可能反复出现。

4.排障经验难复用

缺乏知识库沉淀能力,无法有效保存和复用专家的排障经验。

上面的难题抛出来汇总后,还是落回数据本身,做好数据治理无可非议。我们希望数据治理的最终结果是能形成以运维对象为核心,能够全面关联日志、指标、告警、事件、调用链等数据的运维能力体系,实现全景可观测(如下图)。

企业一般想看到数据治理得当后,能够全面的被关联在一起,形成具有统一规范、统一标准的数据。也就是它能够与运维管理的对象(软件、应用等)相关联,运维管理的对象与对象之间也能相互关联,这样能够清晰快速的知道问题出现在哪里、为什么会出现以及如何快速处理,并在日后的运维工作中使这类故障都能够被提前预见、提前预防。

二、依托数据治理标准,建立运维体系

作为数智化转型的基础,需要建立一套涵盖数据收归、加工处理、存储分析、数据服务及使用等的全生命周期工具。要依据相应标准、规范和原则,对数据质量进行监测、改进及管理,并实现数据的安全定级、权限控制,同时使数据能够准确符合生命周期阶段,发挥应有的时效价值,以及准确地对外交付和输出数据价值。

说到标准、规范和原则,数据治理标准体系的有效落地就成为了关键。其实数据治理体系并不单单是针对数据本身,在依据国家、行业标准等定义好企业运维数据标准、管理标准、数据质量标准等同时,对于企业的组织架构、平台与工具的采用、流程与机制的设定等也应遵循一定的标准。

这样能够有效解决企业运维及运营的一些实际问题,比如下述两个例子:

01

“以平台工具规范为例,治理体系正式落地后,当下属部门想要采购新的告警工具时,首要考察的会是该工具产生的数据是否符合数据标准、能否被接入数据平台进行使用,如果不能则要求其调整数据格式或不予采购。在管理层面,将保证各部门不能仅仅因为工具好用就进行采购,进而避免因此出现工具数量激增、数据竖井化等问题。

02

“以数据生命周期规范为例,其实很多数据的信息密度很低但存放成本极高,假设某一监控工具A采集到的交易数据出现了十几分钟的延迟,那么这部分数据其实已经没有了时效性,但这部分数据依旧被存放了起来,这对于运维而言已经没有任何价值是极大的成本浪费。如果做好了数据治理体系,通过相关的数据质量及生命周期标准去管控,这部分数据就会被剔除,并会要求A工具进行优化,将数据采集和输出的时效性提高,以提升运维的整体效率。”

三、典型落地场景-全息监控

这里的全息监控,从本质上来讲就是通过对运维数据的综合治理后,构建一体化的监控平台,纳管应用及基础组件,再通过擎创自研的低代码工具组合,在运维中台上为不同的运维角色和团队展示各类运维数据,提供灵活不同的分析视角。比如从总览的视角查询单个应用状态,可以去详查它下面的拓扑、告警、日志等数据;从专业管理的视角想要做应用细分,可以通过查看交易码、返回码、交易码的组合,全面进行管理等等。

▲该场景已在某国有大行进行落地

这种全息监控,可以通过趋势和风险监测先于业务发现问题,能够通过动态阈值、指标偏离度分析、业务健康画像等手段,提供业务系统健康度的趋势分析和预测能力,发现系统运行隐患,在故障发生之前就提供预警通知能力,为事故处置预留时间,全方位提升企业运营的稳定性。

关于现场的更多细节,这里不多赘述,请在下方视频中进行了解~

基于运维数据治理的数智化转型


​擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。

行业龙头客户的共同选择

​了解更多运维干货与技术分享

可以右上角一键关注

我们是深耕智能运维领域近十年的

连续多年获Gartner推荐的AIOps标杆供应商

下期我们不见不散

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/669618.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

软考:软件工程:软件定义,特点,软件生命周期,软件危机,软件开发模型

软考:软件工程: 提示:系列被面试官问的问题,我自己当时不会,所以下来自己复盘一下,认真学习和总结,以应对未来更多的可能性 关于互联网大厂的笔试面试,都是需要细心准备的 (1&#…

C++——vector容器模拟实现

目录 1. 基本成员函数 2. 默认成员函数 2.1 构造函数 2.2 析构函数 2.3 拷贝构造函数 2.4 赋值运算符重载函数 3. 容器访问相关函数 3.1 operator[ ]运算符重载 3.2 迭代器 3.3 范围for 4. vector空间增长问题 4.1 vector 容量和大小 4.2 vector扩容 4.3 重新定义…

均匀B样条采样从LiDAR数据中快速且鲁棒地估计地平面

文章:Fast and Robust Ground Surface Estimation from LiDAR Measurements using Uniform B-Splines 作者:Sascha Wirges, Kevin Rsch, Frank Bieder and Christoph Stiller 编辑:点云PCL 代码: https://github.com/KIT-MRT/poin…

全志V3S嵌入式驱动开发(编译器升级到7.5)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 看过我们文章的朋友都知道,前面为了做v3s的驱动,对linux kernel进行了两次升级。第一次升级是从4.10.y升级到4.14.y&#x…

【Python】open打开文件出现的错误解决

一、Python中关于打开open打开文件出现的错误解决 (第一种)UnicodeDecodeError: ‘utf-8’.......... (第二种)UnicodeDecodeError: ‘gbk’......... 二、问题解决 两种解决方式针对不同错误,实际应用中可以都试试…

PCB设计实验|第五周|LED显示电路PCB库设计|3月27日

目录 实验四 LED显示电路PCB库设计 一、实验原理 二、实验环境 三、实验结果 四、实验总结 实验四 LED显示电路PCB库设计 一、实验原理 LED(Light- Emitting-Diode中文意思为发光二极管)是一种能够将电能转化为可见光的半导体,它改变了白炽灯钨丝发光与节能…

裁剪图片软件有哪些?这些图片裁剪工具很好用

有哪些好用的图片裁剪软件呢?有时候,将一张大图缩小到更小的尺寸可以改善图片的质量,因为它可以减少像素和噪点。这对于那些需要在网上展示高质量图片的人来说尤其重要。裁剪后的图片可能更清晰、更锐利,并且更适合在各种设备上观…

Alex-Net 与 VGG-16

Alex-Net 由加拿大多伦多大学的 Alex Krizhevsky、Ilya Sutskever(G. E. Hinton 的两位博士生)和 Geoffrey E. Hinton 提出,网络名“Alex-Net”即 取自第一作者名。 下图所示是 Alex-Net 的网络结构,共含五层卷积层和三层全连接层。其中,Ale…

03.SELF-INSTRUCT+Alpaca

文章目录 前言泛读储备知识提示学习提示工程Promt Engineering答案工程 背景介绍研究SELF-INSTRUCT的动机研究意义&贡献 精读Overview种子任务步骤1:定义指令数据步骤2:自动指令数据生成步骤2.1指令生成步骤2.2指令分类步骤2.3实例生成步骤2.4筛选和…

19.组件之间传递数据

不同组件传递数据的时候,最好不要直接传递复杂数据类型(比如对象,数组) 前端需要处理的数据层级一般不会很多,需要在多处使用的数据一般会被放到数据库中 目录 1 组件的关系 2 父向子传递数据-props 3 子向父传递数据-自定义事件 4 …

分布式任务调度平台 XXL-JOB 实战

❤ 作者主页:欢迎来到我的技术博客😎 ❀ 个人介绍:大家好,本人热衷于Java后端开发,欢迎来交流学习哦!( ̄▽ ̄)~* 🍊 如果文章对您有帮助,记得关注、点赞、收藏、…

Scrum敏捷估算

无论是团队研发一款产品或者开发某一个项目,我们都需要回答“我们大概什么时间能够完成?”, 或者到某一个时间点,我们能够做到什么程度, 因此和传统的开发模式一样,我们在工作开始之前需要对我们需要做的事…

Linux Vim基本操作(文件的打开和编辑)完全攻略(有图有真相)

首先学习如何使用 Vim 打开文件。 Vim 打开文件 使用 Vim 打开文件很简单,例如在命令行模式下打开一个自己编写的文件 /test/vi.test,打开方法如下: [rootitxdl ~]# vim /test/vi.test 刚打开文件时 Vim 处于命令模式,此时文件…

CTFshow-pwn入门-前置基础pwn26-pwn28

什么是ASLR 大多数的攻击都基于这样一个前提,即攻击者知道程序的内存布局,需要提前知道shellcode或者其他一些数据的位置。因此,引入内存布局的随机化能够有效增加漏洞利用的难度,其中一种技术就是ASLR(Address Space…

无线wifi视频传输方案|基于qca9531方案SKW99的无线视频流云端推送方案

为满足物联网智慧校园,智能家居,智慧工厂,智能交通、智慧博物馆、培训机构等不同行业实时直播的需求。本篇以集成200万高清摄像头功能的高通方案qca9531 wifi模块SKW99为为例,简单介绍基于WiFi技术的无线视频流云端推送方案。 1、…

上位机与两台PLC之间无线PPI通信

在实际系统中,人机界面与PLC通常不在一起,中心计算机一般放置在控制室,而PLC安装在现场车间,二者之间距离往往从几十米到几千米。如果布线的话,需要挖沟施工,比较麻烦,这种情况下比较适合采用无…

0基础学习VR全景平台篇第47篇:底部菜单-场景/分组复制功能

大家好,欢迎观看蛙色VR官方系列——后台使用课程! 本期为大家带来蛙色VR平台,底部菜单—场景/分组复制功能操作。 功能位置示意 一、本功能将用在哪里? 平台用户在编辑作品时可以使用本功能将作品中的某一分组或者某一场景进行复…

岩土工程监测案例:完整链条的振弦传感器、采集仪和在线监测系统

岩土工程监测案例:完整链条的振弦传感器、采集仪和在线监测系统 在岩土工程监测中,振弦传感器被广泛应用于测量土体或岩体的振动情况,以了解地震或其他振动事件对结构物或地基的影响。振弦传感器具有高精度、快速响应、易于安装和低成本等优…

django校园宿舍管理系统-计算机毕设 附源码84831

django校园宿舍管理系统 摘 要 本论文主要论述了如何使用Django开发一个校园宿舍管理系统,本系统将严格按照软件开发流程进行各个阶段的工作,采用B/S架构,面向对象编程思想进行项目开发。在引言中,作者将论述校园宿舍管理系统的当…

RocketMQ部署之动态设置JVM启动参数

这里是weihubeats,觉得文章不错可以关注公众号小奏技术,文章首发。拒绝营销号,拒绝标题党 背景 线上的RocketMQ集群有运行一段时间了。比如测试环境和线上环境的RocketMQ集群部署的机器内存大小肯定不一样。所以可能要写多个部署脚本。非常麻烦 官方的部…