优维科技CTO黎明访谈实录:“大场景+小算法”构建AiOps运维技术哲学

news2024/12/23 20:20:05

智能运维、自动化运维发展到现在,已经有将近7成的IT管理者学会利用大数据、人工智能产品及解决方案赋能团队,在生产效率、适应性和决策能力等层面实现了切实有效的正向转型。

今天的中国企业,已经在云端新基建、数字化转型的浪潮中实现降本增效和商业创新,海量的新应用、新技术不断冲击着传统IT运维的陈旧壁垒。传统的IT运维如何向智能运维进阶?这是优维人持续思考和实践的重要课题。

 前段时间,对优维科技联合创始人兼CTO黎明进行了一个视频采访,与大家一起聊了聊优维AiOps!

以下为访谈实录:

Q1:运维管理的发展历程都会经历哪些阶段?能否谈谈优维在运维领域的发展路径和现状?

黎明:我认为IT运维管理的发展大致会经历5个阶段,分别是标准化、工具化、自动化,数字化、最终是智能化运维。

结合优维多年在构建智能化运维平台的实践经验,这是一个相对客观且环环相扣的路径,我们没有直接跳到智能化阶段去,因为智能化的底层是以数据、标准以及自动化的能力为基础的。

另外,智能化实际上是为一些特定的场景服务的,并不是说单纯研发一个算法就能解决所有的问题。

这里我提一个与异常检测相关的场景:故障自愈。目前业界也有不少有益的探索和积累,总的来说落地效果还收到比较多的因素影响,比如金融行业因为受到合规性的监管要求限制,相当多必要的措施很难在短期内得到大规模的普及。以目前的技术发展程度来看,主要起到辅助的作用,实际上并不能完全代替人工快速定位出问题的根源。

Q2:优维科技在AiOps在容量规划和异常检测方面的场景应用表现如何?

黎明:谈到AiOps,大家经常会探讨容量规划和异常监测方面的场景应用。优维在这方面积累了非常丰富的落地经验。

首先,优维早在建设智能化的能力之前,就已经在数字化、标准化、自动化这几个层面打好了基础。在过去的几年中,我们给客户提供的方案也有意识地倾向于数字化运维、标准化运维以及自动化运维这“三驾马车”,我们的产品策略就是在夯实基础能力的前提下,再按需去做智能化的落地提升。

说到容量规划这个层面,首先我们要明确它可以解决什么问题?假设客户在运营一个大型的资源池,我们可以通过对用量数据、负载数据等历史数据的分析,实现对容量或者资源用量的一个预测。

这个预测不但支撑着扩容的需求,同时还要承担起容量规划的重任——例如说有的容量分配得太多了,就有必要进行适当的回收;或者阶段性的容量需求暴增,就需要提前做好采购计划。这是很典型的容量规划或者容量管理的场景。

根因定位也是一个比较有效的场景。我们用AiOps来平衡降低平均故障修复时间(MTTR)和延长系统无故障时间(MTBF)的相对关系。在这个语境里,MTBF引申出MTTR,在MTTR里又包含几个相关联的指标,比方说故障识别时间、故障定位时间、故障修复时间以及故障验证时间,只有把这些指标全部优化之后,才能达成MTTR、MTBF的优化。

这种根因定位可以有效的帮助客户减少故障定位的时间,从而使得MTBF、MTTR的指标得到系统性的优化。

Q3:优维科技在异常检测、容量规划、根因定位等这些层面的的规划过程中,AI算法在技术层面是怎么体现的?

黎明:关于AiOps的规划,其实并不会用到一些特别先进,或者市面上不曾出现过的算法和机制,都是对常用算法的调整优化。

容量管理的核心就是容量的预测,比如说存储容量、网络容量、计算容量的增长跟哪些指标有关系?本质上需要做相关性的分析,它的算法并不深奥。但是场景对于数据的准确性和质量的要求是非常高的,在对某一个应用、集群进行容量管理之前,首要工作就是明确该应用、集群本身的资源图谱有没有构建好。如果我们连一个应用、一个集群所覆盖的资源都没有精确的数据描述的话,那么所谓的AI算法得出来的结果肯定是不准确的。

Q4在优维产品的规划当中,从您对产品的定义角度看,容量规划是否包含在AIiOps和智能运维这个模块里?

黎明:实际上我们的产品体系中并没有去规划某一个叫做AiOps的模块。

早在2016年AiOps这个概念刚刚诞生的时候,大家都认为这个概念就是应该以智能算法体系为主,但是经过这几年的实践,有了太多的踩空经验之后,大家突然发现并不是这样的。

第一,所谓的这种智能肯定是面向场景的;第二,智能不是一个通用的概念——优维在这么多年的实践中总结了一个表达方式,我们称之为“大场景,小算法”。例如说在我们的监控资源里对相应的指标趋势进行预测,本质上是把智能的功能揉到场景中去,它并不是一个脱离场景单独存在的产品。

Q5:作为一家以DevOps解决方案起家的科技企业,优维科技跟AiOps重叠的部分是哪一块?

黎明:优维对AiOps的定位,是在现有能力的基础上做智能化功能的延伸。业界有一种现象,不论原先是做ITSM的、做监控的还是做APM的,大家后来都转身去做了AiOps,说实话真的做得很成功吗?我觉得未必!这是一个很尴尬的事情。

所以,优维在这方面的策略相对“保守”一些,我们会在主要的产品线中加入智能的成分或者智能的功能,但我们不会对外宣称我们在做AiOps、智能运维、无人运维这种东西,我们是真正把AI的技术融到每一个产品的功能里面。

所以你会看到,我们把整体解决方案称作“智能化运维能力中台”,除此之外,优维其他的产品里并没有着重突出“智能”的概念,但是你能说我们的产品不智能吗?显然不能。因为我们确实赋予了它非常实用的智能化色彩。

Q6:现在也有一些传统IT厂商在做核心系统,它也会涉及到用AI的能力去为传统的IT系统或者解决方案赋能。优维在这个方面有什么创新性的做法吗?

黎明:很多传统IT厂商做核心系统的时候会面临传统IT系统和解决方案的AI化转型的问题,这是两种赋能的方式。

第一个方向是给现有的IT系统或解决方案赋能,在过去、现在以及未来的一两年内,作为一家提供产品和解决方案的DevOps厂商,我们还是会专注于为产品和场景注入AI能力,这是我们一直坚持深耕的方向。

第二个方向以AI能力来改变整个运维体系,或者以AI为动力去推进运维解决方案的创新,想要短期内实现还为时过早。

坦白讲,这是一个很难的事情。我们在过去几年接触了大量成熟的金融客户,也做了不少落地的AiOps项目,但是在生产环境中的使用表现并没有想象中乐观。

Q7:很多银行和传统的金融IT厂商也组建了专门做运维的团队,对金融行业而言,容量预测和异常检测在Ai赋能IT运维的过程中,哪个难度更大一些?

黎明:比如说我们在做指标监控的时候,按传统的做法需要设置系统的阈值,而部分指标的阈值是很难判定的。在这样的场景需求下,我们通过机器学习或者数据分析就可以判定出合理的阈值,通常说的异常检测,实际上就是一种基于动态基线或者动态阈值的异常检测。

当然了,具体的效果还是看具体的场景。另外,我并不认为容量预测和异常检测这两者哪一个更难一些,严格来说它们背后的技术实现难度都差不多。

Q8:优维在生产环境中应用最广泛的技术有哪些?

黎明:第一,IT资源图谱,实际上就是新一代的CMDB。因为无论是要做预测还是做自动化,都需要有IT资源的图谱数据。这个是优维应用最广泛的一个产品。另外,优维在围绕构建资源图谱相关的一些技术,比如自研的图数据库引擎,在行业内都是比较高阶的存在。

第二,DevOps。其实DevOps底层还有一个支撑——AutoOps,只有实现了自动化,才能在自动化的基础上去构建DevOps。

第三,服务观测。我们从应用的角度看运维:第一它是否健康?第二它的资源运行状态怎么样?一旦出现问题,是否可以快速帮助运维人员定位问题源头,同时判断这个事件可能会影响到什么系统?归根结底到底什么才算智能?

我认为不一定非得用到智能算法、数据分析的才算智能,只要是能提高现有的运维效率的,并且是传统工具、传统手段做不到的,都可以认为是智能。

Q9:业界普遍认为,优维的产品服务覆盖的客户比较广,优维的核心技术维度主要应用在哪些行业?这些行业对优维解决方案的需求是刚性的吗?

黎明:主要在金融行业,同时也在其他行业做了大量的布局,但我们并不会特别关注行业属性,而是侧重产品在”双态”运营中的表现。

一般来说,像金融、保险、物流等大型业态,甚至国企、央企等国家巨头企业,基本上都是处于一种稳态的现状,但是在当前的“新常态”下,稳态的同时它又要做数字化转型,这必然会带来敏态业务。

所以很多企业,无论当下它是处在敏态还是稳态,都会面临“双态运维”的场景需求,基本上优维做的就是解决稳态的问题,至于敏态,因为原生服务技术本身已经具备解决问题的能力,其实就不需要重复解决。

但我们早在去年就已经推出了SaaS化和订阅化产品,也就是逐渐被大家所熟知的HyperInsight超融合持续可观测解决方案,这款产品在行业里属于新生事物。我们认为企业IT管理中所面临的问题和需求,是可以被标准化和针对性解决的。

对于企业的敏态需求,我们的SaaS产品输出的是开箱即用的精细化套件式服务,体量小,开发需求轻量化,但解决问题快准狠。这很符合优维科技的产品哲学,我们很乐于把技术创新精神发挥在客观实际当中,去解决实实在在的问题。

Q10:就敏态来说,现在很多企业都是混合IT的架构,会涉及跨云管理需求,那么优维在这方面有没有提供相关的解决方案?

黎明:优维目前没有“跨云管理”或者“多云管理”平台产品,但是我们的IT资源图谱是完全可以横向覆盖敏态和稳态管理要求的。

因为无论是敏态还是稳态,它们的应用都离不开IT资源的支撑,云上资源也好,本地自有资源也好,支撑资源和应用组成资源图谱,然后再做自动化衍生场景,逻辑上归根结底都是相通的。

Q11关于分布式系统、算法、数据管理等,优维有没有比较突出的、先进性的概念或理念?优维最大的优势和技术特点是什么? 

黎明:首先,优维把数据治理的理念引入运维体系建设中,把IT资源图谱作为驱动整个运维体系的主数据中心,这个理念在业界是领先的。因为通常情况下大家很难想到运维数据之间到底有什么必然的联系,但我们对这个梳理得很清楚。

第二,围绕着资源图谱,我们有自主可控的自有技术,包括但不限于基于图谱数据库的存储引擎、基于图谱的查询等完全自主知识产权的技术。

第三,我们具备“能力化”的建设能力,优维带给客户的不是具体的哪个产品或功能组件,而是赋予其能力。

第四,优维特别注重场景建设,我们赋予客户的能力一定要用到场景里去,离开场景谈能力是一种空谈。例如我们面向场景开发的护网、巡检、切换等微应用,对于客户来说是非常有价值的。

第五,优维在交付方案和产品的同时,也非常注重给客户进行DIY赋能。例如我们运维的低代码开发平台,本质上就是提供给客户的技术工具,客户借助低代码平台技术可以定制自己的微应用,从而满足其频繁变动的运维需求。

“授人以鱼”也“授人以渔”,这是优维在过去的六七年中总结出来的服务理念和产品思路

Q12:未来的三到五年,AiOps的规划方向在哪里?AI在实际的运维场景中还会有哪些拓展?

黎明:现在运维数字中台的技术已经非常成熟了,在未来的三五年的发展中一定会是普及的趋势,也会有越来越多的企业逐渐认识到数据治理、数据运维在整个运维体系中的重要性。

优维在AI运维场景领域的拓展方向一定还是“赋能”,我们有个理想叫“AI anywhere”,就是把AI技术用到每一个角落里去,不断落地“大场景,小AI”的运维哲学。

如果说AI领域技术有所突破的话,我们肯定也会跟进。

但就目前而言,AI技术还不具备思维能力,虽然在日常生活场景中我们可以做到指纹识别、人脸识别、声音识别等等这些识别动作,但对于运维行业来说,我们还在等待AI技术质的飞跃,期待AI真正能为我们的运维业务带来思考和决策的能力,这个才是AiOps最为浪漫的时代。

目前的AI技术离那一天还有很长的路要走,我们会持续努力。

伴随着大数据平台、机器学习等关键技术的日臻完善,智能运维势必乘风而起,成为运维领域未来的重点演进方向。目前,智能运维在国内仍处于初始发展阶段,但从Gartner发布的IT运营技术成熟度曲线变化来看,智能运维在国内的发展快于全球的进展。这既是巨大挑战,同时也是全新机遇,或将实现国内运维发展从跟随到引领的重大跨越。

知大势,行致远,我们在智能运维的大道上一起向未来!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/32291.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

美食杰项目 -- 菜品信息(五)

目录前言:具体实现思路:步骤:1. 展示美食杰菜谱大全效果2. 引入element-ui3. 代码总结:前言: 本文给大家讲解,美食杰项目中 实现菜品信息页的效果,和具体代码。 具体实现思路: 跳转…

[附源码]java毕业设计疫情防控期间人员档案追寻系统设计与实现论文

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

bash shell 初体验-尚文网络xUP楠哥

~~全文共1139字,阅读需约5分钟。 进Q群11372462,领取专属报名福利,包含云计算学习路线图代表性实战训练大厂云计算面试题资料! # bash shell 简介 我们在操作Linux系统时,绝大部分情况是通过命令行的方式输入指令,Li…

小型企业建立人力资源团队的 5 个步骤

作为小企业主,设置人力资源运营可能不是您的首要任务。但是,随着您扩大运营规模和员工人数,您可能会遇到合规性和员工敬业度问题,从而阻碍您的业务增长。组建一个团队来照顾您的人力资源运营和员工可以让您专注于改进您的产品和满…

【JVM】字节码技术:手撕 多态执行原理

一、源文件 package org.example.classLoading;import java.io.IOException; /*** 演示多态原理,注意加上下面的 JVM 参数,禁用指针压缩* -XX:-UseCompressedOops -XX:-UseCompressedClassPointers*/ public class PolymorphicTest {public static void…

【序列召回推荐】(task2)序列召回GRU4Rec和faiss使用

学习总结: 一般的RNN模型我们的输入和输出是什么,我们对RNN输入一个序列 X[x1,x2,...,xn]X [x^1,x^2,...,x^n]X[x1,x2,...,xn] ,注意我们序列中的每一个节点都是一个向量,那么我们的RNN会给我们的输出也是一个序列 Y[y1,y2,...,…

[附源码]SSM计算机毕业设计江苏策腾智能科技公司人事管理系统JAVA

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

.net----特性

特性特性的概念和使用特性(Attribute)特性形式特性类参数预定义通用特性类ConditionalAttribute类ObsoleteAttribute类AttributeUsageAttribute类全局特性自定义特性类使用反射访问特性特性的概念和使用 特性(Attribute) 特性类&…

http请求报头header

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 目录 前言 一.认识请求报头(header) 1.Host 2.content-length 3.content-type 常见的三种格式 小结 二.User-Agent(简称UA) 三.Referer 四.C…

进程创建进程终止进程等待

目录前言一、进程创建1.fork()函数(1)fork()函数的基本认识进程调用fork()函数之后,控制权转移到内核中的fork()代码之后,内核做了啥?(2)实验:使用fork()函数创建进程(3&…

跨境电商卖家必知的【圣诞节营销】终极指南(一)

关键词:圣诞节营销、跨境电商卖家 不知不觉又到了年底,而对于跨境电商来说也是非常重要的一段促销时期,也许您已经制定了相关的圣诞节营销大促,但今天我们还是想告诉您一些2022年非常棒的销的创意想法,希望能帮助您提升…

Spring Cloud Alibaba(四)

openFeign配置日志 一、openFeign的日志级别: NONE:不记录日志 (默认). BASIC:只记录请求方法、url、响应状态码和执行时间。 HEADERS:在basic的基础上,增加请求和响应头 FULL:记录请求和响应的头、body…

PyTorch搭建RNN联合嵌入模型(LSTM GRU)实现视觉问答(VQA)实战(超详细 附数据集和源码)

需要源码和数据集请点赞关注收藏后评论区留言私信~~~ 一、视觉问题简介 视觉问答(VQA)是一种同时设计计算机视觉和自然语言处理的学习任务。简单来说,VQA就是对给定的图片进行问答,一个VQA系统以一张图片和一个关于这张图片形式自…

用HTML+CSS+JS写的切水果小游戏它来了

前言 切水果游戏曾经是一款风靡手机的休闲游戏,今天要分享的就是一款网页版的切水果游戏, 由HTMLCSSJS实现,虽然功能和原版的相差太大,但基本的功能具备,效果逼真。感兴趣的小伙伴可收藏学习(完整源码在文…

Heterogeneous Parallel Programming 异构并行编程 - UIUC伊利诺伊大学(持续更新)

Lecture 11.2 Introduction to Heterogeneous异构1.3 Portability and Scalability1.4 Introduction to CUDA 数据并行化 and 执行模型1.5 Introduction to CUDA 内存模型 and 基本函数API1.6 Introduction to CUDA Kernel-based SPMD1.7 更高维的Grid的Kernel-based SPMD例子1…

Linux的基本协议与他的堂兄堂弟

14天学习训练营导师课程: 互联网老辛《 符合学习规律的超详细linux实战快速入门》 努力是为了不平庸~ 学习有些时候是枯燥的,但收获的快乐是加倍的,欢迎记录下你的那些努力时刻(学习知识点/题解/项目实操/遇到的bug/等等&#xf…

教程一 在Go使用JavaScript、HTML和CSS构建Windows、Linux、MacOSX跨平台的桌面应用

Energy是Go语言使用JavaScript、HTML和CSS构建跨平台的桌面应用程序可用于构建跨平台的桌面应用内嵌 Chromium CEF 二进制 环境安装 Energy 命令行工具 使用命令行工具自动安装Energy框架的所有依赖(CEF),支持Window、Linux、MacOSX 安装过程从网络下载CEF和Energy…

二、vue基础入门

一、vue简介 1.1、什么是vue 官方给出的概念:Vue (读音 /vjuː/,类似于 view) 是一套用于构建用户界面的前端框架。 1.2、vue的特性 vue框架的特性,主要体现在如下两方面: 数据驱动视图双向数据绑定 1.2.1、数据驱动视图 在…

高灵敏度艾美捷小鼠肿瘤坏死因子α-ELISpot试剂盒

肿瘤坏死因子-a(TNF-a)由许多不同的细胞类型产生,例如单核细胞,巨噬细胞,T细胞和B细胞。在TNF-a的许多作用中,有针对细菌感染,细胞生长调节,免疫系统调节和参与败血症性休克的保护。…

现代气象仪器 | 太阳辐射测量

南京信息工程大学 实验(实习)报告 实验(实习)名称 现代气象仪器 实验(实习)日期 10.28 得分 指导老师 学院 电信院 专业 电子信息工程 年级 2020 班次 4 姓名 学号 20208327 实验…