2023年大数据场景智能运维实践总结

news2024/11/16 11:41:20

作者:放纵

引言

在当今数字化世界中,如何充分挖掘和发挥数据价值已经成为了企业成功的关键因素,大数据也成为企业决策和运营的重要驱动力。在《当我们在谈论DataOps时,我们到底在谈论什么》一文中也提到,企业在面对到数据量巨大、数据种类繁多、数据急剧增长的困境时,如果不能对数据进行有序的组织和管理,非但不能产生数据价值,反而会引起企业的“数据灾难”,这也正是DataOps存在的价值。将DataOps思想进行工程化落地实践,统一建设高效规范的数据模型和数据体系,基于数据驱动的思想,真正解决生产过程中遇到的痛点问题。

但在真实的大数据运维实践中,我们也深刻的感受到,即使按照DataOps的数据管理和数据运维的方法论,建立了规范标准的数据运维平台,但依赖人工的故障排查定位以及故障处理恢复仍旧变得越来越困难,这也是DataOps的局限性。尤其是像在面对到海量数据可观测性分析、异常发现、故障根因定位、智能自愈等诸多场景下,DataOps都面临不小的困境和挑战,难以满足企业智能运维发展的需要。

因此,为了应对现代运维领域所面临的诸多挑战,AIOps的运维思想应运而生。关于AIOps(Artificial Intelligence for IT Operations,IT智能运维)的定义Gartner早就给出过更详尽的阐述,本文不做过多展开。我们所理解的AIOps是指结合大数据和 Machine Learning,将包括运维数据的采集和处理、异常检测、事件关联、异常诊断以及故障恢复等在内的 IT 流程自动化,从而减少平均修复时间(MTTR)或平均检测时间(MTTD)。此外,我们需要强调的是DataOps和AIOps是两种不同的运维思想,但是二者又相辅相成,可以更加全面的为企业发展提供数字化、自动化、智能化运营的支持。

在这里插入图片描述

基于这个背景,本文将探讨在大数据场景下,通过DataOps和AIOps的结合,建设符合业务需要的智能运维平台,以满足大数据产品在自动化、智能化运维方面的诉求。同时结合我们在智能运维场景的一些最佳实践,可以更加深刻的感受到AIOps为大数据智能运维领域带来了全新的可能性。

ABM智能化运维体系

ABM(apsara big data mananger )作为一个“飞天大数据AI管控平台”,算得上是较早进行AI研究和投入建设的大数据运维平台之一。与早期的“烟囱式”、高门槛、定制化的情况相比,经过多年的大数据产品业务实践和功能演进,已经建设成为一个面向服务不同角色用户、提供端到端的产品化使用体验的智能化运维服务体系。整个数智服务体系包括数据运维平台(DataOps)智能运维平台(AIOps)智能运维场景服务以及依赖的中台基础服务组件

在这里插入图片描述

数据运维平台(DataOps)

数据运维平台的核心是大数据运维数仓,依赖大数据平台(MaxCompute、Flink以及Hologres等)构筑运维数仓,进行数据建模,把实体、实体拓扑、指标、日志、调用链、事件等海量运维数据进行统一管控。作为数智运维体系的基石,为上层提供规范标准的数据支持。

ABM中台

ABM中台为数智服务体系建设提供了必要的基础服务组件,作为整个数智服务体系的粘合剂,包含了像采集服务、作业服务、通用诊断框架、工单服务以及通知服务等,它们为体系的高效运作提供了技术支持和保障。

智能运维平台(AIOps)

智能运维平台是达成自动化、智能化运维的关键,提供了一站式的智能运维解决方案。整个智能运维平台包括两部分内容:算法服务平台解决方案平台

  • 算法服务平台:主要面向算法研发和工程研发人员,自下而上分成智能引擎层、算法服务层和服务管控层。智能引擎层作为算法实例的部署载体,具备可插拔的能力,目前优先支持了BentoML框架和PAI-EAS平台;算法服务层包含了大量的算法实例,满足上层对各类算法的需求。这一层主要面向算法研发人员,用于开发灵活通用的算法实例,包括集成了基于通义千问的大语言模型;服务管控层提供了平台工程能力,比如服务鉴权、算法实例管控和服务限流、统一的API服务以及运营监控等,通过规范标准的算法使用文档对算法细节进行屏蔽,提高算法服务的易用性和灵活性,降低用户的使用门槛。
  • 解决方案平台:主要面向工程研发和SRE业务运维人员,基于算法服务平台的算法能力,结合大数据产品的业务痛点,按照产品化的建设思路,集成了运维领域通用的解决方案,满足不同业务场景的智能运维需求,为SRE带来产品化的使用体验和稳定的工程能力。

通过上述介绍可以看出,智能运维平台按照功能的高内聚、低耦合性和所面向的用户角色进行了架构分层设计,将需要依赖算法知识和工程能力的部分封装在算法服务平台,并通过解决方案平台屏蔽了算法的使用细节和复杂度,以通用运维解决方案的形式将算法服务的能力暴露出来,使得不同的用户角色可以更加专注于自己所擅长的领域。

智能运维场景

智能运维场景的建设,最终还是要围绕运维工作的本质,解决“稳定性、成本、效率”领域的相关需求。通过数智运维平台和相关的中台服务组件,针对现阶段难以解决的业务痛点,SRE运维人员有了一套新的解决问题的思路和途径,可以以更低成本、更加灵活、更加高效的手段,应对运维工作中的诸多挑战,保障业务的持续发展。到目前为止已经沉淀了几十个业务相关的智能运维场景,涵盖了团队负责的多个核心大数据产品。

ABM智能化运维实践

依托ABM的智能化运维体系,在日常大数据产品的运维工作中, 团队沉淀了很多优秀的智能运维领域的案例。下面通过几个经典案例的分享,希望能让大家直观的感受到ABM在智能运维领域的成果,更好的体现智能化运维体系的价值。

Flink集群热点机器

关于热点机器的定义,我们在 《SREWorks数智服务尝鲜,你的数据准备好了吗?》 有过介绍。当时更多的是从机器的物理水位指标出发,构建机器的“物理画像”,找到离群机器,发现集群的热点机器。但在真实的业务场景中我们发现,虽然从物理指标上来看,机器确实已经处于热点机器的范畴,但实际情况却是运行在这部分机器上的任务并没有任何异常。

我们以Flink产品为例,按照之前的机器“物理画像”的模式,如果机器被确定为热点,那么SRE会把运行在该机器上的Job进行重新调度,以此来消除热点机器可能导致的稳定性隐患。在这个过程中,由于没有关注机器上Job的运行状态,经常会导致正常运行的Job被人为干预,引起Job的运行中断。为了降低对线上业务的影响,提高系统的稳定性,我们首先把相关的实体数据和指标数据接入数据运维平台,其次基于算法服务平台的时间序列异常检测算法进行机器物理指标和业务指标的异常检测,将潜在的热点机器筛选出来;然后根据机器和运行在其上的Job的拓扑关系,结合异常指标数据,进行关联的根因诊断;最后按照集群层面,发现集群存在的热点机器并推送给业务SRE。更进一步,SRE一旦有了集群的热点机器数据就可以基于通用自愈服务,进行热点机器的自动化处理,无需人工干预。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

ChatOps智能助理

目前计算平台的大数据产品不论在公司内部还是公有云上都有广泛的用户群体,在产品的运行使用过程中,无论是产品本身还是用户使用层面,难免会存在各种各样的问题。而随着用户体量的不断提升,技术支持人员的答疑工作量也显著增加,尤其面对一些相似问题,严重降低了工作效率。为了解决当前的困境,提高答疑效率,降低技术支持人员的压力,我们对外提供了ChatOps智能助理服务,通过答疑机器人实现自助答疑的能力。

ChatOps智能助理通过智能问答场景与机器人关联方式,灵活管控机器人所使用的知识库范围。ChatOps通过智能解决方案平台,目前对接了三个主要的智能问答引擎:

    • 日志知识库:利用日志聚类算法对海量原始日志进行高效压缩,把海量的原始日志聚合成数量有限的日志类别,研发、运维等技术人员可以按照日志类别结合专家经验,为具体的日志类别标注对应的解决方案,形成日志知识库。
    • QA语料库:将来自包括但不限于产品的文档和使用手册、技术支持人员历史工单等半结构化或非结构化数据,构建FAQ的知识库,形成机器人的QA语料库。
    • 大语言模型:算法研发同学,基于大语言模型进行训练,使其具备大数据产品智能问答的能力。目前基于阿里内部孵化的通义千问进行建设,已经投入生产使用。

在这里插入图片描述

基于ChatOps智能助理服务,用户的相关问题可以直接通过答疑机器人进行解决,极大的减少技术支持人员的答疑工单量,显著提升答疑效率和用户体验。

MaxCompute计算资源配置推荐

阿里云MaxCompute提供了三种计费方式:包年包月、按量计费和按时计费,用户可以结合业务的实际情况和MaxCompute提供的TCO选型工具,选择合适的付费方式。但对通过包年包月方式付费的用户来说,固定计算资源配额Quota的方式存在两方面的问题:成本浪费和作业产出SLA。一方面,用户为了保障少部分关键作业产出的SLA,通常会配置充裕的计算资源Quota,导致计算资源大部分时间处于闲置状态,造成成本浪费。另一方面,用户为了降级成本,人为削减Quota,极有可能导致关键作业无法按时产出,对业务产生不必要的影响。

因此,我们通过结合实际作业资源用量和用户资源配置的期望,对包年包月的计算资源Quota生成更优的动态配置推荐方案,进一步帮助用户节省计算资源的成本,实现降本增效的目标。

下面是计算资源优化的基本逻辑:

    • 根据具体Quota历史行为(通常是30天的历史数据)通过预测算法服务进行识别,提取该Quota每天的用量模式
    • 用户结合自身的业务特征和SLA要求,设定若干条优化目标以及每条优化目标可容忍的延迟时间
    • 设计实现动态变配推荐算法,基于预测的Quota用量模式,优先保障用户的优化目标,按照固定预留CU和弹性预留CU总成本最优原则,推荐变配方案。

关于计算资源动态配置的更多细节和案例,推荐关注阿里云官网MaxCompute《计算资源优化推荐》和《使用成本优化功能实现降本增效》两部分内容。

https://help.aliyun.com/zh/maxcompute/user-guide/computing-resource-optimization-recommendations

https://help.aliyun.com/zh/maxcompute/use-cases/use-cost-optimization-to-achieve-cost-reduction-and-efficiency-enhancement

总结

本文首先介绍了目前大数据场景下运维所面临的问题和挑战,并探讨了AIOps在大数据运维领域的必要性以及智能化运维所带来的优势,然后介绍了ABM在大数据场景下的智能化运维体系的架构和建设思路,进一步从稳定性、效率和成本三个方面分享了我们在智能化运维实践中所构筑的几个典型场景,让读者对智能化运维能有一个更加直观感受。最后我们也希望对AIOps有兴趣的同学,一起探讨更多智能化运维建设思路和更多的可能性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1272753.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

开关电源基础而又硬核的知识

1.什么是Power Supply? Power Supply是一种提供电力能源的设备,它可以将一种电力能源形式转换成另外一种电力能源形式,并能对其进行控制和调节。 根据转换的形式分类:AC/DC、DC/DC、DC/AC、AC/AC 根据转换的方法分类:线性电源、…

Docker篇之利用docker搭建ftp服务器可实现多用户上传

一、前言 场景:公司需要搭建FTP服务器,供内网之前可以互相传递数据,安全稳定,需要满足开通多个账号,每个用户上传的文件有自己对应的文件目录。 这里建议:用户目录Disk尽量大一点,避免因为空间不…

滴滴2023.11.27P0级故障技术复盘回顾(k8s的的错?)

本文从滴滴官方恢复及技术公众号带大家从技术角度复盘这次事故 目录 1. 背景 2. 滴滴官方消息 3. 问题分析及定位 4.网传的k8s及解析 5.k8s引发的思考:举一反三,怎么避免再次出现 6.近段时间其他平台崩溃回顾 1. 背景 11 月 27 晚约 10 点&#xf…

【Openstack Train安装】六、Keystone安装

OpenStack是一个云计算平台的项目,其中Keystone是一个身份认证服务组件,它提供了认证、授权和目录的服务。其他OpenStack服务组件都需要使用Keystone来验证用户的身份和权限,并且彼此之间需要相互协作。当一个OpenStack服务组件接收到用户的请…

FastDFS+Nginx - 本地搭建文件服务器同时实现在外远程访问「内网穿透」

文章目录 前言1. 本地搭建FastDFS文件系统1.1 环境安装1.2 安装libfastcommon1.3 安装FastDFS1.4 配置Tracker1.5 配置Storage1.6 测试上传下载1.7 与Nginx整合1.8 安装Nginx1.9 配置Nginx 2. 局域网测试访问FastDFS3. 安装cpolar内网穿透4. 配置公网访问地址5. 固定公网地址5.…

智安网络|发现未知风险,探索渗透测试的奥秘与技巧

在当今信息时代,网络安全已成为组织和个人面临的重大挑战。为了保护网络系统的安全,渗透测试成为一种重要的手段。 一、渗透测试的基本原理 渗透测试是通过模拟黑客攻击的方式,对目标系统进行安全评估。其基本原理是模拟真实攻击者的思维和行…

特征变换1

编译工具:PyCharm 有些编译工具不用写print可以直接将数据打印出来,pycharm需要写print才会打印出来。 概念 1.特征类型 特征的类型:“离散型”和“连续型” 机器学习算法对特征的类型是有要求的,不是任意类型的特征都可以随意…

数据结构:图文详解顺序表的各种操作(新增元素,查找元素,删除元素,给指定位置元素赋值)

目录 一.顺序表的概念 二.顺序表的实现 新增元素 默认尾部新增 指定位置添加元素 查找元素 查找是否存在 查找元素对应的位置 查找指定位置对应的元素 删除元素 获取顺序表长度 清空顺序表 一.顺序表的概念 在线性数据结构中,我们一般分为俩类&#xf…

【电源专题】DC/DC电源FB分压电阻设计注意事项

在DC/DC电源中我们不可避免的会遇到FB分压电阻的取值,PCB设计等问题。如下所示随意打开一份同步降压稳压器规格书TPS56320X,规格书中的简化电路原理图就已经存在VFB管脚上的两个分压电阻。 很多工程师朋友们会误认为分压电阻只是简单的将输出电压缩小到参考电压,通过此电压来…

网狐类源码游戏配置数据库数据(一键配置网狐数据库)

网狐类源码游戏配置数据库数据(一键配置网狐数据库) 一般拿到网狐的源码或组件,需要先附加或配置数据库,以下为全部需要更改数据的地方,这里以荣耀系列版本数据库为例: 1. 数据库设置 [RYPlatformDB].…

文档理解的新时代:LayOutLM模型的全方位解读

一、引言 在现代文档处理和信息提取领域,机器学习模型的作用日益凸显。特别是在自然语言处理(NLP)技术快速发展的背景下,如何让机器更加精准地理解和处理复杂文档成为了一个挑战。文档不仅包含文本信息,还包括布局、图…

STM32CubeIDE(CUBE-MX)----快速移植FreeRTOS实战

文章目录 前言一、Freertos可视化配置二、生成代码三、实验现象总结 前言 FreeRTOS(Real-Time Operating System)是一个开源的实时操作系统内核,专注于嵌入式系统。它提供了一套用于管理任务、调度器、内存管理等的实时操作系统功能&#xf…

OSG编程指南<十七>:OSG光照与材质

1、OSG光照 OSG 全面支持 OpenGL 的光照特性,包括材质属性(material property)、光照属性(light property)和光照模型(lighting model)。与 OpenGL 相似,OSG 中的光源也是不可见的&a…

MSUSB30模拟开关可Pin to Pin兼容FSUSB30/SGM7222

MSUSB30/MSUSB30N 是一款高速、低功耗双刀双掷 USB 模拟开关芯片,其工作电压范围是1.8V 至5.5V。可Pin to Pin兼容FSUSB30/SGM7222。其具有低码间偏移、高通道噪声隔离度、宽带宽的特性。 MSUSB30/MSUSB30N 主要应用范围包括:具有 USB2.0 接口的手持设备…

天眼销:超有用的企业获客工具

天眼销是资深数据团队开发的一个客户资源查询平台,可以通过多重筛选:企业名称/信用代码,所在地区,行业,注册资本,年限,是否在营/有电话/邮箱等。 天眼销和某查查有什么区别? 天*查/…

python高级练习题库实验1(A)部分

文章目录 题目1代码实验结果题目2代码实验结果题目3代码实验结果题目4代码实验结果题目总结题目1 输入一个整数,用于控制输出*的个数,输入日期,按照特定格式输出 研究下面的例子,并编写一个与这些例子完全相同的程序。 代码 import datetime# ask user for length of b…

STC15-串口通信打印输出数据printf函数与sprintf函数

STC15-串口通信打印输出数据printf函数与sprintf函数 1.打印输出数据有二种printf函数与sprintf函数,不同之处有:(1)函数的声明不同(2)函数的功能不同(3)用法举例 该问题引用百度知道…

记i18n ally工具检测语言失败的一则思路

情况 只有某个文件检测不到汉字,其余都可以检测出来,困扰许久,发个博客记一下思路 解决方法: 1、肯定不是i18n ally工具的问题,因为其他的vue都能检测成功 2、是这个文件的问题 采用排除法 先删掉所有代码&#…

建文工程项目管理软件 SQL 注入漏洞复现

0x01 产品简介 建文工程管理软件是一个适用于工程投资领域的综合型的多方协作平台。 0x02 漏洞概述 建文工程项目管理软件BusinessManger.ashx、Desktop.ashx等接口处存在SQL注入漏洞,攻击者可通过该漏洞获取数据库中的信息(例如,管理员后台…

禁奥义·SQL秘籍

sql secret scripts sql 语法顺序、执行顺序、执行过程、要点解析、优化技巧。 1、语法顺序 如上图所示,为 sql 语法顺序与执行顺序对照图。其具体含义如下: 0、select: 用于从数据库中选取数据,即表示从数据库中查询到的数据的…