文末附有本场专题演讲视频
2023第五届双态IT北京用户大会擎创科技专场演讲回顾(二):《云内外一体化智能监控构建之路》演讲嘉宾:擎创科技产品线总监 殷传旺
一、前言:企业运维自然推进or独立发展?
我们从很多客户处看到,在云原生发展的过程中,每有一个业务上云就可能会启用一套Prometheus(或CK、Sky walking)工具去进行监控,久而久之就出现了很多监控工具,它们的数据游离在传统监控之外,使得监管变得十分困难。那么云原生领域下,企业运维监控的构建会是基于传统监控框架继续发展、自然演进,还是应该重新搭建独立造轮子?
分布式、云原生的快速发展,带来了很多技术上的革新,如更优雅的弹性结构、更灵活敏捷的调度方式、更完善的治理流程等,但凡事皆有利弊,它们同样也带来了更多新的复杂性和挑战:
-
从广度上看,微服务单元数呈现指数级增长,单元间关联关系庞杂,系统内部变更趋向动态化,架构日益复杂。
-
从深度上看,技术栈不断加深,故障点可能出现在任何地方,生产事件造成的影响越来越大,系统复杂性急剧提升。
因此,企业对云原生运维监控的要求也水涨船高↓↓↓
-
在数据层面
对监控数据的质量要求能够支撑复杂问题排障,能够跨域关联支撑运维分析并保证从开发到存储分析都能保证性能与稳定;
-
在体系层面
对运维监控体系要求能够明确边界和颗粒度,能够在容器环境下保证监控策略的稳快,能够确保多样化的开源工具既能在各自领域蓬勃发展,又能成为一体化统一监控体系内的能力拼图。
-
如何破局
擎创认为,以近年常被提到的“可观测性”来应对云原生监控难题,或许是一种不错的解法。用在这里的可观测是需要通过一种高度统筹的方式,将所有可观测的特征数据进行整合,创造出决策闭环,来提升组织决策的有效性。(主要包含的数据无外乎还是指标、调用链(Trace)、日志三大重要特征数据)
二、企业如何应对云原生带来的挑战
企业运维监控面对云原生带来的挑战,迫切的需要能够将数据关联打通壁垒,我们认为想要使监控走向数据驱动的模式,需要六大数据能力使之实现↓↓↓
01数据模型
按照不同数据域进行数据建模,支撑快速构建上层运维场景
02数据采控
统一且开放地采集跨越云内外的指标、日志、链路等数据
03数据服务
针对贴源数据,提供高效、稳定的端到端数据开发服务;针对核心层数据提供统一的数据访问服务
04数据质量
符合时效性、完整性、正确性、合规性等数据标准以及管理规范
05数据存储
湖仓一体架构,满足时序、关系、结构化等不同类型数据的存储需求,按需进行分类、分级存储
06算法服务
以高质量数据为基础,提供指标、日志、拓扑等不同效用算法,洞见数据价值
三、数据能力举例—数据模型
从数据模型中的指标域来展开讲讲:一些企业因为监控工具的分散,比如云外使用的是Zabbix,云内使用的是Prometheus,导致描述同样一个主机的CPU指标完全不一样,消费方就很难进行判断和使用,这就严重影响了运维的效率。
其实某些技术类指标可以先根据对象属性进行分层和分级,然后再根据管理属性去进行拓展分类。这样处理过的指标数据在使用时,不需要去确认来源和采集方式,它们的标签一致、含义一致,可以完全满足消费方的需求,提供应有的数据价值,确保运维效率的快、准、稳。
关于运维监控的分享先到这里了,更多现场细节,戳下方视频,可一键直达了解~
云内外一体化智能监控构建之路
关注微信视频号-擎创夏洛克AIOps,更多专场视频尽在其中
擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。
行业龙头客户的共同选择
了解更多运维干货与技术分享
可以右上角一键关注
我们是深耕智能运维领域近十年的
连续多年获Gartner推荐的AIOps标杆供应商
下期我们不见不散