企业级数据平台为什么要“可观测”? | StartDT Hackathon

news2024/11/22 22:00:53

近日,奇点云黑客马拉松“StartDT Hackathon”正式收官。

这期黑客松以“可观测性”为核心选题,旨在通过加强数据云平台DataSimba的可观测性,提升企业用户“自交付、自运维”的易用性和友好度,降低运维门槛,提升发现、定位并解决问题的效率。

 

企业级数据平台为什么要“可观测”?

企业级数据平台(数据云平台/云数仓/数据中台等同类数据基础设施)往往非常复杂,所涉及到的作业、任务、资源众多。一旦出现问题,运维工程师就需要扑入硬件、服务、业务的汪洋大海。有经验的“蝙蝠侠”能在数小时内定位问题,而对平台及其业务作业不够熟悉的用户,排查故障则犹如大海捞针。

实事求是,无论多么成熟稳定的平台,都可能会出问题。平台用得越多、越深,出现问题的次数就可能越多。然而,一家企业也很难同时拥有好几位专业“蝙蝠侠”,要求他们处理繁杂而基础的日常运维工作。

这就是“可观测性”要解决的问题。

Gartner在“2023年十大战略技术趋势”中这样解释应用可观测性(Applied Observability):在任何相关方采取任何类型的行动时,都会产生包含了数字化特征的可观测数据,如日志、痕迹、API调用、停留时间、下载和文件传输等。应用可观测性以一种高度统筹和整合的方式,将这些可观测的特征数据进行反馈,创造出一个决策循环,从而提高组织决策的有效性。

简而言之,对于企业级平台来说,真正具备“可观测性”意味着:

  1. 通过关键指标,用户可以精准、快速、全面地了解平台的硬件、进程、业务等整体状态,获得可能发生异常的预警提示,防患于未然。
  2. 出现故障后,能第一时间帮助用户快速定位故障所在,并针对性指导解决。
  3. 运维巡检周期化,能快速响应紧急的动态变化,而不依赖人工报告。

“客户对DataSimba(奇点云数据云平台)的使用越来越深,越来越‘狠’,通过DataSimba完成大量的数据工作。为配合高强度的使用,有越来越多的客户倾向于自交付、自运维。也就是说,相比往常遇到问题通过奇点云工程师来解决,他们更希望能自主识别问题并排查。”

奇点云CTO、资深技术专家地雷介绍,“因此在DataSimba中,我们针对不同类型的用户做了2个模块的设计——运维工程师通过PE平台,可以了解系统的稳定性,关注服务、组件是否正常,系统资源是否够用;数据开发则可以通过系统里的运维频道来确认任务是否正常运行。”

围绕平台“可观测性”提升,“磐石”组、“年夜饭”组各自交出了答卷。

指标全覆盖,诊断无死角

磐石组将其项目命名为“天眼”:运维工程师不能7*24小时“开天眼”排查问题,但系统或许可以。

磐石组以DataKun(奇点云数据存算引擎)为切入点,设计了基础监控数据指标体系,建设了完善的集控看板与诊断工具——覆盖了硬件、服务、业务三大层面,常见问题基本完全覆盖,监控全面无死角。

举个例子,通过“硬件集控看板”,CPU、内存、网络、磁盘状态一目了然;又如,想了解作业运行状态,就看“作业运行看板”。看板上呈现了作业运行的成功/失败等状态,以及这些状态下作业的数量、增长趋势、资源消耗等。从而对现状作出判断,譬如,等待作业如果过多,可能是算力不足导致的。

(硬件集控看板)

同时,磐石组引入了TezUI,针对性解决Tez作业监控难的问题。

磐石组表示:“Hive on Tez是常用的任务类型,但其执行机制复杂。当任务报错或发现运行过于缓慢想定位问题时,却会遇到日志排查效率低、组件指标数据收集困难等障碍。TezUI基于作业metrics(指标),不仅能精准高效地分析作业问题,可视化的运维工具也降低了定位问题的门槛。”

“以往企业定位问题常见的做法是:人肉看日志,手动做图表,找到异常点,再返回排查这个时间点前后发生了什么。而目前我们的基础指标基本覆盖了所有部件的状态,如果遇到问题,就能通过看板针对性发现问题。”组长曦光介绍,“排查一个问题,不需要看两个地方,也不再需要人肉收集数据分析。”

关注作业时延,监控再升级

与磐石组着眼于故障发生后的问题定位、排查不同,年夜饭组选择聚焦“事中监控”,希望通过对事中状态的归纳总结,帮助提前定位可能有问题的作业,“防患于未然”。

“我们发现,有越来越多的客户通过DataSimba跑小时调度任务,这类任务对作业运行时长这一指标更为敏感。”组长破破介绍,“我们针对性选择了任务时延等相关指标,以加强对作业粒度的监控和告警。”

“作业不一定跑失败了,只是跑得慢,跑得接近临界值。这种情况通常不被注意,但它在下一个周期或许就会超时。因此我们希望早发现、早定位、早‘治疗’。”年夜饭组提出了2组指标,帮助抓出“有问题”的作业:

  1. 24小时内作业实例运行时长延误TOP:以作业为单位,根据实际运行时长减去平均时长,计算出任务时延,再对月调度、天调度、小时调度的延误TOP进行排行榜降序排序。
  2. 本日调度耗时最长作业实例:统计每小时内耗时最长的作业实例,绘成折线图,辅助用户判断每小时内实例是否执行正常。

(作业时长看板)

此外,年夜饭组新增了“任务完成情况告警”与“全项目监控”功能,前者定时将作业实例执行情况推送至用户侧,用户无需登录平台,就可得知本日任务是否成功;后者则旨在监控Workspace(工作空间)下所有项目状态,便于用户了解全貌。

“监控系统对主系统的扰动性要足够小。通常来说,监控框架会采集底层日志,再聚合数据、形成图表,这些环节都会有资源消耗。为不影响主系统,监控系统的资源消耗应在可控范围内。”资深技术专家、评委牧然补充道。“对于年夜饭组,其作业运行监控的核心指标主要来自元数据,而无需另外采集,就不会对主系统本身造成压力。”

把“蝙蝠侠”装进产品里

正如前文谈到的,一家企业通常无法拥有足够的资深运维“蝙蝠侠”——他们不仅需要解决复杂的偶发性难题,还需要日以继夜处理繁琐的基础问题。同时,因人手有限,也往往很难第一时间响应所有数据开发遇到的困难,帮助他们排查作业失败的原因所在。

磐石组与年夜饭组所做的,就是“把资深蝙蝠侠装进产品里”,总结常见故障及其诊断指标,把蝙蝠侠know-how产品化。企业的数据开发和运维工程师能便捷地查看自己关注的指标,自助排查、找到病因。进一步,平台还能基于异常指标,给用户以智能化的策略与建议。

而同样都是优化监控精度、提升“可观测性”与运维易用性,磐石组与年夜饭组又有哪些不同?

评委地雷表示,这2个小组的方式在实践中互为补充,缺一不可:

年夜饭组基于元数据的监控与预警如同“体检”。先总结出常见问题,提炼出能反映这些问题的关键指标,通过关键指标发现异常;磐石组深入底层采集数据进行全面分析,帮助找到根因并着手解决。

二者结合来打比方,相当于年夜饭组负责在“烧糊涂”前发现“体温过高”,磐石组则负责做“血常规”等检查,找到病因并治疗。


从关注功能到关注稳定性、可用性及架构健壮性,以DataSimba为代表产品的数据云,已真正向“企业级”数据基础设施的技术深水区迈进。

“在这个阶段,每一次迭代升级都并不来自线性逻辑的推演,而需要有全流程上下游的意识,并通过超乎你过往想象的极端压测。”地雷表示,“我们不能预设每一位企业用户都是资深的大数据研发/运维专家,而应该让奇点云的产品更皮实、更友好、更聪明、更易用,成为用户的支持者。

本次黑客马拉松呈现的只是冰山一角,未来,奇点云也将站在技术与商业的交叉点,支撑客户放心、便捷地把数据用起来。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/344403.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

4.7 反射

文章目录1.概述2.为什么需要反射3.反射需要用到的API3.1 获取字节码对象3.2 常用方法4.反射的应用4.1 创建 : 测试物料类4.2 练习 : 获取类对象4.3 练习 : 类获取构造方法4.4 练习 : 获取成员方法4.5 练习:获取成员变量4.6 练习 : 创建对象4.7 熟悉API4.7.1 创建物科…

定时任务框架xxl-job及quartz

本文主要介绍分布式定时任务框架xxl-job,本文首先会对xxl-job做一个基本的介绍,接着将xxl-job与quartz做一个比较,最后就是介绍xxl-job调度的详细过程。 xxl-job官方文档 xxl-job的介绍 xxl-job是一个开源的分布式定时任务框架,其…

若依前后端分离版集成nacos

根据公司要求,需要将项目集成到nacos中,当前项目是基于若依前后端分离版开发的,若依的版本为3.8.3,若依框架中整合的springBoot版本为2.5.14。Nacos核心提供两个功能:服务注册与发现,动态配置管理。 一、服…

【django项目开发】用户登录后缓存权限到redis中(十)

这里写目录标题一、权限的数据的特点二、首先settings.py文件中配置redis连接redis数据库一、权限的数据的特点 需要去数据库中频繁的读和写,为了项目提高运行效率,可以把用户的权限在每次登录的时候都缓存到redis中。这样的话,权限判断的中…

基于投票策略的室内家具检测:VoteNet、BRNet 最全总结

文章目录一、基本概述二、VoteNet三、BRNet四、最新研究成果一、基本概述 最近几年,基于点云的3D目标检测是自动驾驶场景研究的热点。但是,自动驾驶主要聚焦于室外场景。本文,我们主要介绍两篇文章(VoteNet,BRNet&…

HTML第一章总结

<h1~h6>标题标签 <br />换行标签&#xff08;单&#xff09; <p>分段标签 <strong>加粗标签 <em>倾斜标签 <del>删除线标签 <ins>下划线标签 <div>独占一行的布局标签 <span>进行分割的布局标签 <img>图片标签&a…

Go-micro[windows]安装以及踩坑

一.首先安装protochttps://github.com/protocolbuffers/protobuf/releases进入网址&#xff0c;点击tag&#xff0c;然后选择v3版本进入之后找到随后下载安装然后将protoc解压缩到任意目录&#xff08;自己选&#xff09;再将protoc/bin的路径放置环境变量中二.获取protoc-gen-…

RK3568 UBOOT的问题解决案例

一、UBOOT下的波特率 原始的波特率为1500000,串口工具虽然可以设置任意波特率&#xff0c;但工作时不正常。 输入不了。本文描述如何修改成115200。 二、确认UBOOT的配置 ./build.sh uboot processing option: uboot Start building uboot TARGET_UBOOT_CONFIGrk3568## make …

【C++】二叉树之力扣经典题目1——详解二叉树的递归遍历,二叉树的层次遍历

如有错误&#xff0c;欢迎指正。 如有不理解的地方&#xff0c;可以私信问我。 文章目录题目1&#xff1a;根据二叉树创建字符串题目实例思路与解析代码实现题目2&#xff1a;二叉树的层序遍历题目思路与解析代码实现题目1&#xff1a;根据二叉树创建字符串 点击进入题目链接—…

C++——多态|虚函数|重写|虚表

文章目录1. 多态的概念1.1 概念2. 多态的定义及实现2.1多态的构成条件2.2 虚函数2.3虚函数的重写虚函数重写的三个例外&#xff1a;2.4 普通调用和多态调用&#xff1a;2.5 C11 override 和 final2.6 重载、虚函数的覆盖(重写)、隐藏(重定义)的对比3. 抽象类(有关纯虚函数)3.1 …

互联网新时代要到来了(一)什么是Web3.0?

什么是Web3.0? tips&#xff1a;内容来自百度百科、知乎、搜狐新闻、李留白公众号、CSDN「Meta.Qing」博客等网页 什么是Web3.0?1.什么是Web3.0&#xff08;概念介绍&#xff09;&#xff1f;2.Web3.0简单理解3.Web3.0的技术特点4.Web3.0项目1.什么是Web3.0&#xff08;概念…

greenDao的使用文档

介绍&#xff1a;greenDAO 是一款轻量级的 Android ORM 框架&#xff0c;将 Java 对象映射到 SQLite 数据库中&#xff0c;我们操作数据库的时候&#xff0c;不在需要编写复杂的 SQL语句&#xff0c; 在性能方面&#xff0c;greenDAO 针对 Android 进行了高度优化&#xff0c; …

Ubuntu 20中安装snaphu

Ubuntu 20中安装snaphu0 前言1 snaphu安装步骤1.1 在控制台用命令行安装1.2 在官网下载安装包0 前言 snaphu是一个解缠软件。基于欧空局的SNAP snaphu的官网&#xff1a;https://web.stanford.edu/group/radar/softwareandlinks/sw/snaphu/ 1 snaphu安装步骤 大致有两种 在…

微软支持的ChatGPT激增,但不要低估苹果和谷歌

微软和 OpenAI 可能在 AI 聊天机器人爆炸式增长的市场中具有先发优势&#xff0c;但不要排除其他一些可以访问大量 AI 训练数据的科技巨头&#xff0c;例如 Apple 和 Google。 通过其对 ChatGPT 开发商 OpenAI 的早期和持续支持&#xff0c;微软在AI 军备竞赛中目前处于领先地…

鲸探玩家狂收往期数藏,2023年数藏二级市场的紧箍咒可能松动了?

图片来源&#xff1a;由无界AI绘画工具生成2月初&#xff0c;数藏发行平台鲸探更新了用户服务协议&#xff0c;更新最受关注的点在于&#xff1a;首次转赠期限从180天调整为90天。此外&#xff0c;有媒体披露&#xff0c;鲸探客服回答用户提问称&#xff0c;非首次转赠也从720天…

ITSS认证分为几个级别,哪个级别最高

​一、什么是ITSS ITSS( 信息技术服务标准&#xff0c;简称ITSS)是国内第一套成体系和综合配套的信息技术服务标准库&#xff0c;全面规范了IT服务产品及其组成要素&#xff0c;用于指导实施标准化和可信赖的IT服务。 ITSS是在工业和信息化部、国家标准化管理委员会的联合指导下…

Python 之 NumPy 统计函数、数据类型和文件操作

文章目录一、统计函数1. 求平均值 mean()2. 中位数 np.median3. 标准差 ndarray.std4. 方差 ndarray.var()5. 最大值 ndarray.max()6. 最小值 ndarray.min()7. 求和 ndarray.sum()8. 加权平均值 numpy.average()二、数据类型1. 数据存储2. 定义结构化数据3. 结构化数据操作三、…

儿童及婴幼儿产品出口美国CPC和欧洲CE认证测试标准总结

消费者越来越关注他们选购的产品安全性和质量&#xff0c;尤其是儿童和婴幼儿产品。若产品不符合安全标准和法规要求&#xff0c;可能对婴儿、幼儿和儿童造成威胁。儿童和婴幼儿产品的制造商及零售商必须严格遵守当地市场法规&#xff0c;证明其产品的安全性和质量可以满足消费…

为什么重写equals还要重写hashcode方法

目录equals方法hashCode方法为什么要一起重写&#xff1f;总结面试如何回答重写 equals 时为什么一定要重写 hashCode&#xff1f;要想了解这个问题的根本原因&#xff0c;我们还得先从这两个方法开始说起。 以下是关于hashcode的一些规定&#xff1a; 两个对象相等&#xff0…

文心ERNIE 3.0 Tiny新升级!端侧压缩部署“小” “快” “灵”!

大家好&#xff0c;今天带来的是有关文心ERNIE 3.0 Tiny新升级内容的文章。 近年来&#xff0c;随着深度学习技术的迅速发展&#xff0c;大规模预训练范式通过一次又一次刷新各种评测基线证明了其卓越的学习与迁移能力。在这个过程中&#xff0c;研究者们发现通过不断地扩大模型…