治理效率提升77%!揭秘基于DataLeap实时健康分的最佳实践

news2024/11/29 7:54:37

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

背景

某企业实时数仓团队通过数据收集、整合、计算和存储构建实时数据仓库,为企业提供快速、准确、可靠的实时数据分析和决策支持。目前该实时数仓团队已运行了上万的实时任务,依赖的组件繁多(例如:Flink、Yarn、Abase、Doris等)、开发人员众多 、开发习惯和经验程度参差不齐等各类主客观因素,导致任务稳定性、资源浪费等问题频出。因此,任务治理已是势在必行,但纵观整个治理过程,仍存在以下矛盾:

1. 业务阶段与数据治理的矛盾

业务阶段大致可以分为两个阶段:发展期,成熟期。发展期: 产品不断迭代,需求不断新增,实时任务持续增加。在此时期同时也是与业务建立信任的阶段,实时任务的质量会被重点关注,成本控制的优先级小于质量保障。成熟期: 资源预算增量越来越少,业务需求数量不降反升,在此成熟阶段实时团队不仅要做好数仓质量保障,也需关注资源成本的合理分配和利用。

2. 人力成本与数据治理的矛盾

实时任务的治理成本由于其技术复杂性和在线运行等属性导致治理要求一直较高,人力经常在数据治理和业务需求之间徘徊。由于实时任务治理必将占用业务支持精力,如何提高治理人效,降低治理成本,释放个人精力,也是大家特别关注的点。

3. 治理问题与可评价的矛盾

通常实时任务可以通过一定的规则筛选出存在问题的任务,并进行集中的运动式治理。这种方式虽然可以一定程度解决阶段性治理问题,但是无法量化任务的健康程度以及待治理的紧迫程度,使得治理无法持续开展。因此,需要有一个可评价的体系对数仓健康程度进行评价,并通过评价后的分数持续推动治理。

走进DataLeap实时健康分

DataLeap实时健康分是一套集治理评价、目标制定、治理驱动、治理提效、效果量化于一身的一站式实时数据治理解决方案,满足精准治理的诉求,降低治理成本,保障数据整体规范性、稳定性,逐步成为公司内评价团队实时数据治理水平和资源分配的风向标,让治理成为一件简单高效的事。

实时健康分方案大致可以分为四个模块:元数仓建设、治理项沉淀、分数计算、平台治理。

1. 元数仓建设

健康分元数仓指的是任务相关的元数据信息,它是健康分加工过程中依赖的底层数据,包括任务的稳定性、质量、规范性、成本以及SLA等。

元数据类型描述
稳定性元数据gc、failover、cp、state、反压、倾斜等
质量元数据时效性、准确性、指标监控覆盖度等
规范性元数据任务配置、组件配置、报警配置等
成本元数据队列资源、计算资源、存储资源等
SLA 元数据组件SLA、数据SLA、任务SLA 等

2. 治理项沉淀

治理项规则是Flink团队通过引擎视角和各个BP实时数仓团队通过业务视角积累沉淀出的一套通用规则,通过这套通用规则可达成快速复用的作用,可以快速发现实时任务中存在的成本浪费和质量隐患问题。现阶段,越来越多的团队加入实时治理,贡献更多的治理经验,总结出更通用的规则,吸引更多的团队,从而形成正向循环。目前质量项规则14项,成本项规则2项。

在这里插入图片描述

3. 分数计算

名词解释:

  • 治理项权重: 根据治理项规则的重要性,治理项权重不同,例如:“CPU资源浪费”=40;“队列配置不规范”=15;
  • 任务等级系数:每个任务等级会有不同系数,等级越高,系数越高,对分数的影响越大,例如:D1/D2=10;D3=5;D4=3;D5=1

目前实时健康分涵盖质量分和成本分两套评价体系,其结果等于质量分与成本分的均值。每套评价体系采用扣分制算法,计分逻辑简单、可解释性强,能够实现细到任务、个人粒度,粗到部门、公司粒度的分数计算结果。

  • 质量分计算

口径: ∑ ( 命中治理项的任务等级系数 ) ∑ ( 全部任务的任务等级系数 ) ∗ 治理项权重 \frac {\sum(命中治理项的任务等级系数)}{\sum(全部任务的任务等级系数)} *治理项权重 (全部任务的任务等级系数)(命中治理项的任务等级系数)治理项权重

  1. 例如:

    • 一共有1000个任务, ∑ ( 全部任务的等级系数 ) = 2500 \sum(全部任务的等级系数)=2500 (全部任务的等级系数)=2500
    • 其中有100个任务命中了任务未配置报警, ∑ ( 命中治理项的任务等级系数 ) = 500 \sum(命中治理项的任务等级系数)=500 (命中治理项的任务等级系数)=500
    • 未配置报警治理项(治理项权重:15)扣分为500 / 2500 * 15 = 3分
    • 质量分=100-3=97分
  • 成本分计算

口径: ∑ ( 命中治理项的任务 C P U 分配数 ) ∑ ( 全部任务的任务 C P U 分配数 ) ∗ 治理项权重 \frac {\sum(命中治理项的任务CPU分配数)}{\sum(全部任务的任务CPU分配数)} *治理项权重 (全部任务的任务CPU分配数)(命中治理项的任务CPU分配数)治理项权重

  1. 例如

    • 一共有1000个任务, ∑ ( 全部任务的任务 C P U 分配数 ) = 25000 \sum(全部任务的任务CPU分配数)=25000 (全部任务的任务CPU分配数)=25000
    • 其中有100个任务命中了CPU资源浪费, ∑ ( 命中治理项的任务 C P U 分配数 ) = 10000 \sum(命中治理项的任务CPU分配数)=10000 (命中治理项的任务CPU分配数)=10000
    • CPU资源浪费治理项(治理项权重:40)扣分为10000 / 25000 * 40 = 16分
    • 成本分=100-16=84分

4. 平台治理

实时健康分依托平台提供高效的治理能力,其中包括治理全景、治理工作台以及治理辅助三个模块:

  1. 治理全景:提供健康分趋势、成本项治理趋势、待治理问题分布等看板,观察健康程度趋势。
  2. 治理工作台:提供治理项明细、推荐参数、一键治理、事后监控等工具,提高治理效率。
  3. 治理辅助:提供治理播报卡片、自定义场景治理辅助工具,完善治理场景。
一级项二级项描述
治理全景健康分程度展示各个业务线或个人当前健康分程度
健康分趋势展示健康分变化趋势,其中也包括成本分和质量分的变化趋势。
成本项治理趋势展示成本项已治理、待治理、已节约CPU和待节约CPU趋势。
质量项治理趋势展示质量项规则命中待治理任务数和已治理任务数趋势。
待治理问题分布展示各个规则命中的待治理问题数、扣分情况。
治理工作台治理项明细展示待治理任务列表明细,可通过规则项、任务等级、任务类型、任务owner等进行筛选展示
治理参数推荐给每一个任务命中的治理项给出优化参数建议。
批量一键治理通过治理参数推荐批量完成多个任务的治理。单任务治理人效从15min提升到30s
事后监控大盘治理完成之后通过推动治理任务的lag监控大盘来观察任务运行情况。
治理辅助治理播报卡片每日给对应owner推送治理卡片,播报当前成本分、质量分、成本待治理项数、质量待治理项数和昨天已治理信息等。
自定义场景治理给业务提供一个可自定义治理项的能力,满足业务个性化非通用的治理场景。

实时治理专项

在这里插入图片描述

某企业数据平台存在降本增效和稳定性保障诉求,日常任务存在CPU使用浪费、未配置报警、队列使用不规范、CPU使用率过高等问题。因此,该实时数仓团队联合DataLeap团队成立治理专项。专项设立虚拟小组与治理poc机制,自上而下拆分治理目标,快速响应治理阻塞问题,推动治理进度,协调治理资源,最终保障制定目标达成。

虚拟小组成员时刻关注业务线健康程度,评估目标完成风险,发现治理进度存在风险后及时与业务治理poc沟通治理过程中遇到的困难和阻塞,并由虚拟小组开发新的工具或制定新的治理方案,帮助业务治理poc克服治理困难,推动各业务方向达成既定季度目标。

1. 实时成本专项

该数据平台实时任务存在大量资源浪费问题,资源浪费任务数3.8k+,待治理CPU资源27.9w+core。基于资源浪费严重问题,成立实时成本专项,形成虚拟支持小组,深入业务,协助业务进行资源浪费治理,累计治理资源浪费任务1.15k,待治理CPU资源27.9w+core -> 17.7w+core。

2. 实时质量专项

同时,该数据平台实时任务存在多种质量稳定性隐患,例如:CPU使用过高、任务未配置报警、队列使用不规范、数据倾斜等问题。基于稳定性隐患问题,多方联合形成实时质量专项,沉淀出11个质量项规则,帮助企业数据平台发现3k+质量问题,推动数据平台进行质量治理,完成1.1k次质量治理。

3. 季度治理收益

指标解释:

  • 一键治理时长提升率:一键治理将治理时长从15min降到0.5min,因此提升率96.5%
  • 一键治理场景覆盖率: 一键治理问题数 所有治理问题数 \frac {一键治理问题数}{所有治理问题数} 所有治理问题数一键治理问题数
  • 治理效率:一键治理时长提升率*一键治理场景覆盖率

收益如下:

  • 该数据平台Q3季度健康分从80.57(新上9个治理项导致分数下降)-> 81.85分
  • 质量项治理问题1.11k+(其中“任务未配置报警”问题清零、“CPU使用率过高”治理700+)
  • 一键治理场景覆盖率80%,一键治理时长提升率96.5%,治理效率提升77%

点击跳转大数据研发治理套件 DataLeap了解更多

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1166204.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

5.2023-11-02发表的最新论文复现:SSA-VMD与小波分解结合的GNSS坐标时序降噪方法

2023-11-02发表的最新论文复现代码: 注:针对文献去噪流程进行了细节部分修改 1.将多尺度排列熵大于0.5的分量全部删除,发现其效果更佳 2.文中小波分解方法具体的方法不确定,本代码是应用小波阈值去噪于改进VMD相结合进行去噪 代…

工业废水再利用在哪些地方

工业废水再利用主要应用于以下几个方面: 工业生产:回收废水中含有的各种有价值的资源,如水、盐、油、悬浮物等,用于生产过程。预处理和深度处理:为满足工业生产过程对水质的要求,对废水进行预处理和深度处…

当风格遇上浴缸:浴室装饰的秘诀

浴室不再仅仅是个洗漱的地方,如今它们是室内设计的一部分,有时甚至是焦点。浴室的装饰风格可以塑造整个房间的氛围,而浴缸通常是浴室内最引人注目的元素之一。在这里,我们将简单探讨不同室内设计风格与浴缸如何融合,让…

vue3-ace-editor前端 json格式化显示 json编辑器使用

前端 json格式化显示 json编辑器使用vue3-ace-editor 1.安装 项目目录下打开终端 运行 npm install vue3-ace-editor2.使用 <template><div classcontent><el-select v-model"aceConfig.theme" class"m-2" placeholder"Select"…

提升物流效率和可见性:RFID技术在物流线上的创新应用

随着科技的进步&#xff0c;物联网和大数据的应用越来越广泛。RFID&#xff08;无线射频识别技术&#xff09;作为物联网的重要组成部分&#xff0c;已经广泛应用于物流行业中。RFID技术通过无线电信号识别特定目标&#xff0c;无需人工干预&#xff0c;大大提高了物流线的效率…

基于SSM的个人通讯录设计与实现

末尾获取源码 开发语言&#xff1a;Java Java开发工具&#xff1a;JDK1.8 后端框架&#xff1a;SSM 前端&#xff1a;采用JSP技术开发 数据库&#xff1a;MySQL5.7和Navicat管理工具结合 服务器&#xff1a;Tomcat8.5 开发软件&#xff1a;IDEA / Eclipse 是否Maven项目&#x…

微信小程序overflow-x超出部分样式不渲染

把display:flex改成display:inline-flex&#xff0c; 将对象作为内联块级弹性伸缩盒显示&#xff0c; 类似与是子元素将父元素撑开&#xff0c;样式就显示出来了

Python+pandas将Excel文件xls批量转换xlsx(代码全注释)

文章目录 专栏导读背景安装的库代码部分(全注释)视频演示总结&#x1f44d; 该系列文章专栏&#xff1a;[Python办公自动化专栏]PS: xlsx转xls文章在这&#xff1a;【点我直达】 专栏导读 &#x1f338; 欢迎来到Python办公自动化专栏—Python处理办公问题&#xff0c;解放您的…

接口自动化测试requests

1.什么是requests&#xff1f; requests是一个Python第三方库&#xff0c;处理URL资源特别方便 2.安装requests pip3 install requests 如果遇到Permission denied安装失败&#xff0c;请加上sudo重试 3.使用requests 3.1get请求方法 3.1.1基本的get请求 import reques…

HTTPS的加密方式超详细解读

在了解https的加密方式之前&#xff0c;我们需要先行了解两个特别经典的传统加密方式&#xff1a; 1、对称加密 1.1、定义 需要对加密和解密使用相同密钥的加密算法。所谓对称&#xff0c;就是采用这种加密方法的双方使用方式用同样的密钥进行加密和解密。密钥是控制加密及解…

MojoUserAgent库

Mojo::UserAgent 是 Perl 编程语言中的一个库&#xff0c;用于创建和管理 HTTP 请求。它提供了一个简单而强大的接口&#xff0c;用于发送 HTTP 请求并处理响应。 以下是一个使用 Mojo::UserAgent 的简单示例&#xff1a; use Mojo::UserAgent;创建一个 Mojo::UserAgent 对象…

小红书优质达人标准是什么,达人投放攻略!

众所周知kol、koc投放&#xff0c;相较于信息流和竞价广子而言&#xff0c;在投放结果上&#xff0c;存在更多的浮动因素。而想要把控kol、koc的投放结果&#xff0c;就需要在匹配优质达人方面多下功夫。今天为大家分享下小红书优质达人标准是什么&#xff0c;达人投放攻略&…

包含3的数字-第10届蓝桥杯省赛Python真题精选

[导读]&#xff1a;超平老师的Scratch蓝桥杯真题解读系列在推出之后&#xff0c;受到了广大老师和家长的好评&#xff0c;非常感谢各位的认可和厚爱。作为回馈&#xff0c;超平老师计划推出《Python蓝桥杯真题解析100讲》&#xff0c;这是解读系列的第2讲。 包含3的数字&#…

微信小程序:实现多个按钮提交表单

效果 核心步骤 通过data-type给不同按钮进行设置&#xff0c;便于很好的区分不同按钮执行不同功能 data-type"" 完整代码 wxml <form action"" bindsubmit"formSubmit"><button style"margin-bottom:5%" data-type"pa…

技术共建,飞桨与OpenVINO™ 共创开放AI生态

在智能新时代&#xff0c;百度和英特尔作为行业引领者&#xff0c;一直专注于构建强大的产品组合和开放的软件生态系统。为此&#xff0c;百度飞桨打造功能丰富、开源开放的产业级深度学习平台&#xff0c;英特尔推出OpenVINO™工具套件&#xff0c;并致力于借助双方技术来增强…

云栖大会 | 科技改变生活,移远通信实力引领智能未来

科技对生活的改变体现在出行方式、娱乐方式、支付方式等多个方面&#xff0c;已经融入了我们的日常生活&#xff0c;为我们带来了便捷、高效、舒适的体验。 10月31日—11月2日&#xff0c;云栖大会在杭州盛大召开。本次大会以“计算&#xff0c;为了无法计算的价值”为主题&…

亚马逊云科技实操教学带你注册并使用海外服务器

手把手教你注册和使用亚马逊云科技海外服务器。 前置条件 准备&#xff1a; 一个在用邮箱 一张在用的有Visa或者Master标志的信用卡 一部在用的电话 一个支持key文件导入的ssh客户端 注册亚马逊云科技 在任意浏览器上搜索“亚马逊云科技”&#xff0c;打开官网&#xff0c…

Padding负值遮挡视图(下拉刷新头部)

padding值为负值时&#xff0c;表示当前视图被遮住了一部分。 可使用 view.set Padding( int left , int top , int right , int bottom) 方法进行动态设置。 下拉刷新头部的实现&#xff1a; (1) 获取屏幕大小。(2) 设置 刷新头高度&#xff08;定值&#xff09; 设置 显…

新手学计算机编程入门,自学编程入门从哪里入手开始学习

新手学计算机编程入门&#xff0c;自学编程入门从哪里入手开始学习 给大家分享一款中文编程工具&#xff0c;零基础轻松学编程&#xff0c;不需英语基础&#xff0c;编程工具可下载。 这款工具不但可以连接部分硬件&#xff0c;而且可以开发大型的软件&#xff0c;向如图这个…

哪些指标可以评估实施MES管理系统的效益

在现代制造业的浪潮下&#xff0c;MES生产管理系统已成为众多企业的得力助手。然而&#xff0c;如何判断MES管理系统是否真的为企业创造了价值&#xff1f;本文将为您解析三个核心指标&#xff0c;助您深入了解MES管理系统的实际效益&#xff0c;确保您的投资决策明智有据。 一…