WhaleDI数据治理利器之“低成本数据质量管理”

news2024/11/25 15:28:12

数字化时代,数据已经成为企业管理的关键要素,随着数据的日益增长及汇聚,企业数据质量问题成为数据治理的关键。数据质量直接影响到能否通过数据分析驱动企业生产、运营、服务提效及创新。高质量的数据对管理决策、业务支撑等都有极其重要的作用,只有持续的数据质量改进才能推动数据治理体系的完善,维持数据质量水平,为企业数据战略提供坚实的保障。

先说说什么是数据?

数据这个词很活跃,人人耳熟能详。它相对比较清楚的释义为:数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。在运营商行业中,所涉及到的相关IT数据,通常包括支撑系统中的资产数据、订单数据、归档业务信息数据、客户数据等等,这些数据产生贯穿了业务支撑的全过程,所包含的信息极其丰富。

数据的信息记录作用确定了它在查询、统计、分析等方面都会在不同的时期里发挥作用,其不仅仅面向所有者提供信息,通常会根据协议约定覆盖整个企业的业务生产,甚至外部。

数据应用开发中常见问题

信息化也好,数字化也罢,终究是众多基于数据的应用,数据应用能否获得预期业务效果,不仅考验规划设计应用场景的产品专家,更是取决于长期困惑企业及支撑厂家的数据问题能否得到解决。

不完整,即对于需要描述的一个对象,缺乏足够完整的信息。往往构成源于不同系统、不同时期,总是有各种原因导致无法汇聚。

不正确,这点和数据产生的方式有很大关系,不正确的过程数据通常由业务逻辑或业务规则造成,资料数据错误通常由录入环节失误导致,这种失误通常难以管理,例如营业人员把客户的出生信息录成上个世纪,则直接就多了个百年老妖。

不明白,业务系统在草创之初恣意生长,带来的模型管理混乱。多年之后的数据开发人员和业务人员,很多的时候眼巴巴地看着一些释义似是而非的数据徒增奈何。

数据质量的影响因素

学习时间又到,数据质量的定义是:数据的一组固有属性满足数据消费者要求的程度。据此,业务人员符合概念中的消费者的定义,概因其是业务需求的代表者。数据质量直接影响到数据业务需求的支撑,然而影响数据质量的因素又有哪些呢?

1 管理方面

缺乏有效管理策略

很多企业的信息化现状是先建设后治理。早期缺乏整体的数据规划,没有统一的数据标准和明确的数据质量目标,导致不同业务部门在处理业务时,容易出现数据冲突或矛盾。

缺乏有效的数据问责机制,没有明确数据归口管理部门和岗位职责,导致出现数据质量问题时无法厘清职责,各业务部门之间互相推诿。

缺乏统一数据标准

数据质量管理中的一大挑战,在于各个部门对于所依据的、共识的数据标准进行业务系统建设。如果缺乏统一的数据标准,致使数据理解难以一致,业务之间的协作和沟通就如同“鸡同鸭讲”。

2 业务方面

数据录入不规范

业务部门既是数据需求的提出方,也是数据的生产方。业务部门的人为因素是造成企业数据质量低下的一个非常重要的原因。常见的人为因素有拼写错误,数据输入不匹配字段如大小写、特殊字符录错等,这些都会导致数据的不规范问题。

3 技术方面

数据设计不规范

在设计阶段对数据模型质量的关注不足,需求理解不到位,数据库表结构、数据库约束条件、数据校验规则的设计开发不合理,就会造成数据录入无法校验或校验不当,引起数据的重复、不完整、不准确。

数据传输不规范

数据传输包含数据采集、数据转换、数据装载、数据存储等环节。数据采集来源多不统一、数据采集接口效率低、数据转换规则配置错误、数据装载存储机制不合理等,使得产生数据出数慢、数据不准确、数据不完备等问题。

数据治理利器之“低成本数据质量管理”

正所谓“工欲善其事,必先利其器”,一套好的数据治理工具能让企业的数据治理工作事半功倍,因此如何低成本、高效率、全链路、闭环化的管控、稽核、监控数据质量成为重要命题。

WhaleDI“数据质量管理工具”作为企业数据治理体系落地的重要利器之一,通过对数据仓库/源端数据进行质量标准管理,以全流程覆盖、易使用、规则全、智能化、闭环管理等为目标,建立事前标准定义、事中全链路监控、事后分析的运营机制,形成PDCA质量管理循环,促进数据质量的持续提升。

1 数据标准管理,质量治理有据可依、有法可循

通过对数据标准的统一定义,明确数据的管理部门和责任主体,为企业的数据质量治理提供了基础保障。通过对数据实体、数据关系以及数据处理,定义统一的标准、数据映射关系和数据质量规则,使得数据的质量治理有法可依,有据可循,为企业数据质量的提升和优化提供保障。

数据标准管理其核心能力主要包括业务术语管理、字段库管理、术语字段标准映射等。

(1)业务术语则是可以定义企业级的公共业务词汇表,建立各部门对公共业务术语的共识,以业务视角管理各类业务术语,包括客户名称、客户编码、身份证号、手机号码、邮箱等,同时对这些业务术语进行目录化、标准化、流程化管理。

(2)字段库是指对数据模型逻辑字段的管理,对数据模型的字段从字段名称、字段编码、字段分类、字段类型、关联业务术语、关联数据字典、关联同义词等方面进行规范、统一的定义,后续模型开发直接引用即可,保障模型开发的规范性。字段库字段标准配置,包括字段命名规则、字段编码规则、字段取值范围、是否主键、是否唯一、是否非空等,后续可用于映射物理字段数据标准,实现实例数据的标准检验。

(3)通过字段库字段关联业务术语,实现业务术语与字段库字段(即逻辑字段)建立1:1的对应关系,实现业务术语与逻辑字段的映射。通过脚本解析(例如脚本中a.cust_id=b.customer_id、a字段数据复制b字段数据等)、调度任务字段映射、同义词等方式,建立逻辑字段与物理字段1:N的关联关系。通过业务术语逻辑字段与对应物理库表物理字段的1:N的关联关系,可将业务术语字段的数据标准自动映射至对应物理库表字段,例如字段命名规则、字段编码规则、字段取值范围、是否主键、是否唯一、是否非空等,实现数据标准的低成本配置、高效应用,为后续的数据质量治理提供有效依据。

2 质量规则管理,沉淀规则库、配置低成本

丰富的质量规则库,覆盖场景全

数据质量管理工具支持提供多种可视化规则模板配置能力,覆盖数据质量管理中的各类稽核场景,包括数据的及时性、完整性、一致性、准确性、逻辑性等20+稽核规则;此外对于复杂场景的稽核,支持自定义规则模板配置能力,可通过SQL、Shell、存储过程等自定义灵活配置。

  • 及时性规则:主要用于对接口层的数据是否准时到达进行稽核,包括表数据、表字段数据、文件数据等。

  • 完整性规则:主要用于稽核从业务系统采集数据的库表或文件到接口层库表或文件的记录是否完整,系统会根据取数条件判断两边的表记录数或文件名称/大小等是否完整一致。

  • 一致性规则:主要用于稽核从业务系统采集库表数据同步至数仓接口层库表间实例明细是否一致、或同指标应用不同库表间指标值统计是否一致等,包括主数据一致性、明细一致性、指标值一致性等。

  • 准确性规则:主要用于稽核库表的数据字段格式是否符合数据标准规范定义,包括主键唯一性、不可重复性、非空性、外键准确性、取值范围、编码规则等。

  • 逻辑性规则:支持目标表当前账期的数据与历史账期数据进行比较,是否满足一定的波动率、阀值、平衡公式的要求,判断数据的波动情况。

  • 自定义规则:对于复杂场景的稽核,可通过SQL、Shell、存储过程等自定义灵活配置。

多样化配置方式,低成本配置能力

根据不同的配置场景,支持多视角质量规则配置,包括基于规则视角、表视角、任务视角等,可按需选择,灵活应用。除了多视角配置能力外,产品持续提升免配置、低配置、批量配置等能力,可降低配置成本,提升配置效率。

  • 规则免配置:包括对于关键源表、目标表的总数一致性比对等,通过开关控制脚本解析日志获取库表记录数。

  • 规则低配置:包括对于库表的主键、关键维度、关键度量的非空性校验等,根据数据标准推荐配置对应的数据质量规则。

  • 规则批量配置:包括数仓目录批量配置(目录下的库表可自动沿袭配置)、表视角批量配置、EXCEL导入批量配置等能力。

3 质量稽核引擎,自动生成稽核结果

数据质量稽核是通过建立数据质量管理组织机构,制定质量管理规范,确定相应的工作流程方法,并在系统中实现质量检查、修正、考核功能,形成数据质量修正闭环的机制;数据稽核是对数据本身执行合法性等方面检查的过程,通过配置质量规则和执行稽核引擎来实现对数据属性、数据属性关系、数据表关系的检查。

质量稽核引擎是基于配置的质量规则策略自动解析生成可执行的稽核任务,自动输出稽核结果。

  • 稽核对象数据源类型:包括MySQL、Oracle、GP、GBase、Hive、ES、HBase、FTP等,基本涵盖业务系统的数据源类型。

  • 质量稽核任务频率配置:历法支持公历和农历,稽核频率可选择月、日、小时、分钟、非周期等类型,可根据实际需要灵活选择。

  • 质量稽核任务高效执行:可基于稽核对象字段进行任务分片设置,实现任务分区分片、多任务多线程、分布式等执行方式,提升质量稽核效率。

  • 质量稽核结果自动输出:基于质量规则配置的策略例如稽核通过、稽核警告、稽核不通过等阈值范围,稽核引擎自动输出稽核结果和稽核差异明细数据等,可供业务人员查看和跟踪处理。

4 质量稽核报告,沉淀模版、快速复用

对于数据质量稽核结果提供可视化分析能力,支持通过拖拽式、组件化的方式自定义质量报告,包括数据质量稽核结果概览、数据质量总体得分、分层分域分质量规则类型得分、分层分域分质量规则类型质量趋势图等多维度分析,让数据质量情况看得见。

对于生成的数据质量报告,支持面向组织、用户、角色等方式进行报告共享,报告可转换成图片、PDF、xlsx、html、txt等,可通过短信、邮件、FTP等方式推送质量报告,并可设置推送频率,让数据质量情况被关注。

对于已定义的数据质量报告可沉淀为报告模版,可快速复用,降低报告配置成本。

5 质量问题管理,问题处理流程化、闭环化

对于数据质量规则支持模板化派单配置,包括配置工单接收人、工单处理流程、工单处理时限等,对数据质量稽核不通过的问题系统根据配置自动发送预警工单,通知源端或问题负责人进行质量整改。同时可将已配置的派单流程沉淀为模版,可供后续配置直接引用,降低配置工作量。

工单处理人完成质量整改进行回单时,系统自动关联启动质量稽核任务对已完成整改的数据进行二次稽核,二次稽核通过后才能归档整个工单流程。通过质量工单流程建设数据质量治理闭环体系,为平台运营降本提效赋能。

目前数据质量管理工具已在国内外电信运营商行业、政企行业等多个项目落地。其中,重庆电信大数据平台每天对元数据和实例数据进行及时性、完整性、一致性、准确性、逻辑性稽核,已沉淀570+质量稽核规则。通过自动化、流程化、闭环化数据质量管理,更少的配置投入,更快的数据问题发现,降低企业数据质量管理成本,帮助企业全面提升数据质量,为企业数据治理奠定了核心基础。

6 质量监控管理,打造可视化全面质量监控

企业数据加工往往是跨系统的,数据从采集到应用,涉及到多系统、多环节、多流程,数据链路环节长,数据加工复杂,常常没有形成全链路血缘。此外,数据采集调度任务成千上万、整体较分散,无法查看上下游质量影响情况,因此,聚焦业务应用的可视化全面质量监控显的尤为重要。

分层级业务应用

企业数据质量治理的终极目标是为了提升数据价值、更好的服务于业务,因此以最终关注的业务应用为目标整体查看全链路数据质量情况更能符合实际业务诉求。

全链路数据血缘

数据血缘是指在数据的全生命周期内,数据与数据之间会形成各式各样的关系,贯穿整个数据链路。数据血缘主要包括表级血缘和字段级血缘,通过数据血缘分析针对数据流转过程中产生并记录的各种信息进行自动采集、处理和分析,对数据之间的血缘关系进行系统性梳理、关联、并将梳理完成信息进行存储,最终以全链路方式进行可视化呈现,有助于高效地实现质量问题的快速定位以及影响面的快速评估。

质量影响可视化分析

数据生产、加工过程中,数据的变更对于后续的数据链路都可能产生一定的影响,因此可视化监控数据的异动例如表结构变动、脚本变动、任务变动等,再基于数据血缘分析对上游或者下游相关数据链路的影响,有助于提前预测问题、规避或减少对业务应用的影响。

应用质量可视化监控

通过对整条数据链路进行监控和分析,可提前预测数据出数的及时性,监控数据波动情况、数据分布情况等质量信息,有助于快速发现问题、定位问题,从而及时进行干预,减少质量问题的发生、降低问题对业务带来的影响和运维成本。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/100924.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

时间序列的研究

更多的时间预测,参考 https://github.com/qingsongedu/awesome-AI-for-time-series-papers#AI4TS-Tutorials 1. 周期检测模块 可能存在的情况, 单周期多周期无周期; Robust Period 检测 该时间序列,是否有周期 以及周期的长度…

C语言浮点型的存储

3.14159 1e10可以写成1.010的10次方 1e5 表示 1.010的5次方 int main() {int n 9;//4bytefloat* pFloat (float*)&n;//float 指针访问4的字节printf("n值为:%d", n);//9printf("*pFloat值为:%f\n", *pFloat);//,是以浮点数的视角去看的*p…

深度学习基础知识---梯度弥散 梯度爆炸

目录 1 梯度弥散、梯度爆炸的成因 2 解决方式 2.1.pretrainfinetune 2.2 梯度裁剪 2.3 权重正则化 2.5 Batch Normalization正则化 2.6 残差结构 shortcut 2.7 LSTM 1 梯度弥散、梯度爆炸的成因 神经网络的层(主要是隐藏层)越多,对…

【LSTM时序预测】基于matlab EMD结合LSTM风速数据预测【含Matlab源码 2051期】

⛄一、EMD-DELM简介 1 方法及原理 1.1 EMD基本原理 经验模态分解可基于数据本身,将复杂信号分解为一系列IMF和一个r(t),分解信号时,不需要预先设置任何基函数。因为这一特点,理论上EMD方法可预处理任何一种信号的数据,因此被广泛…

【Linux磁盘管理】

Linux磁盘管理 写在前面 在此强调一个 Linux 的核心机制就是一切皆文件。 I/O Ports 即I/O 设备地址,用来标识硬件对应的设备地址,来让操作系统以及 cpu 使用。 CPU 的核数不一定就是越多越好,由于CPU 协调之间的协调问题,可能性…

洛谷P1161 开灯

开灯 题目描述 在一条无限长的路上,有一排无限长的路灯,编号为 1,2,3,4,…1,2,3,4,\dots1,2,3,4,…。 每一盏灯只有两种可能的状态,开或者关。如果按一下某一盏灯的开关,那么这盏灯的状态将发生改变。如果原来是开,…

定时器/计数器中定时/计数初值的计算

寄存器TMOD是单片机的一个特殊功能寄存器,其功能是控制定时器/计数器T0、T1的工作方式。它的字节地址为89H,不可以对它进行位操作。 只能进行字节操作,即给寄存器整体赋值的方法设置初始值,如TMOD0x01。在上电和复位时&#xff0c…

中小型企业HR人力资源管理系统源码带使用手册和操作说明

【程序语言】:.NET 【数据库】:SQL SERVER 2008 【运行环境】:WINDOWSIIS 【其他】:前端bootstrap框架 运行环境 系统运行环境:ASP.NET 4.0/IIS 6.0/SQL Server2008,使用成熟稳定的Webform开发模式&…

【现代密码学原理】——期末复习(冲刺篇)

📖 前言:快考试了,做篇期末总结,都是重点与必考点。 博主预测考点: 计算题:RSA、Diffie-Hellman密钥交换、EIGamal 密钥交换、使用SHA-512算法,计算消息的Hash值、计算消息的HMAC 应用题&#…

1.cesium简介和环境搭建

目录 一、cesium介绍 cesium是什么? cesium能做什么? cesium的限制? cesium的好处是什么? 二、创建一个简单的cesium 安装node环境 下载cesiumSDK 部署cesium 三、补充说明 Documentation Sandcastle 一、cesium介绍 …

重点| 系统集成项目管理工程师考前50个知识点(7)

本文章总结了系统集成项目管理工程师考试背记50个知识点!!! 帮助大家更好的复习,希望能对大家有所帮助 比较长,放了部分,需要可私信!! 46、项目合同签订的注意事项: …

Hadoop实训1:Linux基本搭建和操作

目录 1、创建三台虚拟机 2、创建使用SSH远程连接 3、实现IP地址与主机名的映射 4、关闭和禁用防火墙 5、创建目录结构 6、压缩打包 7、安装软件包 安装jdk 安装mysql 8、创建脚本文件 9、运行脚本文件 11、远程拷贝文件 总结 1、创建三台虚拟机 序号虚拟机名称…

22.12.19打卡 Codeforces Round #839 (Div. 3) A~E

Dashboard - Codeforces Round #839 (Div. 3) - Codeforces 浑浑噩噩的一场, 被队友带飞 A 不解释 /* ⣿⣿⣿⣿⣿⣿⡷⣯⢿⣿⣷⣻⢯⣿⡽⣻⢿⣿⣿⣿⣿⣿⣿⣿⣿⣿⣿⣿⣿⣿⣿⣿⣿⣿⣿⣇⠸⣿⣿⣆⠹⣿⣿⢾⣟⣯⣿⣿⣿⣿⣿⣿⣽⣻⣿⣿⣿⣿⣿⣿⣿ ⣿⣿⣿⣿⣿⣿⣻⣽⡿⣿⣎⠙⣿⣞⣷⡌⢻…

Python -- 文件操作

目录 1.文件的打开与关闭 1.1 打开文件 1.2 关闭文件 2.文件的读取和写入 2.1 文件的读写 3.CSV文件的读写 3.1 CSV文件的写入 4.将数据写入 4.1 StingIO 4.2 BytesIO 5.练习:实现文件拷贝 6.序列化和反序列化 6.1 使用JSON实现列化 6.2 使用JSON实现…

Spring Boot的单元测试

⭐️前言⭐️ 一个Spring项目是有很多个功能的,如果想要单独测试某一个功能是否逻辑正确,就不能只依靠启动类来将整个项目启动去进行测试,而是要通过单元测试的方法,来单独的测试某一个功能,这篇文章就来介绍单元测试…

MEC硬件加速技术分析

【摘 要】为了解决边缘机房的供电、散热以及承重能力有限,无法为MEC提供足够的计算资源的问题,分析了MEC在第三方应用,OVS和虚拟化用户面的性能瓶颈,提供硬件加速的方法。研究表明,通过上述方法,可突破MEC的性能和时延瓶颈,实现高性能、低时延,并兼顾性能、成本和开放…

稳踞三大价值高地!昆仑万维角逐AIGC“新大陆”

历史总是被前瞻者和实干家推动着加速前行。 15世纪,多艘探险船队从欧洲出发向着东方而去,开启群雄角逐的探索时代。他们在航行中不断发现新大陆,兴起无数的造富神话,也加速了全球贸易、信息等方面的交流,翻开一个全新…

Hadoop学习笔记——MapReduce

文章目录一、MapReduce概述1.1、MapReduce定义1.2、MapReduce优缺点1.2.1 优点1.2.2 缺点1.3、MapReduce核心思想1.4、MapReduce进程1.5、官方WordCount源码1.6、常用数据序列化类型1.7、MapReduce程序规范1.8、 WordCount案例实操1.8.1 本地测试1.8.2 提交到集群测试一、MapRe…

XiaoMi手机MIX 2S线刷固件和刷入Recovery、Root

mix 2s 固件下载地址 https://web.vip.miui.com/page/info/mio/mio/detail?postId4865868&app_versiondev.20051 miflash线刷工具下载地址 https://miuiver.com/miflash/ 安装miflash线刷工具 点击安装驱动 打开miflash 手机关机按音量下加开机键进入bootloader&#xf…

(Java)[NOIP2006 普及组] 明明的随机数

[NOIP2006 普及组] 明明的随机数一、题目描述二、输入格式三、输出格式四、样例输入五、样例输出六、正确代码(1)方法一(2)方法二(3)方法三七、思路与分析(1)题目分析(2&…