从数据中台实践,浅谈数据质量管理

news2024/11/20 8:47:49

时代背景

近20年来,我国的科学技术发展日新月异,各种新兴技术层出不穷,深刻的改变着各行各业,也改变着我们的生活。大数据、云计算、人工智能的出现更是将技术革命推向了高潮。在这种背景下,继农业经济、工业经济之后,数字经济诞生了,并且随着科技的不断发展,它将成为主要经济形态。在2022年,我国数字经济核心产业增加值占国内生产总值(GDP)比重达到7.8%,数字经济为经济社会持续健康发展提供了强大动力。也是同一年,发改委正式发布了《“十四五”数字经济规划》。规划中阐明了数字基础设施建设、数字化转型、数字产业化等众多举措,并明确指出了我国在2025年数字经济将迈向全面扩展期,数字经济核心产业增加值占GDP比重将达到 10%。

数字经济越来越重要,经济运行的过程中,这些数据如何存,怎么管,怎样用的问题尤其重要。众所周知,在2015年马云带领阿里高管拜访芬兰的Super Cell公司后,提出来中台概念,即“大中台,小前台”,通过设置中台,抽取业务中共性的部分,为所有产品线提供公共资源。数据中台是中台概念中的一个子集,聚焦于对业务运行中所涉及到的数据进行汇聚整合、提纯加工,并向各个业务线提供统一的数据服务,解决了数据的存管用问题。数据中台也不是凭空而至,而是经历数据库、数据仓库、数据平台一步步演化而来。

文内精彩资料,等你领取!
 

数据质量管理简介

说到数据质量管理,就不能不谈到数据治理。治理这个词包含了两层意思,一个是治,另一个则是理。治着眼于高屋建瓴,统筹规划,而理则负责具体执行,着力具体数据管理。在数据治理领域中,数据质量的管理工作是重要一环。

通俗地讲,数据质量是对数据的评价,即数据好不好。数据质量对于某些领域行业,首先就是监管的要求,比如银监会对银行的合规性要求。其次,数据质量影响了企业管理层的决策,很难想象在进行商业投资、商业规划及商业布局是基于一份错误的数据而进行。另外,数据质量的高低也直接影响着企业产品生产的风险和成本、影响着企业的名誉。

上图在数据治理领域是被称为艾肯金字塔的模型,图中标明了数据治理的各个模块及其常见的实现阶段。当我们在对数据进行存储、建模、集成等操作后,就会自然而然的考虑到要构建高质量的数据,对数据质量的管理就会提上日程。并且,数据质量管理是作为数据治理底座的存在,只有数据质量管理好了,整个数据治理工作才不是空中楼阁,数据质量管理也会在日后的数据治理过程中贯穿始终。
 

数据质量管理实践

数据质量管理是数据中台产品的重要一环,元年方舟数据中台对数据质量管理的实践,秉承着经典的方法论。
 

数据质量管理维度

数据质量管理的维度是一个比较经典的话题。维度即在哪些方面进行特性的衡量,比如在三维空间中,使用长、宽、高三个维度来衡量世界。在数据质量管理的维度领域,出现了众多的流派。常见的流派比如Strong-Wang,侧重于数据消费者对于数据看法;Thomas-Redman将维度描述为模型(实体和属性)及其值;Larry English认为维度分为固有和实用特征;DAMA UK定义了6个核心维度。

元年方舟数据中台在综合研究了相关流派的观点和业内常用模型之后,结合实际的项目实践,采用了6个维度来对数据质量进行衡量,即唯一性、规范性、完整性、准确性、时效性、一致性。通过不同维度的视角来衡量数据质量,使得质量检测结果更加全面,测量者也可以聚焦于自己业务相关的维度。
 

数据质量管理生命周期

数据质量管理不能等同于项目管理,不是一次性过程,而是一个持续的过程。管理的过程包含了高质量数据的定义、如何进行数据质量检测的规划,数据质量检测方法的研究,以及数据质量检测结果如何评估等。这整个过程周而复始,体现为生命周期的模式,可以用戴明环模型来进行管理。戴明环(PDCA)是一种被称为“计划(Plan)-执行(Do)-检查(Check)-处理(Act)”的问题解决模型。

定义质检标准和规则

“凡事预则立,不预则废”。在进行数据质量管理时,我们需要提前规划如何去做,这个就对应了戴明环的“计划”。
 

我们很难去说什么数据是好的,什么数据是坏的,数据质量的好坏是一个相对的概念。民用的用品可能对军事用途来说质量不好,但是对于满足社会绝大多数用户的使用场景来说,质量又是好的。所谓“不以规矩,无以成方圆”,我们需要对质量的好坏做一个定义,这样就形成了一个规则。同时,规则经过各行各业的沉淀就会形成相应的行业标准,即使是一家公司的不同业务部门,也会经过长期的业务实践形成自己的业务标准。

元年方舟数据中台在数据质量管理规则创建过程中,支持表级和字段级两种粒度的规则设置,系统内置了6种不同维度的检测模板,考虑到不同层次用户在使用习惯上的差异,同时支持表单创建和SQL自定义两种模式。同时,用户可以同步来自数据标准的自定义模板,也可以使用数据字典来达到数据的一致性。

质检过程

在设置完质检规则后,质检的过程即是戴明环的“执行”过程。
 

元年方舟数据中台支持手动运行或者定时任务运行两种质检运行模式。质检模型为运行的主要实体,在模型的基础上囊括了需要检测的对象,对象可能是某个字段或者某张表,在对象的基础上又绑定了不同的质检规则。当运行一个质检任务时候,质检模块底层会和计算引擎进行通信,并且向计算引擎根据质检粒度的不同,分发不同的任务。引擎计算完毕后,将质检结果进行保存,分数计算,明细存储以及数据汇总等各种操作。

数据质量评估

在数据质量管理的方法论中,质量检测的测量结果可以分为两个层次进行描述:执行规则相关的详细信息以及规则汇总的整体结果。
 

在规则汇总整体结果上,元年方舟数据中台采用计算得分的形式,通过检测结果的公式函数:成功结果在整体检测结果中的占比计算而来。其中,不同的质检规则的权重、不同的质检对象的权重对检测结果又有不同影响,整个计算过程不在赘述,引用DAMA方法论中的得分计算公式如下:
 

在执行规则相关详细信息项中,元年方舟数据中台提供了检测的问题数据以供检测方查看,包括问题数据的详细信息、历史数据等。整个过程对应了戴明环的“检查”步骤。

问题数据纠正

该过程是戴明环的“处理”过程。得到质量检测的结果绝不是终点,结果有助于对质量进行改善,对问题数据的处理依然要经过下一个戴明环的检验,如此反复循环。对于问题数据纠正措施,元年方舟数据中台支持工单的派发,责任到人,在方法论中称为“人工检查修正”,这种模式十分方便操作以及与其他系统的集成。同时,对于方法论中的“自动修正”,产品也能够通过内置数据流来进行操作。
 

总 结

元年方舟数据中台通过数据质量管理的方法论,秉持着以预防为主,重视过程的理念,在数据治理方面做到事前预防(质检标准)-事中控制(检测和评估)-事后处理(数据纠正),并且在“戴明环”的理论指导下不断进行数据质量治理的改进,对数据质量管理起到了良好的支撑作用。

元年方舟数据中台白皮书

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/640988.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

NSS周常刷密码(3)

[LitCTF 2023]md5的破解 from hashlib import md5 from string import ascii_lowercase,digits import itertools f1 LitCTF{md5can3derypt213thoughcrsh} for i in itertools.product(ascii_lowercasedigits, repeat4):t .join(i)flag f1[:13] t[:2] f1[13:16] t[2] f…

d2l_第四章学习_Classification/Softmax Regression

x.1 Classification 分类问题理论 x.1.1 Classification和Regression的区别 注意,广义上来讲,Classification/Softmax Regression 和 Linear Regression 都属于线性模型。但人们口语上更习惯用Classification表示Softmax Regression,而用Re…

13. ReentrantLock、ReentrantReadWriteLock、StampedLock讲解

13.1 关于锁的面试题 ● 你知道Java里面有那些锁 ● 你说说你用过的锁,锁饥饿问题是什么? ● 有没有比读写锁更快的锁 ● StampedLock知道吗?(邮戳锁/票据锁) ● ReentrantReadWriteLock有锁降级机制,你知道…

linux实验四 vi编辑器及用户管理

1、vi编辑器的详细使用 (1)在用户主目录下建一个名为vi的目录。 (2)进入vi目录。 (3)将文件/etc/man_db.conf复制到当前目录下,并用命令sudo修改man_db.conf的属性为所有用户可以读写。 &am…

华为OD机试真题 JavaScript 实现【贪心的商人】【2023Q1 100分】

一、题目描述 商人经营一家店铺,有number种商品,由于仓库限制每件商品的最大持有数量是item[index],每种商品的价格在每天是item_price[item_index][day],通过对商品的买进和卖出获取利润,请给出商人在days天内能获取…

SQL高级之order by优化

简介 MySQL支持两种方式的排序,FileSort和Index,其中Index的效率较高他是指MySQL扫描索引本身完成排序。FileSort方式效率较低 使用Index 一般情况下ORDER BY满足两种情况会使用索引排序 ORDER BY语句使用索引最左前列使用where子句与order by 子句条…

复习之linux虚拟化的介绍

一、虚拟化客户端及工具的安装 1.在虚拟机westos中列出: ps:虚拟机中安装虚拟机无意义,这里指是做实验看清楚虚拟机的创建! # dnf group list --hidden irtualization Client :虚拟化客户端 Virtualization Tools &…

稳定性治理二,稳定性分析

目录 重新认识系统稳定性(SLA与系分)稳定性分析(单点,容量和性能,依赖,数据保护,安全,资损,弹性能力,业务连续性,变更控制)压测方案&a…

面向对象3构造器

类的成员之三:构造器(Constructor) 我们 new 完对象时,所有成员变量都是默认值,如果我们需要赋别的值,需要 挨个为它们再赋值,太麻烦了。我们能不能在 new 对象时,直接为当前对象的 某个或所有成员变量直接…

美团买菜基于 Flink 的实时数仓建设

摘要:本文整理自美团买菜实时数仓技术负责人严书,在 Flink Forward Asia 2022 实时湖仓专场的分享。本篇内容主要分为四个部分: 1. 背景介绍 2. 技术愿景和架构设计 3. 典型场景、挑战与应对 4. 未来规划 Tips:点击「阅读原文」免…

ReentrantLock实现原理-条件锁

在前两篇文章中,我们了解了ReentrantLock内部公平锁和非公平锁的实现原理,可以知道其底层基于AQS,使用双向链表实现,同时在线程间通信方式(2)中我们了解到ReentrantLock也是支持条件锁的,接下来我们来看下,…

ISO21434 网络安全支持终止与退役(十一)

目录 一、概述 二、目标 三、网络安全支持终止 3.1 输入 3.2 要求和建议 3.3 输出 四、退役 4.1 输入 4.1.1 先决条件 4.1.2 进一步支持信息 4.2 要求和建议 4.3 输出 一、概述 退役不同于结束网络安全支持。一个组织可以结束对一个项目或组件的网络安全支持&#…

【Linux】常用命令总结

Yan-英杰的主页 悟已往之不谏 知来者之可追 C程序员,2024届电子信息研究生 目录 1.登录操作 2.操作系统 a.os是什么? b.好的操作系统的衡量指标?为什么要有操作系统? 3.Linux下的基本指令 a.ls指令 b.pwd指令 c.cd指令 d…

SB领导的特征

越是SB领导,往往越有这9大特征,难怪员工不服气。 孔子曾说过:“视其所以,观其所由、察其所安、人焉善哉?” 领导也是如此,想要判断领导是不是SB,关键就看他的所作所为。 越是“SB”的领导&#…

在CRM系统中如何获取联系人的信息?

CRM客户管理系统可以有效应对企业对联系人管理的需求,帮助销售人员随时随地查阅、记录、修改联系人,为业务开展做好铺垫。CRM中联系人是什么?如何获取联系人信息? 1.CRM中联系人是什么? CRM系统联系人指的是沟通对象…

薅羊毛!阿里云免费GPU云主机畅玩AI绘画,免费领取阿里云v100显卡搭建AI绘画利器Stable Diffusion

❝ AI绘画利器Stable Diffusion,因为对电脑显卡,磁盘,内存等都有一些限制,导致大部分人望而止步,所以小编今天教大家免费领取阿里云的免费显卡服务器,免费试用3个月,以方便各位快速学习与使用。 ❞ 领取免费…

MapReduce编程

Hadoop的MapReduce计算框架 概述 MapReduce计算框架是一种计算框架,用于计算处理大规模的数据集,他将数据分成小块,然后在集群中的多个节点上并行处理这些块MapReduce框架是由两个组件组成:Map和Reduce Map任务将输入数据分解成…

团队管理之性能实施团队日志12

这几天算是多事之秋。本来就有几个严重的问题天天在折腾。 还是出现了各种差错。 其实对于做项目来说,就是这样,总会有紧要的事情突然冒出来。 我倒是习惯了这种状态。 只是时间不等人。 这两天在写各系统的最终报告。结果写到某个系统的时候发现&#…

零基础学Python,最受推荐的10本Python书籍

目录 适合初学者的最佳Python书籍1、《Python编程:从入门到实践》2、《Head-First Python (2nd edition)》3、《“笨方法”学Python》4、《Python程序设计(第3版)》 最适合初学者的免费Python书籍5、《像计算机科学家一样思考Python (第2版)》…

学习【菜鸟教程】【C++ 继承】(未完)

链接 1. 教程原文 面向对象程序设计中最重要的一个概念是继承。继承允许我们依据另一个类来定义一个类,这使得创建和维护一个应用程序变得更容易。这样做,也达到了重用代码功能和提高执行效率的效果。 当创建一个类时,您不需要重新编写新的…