十、数据仓库详细介绍(数据质量)理论与经验

news2024/11/19 13:28:13

数据质量管理是对数据从计划、收集、记录、存储、回收、分析和展示生命周期的每个阶段里可能引发的数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理的终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。”——以上内容摘自百度百科。

笔者观点:“数据质量管理不单纯是一个概念,也不单纯是一项技术、也不单纯是一个系统,更不单纯是一套管理流程,数据质量管理是一个集方法论、技术、业务和管理为一体的解决方案。通过有效的数据质量控制手段,进行数据的管理和控制,消除数据质量问题进而提升企业数据变现的能力。在数据治理过程中,一切业务、技术和管理活动都围绕这个目标和开展”。


备注:我觉得最后一句话不太严谨,因为数据质量只是数据治理的一个子集。

注:以上总结摘抄自公众号“谈数据”,作者石秀峰

0x00 聊聊四个常见的数据管理知识体系

网上数据质量相关的文章真多,而且阅读量都还挺高,很多数据方面的号主也喜欢反复写。由此可见,数据质量对于数据工作者的重要性非常之高。

DAMA 知识体系

国际数据管理协会(DAMA 国际)是一个全球性的专业组织,成立于 1980 年,一直致力于数据管理和数字化的研究、实践及相关知识体系的建设。主要包含两部分:DAMA 数据管理知识体系和专业考试认证。

DAMA 数据管理知识体系(DMBOK框架),有车轮图(由 11 个数据管理职能领域)和环境因素六边形图(包含 7 个基本环境要素)构成。其中,数据管理职能包括数据治理、数据架构、数据建模和设计、数据存储和操作、数据安全、数据集成和互操作、文档和内容管理、参考数据和主数据管理、数据仓库与商务智能、元数据管理、数据质量管理。基本环境要素包括目标与原则、组织与文化、工具、活动、角色和职责、交付成果、技术。

DAMA 金字塔图(Aiken 金字塔)中的四个阶段

DAMA 金字塔图,从数据、信息到知识逐层递进,将数据管理知识划分为四个阶段,指导大家分阶段学习 DAMA 知识体系和开展数据管理工作。

专业考试认证,在国外的名称是数据管理专业人员认证( CDMP ),引入国内后,DAMA 中国对 CDMP 进行了适当本地化重构。分为:数据治理工程师( CDGA)和数据治理专家( CDGP ),三个证书国际通用。

对于个人来说,想长期从事数据管理方面工作,有证和没证多少还是有些区别的。退一步讲,不为考证,学点知识也是好的。

数据管理成熟度评估模型

DCMM 是国家工信部信软司主导,具有中国特色,在数据管理领域的国家级标准。是企业数据管理能力建设的指导性理论和能力评估标准。

DCMM 建设概念图

DCMM 等级定义

DCMM 将数据管理能力成熟度划分为五个等级,自低向高依次为初始级、受管理级、稳健级、量化管理级和优化级,不同等级代表企业数据管理和应用的成熟度水平不同。

当然了,国家的认证对很多企业还是很有吸引力的,这不还有人付费求 DCMM  评估申请材料模板的:付费求一套文件!!!

最近国家层面的数据管理证书 CDP(Certified DCMM Professional)也马上要出台了,该证书也是依赖于 DCMM 体系。喜大普奔!工信部数据管理人才证书!!!

数据治理

数据治理概念也是这几年国内的热点了,数据方向的面试也经常被问到,但每个人对其理解差异也很大。

这里给出认可读比较高的 DAMA 国际的定义:数据治理是对数据资产的管理活动行使权力和控制的活动集合(规划、监控和执行)。

数据治理是一个大而全的知识体系。在数据管理的几乎所有领域(或者数据生产加工应用全流程),数据治理都应该参与其中,保证数据管理能够朝着一个更好的方向发展。

对于已经构建好的数据体系,我们需要搜集现有问题并排列好优先级,做为数据治理工作的阶段性目标,比如数据质量、成本控制、数据规范、数据模型、数据安全等等。

数据资产管理

数据管理的概念从 80 年代提出已经接近 40 年了,数据治理的提法也有近 20年了,而数据资产管理的提出基本是最近 5 年的事情。

数据管理和数据治理的区别和联系,请看以下两篇文章:

数据管理与数据治理发展史综述

数据资产管理和数据治理是什么关系?

数据资产(Data Asset)是指由企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源,如文件资料、电子数据等。在企业中,并非所有的数据都构成数据资产, 数据资产是能够为企业产生价值的数据资源。

数据资产管理(DAM,Data Asset Management)是指规划、控制和提供数据及信息资产的一组业务职能,包括开发、执行和监督有关 数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保 护、交付和提高数据资产的价值。数据资产管理是需要充分融合业务、 技术和管理,来确保数据资产保值增值。

企业管理数据资产就是通过对数据的生命周期的管理,提高数据资产质量,促进数据在“内增值,外增效”两方面的价值变现。数据先被规范性定义、创建或获得,然后存储、维护和使用,最终被销毁。数据的生命周期开始于数据获取之前,企业先期制定数据规划、定义 数据规范,以期获得实现数据采集、交付、存储和控制所需的技术能 力。数据资产管理一般来说包括统筹规划、管理实施、稽核检查和资 产运营四个主要阶段。

数据资产的落地手段:

  1. 在底层包括数据资产目录、数据分级分类、数据地图、数据安全和数据质量保障机制。

  2. 在上层我们需要建立指标体系、标签体系。

  3. 最后我们需要建立起一套有效的评估体系,去检测数据管理成本和数据应用价值。

数据仓库

这个就不必再做介绍了。本系列主题部分共计十篇,数据治理是单独的一篇,可见其重要性。但如果有人问我,数据仓库最重要的是什么,我会回答数据应用和数据质量。

我们所有数据管理工作开展的终极目标就是获取信息创造价值(了解业务现状、预测趋势、支持决策、发现商机、辅助运营、数据交易等等),而价值的最终体现基本上都在应用上,比如各种报表、分析报告、用户画像、运营支撑、风控,甚至数据交易、联合建模。当然这个价值可以是现在的也可以是未来的。

数据的各种应用解决了数据怎么用的问题,我们依托应用去创造价值。而数据质量是应用能够最终真正有用的必要条件。试想一下错误的数据、缺失的数据、迟到的数据对于数据的价值体现,轻则无法使用,重则造成决策失误引起重大损失。

0x01 五大数据质量评估标准

  • 从数据本身的角度:完整性、准确性、一致性、时效性(及时+有效)。

  • 从数据使用的角度:可访问性。

完整性

完整性是指数据的记录和信息是否完整,是否存在数据缺失情况。数据缺失主要包括记录的缺失和重要字段信息的缺失,两者都会造成统计结果不准确。

完整性是数据质量最基础的保障。

例如,某个稳定业务的数据量每天约为 100 万条记录,某天突然下降了 1 万条,则可能是出现了记录缺失。

例如,某科高考成绩表中,每个考卷分数都对应一个准考证号,当准考证号字段的空值数大于0时,则可能是出现了信息缺失。

一致性

一致性通常体现在跨度很大的数据仓库中。

例如,某公司有很多业务数仓分支,对于同一份数据,在不同的数仓分支中必须保证一致性。

例如,从在线业务库加工到数据仓库,再到各个数据应用节点,用户 ID 必须保持同一种类型,且长度也要保持一致。因此,您需要设计数仓的公共层以确保数据的一致性。

准确性

准确性是指数据中记录的信息和数据是否准确、是否存在异常或者错误的信息。

例如,成绩单中分数出现负数或订单中出现错误的买家信息等,这些数据都是问题数据。

确保记录的准确性也是保证数据质量必不可少的一部分。

时效性

包含两部分:及时+有效。保障数据的及时产出才能体现数据的价值,同时对于部分时间敏感型的数据也必须在有效期内使用才行。

例如,决策分析师通常希望每天上班时候前就能看到前一天的数据。若等待时间过长,数据失去了及时性的价值,数据分析工作将失去意义。

例如,运维人员需要在收到故障告警的同时立刻能够拿到关键的运行日志数据,以便更快的排查问题恢复系统。

有效性

指数据的值、格式和展现形式符合数据定义和业务定义的要求。好吧,这个可以拿掉,应该也是属于准确性的范畴吧。

可访问性

对数据用户来讲,最核心的需求是当他们需要用数据的时候,这些数据是可以被访问的。他们想知道企业有哪些数据?存放在哪里?以及如何访问到这些数据?我们看到很多数据平台提供的统一数据资源目录功能就是解决这个问题的。


数据质量问题,可以分为这么三类:

  • 源端数据问题(不准确、不一致、不完整、不可访问)

  • 数据处理问题(同步集成、计算、存储、查询)(不准确、不一致、不完整、不及时、不可访问)。

  • 数据口径不一致、各方理解偏差(不准确、不一致)。

数据质量保障,是一个系统化的工程,我们需要全局协调一致才行。为了让大家有更深刻的体会,接下来,我们从三个角度分别给大家阐述。

0x02 技术业务管理三位一体的保障体系

技术

我们需要保证数据从源端到最终应用端流转过程中的数据质量,一方面我们需要提高每一位数据开发者的技术能力来提高模型和 ETL 的设计与落地质量,另一方面我们使用数据质量工具来对 ETL 过程进行监控。对于源端的数据问题,有时候也可以通过技术手段解决,比如编码映射、ID-Mapping、缺失值补全等等。

  • 数据模型设计的质量问题,例如:数据库表结构、数据库约束条件、数据校验规则的设计开发不合理,造成数据录入无法校验或校验不当,引起数据重复、不完整、不准确。

  • 数据源存在数据质量问题,例如:有些数据是从生产系统采集过来的,在生产系统中这些数据就存在重复、不完整、不准确等问题,而采集过程有没有对这些问题做清洗处理,这种情况也比较常见。

  • 数据采集过程质量问题, 例如:采集点、采集频率、采集内容、映射关系等采集参数和流程设置的不正确,数据采集接口效率低,导致的数据采集失败、数据丢失、数据映射和转换失败。

  • 数据传输过程的问题,例如:数据接口本身存在问题、数据接口参数配置错误、网络不可靠等都会造成数据传输过程中的发生数据质量问题。

  • 数据装载过程的问题,例如:数据清洗规则、数据转换规则、数据装载规则配置有问题。

  • 数据存储的质量问题,例如:数据存储设计不合理,数据的存储能力有限,人为后台调整数据,引起的数据丢失、数据无效、数据失真、记录重复。

  • 系统之间的数据不一致问题。

业务

有时候,数据质量问题的根本原因是业务问题造成的,我们就需要从业务着手解决。

我们需要有业务专家或者业务部门参与,统一数据口径、纠正理解偏差、通过深入的沟通明确业务方诉求。

数据质量改进的驱动因素永远来自业务目标,不能脱离业务需求谈数据质量。制定数据质量改进方案的基础,首先是清晰定义业务需求,然后是根据业务需求对企业业务的长期影响来定义数据质量问题的优先级。衡量业务影响、定义问题优先级有助于明确治理目标并跟进数据质量改进的进度。

  • 业务需求不清晰,例如:数据的业务描述、业务规则不清晰,导致技术无法构建出合理、正确的数据模型。

  • 业务需求的变更,这个问题其实是对数据质量影响非常大的,需求一变,数据模型设计、数据录入、数据采集、数据传输、数据装载、数据存储等环节都会受到影响,稍有不慎就会导致数据质量问题的发生。

  • 业务端数据输入不规范,常见的数据录入问题,如:大小写、全半角、特殊字符等一不小心就会录错。人工录入的数据质量与录数据的业务人员密切相关,录数据的人工作严谨、认真,数据质量就相对较好,反之就较差。

  • 数据作假,对,你没看错,就是数据作假!操作人员为了提高或降低考核指标,对一些数据进行处理,使得数据真实性无法保证。

管理

技术再努力起到的作用毕竟有限,有些事情必须通过管理手段去约束。通过管理使得规范得以贯彻,通过管理来提高团队成员的数据质量意识,通过管理手段去协调各个参与方提高效率。

可以建立数据质量保障委员会,源端团队负责人、数据团队负责人、业务团队负责人,都要参与其中。统一规划顶层设计,制定统一数据架构、数据标准,设计数据质量的管理机制,采用分类处理的方式持续提升数据质量。源端的数据问题最好在源端解决,建立指标体系统一各方的数据口径,明确数据问题的责任谁的问题谁解决。

总之,只有管理上重视了,整体工作才好开展。

  • 认知问题。企业管理缺乏数据思维,没有认识到数据质量的重要性,重系统而轻数据,认为系统是万能的,数据质量差些也没关系。

  • 没有明确数据归口管理部门或岗位,缺乏数据认责机制,出现数据质量问题找不到负责人。

  • 缺乏数据规划,没有明确的数据质量目标,没有制定数据质量相关的政策和制度。

  • 数据输入规范不统一,不同的业务部门、不同的时间、甚至在处理相同业务的时候,由于数据输入规范不同,造成数据冲突或矛盾。

  • 缺乏有效的数据质量问题处理机制,数据质量问题从发现、指派、处理、优化没有一个统一的流程和制度支撑,数据质量问题无法闭环。

  • 缺乏有效的数据管控机制,对历史数据质量检查、新增数据质量校验没有明确和有效的控制措施,出现数据质量问题无法考核。

小结:影响数据质量的因素,可以总结为两类,客观因素和主观因素。客观因素:在数据各环节流转中,由于系统异常和流程设置不当等因素,从而引起的数据质量问题。主观因素:在数据各环节处理中,由于人员素质低和管理缺陷等因素,从而操作不当而引起的数据质量问题。

0x03 数据全周期管理保障体系

数据的生命周期从数据规划开始,中间是一个包括设计、创建、处理、部署、应用、监控、存档、销毁这几个阶段并不断循环的过程。企业的数据质量管理应贯穿数据生命周期的全过程,覆盖数据标准的规划设计、数据的建模、数据质量的监控、数据问题诊断、数据清洗、优化完善等方面。

数据规划。从企业战略的角度不断完善企业数据模型的规划,把数据质量管理融入到企业战略中,建立数据治理体系,并融入企业文化中。

数据设计。推动数据标准化制定和贯彻执行,根据数据标准化要求统一建模管理,统一数据分类、数据编码、数据存储结构,为数据的集成、交换、共享、应用奠定基础。

数据创建。利用数据模型保证数据结构完整、一致,执行数据标准、规范数据维护过程,加入数据质量检查,从源头系统保证数据的正确性、完整性、唯一性。

数据使用。利用元数据监控数据使用;利用数据标准保证数据正确;利用数据质量检查加工正确。元数据提供各系统统一的数据模型进行使用,监控数据的来源去向,提供全息的数据地图支持;企业从技术、管理、业务三个方面进行规范,严格执行数据标准,保证数据输入端的正确性;数据质量提供了事前预防、事中预警、事后补救的三个方面措施,形成完整的数据治理体系。

0x04 数据流转链路保障体系

数据源。源端的数据问题,最好在源端解决。有时候基于降低下游计算复杂度而对源端做些改造也是必要的。源端解决不了的问题需要跟数据应用端协商一致制定改造方案。

数据集成存储计算。通过制定规范保证设计和开发的高质量开展减少错误,通过数据质量稽核工具及时发现数据问题,通过监控告警程序实时发现并处理 ETL 任务异常。

数据应用。统一口径、纠正理解偏差。

0x05 数据处理前中后三阶段保障体系

事前预防控制。数据开发人员需要提高保证数据质量意识,同时组织内构建完善的数仓规范,保障模型设计、ETL 开发等核心流程的优质方法论能够切实得到贯彻。

事中过程控制。通过建立一套切实可行的数据质量监控体系、设计数据质量稽核规则、加强从数据源头控制数据质量、把控整个数仓设计和开发过程,形成覆盖数据全生命周期的数据质量管理。

事后监督控制。出现数据质量问题,清晰定位数据技术责任人,进行整改迭代,保证数据质量管理形成一个良性循环,实现数据向优质资产的转变。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/562830.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

会声会影2023最新完整版免费下载

会声会影2023操作简单,功能同样强大!会声会影附带上百种特效、滤镜、转场、模板。同时各类专业级视频工具,如调色、遮罩、绿幕抠像、运动追踪、分屏创建器,满足更高标准的视频需求。这款软件上手操作简单易学,就算你在…

Linux之进程管理类命令

进程管理类命令 ps:查看当前系统进程状态 1)基本语法 语法说明ps aux查看系统中所有进程ps -ef可以查看父子进程之间的关系 2)选项说明 选项说明a列出带有终端的所有用户的进程x列出当前用户的所有进程,包括没有终端的进程u面…

C语言的一些杂记6

实现矩阵序号转置的三种方式 for (i 0; i < row * col; i)t[i / row][i % row] m[i % row][i / row];for (i 0; i < row; i)for (j 0; j < col; j)t[j][i] m[i][j];for (i 0; i < row; i)for (j 0; j < col; j)*(*(t j) i) *(*(m i) j); 变相数组 …

关于 arduino 中的 map(x, a, b,c,d)函数

函数名称&#xff1a;map() 包含形参&#xff1a; value&#xff1a;需要映射的值fromLow&#xff1a;输入值的最小值fromHigh&#xff1a;输入值的最大值toLow&#xff1a;输出值的最小值toHigh&#xff1a;输出值的最大值 功能&#xff1a;将一个值从一个范围映射到另一个…

【环境安装】Linux环境中docker安装redis

一、找到一个合适的docker的redis的版本 可以去docker hub中去找一下 https://link.juejin.cn/?targethttps%3A%2F%2Fhub.docker.com%2F_%2Fredis%3Ftab%3Dtags 二、使用docker安装redis 我这里安装了具体的某个版本 docker pull redis // 下载最新版Redis镜像 (等同于 : d…

UAS协议说明

1 概述 UAS(USB Attached SCSI)是一种位于SCSI协议框架下传输层的一种协议&#xff0c;其作用是通过基于USB的应用层协议约定&#xff0c;将SCSI的协议数据(Protocol Data Unit)用USB进行封装&#xff0c;从而实现使用USB物理连接进行SCSI协议通信的方式。 UAS实际上定义了两…

wireshark网络抓包详解

一、简介 Wireshark是一款非常流行的网络封包分析软件&#xff0c;可以截取各种网络数据包&#xff0c;并显示数据包详细信息。 为了安全考虑&#xff0c;wireshark只能查看封包&#xff0c;而不能修改封包的内容&#xff0c;或者发送封包。 wireshark能获取HTTP&#xff0c;也…

【Android】(最新)跑马灯文字水平滚动(79/100)

先上效果&#xff1a; Android系统中TextView实现跑马灯效果&#xff0c;必须具备以下几个条件&#xff1a; android:singleLine“true”android:ellipsize“marquee”android:marqueeRepeatLimit“marquee_forever”TextView必须单行显示&#xff0c;即内容必须超出TextView…

Jetpack Compose 实现了一个丝滑流畅的页面展开和关闭的效果动画

Jetpack Compose 将动画实现的门槛降低了&#xff0c;不过Compose目前还不支持共享元素过渡。 (上篇文章Jetpack Compose开发的本地笔记本)的动画效果的实现 转跳前的准备工作 定义State枚举类来表示页面的三种状态: Closing(关闭状态) Closed(关闭完成状态) Opening(展开状…

找不到vcruntime140.dll,无法继续执行代码?多种解决方法解析

找不到vcruntime140.dll,无法继续执行代码&#xff1f;当你在尝试运行某个程序时&#xff0c;突然弹出一条错误提示框&#xff0c;告诉你无法继续执行代码&#xff0c;因为找不到vcruntime140.dll。这个问题很常见&#xff0c;但是它可能会让你感到困惑和疑惑。这篇文章将详细介…

chatgpt赋能Python-python_numpy遍历

Python NumPy遍历&#xff1a;使用高效的方式为数据科学家节省时间和精力 Python语言在数据科学领域中的地位越来越重要&#xff0c;并成为了数据科学家的首选语言之一。在解决数据问题时&#xff0c;NumPy模块是Python程序员经常使用的一个重要库。NumPy提供了快速的数组操作…

【大数据实训】—Hadoop开发环境搭建(一)

【大数据实训】—Hadoop开发环境搭建&#xff08;一&#xff09; 第一关、任务描述 本关任务&#xff1a;配置JavaJDK。 相关知识 配置开发环境是我们学习一门IT技术的第一步&#xff0c;Hadoop是基于Java开发的&#xff0c;所以我们学习Hadoop之前需要在Linux系统中配置Jav…

Flowable钉钉对接005-完成钉钉任务

企业中有自己的业务系统&#xff0c;审批都在业务系统中审批&#xff0c;如何结合移动办公的开放平台实现统一审批至关重要。 场景很简单&#xff0c;自己的系统中可以审批&#xff0c;钉钉上也可以审批&#xff0c;使用H5来适配&#xff0c;统一待办任务 统一待办审批 目标&am…

python获取tx弹幕数据并制作词云图

前言 大家早好、午好、晚好吖 ❤ ~欢迎光临本文章 知识点介绍: 爬虫基本思路流程 requests模块的使用 pandas读取表格数据 环境介绍: 开发环境: python 3.8 运行代码 pycharm 2022.3 辅助敲代码 模块使用&#xff1a; requests >>> pip install requests pa…

​年轻人的情绪,都藏在知乎的短故事里

“谢邀&#xff0c;与世界分享我刚编的故事。” 这是一句在知乎被调侃的老梗。它源自于知乎上有众多隐匿的大佬&#xff0c;他们经历过各种奇闻轶事&#xff0c;也乐于分享传奇的人生经历&#xff0c;而这其间&#xff0c;很多真假难辨的事迹&#xff0c;也被很多用户笑称可以当…

这几款好用的软件分享给你

软件一&#xff1a;Handbrake Handbrake是一款免费开源的视频转码软件&#xff0c;适用于Mac、Windows和Linux系统。它可以将几乎所有视频格式转换为其他格式&#xff0c;包括MP4、MKV、AVI等等。作为一个强大的视频编码器&#xff0c;它可以压缩视频大小&#xff0c;并提供多…

Android Qcom USB Driver学习(十一)

该系列文章总目录链接与各部分简介&#xff1a; Android Qcom USB Driver学习(零) 基于TI的Firmware Update固件升级的流程分析usb appliction layers的数据 USB Protocol Package ①/② map to check password correct Package Format: Byte[0] Report Id Byte[1] Valid L…

玩转SpringCloud Alibaba,看阿里大佬的笔记是真香

大家都知道&#xff0c;SpringCloudAlibaba 风靡 Java 开发行业&#xff0c;各个公司都在用这套技术&#xff0c;所以咱们 Java 工程师不管是日常工作或是出去面试&#xff0c;都会用到或者被问到关于SpringCloudAlibaba的应用以及底层原理 所以说&#xff0c;小编下面带来一份…

用于视频编辑和渲染的最佳GPU是什么?

购买新的图形卡&#xff08;GPU&#xff09;可能很困难&#xff0c;尤其是如果涉及您所不熟悉的所有技术问题。 显卡市场上的大多数消费者只需要了解显卡在自己喜欢的游戏中的性能&#xff0c;并确定购买决定即可。但是&#xff0c;如果您想购买GPU进行视频编辑或3D渲染&#…

网络安全工程师考证指南

已经到2023年了&#xff0c;那么信息安全类证书最有前途的有哪些呢&#xff1f;今天和大家一起聊聊这个话题&#xff01; 1.CISP(国家登记的信息安全专业人员) 就CISP而言&#xff0c;安全实践者基本耳闻&#xff0c;算是国内权威认证&#xff0c;毕竟有政府背景为认证做背书&…