大数据治理入门系列:数据质量

news2025/2/12 18:37:01

无论您是数据领域的专业人员,还是其他领域的非专业人士,也许都曾遇到过数据不完整、数据过时、数据不一致、数据不准确等问题。这些低质量的数据不仅没能解决最初的疑问,甚至还可能衍生出了其他问题。质量低劣的数据会影响数据分析结果,误导业务决策,造成经济或其他方面的损失,损害使用者的信心。因此,为了避免这类问题,组织机构有必要把控数据质量。数据质量也是数据治理的重要一环。

狭义的数据质量仅指数据在准确性、有效性、及时性、完整性、唯一性、一致性等方面的好与坏,是否能满足预期的用途。但从广义的层面而言,数据质量还可以包括定义数据质量标准、监督和维护数据质量的规则、流程、具体实施。

img

维度

数据质量可以从六个维度进行衡量:准确性、有效性、及时性、完整性、唯一性、一致性。

准确性:数据必须反映真实世界的实际情况,不得伪造数据。准确性是评估数据质量的首要标准。如果数据本身就是错误的,那么后面的有效性、及时性等其他维度则无从谈起,因为错误的数据在数据治理过程中毫无价值,只会白白占据存储空间、浪费管理精力。为了确保数据的准确性,应该从数据源头开始治理。输入/存储数据时就通过相关流程和标准对数据进行验证,确保新数据正确无误时才能将其存入数据库。

有效性:数据应该符合相关的业务规则,使用正确的存储格式。例如,一般的银行卡号应该在 16-19 位之间,两位数的银行卡号则属于无效数据。

及时性:数据应该及时更新,并且确保用户需要某一条数据时能在最短时间内找到该数据。过时的数据会影响数据分析结果的准确性和可靠度。因此,数据管理员或数据质量分析师需要定期整理数据,剔除过时数据,及时更新数据。

完整性:完整的数据才能有效满足使用者的需求。甚至,在某些情况下,只有完整的数据才是有意义的。例如,分析产品销量变化时,需要同时考虑公司内外的微观和宏观因素,否则得出的结果未免有些片面。因此,组织应该预先定义所需的各种数据元素,确保数据库中存储了完整的数据。

唯一性:已经记录过的数据无需重复记录。通过数据清洗和去重确保数据的唯一性,这有助于提高数据使用效率,降低审计成本,节省存储空间。

一致性:同一个数据对象的值应该是唯一的。例如,你此时此刻的人民币账户余额应该是独一无二的确定值。不一致的数据只会制造问题,无法解决问题。因为如果出现数据不一致,需要花费更多时间去验证究竟哪个数据才是正确的。

img数据质量的六个维度

为了确保数据质量,企业可以根据自身的业务场景制定相应的数据质量规则和流程制度,以确保数据在各个维度符合质量要求。另外需要注意的是,对于特定的关键数据元素而言,并非所有的维度都适用。例如就出生日期而言,只能评估其有效性和完整性。

质量管理流程

数据质量管理主要分为四个流程:

  1. 确定数据质量要求:通过适用的专业工具或查询语言进行数据剖析(Profiling),了解数据的大体情况,发现可能存在的问题。
  2. 开展数据质量评估:制定数据质量规则和标准,根据这些规则和标准评估现有的数据集,开展数据质量评估,发现数据质量问题,更新问题日志。
  3. 解决数据质量问题:分析造成数据问题的根本原因,对症下药,解决这些问题,可以参考数据政策和流程。
  4. 日常监督与维护:制定并推广数据质量得分表等工具,监督数据质量得分。

数据质量管理过程中涉及的角色主要是数据质量分析师。数据质量分析师与业务所有者、数据管理员、技术所有者、数据监管人等角色紧密协作,具体工作包括但不限于:定义数据治理规则、剖析数据、分析数据质量剖析结果和评估结果、发现质量问题、调研数据质量问题的根因、解决这些问题、监督数据质量、针对现有的数据问题提出建议、改善流程等,这些建议由数据管理员进行审批,审批通过后再由质量分析师予以执行。

提升数据质量

所谓“光说不练假把式”,介绍了数据治理的含义、维度、流程等理论性概念之后,现在来关注一下实操性的指南,即如何提升数据质量。提升数据质量主要可以从以下几个方面进行:

  1. 做好数据剖析:在考虑提升数据质量之前,你必须了解自己的数据,初步评估数据集的现状,这样才能因“数”制宜,对症下药。
  2. 数据标准化:制定科学合理、符合实际情况的数据质量管理策略,使用合理的流程和工具。
  3. 加强质量监督:确保所制定的各项规则落到实处,定期查看数据质量得分,通过分析数据血缘关系掌握数据的流转情况。
  4. 加强人员管理与培训:鉴于目前的人工智能水平,人员素质对人大多数工作而言仍然非常重要,很多重要的分析工作仍然需要高素质、高技能的人员来完成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/639768.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

代码随想录刷题第52天|LeetCode300最长递增子序列、 LeetCode674最长连续递增序列、LeetCode718最长重复子数组

1、LeetCode300最长递增子序列 题目链接:300最长递增子序列 1、dp[i]表示i之前包括i的以nums[i]结尾的最长递增子序列的长度。 2、递推公式: if (nums[i] > nums[j]) dp[i] max(dp[i], dp[j] 1); 注意这里不是要dp[i] 与 dp[j] 1进行比较&…

Rust X DatenLord l Rust China Conf 2023 倒计时!

Rust语言作为一种强调性能、安全和并发性的新的编程语言,吸引了越来越多的程序员想要尝试学习和使用Rust。达坦科技(DatenLord)旗下的开源项目Xline (用于元数据管理的分布式KV存储)就是用Rust写就的,我们也…

android remount 工作原理简介

android remount 在调试android 系统的时候是个非常有用的调试手段, 有remount 的帮助, 可以轻松的修改系统分区的某些文件,或者在系统分区添加删除文件。但有时候remount 也会因为一些verity, checkpoint ,和remount …

【python数据可视化】Matplotlib绘图练习(一)

目录 Matplotlib 🥇Summary 获取源码?私信?关注?点赞?收藏? Python数据可视化的由来主要是因为数据可视化在数据分析领域扮演了至关重要的角色。这是因为,数据可视化能够更好地向人们展示大量…

电脑老是自动更新怎么办?教你一招彻底解决

前言 这两天有粉丝留言问我:电脑老是提示自动更新,而且关也关不掉,这该怎么办? 今天就教大家如何彻底关掉电脑的系统自动更新功能,以后永远不再自动更新。 一、关闭更新服务 1. 同时按下键盘winR键,打开运…

SQL 知识你知道吗:公共表表达式(CTE)

一、概念 公共表表达式(CTE)是一种临时命名查询结果集的方式,可以在一个查询语句中多次引用。CTE在查询语句中定义,可以在查询语句中的任何位置使用,并且只在查询语句执行期间存在。CTE通常用于简化复杂的查询&#x…

1个暑假能学会多少网络安全技能?

现在可以看到很多标题都声称三个月内就可以转行网络安全领域,并且成为月入15K的网络工程师。那么,这个暑假的时间能学多少网络安全知识?是否能入门网络安全工程师呢? 答案是肯定的。 虽然网络完全知识是一门广泛的学科&#xff…

微信授权登录

网站应用微信登录是基于OAuth2.0协议标准构建的微信OAuth2.0授权登录系统。 在进行微信OAuth2.0授权登录接入之前,在微信开放平台注册开发者帐号,并拥有一个已审核通过的网站应用,并获得相应的AppID和AppSecret,申请微信登录且通过…

ConcurrentHashMap简单了解

早期ConcurrentHashMap: 通过分段锁Segment实现,将锁一段一段存储,默认会分配16个segment,当一个线程占用一把锁segment访问其中一段数据的时候,位于其它segment的数据也能被其它线程同时访问,每个segment分…

面板安全能力持续增强,新增日志审计功能,1Panel开源面板v1.3.0发布

2023年6月12日,现代化、开源的Linux服务器运维管理面板1Panel正式发布v1.3.0版本。 在这一版本中,1Panel进一步增强了安全方面的能力,包括新增SSH配置管理、域名绑定和IP授权支持,以及启用网站防盗链功能。此外,该版本…

【C#】并行编程实战:序章

前言 本文主要是基于这本书学习的: 《并行编程实战:基于C#8和.NET Core 3》,我当时买的实体书,长下面这个样子。我买了大概浏览了一下,感觉内容还行(基本都是没见过的新东西),所以打…

计算机提示由于找不到VCRUNTIME140.dll,无法继续执行代码,重新安装程序可能会解决

vcruntime140.dll文件是一个动态链接库,是Windows操作系统中非常重要的一个动态链接库文件,用于支持使用Microsoft Visual C编译器创建的应用程序的运行。当我们运行的软件是有C编译器创建的程序,就需要到系统的vcruntime140.dll,…

数学模型:Python实现微分方程

文章摘要:微分方程的Python实现。 参考书籍:数学建模算法与应用(第3版)司守奎 孙玺菁。 PS1:只涉及了具体实现并不涉及底层理论。没有给出底层理论参考书籍的原因是不想做这个方向吧。所以对我只要掌握基本模型有个概念那就好了。 PS2&#x…

年度创新企业奖!移远通信成推动AIoT融合落地关键力量

6月8日,由ASPENCORE主办的2023国际AIoT生态发展大会在深圳召开,移远通信受邀出席大会并发表演讲,同时凭借在5G、AIoT等领域的持续创新荣获“年度创新企业”奖! 5GAIoT“双引擎” 重塑物联产业 近些年,从互联网、物联网…

汽车仪表中控开发中视频相关的一些知识点

前言: 做汽车仪表/IVI中控,尤其是IVI信息娱乐部分,都要涉及到视频这个知识点,各种概念很多,首先需要明确一条主线,那就是SDTV标清电视->HDTV高清电视->UHDTV超高清电视的一个发展脉络,BT601/656是SDTV标清电视接口,BT1120则对应HDTV高清电视接口。ITU-R BT.601/6…

2022 年全国硕士研究生入学统一考试管理类专业学位联考逻辑试题

2022 年全国硕士研究生入学统一考试管理类专业学位联考逻辑试题 一. 逻辑推理:第 26~55 小题,每小题 2 分,共 60 分。下列每题给出的 A、B、C、D、E 五个选项中,只有一项是符合试题要求的。 26.百年党史充分揭示了中国共产党为什么…

Qemu 逃逸基础知识

QEMU 与 KVM 架构 QEMU 与 KVM 的完整架构如下图所示。 QEMU 与 KVM 架构整体上分为 3 个部分: VMX root 模式的应用层,即图中左上部分,属于 qemu 进程。VMX root 模式的内核层,即图中下半部分,属于 kvm 驱动。VMX …

吴恩达471机器学习入门课程2第1周——手写数字识别(0和1)

用于手写数字识别的神经网络(0和1) 问题描述1.导入模块2. 数据集2.1 数据可视化 3 模型展示 使用神经网络来识别手写数字 0 和 1。 问题描述 在这个练习中,您将使用神经网络来识别手写数字“0”和“1”。这是一个二元分类任务。 自动手写数…

20JS11——JS对象

文章目录 一、对象二、创建对象的三种方式1、利用字面量创建对象1.1 使用对象1.2 变量、属性、函数、方法总结2、利用new Object创建对象3、利用构造函数创建对象(1)为什么使用构造函数?(2)利用构造函数创建对象&#…

Java8日期时间类LocalDateTime格式化

LocalDateTime日期时间格式化 LocalDateTime localDateTime LocalDateTime.now() System.out.println(now.format(DateTimeFormatter.ofPattern("yyyy-MM-dd HH:mm:ss"))); localDateTime.format(DateTimeFormatter.ofPattern("yyyy-MM-dd HH:mm:ss")测…