第十三章 数据质量

news2025/1/13 13:49:54

本章重点内容:

1.重要的数据先开始处理

2.要知道PDCA(计划-执行-检查-行动)

3.知道数据质量的评估维度

4.进行根因分析以找出数据质量问题的根源

5.数据质量报告

1. 概述

  • 与数据治理和整体数据管理一样,数据质量管理不是一个项目,而是一项持续性工作。

  • 重要的数据先开始。

  • 高质量数据:达到数据消费者的期望和需求

2. 业务驱动因素

  • 提高组织数据价值和数据利用的机会

  • 降低低质量数据导致的风险和成本

  • 提高组织效率和生产力

  • 保护和提高组织的声誉

注:高质量数据本身并不是目的,它只是组织获取成功的一种手段

3. 目标和原则

目标:
  • 根据数据消费者的需求,开发一种受管理的方法,使数据适合要求

  • 定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分

  • 定义和实施测量、监控和报告数据质量水平的过程

原则:
  • 1)重要性

    • 数据治理管理应关注对企业及其客户重要的数据,改进的优先顺序应根据数据的重要性以及数据部正确的风险水平来判定

  • 2)全生命周期管理

  • 3)预防

  • 4)根因修正

    • 常见的根因分析技术包括帕累托分析(80/20规则)、鱼骨图分析、跟踪和追踪、过程分析以及五个为什么等(McGilvray,2008)。

  • 5)治理

  • 6)标准驱动

  • 7)客观测量和透明度

  • 8)嵌入业务流程

  • 9)系统强制执行 系统所有者必须让系统强制执行数据质量要求。

  • 10)与服务水平关联

4. 基本概念

评估关键数据

个人关键数据包括:

PII、财务数据、PHI和教育记录等

企业关键数据有:

  • 监管报告

  • 财务报告

  • 商业政策

  • 持续经营

  • 商业战略,尤其是差异化竞争战略

5. 数据质量维度

数据质量6个核心维度(DAMA)
  • 1)完备性。存储数据量与潜在数据量的百分比。

  • 2)唯一性。在满足对象识别的基础上不应多次记录实体实例(事物)。

  • 3)及时性。数据从要求的时间点起代表现实的程度。

  • 4)有效性。如数据符合其定义的语法(格式、类型、范围),则数据有效。

  • 5)准确性。数据正确描述所描述的“真实世界”对象或事件的程 度。

  • 6)一致性。比较事物多种表述与定义的差异。

(自我可以定义)

三个最具影响力的人物:

需要知道的三个名字以及它们各自的特性

Strong-Wang

Thomas Redman

Larry English

6. 数据治理改进生命周期

戴明环:是一个呗称为 "划-执行-检查-处理" 的问题的解决模型

  • PDCA:计划(Plan)阶段,执行(Do)阶段,检查(Check)阶段,处理(Act)阶段

PDCA循环用于持续改进数据质量,通过不断分析、修改和验证来提高数据质量

什么情况下需要开启PDCA:

  1. 现有的数据质量评估没有达到目标阈值

  2. 新的数据集正在调查中

  3. 对现有的数据集提出新的数据质量要求

  4. 业务规则、标准或者期望变更

问:如果

7. 数据质量业务规则类型

  • 定义一致性

  • 数值存在和记录完备性

  • 格式符合性

  • 值域匹配性

  • 范围一致性

  • 映射一致性

  • 一致性规则

  • 准确性验证

  • 唯一性验证

  • 及时性验证

8. 数据质量问题的常见原因

调查根本原因时,分析师应该寻找潜在的原因,如数据输入、数 据处理、系统设计,以及自动化流程中的手动干预问题。

  • (1)缺乏领导力导致的问题和企业文化不到位(数据质量低下最最最常见的原因(反映了企业对数据重要性的认识不足))

  • (2)数据输入过程引起的问题

  • (3)数据处理功能引起的问题

  • (4)系统设计引起的问题

  • (5)解决问题引起的问题

9. 数据剖析

数据剖析(Data Profiling)是一种用于检查数据和评估质量的数据分析形式。

但不是解决数据质量问题的根本方法。

2.数据剖析可以看到数据那些内容:

  1. 空值数 标识空值存在,并检查是否允许空值。

  2. 最大/最小值 识别异常值,如负值。

  3. 最大/最小长度 确定具有特定长度要求的字段的异常值或无效值。

  4. 单个列值的频率分布 能够评估合理性(如交易的国家代码分布、频繁或不经常发生的值的检查,以及用默认值填充的记录百分比)。

  5. 数据类型和格式 识别不符合格式要求的水平,以及意外格式识别(如小数位数、嵌入空格、样本值)。

10.数据质量和数据处理

  • 数据清理

  • 数据增强

    • 时间戳

    • 审计数据

    • 参考词汇表

    • 语境信息

    • 地理信息

    • 人口统计信息

    • 心理信息

    • 心理信息

  • 数据解析和格式化

  • 数据转换与标准化

11. 活动

11.1 定义高质量数据
11.2 定义数据质量战略
11.3 识别关键数据和业务规则
11.4 执行初始数据质量评估
  • 定义评估的目标

  • 确定要评估的数据

  • 识别数据的用途和数据的使用者

  • 利用待评估的数据识别已知风险,包括数据问题对组织过程的潜在影响

  • 根据已知和建议的规则检查数据

  • 记录不一致的级别和问题类型

  • 量化结果

  • 与数据管理专员、领域专家和数据消费者会面,确认问题和优先级

  • 使用调查结果作为规划的基础

11.5 识别改进方向并确定优先顺序
11.6 定义数据质量改进目标

11.7 开发和部署数据质量操作

  • 管理数据质量规则

  • 测量和监控数据质量

  • 制定管理数据问题的操作过程

  • 制定数据质量服务水平协议

  • 编写数据质量报告.

数据质量值指标例子

12. 纠正措施

  • 自动修正

  • 人工检查修正

  • 人工修正

13. 有效的数据质量指标

  • 可度量性

  • 业务相关性

  • 可接受性

  • 问责/管理制度

  • 可控制性

  • 趋势分析

13.2根本原因分析
  • 常见的根因分析技术包括帕累托分析(80/20规则)、鱼骨图分 析、跟踪和追踪、过程分析以及五个为什么等(McGilvray,2008)。

14. 度量指标

  • 投资回报

  • 质量水平

  • 数据质量趋势

  • 数据问题管理指标

  • 服务水平的一致性

  • 数据质量计划示意图

15. 例题
  • 依据 DBMOK2 数据质量语境关系图中的内容,数据质量分析师属于哪类角色。(A)

  • A. 参与者

  • B. 供给者

  • C. 消费者

  • D. 以上都是

  • 数据质量领域的很多杰出学者已经发表了一系列质量维度,其中有三个最具影响力的人物/模型。(D) 请从下列选项中选择不是这三位的选项。 如果记不住就记  小王(Wang),小红( Redman),英语(English)

  • A. Strong-Wang

  • B. Thomas Redman

  • C. Larry English

  • D. John Kotter

  • 企业需要提升质量的数据范围较大,通常需要分阶段按优先级开展工作,请从下列关于数据质量 工作范围确定的考量维度选项中选择合适的选项。(B)

  • A. 最重要的业务

  • B. 最重要的数据

  • C. 最重要的系统

  • D. 以上都是

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1968533.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

031-GeoGebra中级篇-GeoGebra的布尔值

在 GeoGebra 中,布尔值和条件判断是实现动态数学模型和交互式几何图形的重要工具。布尔值,即逻辑值,只有两个可能的取值:真(True)或假(False)。通过使用布尔值,我们可以创…

css揭秘-学习小结

0 引言-编码技巧 尽量用相对单位,比如字体大小和行高,如果是绝对值每次两个都要改,如果是相对值则只要改一个。 0.1 代码易维护和代码量不可兼得 为一个元素添加宽10px的边框,左侧不带边框,有两种方案 border-widt…

中科大保卫处招聘要求硕士学历:考研还有用吗?

希望同学们在看到类似这样的新闻或者热搜的时候,首先要明白很多事情都存在“幸存者偏差”。 我们不能“管中窥豹”,用特例去认识整体,当然,特例的出现或者存在也是有一定道理的,我们也不能完全忽视特例的存在。 所以…

QPieSeries-饼状图

void Widget::initWindowQPie() {//[1] 创建饼图QPieSeries* pSeries new QPieSeries();pSeries->append("苹果", 15);pSeries->append("西瓜", 30);pSeries->append("香蕉", 10);pSeries->append("葡萄", 25);pSeries-&…

文件解析漏洞—IIS解析漏洞—IIS6.X

目录 方式 1:目录解析 方式 2:畸形文件解析 方式 3:PUT 上传漏洞(123.asp;.jpg 解析成 asp) 环境:Windows server 2003 添加 IIS 管理工具——打开 IIS——添加网站 创建完成之后,右击创建的…

2024年音频剪辑必备:五大最佳音频编辑软件精选!

在数字时代,音频剪辑已成为创意表达的重要工具。无论是音乐制作、播客编辑还是视频后期,一款优秀的音频剪辑软件都是不可或缺的。推荐五款备受推崇的音频剪辑工具。 福昕音频剪辑 链接:https://www.foxitsoftware.cn/audio-clip/ 福昕音频…

arasan CAN2.0 CAN FD user guide详解

1. 引言 1.1 概览 Arasan 的 Controller Area Network - Flexible Data (CAN-FD) 控制器 IP 实现了 CAN 2.0A、CAN 2.0B 以及高性能 CAN-FD (Flexible Data Rate) 协议。它符合非 ISO CAN-FD 由 Bosch 提出的标准以及 ISO11898-1:2015 DIS 标准。它可以集成到需要 CAN 连接性…

IDEA切换分支,会影响当前在跑的项目吗?

说明:本文测试,在IDEA中运行项目,然后切换分支,是否会影响当前正在跑的项目 准备工作 首先,创建一个Git项目,接口如下: import org.springframework.web.bind.annotation.GetMapping; import…

【网络安全】副业兼职日入12k,网安人不接私活就太可惜了!

暑假来了,很多同学后台私信我求做兼职的路子,这里,我整理了一份详细攻略,请大家务必查收,这可能会帮你把几个学期的生活费都赚够! Up刚工作就开始做挖漏洞兼职,最高一次赚了12k,后面…

bootcamp和虚拟机哪个更好 bootcamp和虚拟机的性能差距 MacBook装双系统和虚拟机有什么区别

在当今数字化时代,对于部分使用Mac电脑的用户来说,选择如何在Mac系统中运行Windows或其他操作系统能节省大量精力。双系统(Boot Camp或其他多引导方案)和虚拟机是两种常见的方法。 一、Boot Camp(启动转换助手&#xf…

订单状态统计业务

文章目录 概要整体架构流程技术细节小结 概要 订单状态统计是电子商务、供应链管理、客户服务等多个领域中的一项核心业务需求. 需求分析以及接口设计 技术细节 1.Controller层: ApiOperation("各个状态的订单统计")GetMapping("/statistics")public Re…

step:菜单栏静态加载和动态加载

文章目录 文章介绍静态加载动态加载补充材料 文章介绍 对比静态加载和动态加载。 主界面main.qml之前使用的是动态加载,动态加载导致的问题:菜单栏选择界面切换时,之前的界面内容被清空。 修改方法:将动态加载改为静态加载 左边是…

什么?陶瓷也可以用来存储数据了?

现在是一个数据指数增长的时代,根据IDC数据预测,2025年全世界将产生175ZB的数据。 这里面大部分数据是不需要存储的,在2025预计每年需要存储11ZB的数据。换算个容易理解的说法,1ZB是10^18Bytes, 相当于要写5556万块容量18TB的硬盘…

数据结构(邓俊辉)学习笔记】词典 01—— 散列

文章目录 1. 从服务到电话2. 循值访问3. 数组4. 原理5. 散列6. 冲突 1. 从服务到电话 现在进入新的一章词典。将学习实现词典 adt 的重要技术,也就是散列。我们将看到散列实际上并不是一种简单的技术,从某种意义上讲,它甚至是一种思想&#x…

【数据结构算法经典题目刨析(c语言)】随机链表的复制(图文详解)

💓 博客主页:C-SDN花园GGbond ⏩ 文章专栏:数据结构经典题目刨析(c语言) 目录 一、题目描述 二、思路分析 三、代码实现 一、题目描述 二、思路分析 要完成一个带随机指针的链表的复制,有一个巧妙的办法:分三步走 1.完成节…

钉耙编程(3)

1001深度自同构 Problem Description 对于无向图中的点,定义一个点的度为与其相连的边的条数。 对于一棵有根树,定义一个点的深度为该点到根的距离。 对于由若干有根树构成的森林,定义该森林是深度自同构的,当且仅当森林中任意…

[Java]基础语法

注释 注释就是程序中对代码进行解释说明的文字 生效范围: 注释不影响程序执行, 因为运行的字节码文件中不保留注释 字面量 数据在程序中的书写格式称为字面量 变量 在内存中开辟一块区域, 用来存储数据, 这块空间称为变量 定义变量 使用变量 变量的优势 便于数据的扩展和…

【LeetCode每日一题】搜索旋转排序数组

分析 二分 以4 5 6 7 0 1 2为例,发现将数组分割成两半后,总存在一边是有序 ,有序的那一部分可以使用二分 4|5 6 7 0 1 2 4 5|6 7 0 1 2 4 5 6|7 0 1 2 4 5 6 7|0 1 2 4 5 6 7 0|1 2 4 5 6 7 0 1|2分为三种情况 因为没有重复元素&#xff0…

RAGflow:开源AI框架的创新与应用

在当今科技飞速发展的时代,人工智能(AI)已经成为各行各业不可或缺的一部分。特别是在文档处理和数据分析领域,AI的应用更是无处不在。今天,我要向大家介绍一个开源的AI框架引擎——RAGflow。它能够在深度文档理解方面执…

情感推理在医疗领域的应用

关键词:情感推理、情感分类、多模态大模型、语音识别、思维链 医疗领域中人工智能(AI)的决策透明度至关重要,因为错误可能带来严重后果。这种透明度有助于建立AI与用户之间的信任。情感分析是自然语言处理(NLP&am…