数据质量管理-一致性管理

news2024/12/29 11:04:01

前情提要

根据GB/T 36344-2018《信息技术 数据质量评价指标》的标准文档,当前数据质量评价指标框架中包含6评价指标,在实际的数据治理过程中,存在一个关联性指标。7个指标中存在4个定性指标,3个定量指标;

定性指标:规范性、准确性、唯一性、可访问性

定量指标:完整性、时效性、关联性

规范性--数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度;

完整性--按照数据规则要求,数据元素被赋予数值的程度;

准确性--数据准确表示其所描述的真实实体(实际对象)真实值的程度;

一致性--数据与其他特定上下文中使用的数据无矛盾的程度;

时效性--数据在时间变化中的正确程度;

可访问性--数据能被访问的程度;

关联性--数据记录的实体与实体、实体与时间、实体与地理信息等维度之间的关系构建程度;

一致性怎么进行数据监测和指标量化

官方定义

数据与其他特定上下文中使用的数据无矛盾的程度;

在讲“数据一致性标准”标准的时候,把数据一致性的类型按存储维度和业务维度两方面划分:从存储维度划分包含跨库一致性、跨表一致性、表内一致性;从业务维度划分包含业务内容一致性、业务逻辑一致性、业务内容与元数据一致性;感兴趣大家可以查看之前的文章;一致性标准设计

作用的环节

可以在数据治理完成后的数据明细层和数据服务层(dwd/dws/ads);

数据质量管理依据

数据处理标准中的一致性标准;

数据监测方法

一致性的监测方法分为三个维度进行;①跟踪数据任务是否运行成功;②根据一致性处理标准输出反向质检语句;③人为定期审计;

①跟踪数据任务是否运行成功

 适用范围:监测数据跨库一致性、跨表一致性(数据跨库一致性、跨表一致性本质上是搭建数据往下游抽取和维度退化数据流转过程);

 监测方法:根据数据处理标准中的一致性治理规则所对应的数据开发流程,嵌入数据流程监测预警机制,跟踪任务的运行日志,监测任务成功与否;

②根据一致性处理标准输出反向质检语句

 适用范围:监测表内一致性维度;

 监测方法:根据数据处理标准中的一致性治理规则所对应的数据开发流程,输出反向质检语句,即检测数据中是否出现于规则所对应结果不一致的情况,若检测语句查询结果不为0,则视为有错误记录;

③人为定期审计

适用范围:业务内容与元数据一致性

监测方法:事前制定数据建模规范,在建模过程中加入审核机制,且事后定期进行元数据审计;

量化标准

数据一致性的量化标准可以按照上述的任务跟踪情况和反向质检语句的执行结果输出,人为定期审计部分无法自动化监督,可以作为定期审计报告输出;且在做一致性指标监测前,先明确数据监测范围,包含表和字段级别(在圈地监测范围之前,需要给出数据监测范围的定义,且不在监测范围的数据内容,在最后算质量总分的时候需要进行赋值);

具体执行方法

1.明确检测类型:库一致性、跨表一致性、表内一致性

2.明确一致性的参照组和观察组,即来源层和目标层;来源表和目标表;来源字段和目标字段;

3.明确是否是整表抽取规则(整表抽取规则可以简化监测流程,无需跟踪到字段【字段在数据血缘中可见】);

4.库一致性、跨表一致性的监测任务可以监测任务执行状态成功与否即可;

5.表内一致性则按照监测字段维度,统计监测结果记录数;

6.最后按照一张表一共存在几个监测任务,监测任务通过率进行赋分;

注:当一个内容或者字段被多个一致性规则覆盖,在不出现逻辑错误或者冲突的情况下,需要定义规则优先级,从监测的优先级和规则执行的优先级是相向的。即在数据治理规则执行过程中,内容优先级最高的规则往往是最后执行,确保在表中的记录是优先级最高的内容,而数据监测的方法则是按照优先级最高的内容相关规则开始监测,逐步递推。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1864823.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

运维入门技术——监控的三个维度(非常详细)零基础收藏这一篇就够了_监控维度怎么区分

一个好的监控系统最后要做到的形态:实现Metrics、Tracing、Logging的融合。监控的三个维度也就是Metrics、Tracing、Logging。 Metrics Metrics也就是我们常说的指标。 首先它的典型特征就是可聚合(aggregatable).什么是可聚合的呢,简单讲可聚合就是一种基本单位可以在一种维…

Rust详解日志

详解日志 相比起监控,日志好理解的多:在某个时间点向指定的地方输出一条信息,里面记录着重要性、时间、地点和发生的事件,这就是日志。 注意,本文和 Rust 无关,我们争取从一个中立的角度去介绍何为日志 日…

防火墙GRE over IPSec配置

一、基础知识 1、GRE隧道 GRE隧道是一种网络通信协议,使用通用路由封装(GRE)技术,能够将一种网络协议下的数据报文封装在另一种网络协议中,从而实现在另一个网络层协议中的传输。 GRE隧道的基本概念和工作方式 基本…

Ubuntu磁盘分区和挂载 虚拟机扩容 逻辑卷的创建和扩容保姆及教程

目录 1、VMware虚拟机Ubuntu20.04系统磁盘扩容 2、Linux的磁盘分区和挂载 3、创建逻辑卷和逻辑卷的扩容 1、VMware虚拟机Ubuntu20.04系统磁盘扩容 通过下图可以看出我们的根磁盘一共有20G的大小,现在我们把它扩容为30G 注:如果你的虚拟机有快照是无…

2024年JCR分区,将发生重大变化

科睿唯安官方微信发布消息,指出今年的期刊排名及相应JCR分区将发生重大变化。 原文比较长,不熟悉相关规则的朋友也不太容易读懂。因此,我们今天做一个详细的解读。 首先明确几个基本概念: (1)2024年发布2…

如何通过IPXProxy动态住宅代理增强网络安全与隐私?

​在当今互联网技术日新月异的背景下,动态住宅代理已成为网络运营和数据收集中不可或缺的关键工具。本文将深入探讨动态住宅代理在提升网络安全性和隐私保护方面的重要性。 动态住宅代理与隐私保护 动态住宅代理通过代理服务器连接至互联网,为用户的原始…

2024年二级建造师机电工程专业考试题库分享。

1.调查表法通常与()结合使用,以便更快地发现问题原因。 A.经验法 B.分层法 C.样本调查法 D.对比分析法 答案:B 解析:题干内容提示调查表法往往会与分层法结合起来应用,故B选项正确。 2.在质量统计分…

RAG | (ACL24规划-检索增强)PlanRAG:一种用于生成大型语言模型作为决策者的规划检索增强生成方法

原文:PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers 地址:https://arxiv.org/abs/2406.12430 代码:https://github.com/myeon9h/PlanRAG 出版:ACL 24 机构: 韩国…

vue3中通过vditor插件实现自定义上传图片、录入echarts、脑图、markdown语法的编辑器

1、下载Vditor插件 npm i vditor 我的vditor版本是3.10.2,大家可以自行选择下载最新版本 官网:Vditor 一款浏览器端的 Markdown 编辑器,支持所见即所得(富文本)、即时渲染(类似 Typora)和分屏 …

RT-Thread Studio实现静态线程

1创建项目 (STM32F03ZET6) RT-Thread项目与RT-Thread Nano 项目区别 RT-Thread: 完整版:这是RT-Thread的完整形态,适用于资源较丰富的物联网设备。功能:它提供了全面的中间件组件,如文件系统、网络协议栈、…

MS31011低压 5V DC 电机驱动

MS31011 是一款低压 5V 直流电机驱动芯片,为摄像机、消 费类产品、玩具和其他低压或者电池供电的运动控制类应用提 供了集成的电机驱动解决方案。 MS31011 能提供高达 0.8A 的输出电流。可以工作在 2.0~5.5V 的电源电压上。 MS31011 具有 PWM &#x…

比特币生态系统的现状与流动性提升的新路径

自2009年中本聪发布比特币白皮书以来,比特币一直被誉为“数字黄金”,在加密货币领域占据着不可动摇的地位。其去中心化、稀缺性和安全性,增强了其作为长期价值储存工具的吸引力。 相比之下,以太坊自2015年问世以来,凭…

oceanbase数据库安装和连接实战(阿里云服务器操作)

本文主要是安装oceanbase的单机版进行数据库的基础使用,oceanbase的数据库是兼容mysql数据库的,实际的兼容程度需要更深度的测试,本文主要是安装oceanbase并使用SQLynx的mysql驱动连接使用oceanbase数据库。 目录 1. 基础介绍 2. 安装说明 …

CentOS 7.9下安装配置Java环境

1.下载java安装包 下载java安装包 我已经给大家准备好了,下载连接 https://pan.baidu.com/s/1GK_juIc5rch0Kc4-EbxNNQ 提取码: 0124 2.创建目录 mkdir /usr/local/soft 3.解压压缩包到安装目录 tar xf jdk-8u401-linux-x64.tar.gz -C /usr/local/soft/ 4.配置环…

Strava VS Keep竞品分析

Strava VS Keep竞品分析 一、背景: 随着国民对身体健康的重视程度逐步增加,跑步、游泳、骑行在国内逐渐流行,人们都加入运动行列。随之不可缺少的则是对运动数据的记录,市面上针对此需求的app层出不穷,日活最多的5款…

成都爱尔巫雷院长提醒老花眼减轻了?可能患上白内障要注意!

到年龄不可避免的身体老化,眼睛也是其中之一,40、50岁时眼睛因为老化可能出现老花问题,如果本就有近视、散光,老花加重更是“雪上加霜”。 当某一天老花症状减轻,别顾着高兴,反而应引起重视,这…

IMX6ULL SD卡启动uboot+kernel+rootfs

目录 1. 背景说明 2.SD卡启动 2.1准备条件 2.2 对SD卡分区格式化 2.3 制作sd卡镜像 3.效果测试 1. 背景说明 网络上绝大数教程,教大家把uboot烧录到SD卡,然后uboot启动后,通过TFTP下载kernel和设备树,然后通过nfs挂载文件系…

Hi3861 OpenHarmony嵌入式应用入门--LiteOS semaphore作为锁

CMSIS 2.0 接口中的 Semaphore(信号量)是用于嵌入式系统中多线程或中断服务例程(ISR)之间同步和共享资源保护的重要机制。Semaphore 是一种用于控制对多个共享资源访问的同步机制。它可以被看作是一个计数器,用于跟踪可…

采购OLED透明屏指南

一、引言 OLED透明屏作为一种前沿的显示技术,以其独特的透明度和出色的显示效果,受到了众多行业的青睐。在采购OLED透明屏时,需要综合考虑多个因素,以确保选择到符合需求的高质量产品。以下是一份详细的采购OLED透明屏指南&#x…

智领全栈,模力全开|2024中国智算中心全栈技术大会,锐捷网络引爆智算网络新风潮

6月25日至27日,2024中国智算中心全栈技术大会暨展览会、第5届中国数据中心绿色能源大会暨第10届中国(上海)国际数据中心产业展览会在上海新国际博览中心隆重开幕。此次大会由CDCC和益企研究院主办,以“AI赋能,重构未来”为主题,吸…