数据质量管理-准确性管理

news2024/10/5 18:23:53

前情提要

根据GB/T 36344-2018《信息技术 数据质量评价指标》的标准文档,当前数据质量评价指标框架中包含6评价指标,在实际的数据治理过程中,存在一个关联性指标。7个指标中存在4个定性指标,3个定量指标;

定性指标:规范性、准确性、唯一性、可访问性

定量指标:完整性、时效性、关联性

规范性--数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度;

完整性--按照数据规则要求,数据元素被赋予数值的程度;

准确性--数据准确表示其所描述的真实实体(实际对象)真实值的程度;

一致性--数据与其他特定上下文中使用的数据无矛盾的程度;

时效性--数据在时间变化中的正确程度;

可访问性--数据能被访问的程度;

关联性--数据记录的实体与实体、实体与时间、实体与地理信息等维度之间的关系构建程度;

今天重点讲解定性指标准确性怎么进行数据监测和指标量化

官方定义:数据准确表示其所描述的真实实体(实际对象)真实值的程度;

作用的环节:可以在数据治理完成后的数据明细层和数据服务层(dwd/dws/ads);

数据质量管理依据:需要结合数据资产建设手册的“标准参考”、数据使用标准的“数据使用口径”二者结合对真实世界的了解和业务逻辑的理解;

数据监测方法:此类监测目标也可以圈定核心数据和重要数据进行重点监测。通过数据分级分类标准,识别出核心数据和重要数据,基于圈定的数据范围,数据质检人员结合上述数据质量管理依据制定数据准确性校验。

注:准确性的标准基于不同的场景、对数据不同的理解都会有所偏差。

①场景对数据的需求颗粒度会影响数据准确性的判断依据;

②数据口径理解的不同对数据准确性的偏差也会有所不同;

由于准确性的定义均需要参考外部依据,且评判的标准无法固定,因此搭建的监测流程需要兼顾三个维度一是该数据项是否有监测流程,二是该监测语句是否有效;是检查出的错误是否能及时被修正;

量化标准:

1.需要明确数据监测范围,到字段级别;

2.需要明确数据更新频率,作为执行周期和修正周期设置的参考依据;

3.设置评定指标的量化方法;

       第一张表为准确性语句信息表,作为管理准确性质检语句相关流程;

       第二张表为准确性质检语句运行结果存储表,存储准确性语句每一期运行的结果和修正的结果(备注:要求修正的时间为该语句下一期的执行时间)

       第三张表为准确性指标赋分逻辑,该表统计了每一期该表的每个监测字段的准确性得分结果:

       *计算时间:取表2中的“要求修正的时间”

       是否有监测流程:监测表一中该字段是否存在未下架的准确性质检语句,若有,则赋值60分,表明该表的该字段有准确性监测流程;

       监测语句有效分:查看表2中在“要求修正的时间”所对应的当期是否有执行结果不为0的质检语句,有1个则+5分;

       错误是否及时被修正:查看表2中当期修正截止时间执行结果(错误数)大于0则进行扣分;

最终,基于字段的平均分计算,获得这张表在这个计算时间点的准确性得分;

注:数据准确性指标的监测,既需要内部监测,形成循环改善的过程也需要“广开言路”,收集用户的数据问题,了解用户在数据使用过程中发现的问题或者存在的疑惑;更需要定期对内部协同部门和数据用户输出数据业务培训,培养数据敏感度,拉通数据话语体系;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1859793.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

IT入门知识第六部分《后端开发》(6/10)

目录 后端开发:构建强大的服务端逻辑 1.引言 2.后端技术概述 2.1 数据库 2.2 服务器 2.3 API 2.4 安全性 3.服务器和API 3.1 服务器的作用 3.2 API的作用 4.后端框架 4.1 Node.js 4.1.1 特点 4.1.2 用途 4.1.3 代码案例分析 4.2 Django 4.2.1 特点 …

《Redis设计与实现》阅读总结-1

第 2 章 简单动态字符串(SDS) 1. Redis使用自己构建一种名为简单动态字符串(simple dynamic string ,SDS)的抽象类型,作为Redis的默认字符串。 2. SDS的结构: free属性:表示这个SDS没有分配任何…

【SQL Server数据库】熟悉DBMS的基本操作及数据库的创建

目录 一、SQL SERVER基本操作 二、用Management Studio创建数据库 1、使用Management Studio创建数据库bookdb,各项参数采用默认设置。 2、使用Management Studio创建数据库EDUC 3. 在EDUC中创建三个表,根据下面要求创建Student,Course&am…

C语言 | Leetcode C语言题解之第190题颠倒二进制位

题目: 题解: const uint32_t M1 0x55555555; // 01010101010101010101010101010101 const uint32_t M2 0x33333333; // 00110011001100110011001100110011 const uint32_t M4 0x0f0f0f0f; // 00001111000011110000111100001111 const uint32_t M8…

django学习入门系列之第三点《小米商城头标总结》

文章目录 总结往期回顾 总结 body标签,默认有一个边框,造成页面四边都有白色的间距,那该如何去除呢? body{margin: 0; }文本居中 文本水平居中,文本会在这个区域中居中text-align作为HTML元素属性其主要是用来文本水平居中的。 &…

一键模板生成视频解决方案,海量模板,满足多样需求

视频已经成为企业营销、宣传、培训的重要手段,高昂的制作成本、复杂的技术门槛以及繁琐的制作流程,往往让许多企业望而却步。美摄科技凭借其深厚的技术积累和创新能力,推出了面向企业的智能一键模板生成视频解决方案,为企业视频制…

电梯开关状态人员进出检测数据集VOC+YOLO格式2220张4类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):2220 标注数量(xml文件个数):2220 标注数量(txt文件个数):2220 标注…

50KW-2500KW水冷式负载组概述

对于需要“针落”安静操作的环境,EAK 负载组为传统风冷装置提供了极具吸引力的替代方案。 该系列负载组是水冷的,允许在受控环境中进行室内安装,而不是在室外安装,因为室外设备暴露在元素中。除了完全相当之外,还非常紧…

Github2024-06-25 Python开源项目日报 Top10

根据Github Trendings的统计,今日(2024-06-25统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Python项目10TypeScript项目1系统设计指南 创建周期:2507 天开发语言:Python协议类型:OtherStar数量:241693 个Fork数量:42010 次关注人数…

图解布隆过滤器(Bloom Filter)

布隆过滤器详解 布隆过滤器(Bloom Filter)是一种空间效率非常高的随机数据结构,由布隆(Burton Howard Bloom)在1970年提出,用于检验一个元素是否属于一个集合。 具体来说,它可能会错误地认为一个…

2024CICE电博会·以“链主”企业为核心,推动产业链协同发展

随着全球科技日新月异的发展,消费电子产业已成为推动经济增长、改善人民生活的重要力量。中国国际消费电子博览会(简称CICE电博会)自2001年创办以来,已经走过了二十余个春秋,凭借其独特的地理位置优势、专业的组织策划…

MYSQL九、MYSQL的视图的认识

视图 视图(View)是一种虚拟存在的表。视图中的数据并不在数据库中实际存在。行和列数据来自定义视图的查询中使用的表,并且是在使用视图时动态生成的。 视图只保存了查询的SQL逻辑,不保存查询结果。在创建视图的时候,…

Delphi-2M:基于病史预测未来健康的改进GPT架构

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

一份日本 AWS Summit 的前线快报

5月底刚参加完 AWS 中国 Summit「这次的上海 AWS Summit 好玩的有点过分」,后来网翻官不经意间看到 6 月 AWS 还会在日本举办一场 Summit。正好最近公司也签下了几个日本客户,眼看着 5 年签证也即将到期,于是心一横,决定东渡扶桑。…

快速上手 Spring Boot:基础使用详解

快速上手 Spring Boot:基础使用详解 文章目录 快速上手 Spring Boot:基础使用详解1、什么是SpringBoot2、Springboot快速入门搭建3、SpringBoot起步依赖4、SpringBoot自动配置:以tomcat启动为例5、SpringBoot基础配置6、yaml7、多环境开发配置…

移动硬盘恢复数据要多久 4T移动硬盘数据恢复一般多少钱

在日常工作中,移动硬盘是非常实用的一种数据文件存储设备,在大数据存储上是有极强的优势的,不过移动硬盘有时候也会出现数据丢失的情况。接下来给大家详细讲解,移动硬盘恢复数据要多久,以及4T移动硬盘数据恢复一般多少…

当你在浏览器输入一个地址

你在浏览器中输出了一个地址,回车后,一直到显示页面,中间经历了哪些过程 ? 1. 用户输入 URL 并按下回车 用户在浏览器的地址栏中输入一个 URL(例如 http://example.com)并按下回车键。 2. DNS 解析 浏览…

【机器学习】自然语言处理(NLP)领域革命性突破的模型——Transformer

目录 引言 自注意力机制介绍 生成Query、Key和Value向量 模型结构与实现 在自然语言处理中的应用 个人主页:东洛的克莱斯韦克-CSDN博客 👀引言 👀在自然语言处理领域,传统的循环神经网络和长短时记忆网络虽然取得了一定的成…

linux 登录ftp报Received message too long 1416128883

在linux 登录ftp报Received message too long 1416128883 [rootlocalhost ~]# sftp oaftp172.20.xx.xx解决办法: [rootlocalhost ~]# usermod -s /bin/bash oaftp[rootlocalhost ~]# systemctl restart vsftpd.service[rootlocalhost ~]# sftp oaftp172.20.xx.xx完…

【TB作品】stm32单片机,红外遥控器,温控风扇,模拟空调,PWM风扇

空调机 硬件:stm32、oled显示器、ds18b20温度传感器、风扇驱动和风扇、红外接收器、遥控器 软件功能: (1)显示室内温度 (2)显示当前模式:常态、除湿、通风 (3)显示当前风…