质量是生活中最常关注的话题,我们都期望享用高质量的商品与服务,且企业也不断加大质量管理的投入,为了更好的用户体验。
在企业数字化转型浪潮下,传统手段已无法应对数字化转型中的数据质量管理需求,我们需要探索出一条数据独有的质量管理体系应对新的需求。
本篇文章以数据质量管理为目标,探究数据质量背后的逻辑,并通过管理与技术手段进行落地。
一、概述
1、数据质量
数据质量就是通过一组维度来评价数据的方式,如同判断商品的好坏一样,数据也有评价标准。
数据是对现实世界的反映,如果当前数据代表的意义与现实世界不符,则认为数据出了质量问题。
2、质量问题原因
追根溯源,导致数据出现质量问题的原因有很多,总的来看,主要有业务、技术、管理、基础设施四个方面:
- 业务端: 业务源系统变更(源系统数据库表结构变更、源系统环境变更)、业务端数据输入不规范等;
- 技术端: 数据开发任务中各种任务的流程、参数、配置等出错;
- 管理端 : 认知层面缺乏质量意识、缺乏有效的数据质量问题处理机制等;
- 基础设施: 物理资源不足、基础设施不稳定等。
3、数据质量评判标准
- 准确性:
数据描述的信息与客观现实是否相符,准确性是数据质量中最重要的评价标准。 - 完整性:
当前数据是否存在丢失、关键字段为空、或者不可用的情况,主要包括:实体完整、属性完整、记录完整和字段值完整。 - 一致性:
多源数据是否遵循了统一的规范,数据集合是否保持了统一的格式。 - 规范性:
数据是否遵循预定的语法规则并符合其定义,例如数据的类型、长度、格式、取值范围等。 - 唯一性:
当前数据是否有重复,是否存在唯一标识保证数据的唯一性,包括:主键唯一,实体唯一,事件唯一 - 及时性:
数据从产生到可以查看的时间间隔。数据分析对于及时性要求不高,但如果数据分析周期过长,可能导致分析结论失去借鉴意义。
4、数据质量管理
数据质量管理(Data Quality Management),是指对数据生命周期的每个阶段可能引发的数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。
通俗点说就是:能够确保数据质量的管理活动,我们称其为数据质量管理。
二:意义
下图即可说明:
三:当前痛点
1、决策导向不可控(重中之重)
目前国内企业掀起了一波数字化转型的浪潮,数据作为生产要素的价值也愈发凸显出来。依赖错误的数据做出的决策,必然会将企业导向错误的方向。在此背景下,数据质量被越来越多的企业管理者重视。
2、数据使用成本高
数据质量较低,导致在数据使用过程中,开发人员需要反复对数据进行校准(准确性)、补全(完整性)、校对(一致性)、转义(规范性)、去重(唯一性)等操作,确保结果真实可用。数据使用成本激增。
3、故障恢复成本高
数据质量导致的问题,最后都会反馈到员工以及用户之中,到时无论是排错,修复,决策调整,都会占用开发-业务-管理人员大量的时间精力,增加人力成本开支。
四:主要目标
1、成本可控
高质量的数据在开发时可以省去数据清洗与预处理的成本,提高开发效率并大幅降低故障率,从而节省出大量的开发与使用成本,减少故障恢复的投入。
2、结果可靠
高质量的数据产出可靠的统计结果与报表。
3、协作高效
依据可靠的结果进行协作,降低了校对以及沟通成本,提高协作效率。
五:数据质量管理落地实施
1、痛点为导向
首先需要明确一点,数据质量在绝大多数的数据平台建设中,都不会作为前期建设的主要重点。
数据质量的建设一般不会以需求为导向,即在平台建设过程中就规划相关内容并进行开发迭代,平台建设的前期一般以业务产出为主。
平台建设完成后,数据质量相关痛点愈发凸显,导致平台遭受质疑,数据使用成本升高,此时数据质量才会被重点关注,并投入大量精力去进行整改优化。
2、事前规范
规范制定
在数据流程正常运行的前提下,大部分数据质量问题均是因为没有遵循开发规范导致。我们可以根据数据质量特性制定相关开发规范并在事前进行遵守。
- 数据模型规范:
数据结构清晰、分层明确-层级依赖、高内聚-低耦合-可扩展、规范化-反规范化等。 - 元数据规范:
字段描述、字段类型-长度-取值范围、枚举范围、主键唯一等。 - 命名规范:
表、字段名称,项目名称,文件名称、函数名称、编码规范等。 - 安全规范:
隐私字段脱敏、权限层级管控等。 - 上线规范:
唯一性校验、试运行正常、数据条数校验、NULL 值校验等。
规范核验
针对已经制定的开发规范,需要采取自动化或人工手段进行规范校验,并提醒相关责任人进行整改,否则规范只是流于表面。
3、事中监控(数据质量监控系统)
数据质量的落地实施,最核心还是需要通过数据质量监控系统,通过自动化的质量检核方式,极大的减少人力的投入和过程干预,提升效率,减少误差。围绕完备性、真实性性、一致性、及时性等指标监控分析数据质量问题并进行整改优化。
监控规则制定
引用系统定义的校验规则对系统表、字段进行多角度的数据质量监控,对系统关键业务数据的质量情况进行全方位把握,监控规则分为字段级与表级监控,具体包含以下几种:
- 唯一值监控: 监控某个字段值是否唯一,例如 ID,如果唯一值字段出现重复数据,则代表数据质量异常。
- 空值监控: 某个字段必须有值,例如付款记录中的金额。此规则监控此类字段是否为空,为空则判断异常。
- 指标波动监控: 某个指标例如 GMV,如果当天指标比昨天暴涨 10 倍,大概率为异常。
- 取值范围监控: 例如年龄字段,值是否超过常规范围。枚举字段,值是否超过定义范围。
- 记录数量波动监控: 如果当前表日均增加 1W 条记录,某天新增超过 2W 条,大概率出现异常。
- 数据规范校验: 字段格式规范(例如时间字段是否按照指定格式),
监控异常告警
对上述监控规则中,出现异常的任务进行告警至责任人。包括但不限于:微信、钉钉、飞书、邮件、短信、手机等方式。
异常修复及记录
责任人接收到异常告警后,及时对数据任务进行排查以及修复,同时对当前异常进行记录用于后续整改。
4、事后改进
事实上,再严格的预防措施和监控都无法完全避免数据质量问题的发生,事后的管理和评估就尤为重要了。
要想真正解决数据质量问题,就要明确业务需求并从需求开始控制数据质量,并建立数据质量管理机制。
从业务出发做问题定义,由工具自动、及时发现问题,明确问题责任人,通过邮件、短信等方式进行通知,保证问题及时通知到责任人。跟踪问题整改进度,保证数据质量问题全过程的管理。
六:评价体系
在公司实施了一系列的数据质量管理策略之后,我们如何评价是否有效,可以从以下几点:
-
数据完整性
☆ 考量数据项信息是否全面、完整、无缺失
★ 指标公式:表完整性和字段完整性的平均值 -
监控覆盖率
☆ 确保数据遵循统一的数据标准或规范要求
★ 指标公式:已监控作业个数/作业总个数 -
告警响应度
☆ 通过日常管理、应急响应,降低或消除问题影响,避免数据损毁、丢失
★ 指标公式:已处理告警个数(本周)/告警总个数(本周) -
作业准确性
☆ 考量数据是否符合预设的质量要求,如唯一性约束、记录量校验等
★ 指标公式:1 - 告警作业个数(本周)/监控作业总个数 -
作业稳定性
☆ 考量作业的运行稳定性,是否经常报错,导致数据事故
★ 指标公式:1 - 错误作业个数(本周)/作业总个数 -
作业时效性
☆ 考量数据项信息可被获取和使用的时间是否满足预期要求
★ 指标公式:延迟的高价值作业个数/高价值作业总个数 -
作业性能分
☆ 考量作业的执行效率和健康度,诊断作业是否倾斜等性能问题
★ 指标公式:1 - 危急作业个数(本周)/作业总个数