第12章 数据质量管理
12.1 简介
数据质量管理是组织变革管理中一项关键的支撑流程。业务重点的变化、公司的业务整合战略,以及并购与合作,都对IT职能提出了更高要求,包括整合数据源、创建一致的数据副本、交互提供数据或整合数据。与遗留系统或B2B系统实现互操作的目标需要通过数据质量管理项目支持。
数据质量与信息质量是同义词,因为数据质量低下会导致不正确的信息和不良业务绩效。数据清洗也许可以带来短期的、有一定代价的改善,但并不解决数据缺陷的根本原因。如果考虑为提升数据质量和数据完整性提供较为经济的解决方案,实施更加严格的数据质量项目是必要的。
数据质量管理职能关联图:
12.2 概念和活动
12.2.1数据质量管理方法
数据质量管理的一种通用方法是戴明质量环。戴明(Deming,W.Edwards)是对质量管理的发展产生巨大影响的大师之一,他提出了被大家所知的“计划-实施-学习-行动”或“计划-实施-检查-行动”用于解决问题的模型,该模型对数据质量管理同样有效。当已定义数据质量水平协议,并将此模型应用于数据质量管理时,它包括:
①制定数据质量现状评估计划和识别数据质量度量关键指标。
②实施度量和提升数据质量的流程。
③监控和度量根据业务预期定义的数据质量水平。
④执行解决数据质量问题的行动方案,以提升数据质量从而更好地满足业务预期。
12.2.2 开发和提升数据质量意识
提升数据质量意识不仅意味着需确保组织中配备合适的人员了解数据质量问题的存在,而且对于获得组织中利益相关者的必要支持至关重要,这将提升数据质量项目成功的机会。
数据质量意识包括能够将数据质量问题与其实质影响联系起来,向监管者保证系统化的数据质量管理方法和对组织内数据质量的全面洞察,还包括传达一种“数据质量问题不能仅仅依靠技术手段解决”的理念。在初始阶段,可以提供一些数据质量核心概念的培训。
数据质量管理中的数据治理任务包括:
①让业务合作者参与,与数据质量团队协作并支持数据质量管理项目。
②识别数据所有权的相关角色和责任,包括数据治理委员会成员和数据管理专员。
③明确关键数据元素和数据质量管理的职责和责任。
④识别需要处理的关键数据质量领域和围绕这些关键领域对组织产生的影响。
⑤统一跨业务条线使用的公共数据元素,提供明确无歧义的定义、值域范围和数据质量规则。
⑥对所度量的数据质量水平进行持续报告。
⑦将数据需求分析概念纳入到整个系统开发周期。
⑧将高质量数据与个人绩效目标相关联。
数据质量管理委员会对数据质量领域的政策和程序负责,提供以下方向性指导:
①为数据质量设定优先级。
②开发并维护数据质量标准。
③报告企业层面数据质量的度量结果。
④为促进员工参与提供指导。
⑤建立知识共享的沟通机制。
⑥开发并应用认证和合规政策。
⑦监控和报告绩效。
⑧识别改善机会并达成一致意见以报批准。
⑨解决变更和冲突。
12.2.3 定义数据质量需求
数据质量的定义必须满足业务政策和其他特定需求的背景。这些特定的政策和需求可能是外部的(比如政府强制要求),也可能是内部的(组织的要求)。可以根据定义好的数据质量维度来度量数据是否符合需求,并生成数据质量指标的报告。
数据质量维度体现了高层次的指标度量要求,可以据此对业务规则进行分类。根据实施的需要,对度量的颗粒度进行细化。数据质量维度包括:
准确性:数据准确反映实际业务信息所建模的实体的程度。
完整性:一个数据集的特定属性都被赋予了数值,数据的完整性包括数据值的可用性和适用性。
一致性:指确保一个数据集的数据值与另一个数据集的数值一致。
时效性:信息反映当前实际业务的“新鲜”程序。
精确度:数据元素的详细程度。
隐私:对数据进行访问控制和使用监控。
合理性:一些特定的业务场景下相关数据的一致性。比如每天的交易数量不应该超过过去30天的平均交易数量的150%。
参照完整性:一张表的一个字段对同一张表或另一张表的另一个字段引用全部有效。
及时性:信息可访问性和可用性的时间预期。
唯一性:一个数据集中,满足实体唯一性。
有效性:数据实例的存储、交换或展现的格式是否与数据值域一致。
12.2.4 剖析、分析和评估数据质量
数据评估的两种方法:
自底而上:直接对数据集进行检查和评价,直接暴露潜在的数据异常和问题,包括出现率分析、重复性分析、跨数据集的依赖关系、孤岛数据记录和冗余分析。自底而上的方法没有数据消费者的参与,可能评估出的异常、数据错误与业务背景无关。
自顶而下:业务用户参与记录业务流程和关键的数据依赖关系。在理解业务流程如何使用数据、哪些数据元素对业务应用至关重要的前提下进行评审。通过评审被报告、记录和诊断的数据错误类型,数据质量分析师可以评估与数据问题相关的业务影响。
分析步骤包括:
①确定需要评审的数据集
②记录数据集的业务使用方式
③使用数据剖析工具和技术对数据集进行实验分析
④列出全部潜在异常
⑤针对每个异常与领域专家一同评审确认是否是真的数据错误,并评估潜在的业务影响
⑥对重要数据异常进行优先级排序,准备定义数据质量指标
在这个过程中,关键在于对数据各方面进行统计分析,包括记录的填充率、填充数值的数量、频繁出现的数值、可能的异常值、字段间关系、跨表的关系等。通过这些信息确定有较大的业务影响和适合进行持续监控的数据问题(数据质量工作持续开展的一项工作)。在此过程中可能会发现一些重要的商务智能信息。比如某个值出现可能说明一个重要的业务事实,就像设备失效正说明某个供应商可能不合格。
12.2.5 定义数据质量指标
数据质量指标应合理反映数据质量维度所定义的数据质量特性。包括:
可度量性:数据质量指标可度量且能够在离散值域范围内量化。
业务相关性:每个数据质量指标,都应满足数据质量可接受阈值与业务预期的相关性。
可接受程度:数据质量维度为数据质量的业务需求提供框架,对数据质量维度进行量化度量,设定可接受的阈值,从而判断数据质量是否满足业务预期。
数据认责制度/数据管理制度:当数据质量指标证明数据质量不能满足业务预期时,需要通知相关人员。
可控性:数据质量指标值的评估结果如果反映了不良数据质量,则应对度量的数据采取改善行动。
可跟踪性:可量化的指标帮助企业度量数据质量的提升。数据质量的跟踪则帮助管理人员监控在数据质量服务水平协议范围内的相关活动,并证明活动的有效性。持续的跟踪会加强统计控制流程,并确保数据质量持续可预测。
定义数据质量指标过程:
①选择一个业务点
②评估与这个业务点相关的数据元素以及数据创建/更新流程
③对于每个数据元素,列出与之相关的数据需求
④对于每个数据需求,定义相关的数据质量维度以及一个或多个业务规则,以便确定数据是否满足需求
⑤对每个选中的业务规则,描述度量需求满足度的流程,定义可接受程度的阈值
根据以上过程,提供原始数据质量的评分,并将评分汇总量化为对数量质量满足程度的分析。未达到满足度的需要采取必要的纠正措施。
12.2.6 定义数据质量业务规则
数据质量检查工作包括:
①将不满足业务需求的数据值、记录和记录集与有效的数据值、记录、记录集都记录下来;
②生成通知事件,及时向相关人员通知质量问题;
③建立自动或事件驱动的缺陷数据纠正机制,满足业务期望;
可以提供规则模板来协助数据质量管理工作。业务规则包括:值域成员、定义一致性、值域一致性、格式一致性、映射一致性、取值和记录的完整性、一致性规则、精确度验证、唯一性验证、及时性验证,以及其他可能涉及数据汇总、合理性等规则。规则模板有助于建立业务团队和技术团队间的沟通。
12.2.7 测试和验证数据质量需求
测试和验证数据质量要求,会使用数据质量评估阶段识别/定义的规则,使用数据剖析工具分析数据并发现潜在的异常。大多数的数据剖析工具支持数据分析师定义规则,用于数据验证、评估频率分布和相应的度量,再将这些规则应用于整个数据集。
需要对数据剖析工具分析的结果进行审阅、验证和测试,这些工作要与业务用户共同完成,以确保业务用户理解这些规则,使得业务规则和业务需求保持一致。
基于数据规则符合度的数据质量测量,可以用来主动验证数据,可以区分哪些记录达到了预期的数据质量要求,哪些不符合。为当前数据质量水平制定基线,从而可以与数据质量的动态审计结果相比较。
12.2.8 确定与评估数据质量服务水平
可以通过数据质量的服务水平协议SLA来确定组织对数据质量检测和监控的期望值。数据质量检查和监控机制可以提高识别和纠正数据质量问题的可能性,避免对业务的冲击。数据质量的服务水平协议定义了日常质量控制的内容与日常数据质量流程相关的角色和职责。提供数据符合数据质量业务规则情况的报告,并监控人员响应质量事故的绩效。当问题不能在规定时间内响应或处理时,数据质量SLA规定了启动上报机制时,通知的时限和上报管理层人员姓名。
组织通过确定数据质量业务规则,测量符合度的方法,与业务用户共同定义可接受阀值和服务水平协议。
12.2.9 持续测量和监控数据质量
对于数据质量管理的操作流程来说,通常有两条控制和测量的方法:流动式和批量式。一般测量会针对三种颗粒度:数据值、数据实例(数据记录)、数据集。在数据质量测量中,通常再数据创建时采用流动式测量,对永久存储的数据集的数据记录进行批量测量。
将数据质量控制和测量流程嵌入到信息处理流程中可以实现持续性的监控。如下图所示,根据定义数据质量业务规则,将控制和测量结果纳入操作程序和报告中,确保对数据质量的持续监控。
12.2.10 管理数据质量问题
数据质量事件跟踪/报告系统提供了数据质量服务水平协议实施得有效支撑,它负责记录数据质量事件的评估、初步诊断和后续行动等信息。提供绩效报告数据,支持查看当前和历史数据质量问题及相关信息。包括:
①将数据质量问题和活动标准化
②指定数据问题的处理过程
③管理问题上报程序
④管理数据质量解决流程
实施数据质量问题跟踪/报告系统的好处:
①信息和知识共享,提升心性能、减少重复工作;
②对所有问题的分析,可以帮助识别重复模式、发生频率和潜在问题根源
③利用系统,帮助相关人员及早在信息流中识别数据问题,支持日常工作
④系统的原始数据可作为服务水平协议和指标报告的生成依据
12.2.11 清洗和校正数据质量缺陷
这部分有两个活动:确定和消除错误发生的根本原因;分离出不正确的数据项,采取适当的措施使其符合预期;因此,清洗和校正数据质量缺陷在有些情况下可以直接简单的废除错误数据,有一些情况下则需要纠正错误。纠正错误有三种方式:自动校正、人工指导校正、人工校正。
12.2.12 设计并实施数据质量管理操作程序
这项工作主要是为了将数据质量应用于具体的应用和数据服务中,其结果提交给数据质量团队。通过引入数据质量工具和技术,对数据进行监控和报告,进行客户化的数据质量检测应用,补充数据生命周期的内容。数据质量团队设计和执行这些活动的详细程序。包括:
检查和监控:通过自动化处理或人工处理,对数据进行扫描或抽样检测;
诊断和评估补救办法:评审数据质量事件反映的问题、跟踪错误数据的血缘关系、诊断问题的类型及其起源、确定问题的潜在根源;
解决问题:提供多种问题解决方案;
报告:为保证数据质量管理过程的透明度,对运行情况进行定期报告。数据质量运营团队负责开发和发布这些报告;
12.2.13 监控数据质量管理操作程序和绩效
建立数据质量治理协议监控的责任制,指定人员、跟踪流程,以文件规定最终的问题负责人。通过数据质量服务水平协议明确规定的绩效标准,合理评估收集到的绩效数据。
绩效数据可以评估目前工作流程的效果、系统和资源使用情况,也是驱动数据质量控制流程提供持续改进的重要管理数据点。
12.3 数据质量工具
12.3.1 数据剖析
数据剖析主要用来对数据集进行统计分析和数据质量评估,识别数据集内和集之间的值所存在的关系。通过定量检测和分析审阅来对数据值进行客观的审核。将疑似不良的数据实例记入文件,让相关人员评审是否存在问题。
数据剖析工具可以提供不同值的分布情况,洞察各列的类型和使用情况。得出每列值的关键特征。跨列分析可看出内部值的关联性,识别实体间外键关系的重合值,识别和评估数据的异常。数据剖析可针对定义的业务规则进行主动性测试。测试结果可用来区分哪些记录符合定义的数据质量要求,哪些不符合,进而促进数据质量的持续审计和数据质量的提升。
12.3.2 解析和标准化
数据解析工具可以帮助数据分析师定义符合规则的集合,用来区分有效和无效的数据值。通过解析有效模式,提取并重新排列独立组件,形成标准形式。识别出无效模式时,会尝试将无效值转成一个符合要求的值。
在解析过程中,很多数据质量问题通常是一类问题,但由于数据值表示上略有差异会产生混淆和歧义,这时候需要将这些数据转换为标准格式。
12.3.3 数据转换
识别到数据的错误,触发数据规则,将错误的数据转换成目标架构可接受的格式。可使用数据整合工具直接运用这些规则,或依靠其他技术解决问题。将源系统的数据映射到对应的目标模式来实现标准化。
数据转换是建立在标准化技术上,基于规则的转换将数据值从原来的格式和模式映射为目标模式。模式解析组件再进行重排,校正或基于业务规则进行相应更改。
12.3.4 身份识别和匹配
在身份识别过程中使用记录关联与匹配方法,运用冗余分析与消除所使用的的相似度评估方法、合并/清除、存储、数据改善、清洗等,实施客户数据整合或主数据管理等战略性数据管理举措。通常数据质量问题涉及到:
①多个数据实例实际上指的是一个实体;
②分析师或应用程序认定不存在的记录,其实是存在的;
这些情况都可以通过相似性分析来处理。通过相似性识别,可以确定一些数据是冗余的,可能需要清洗或消除,有助于主数据汇总。
两种匹配的基本方法是确定式和或然式:
①确定匹配(如解析和标准化),依靠的是确定的规则。其结果通常是可预测的,实施效果与匹配规则的多样性、数量和顺序有关;
②或然式基于统计技术,依赖于训练数据的采样能力,需要观察全部记录的子集的预期结果,进行匹配器调优,实现基于统计结果的自我调整。其结果可能是不确定的,但随着分析数据的增多,其匹配精准度会逐步提升;
12.3.5 改善
提升数据质量可以增加组织的数据价值,数据改善是提升价值的一种方法。通过积累基本实体集的各种附加信息,并合并所有相关信息来提供集中的数据视图来实现。
数据解析为数据实例划分出特征数据值,这些特征值有助于决定哪些潜在数据源可以提供附加收益。数据清洗和标准化过程中获得附加值信息可用于为以后的数据匹配、记录关联和身份识别等提供附加建议,增加更多数据的细节信息。
12.3.6 报告
建立良好的报告制度来检查和监控数据满足数据质量期望:
①监控数据管理专员的业绩是否符合数据质量服务水平协议
②报告数据质量事件的工作流程处理
③数据的任工清洗和校正活动等
为用户提供可视化的展示方式,包括标准报表、记分卡、仪表盘等,同时系统还应提供任何数据质量工具均应具备的即席查询功能。