1.引言
数据管理能力包括为各类应用设计数据模型、安全存储和访问数据、适当地共享数据、从数据中获得知识,以及保障满足业务需求的能力等。但实现数据价值的前提是数据本身是可靠和可信的,换句话说,数据应是高质量的。 导致低质量数据产生的因素包括:组织缺乏对低质量数据影响的理解、缺乏规划、孤岛式系统设计、不一致的开发过程、不完整的文档、缺乏标准或缺乏治理等。没有一个组织拥有完美的业务流程、完美的技术流程或完美的数据管理实践,所有组织都会遇到与数据质量相关的问题。相比那些不开展 数据质量管理的组织,实施正式数据质量管理的组织碰到的问题会更少。
正式的数据质量管理类似于其他产品领域的持续质量管理,包括在整个生命周期制定标准,在数据创建、转换和存储过程中完善质量,以及根据标准度量数据来管理数据。数据质量团队负责与业务和技术数据管理专业人员协作,并推动将质量管理技能应用于数据工作,以确保数据适用于各种需求。与数据治理和整体数据管理一样,数据质量管理不是一个项目,而是一项持续性工作。它包括项目和维护工作,以及承诺进行沟通和培训。最重要的是,数据质量改进取得长期成功取决于组织文化的改变及质量观念的建立。
1.业务驱动因素
建立正式数据质量管理的业务驱动因素包括:
- 1)提高组织数据价值和数据利用的机会。
- 2)降低低质量数据导致的风险和成本。
- 3)提高组织效率和生产力。
- 4)保护和提高组织的声誉。
低质量数据造成的后果,如:1)无法正确开具发票。2)增加客服电话量,降低解决问题的能力。3)因错失商业机会造成收入损失。4)影响并购后的整合进展。5)增加受欺诈的风险。6) 由错误数据驱动的错误业务决策造成损失。7)因缺乏良好信誉而导致业务损失。
2.目标和原则
数据质量管理专注于以下目标:
- 1)根据数据消费者的需求,开发一种受管理的方法,使数据适合要求。
- 2)定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分。
- 3)定义和实施测量、监控和报告数据质量水平的过程。
数据质量管理应遵循以下原则:
- 1)重要性。数据质量管理应关注对企业及其客户最重要的数据,改进的优先顺序应根据数据的重要性以及数据不正确时的风险水平来判定。
- 2)全生命周期管理。数据质量管理应覆盖从创建或采购直至处置的数据全生命周期,包括其在系统内部和系统之间流转时的数据管理(数据链中的每个环节都应确保数据具有高质量的输出)。
- 3)预防。数据质量方案的重点应放在预防数据错误和降低数据可用性等情形上,不应放在简单的纠正记录上。
- 4)根因修正。提高数据质量不只是纠正错误,因为数据质量问题通常与流程或系统设计有关,所以提高数据质量通常需要对流程和支持它们的系统进行更改,而不仅仅是从表象来理解和解决。
- 5)治理。数据治理活动必须支持高质量数据的开发,数据质量规划活动必须支持和维持受治理的数据环境。
- 6)标准驱动。数据生命周期中的所有利益相关方都会有数据质量要求。在可能的情况下,对于可量化的数据质量需求应该以可测量的标准和期望的形式来定义。
- 7)客观测量和透明度。数据质量水平需要得到客观、一致的测量。应该与利益相关方一同讨论与分享测量过程和测量方法,因为他们 是质量的裁决者。
- 8)嵌入业务流程。业务流程所有者对通过其流程生成的数据质量负责,他们必须在其流程中实施数据质量标准。
- 9)系统强制执行。系统所有者必须让系统强制执行数据质量要求。
- 10)与服务水平关联。数据质量报告和问题管理应纳入服务水平协议(SLA)。
3.基本概念
3.1 数据质量
数据质量既指高质量数据的相关特征,也指用于衡量或改进数据质量的过程。它取决于使用数据的场景和数据消费者的需求。与质量相关的期望并不总是已知的。通常客户可能不清楚自身的质量期望,数据管理人员也不会询问。
3.2 关键数据
数据质量管理的一个原则是将改进的重点集中在对组织及其客户最重要的数据上,这样做可以明确项目范围,并使其能够对业务需求产生直接的、可测量的影响。 可根据以下要求评估关键数据: 1)监管报告。 2)财务报告。 3)商业政策。 4)持续经营。 5)商业战略,尤其是差异化竞争战略。
3.3 数据质量维度
数据质量维度是数据的某个可测量的特性。数据质量维度提供了定义数据质量要求的一组词汇,通过这些维度定义可以评估初始数据质量和持续改进的成效。Strong-Wang框架(1996)侧重于数据消费者对数据的看法,描述了数据质量的4个大类及15个指标:
- (1)内在数据质量 – 1)准确性。 2)客观性。 3)可信度。 4)信誉度。
- (2)场景数据质量 – 1)增值性。 2)关联性。 3)及时性。 4)完整性。 5)适量性。
- (3)表达数据质量 – 1)可解释性。 2)易理解性。 3)表达一致性。
- (4)访问数据质量 – 1)可访问性。 2)访问安全性。
Thomas Redman《信息时代的数据质量》将一个数据项定义为“可表示的三元组”:一个实体属性域与值的集合。维度可以与数据的任何组成部分相关联:模型(实体和属性)及其值。定义了一类用于记录数据项规则的表达维度。在三个类别中,描述了 20 个维度:
- (1)数据模型
- 1)内容。①数据关联性。 ②获取价值的能力。 ③定义清晰性。
- 2)详细程度。①特征描述颗粒度
- (2)属性域的精准度
- 1)构成。①自然性。②可识别性。③同一性。④最小必要冗余性。
- 2)一致性。①模型各组成部分的语义一致性。②跨实体类型属性的结构一致性。
- 3)应变性。 ①健壮性。 ②灵活性。
- 4)数据值。 ①准确性。 ②完备性。 ③时效性(Currency)。 ④一致性。
- 5)数据表达。 ①适当性。 ②可解释性。 ③可移植性。 ④格式精确性。 ⑤格式灵活性。 ⑥表达空值的能力。 ⑦有效利用存储。 ⑧数据的物理实例与其格式一致。
Larry Englist《改善数据仓库和业务信息质量》提出两在类别:固有特征和实用特征。固有特征与数据使用无关,实用特征是动态的,与数据表达相关,其质量价值依赖数据的用途而不同。
- (1)固有质量特征: 1)定义的一致性。2)值域的完备性。3)有效性或业务规则一致性。 4)数据源的准确性。5)反映现实的准确性。6)精确性。7)非冗余性。8)冗余或分布数 据的等效性。9)冗余或分布数据的并发性。
- (2)实用质量特征: 1)可访问性。2)及时性。3)语境清晰性。4)可用性。5)多源数据的可整合性。6)适当性或事实完整性。
2013年,DAMA UK发布了一份白皮书,描述了数据质量的6个核心维度:
- 1)完备性。存储数据量与潜在数据量的百分比。
- 2)唯一性。在满足对象识别的基础上不应多次记录实体实例(事物)。
- 3)及时性。数据从要求的时间点起代表现实的程度。
- 4)有效性。如数据符合其定义的语法(格式、类型、范围),则 数据有效。
- 5)准确性。数据正确描述所描述的“真实世界”对象或事件的程度。
- 6)一致性。比较事物多种表述与定义的差异。
DAMA UK **白皮书还描述了对质量有影响的其他特性。**1)可用性(Usability)2)时间问题(Timing Issues)(超出时效性本身)。3)灵活性(Flexibility)。4)置信度(Confidence)。5)价值 (Value)。
质量维度 | 描述 |
---|---|
准确性 Accuracy | 准确性是指数据正确表示“真实”实体的程度。准确是很难描述的,除非组织能够复制数 据或手动确认记录的准确性。大多数准确性的测量依赖于与已验证为准确的数据源的比较,如来自可靠数据源的记录或系统(如邓白氏征信所的参考数据)。 |
完备性 Completeness | 完备性是指是否存在所有必要的数据。完备性可以在数据集、记录或列级别进行测量。数据集级别的测量可能需要与记录源进行比较,也可能基于该数据集的历史水平。 |
一致性 Consistence | 一致性可以指确保数据值在数据集内和数据集之间表达的相符程度。它也可以表示系统之间或不同时间的数据集大小和组成的一致程度。一致性可以在同一记录中的一组属性值和另一组属性值( 记录级一致性)或不同记录内的一组属性值和另一组属性集(跨记录一致性) 之间定义,也可以在不同记录中的同一组属性值之间或在同一记录不同时间点(时间一致性)的一组属性值之间定义。一致性也可以用来表示格式的一致性。 |
完整性 Integrity | 完整性通常指的是引用完整性(通过两个对象中包含的引用键实现数据对象之间的一致性)或数据集内部的一致性,这样就不至于缺失或不完整。没有完整性的数据集被看作已损坏或数据丢失。没有引用完整性的数据集称为“孤儿”,具有无效的引用键或记录“重复”,即可能对聚合函数产生负面影响的重复行。“孤儿”记录的级别可以通过原始数据或数据集的百分比来衡量。 |
合理性 Reasonability | 数据模式符合预期的程度。比较主观。 |
及时性 Timeliness | 预期的波动性。数据的时效性。易变数据在短时间内保持最新。 |
唯一性/数据去重Uniqueness/Deduplication | 唯一性,是指数据集内的任何实体不会重复出现。数据集内的实体有唯一性, 意昧着键值与数据集内特定的唯一实体相关。唯一性可以通过对关键结构进行测试来度量。 |
有效性 Validity | 数据值与定义的值域一致。值域可以被定义为参考表中的一组有效值 或一个有效的范围, 或者能通过规则确定的值。 |
3.4 数据质量和元数据
元数据对于管理数据质量至关重要。数据的质量取决于它如何满足数据消费者的需求。元数据定义数据所代表的内容,拥有一个强大的数据定义流程,有助于组织正式确定和记录用于衡量数据质量的标准和要求。数据质量是为了满足预期,而元数据是阐明期望的主要手段。
3.5 数据质量ISO标准
数据质量的国际标准ISO 8000尚在开发完善中,这一标准的建立是为了使复杂数据能够以与应用无关的形式进行交换。ISO将质量数据定义为“符合规定要求的可移植数据”。ISO 8000的目的是帮助组织定义什么是符合质量的数据、什么是不符合质量的数据,使他们能够使用标准约束要求符合质量的数据,并检核他们已经收到了符合同一质量标准的数据。ISO 8000第61部分“信息和数据质量管理过程参考模型”正在开发中。该标准描述数据质量管理的结构和组织,包括:1)数据质量规划。 2)数据质量控制。 3)数据质量保证。 4)数据质量改进。
3.6 数据质量改进生命周期
数据质量改进的常用方法如下图所示,是戴明环的一个版本。基于科学的方法,戴明环是一个被称为“计划-执行-检查-处理”的问题解决模型。
- 1)计划(Plan)阶段。数据质量团队评估已知问题的范围、影响和优先级,并评估解决这些问题的备选方案。
-
- 执行(Do)阶段。数据质量团队负责努力解决引起问题的根本原因,并做出对持续监控数据的计划。
- 3)检查(Check)阶段。这一阶段包括积极监控按要求测量的数据质量。
- 4)处理(Act)阶段。这一阶段是指处理和解决新出现的数据质量问题的活动。
通过启动一个新的周期来实现持续改进。新周期开始于: ①现有测量值低于阈值。 ②新数据集正在调查中。 ③对现有数据集提出新的数据质量要求。 ④业务规则、标准或期望变更。
3.7 数据质量业务规则类型
业务规则描述业务应该如何在内部运行,以便成功地与外部世界保持一致。数据质量业务规则描述了组织内有用数据和可用数据的存在形式。业务规则通常在软件中实现,或者使用文档模板输入数据。一些简单常见的业务规则类型有:1)定义一致性。确认数据定义相同, 理解一致。 2)数值存在和记录完备性。3)格式符合性。按指定模式分配给数据元素的值。4)值域匹配性。指定数据元素的赋值须包含在某数据值域的枚举值中。5)范围一致性。数据元素赋值必须在定义的数字、词典或时间范围内。6)映射一致性。表示分配给数据元素的值,必须对应于映射到其他等效对应值域中的选择的值。7)一致性规则。指根据这些属性的实际值,在两个(或多个)属性之间关系的条件判定。8)准确性验证。将数据值与记录系统或其他验证来源(如从供应商处购买的营销数据)中的相应值进行比较,以验证值是否匹配。9)唯一性验证。指定哪些实体必须具有唯一表达,以及每个表达的真实世界对象有且仅有一个记录的规则。10)及时性验证。表明与数据可访问性和可用性预期相关特征的规则。
3.8 数据质量问题的常见原因
从创建到处置,数据质量问题在数据生命周期的任何节点都可能出现。解决数据质量问题的方法: 通过改进接口设计,将测试数据质量规则作为处理的一部分,关注系统设计中的数据质量,并严格控制自动化过程中的人工干预。 常见的数据问题大原因:
-
(1)缺乏领导力导致的问题 – 常识和研究表明,许多数据质量问题是由缺乏对高质量数据的组织承诺造成的,而缺乏组织承诺本身就是在治理和管理的形式上缺乏领导力。 领导层缺乏认可意味着组织内部缺乏将数据作为资产并进行质量管理的承诺。有效管理数据质量的障碍包括: 1)领导和员工缺乏意识。 2)缺乏治理。 3)缺乏领导力和管理能力。 4)难以证明改进的合理性。 5)测量价值的工具不合适或不起作用。
-
(2)数据输入过程引起的问题 – 1)数据输入接口问题。设计不当的数据输入接口可能导致数据质量问题。2)列表条目放置。3)字段重载。4)培训问题。5)业务流程的变更。6)业务流程执行混乱。
-
(3)数据处理功能引起的问题 – 1)有关数据源的错误假设。2)过时的业务规则。3)变更的数据结构。
-
(4)系统设计引起的问题 – 1)未能执行参照完整性。导致:①产生破坏唯一性约束的重复数据。②既可以包含,又可以排除在某些报表中的孤儿数据,导致同样的计算生成多个值。 ③由于参照完整性要求已还原或更改,无法升级。④由于丢失的数据被分配为默认值而导致 数据准确性。2)未执行唯一性约束。3)编码不准确和分歧。4)数据模型不准确。5)字段重载。6)时间数据不匹配。7)主数据管理薄弱。8)数据复制。有害的数据复制问题主要有:①单源-多个本地实例。②多源-单一本地实例。
-
(5)解决问题引起的问题 – 手动数据修复是直接对数据库中的数据进行更改,而不是通过应用接口或业务处理规则进行更改实现。
3.9 数据剖析
数据剖析(Data Profiling)是一种用于检查数据和评估质量的数据分析形式。数据剖析使用统计技术来发现数据集合的真实结构、内容和质量。剖析引擎生成统计信息,分析人员可以使用这些统计信息识别数据内容和结构中的模式。剖析还包括跨列分析,它可以识别重叠或重复的列,并暴露值的内在依赖关系。分析人员必须评估剖析引擎的结果,以确定数据是否符合规则和其他要求。统计信息识别问题的模式,例如:1)空值数。标识空值存在,并检查是否允许空值。2)最大/最小值。识别异常值,如负值。3)最大/最小长度。确定具有特定长度要求的字段的异常值或无效值。4)单个列值的频率分布。能够评估合理性。5)数据类型和格式。
3.10 数据质量和数据处理
- 数据质量和数据处理。可能过某种形式的数据处理来提升数据质量。以下四种。
- (1)数据清理或数据清洗。
- 可以通过数据转换使其符合数据标准和域规则。清理包括检测和纠正数据错误,使数据质量达到可接受的水平。
- 通过以下方式解决:1)实施控制以防止数据输入错误。2)纠正源系统中的数据。3)改进数据录入的业务流程。通过中游系统进行修正,代价更小。
- (2)数据增强。
- 给数据集添加属性以提高其质量和可用性的过程。示例:
- 1)时间戳。 有助于跟踪历史数据事件。定位问题的时间范围
- 2)审计数据。 审计可以记录数据血缘,这对于历史跟踪和验证很重要。
- 3)参考词汇表。 在定制化业务语境中,特定于业务的术语、本体和词汇表增强了数据理解和控制。
- 4)语境信息。 上下文语境信息,以供审查和分析。
- 5)地理信息。 通过地址标准化和地理编码增强地理信息
- 6)人口统计信息。通过人口统计信息增强客户数据,如年龄、婚姻状况、性别、收入或民族编码。
- 7)心理信息。 用于按特定行为、习惯或偏好对目标人群进行细分的数据,如产品和品牌偏好、组织成员资格、休闲活动、通勤交通方式、购物时间偏好等。
- 8)评估信息。 针对资产评估、库存和销售数据等使用这种增强方式。
- 给数据集添加属性以提高其质量和可用性的过程。示例:
- (3)数据解析和格式化。
- 使用预先确定的规则来解释其内容或值的分析过程。数据质量工具解析符合这些模式的任何数据值,然后将其转换为单一的标准化形式,从而简化评估、相似性分析和补救过程。
- 基于模式的解析可以自动识别并促成有意义的值组件的标准化。如将电话号码格式化为区域代码、交换局代码、终端代码。
- (4)数据转换与标准化。
- 将原始格式和模式中的数据值映射到目标表述形式来指导基于规则的转换。
- 模式中经解析的组件将按照知识库中的规则进行重新排列、更正或任何更改。
2.活动
2.1 定义高质量数据
- 评估7个问题: 1)“高质量数据”是什么意思? 2)低质量数据对业务运营和战略的影响是什么? 3)更高质量的数据如何赋能业务战略? 4)数据质量改进需要哪些优先事项的推动? 5)对低质量数据的容忍度是多少? 6)为支持数据质量改进而实施的治理是什么? 7)配套实施的治理结构是什么?
- 弄清5个内容: 1)了解业务战略和目标。 2)与利益相关方面谈,以识别痛点、风险和业务驱动因素。 3)通过资料收集和其他剖析形式直接评估数据。 4)记录业务流程中的数据依赖关系。 5)记录业务流程的技术架构和系统支持。
2.2 定义数据质量战略
数据质量优先级必须与业务战略一致。一个框架应包括以下方法:1)了解并优先考虑业务需求。 2)确定满足业务需求的关键数据。 3)根据业务需求定义业务规则和数据质量标准。 4)根据预期评估数据。 5)分享调查结果,并从利益相关方那里获得反馈。 6)优先处理和管理问题。 7)确定并优先考虑改进机会。 8)测量、监控和报告数据质量。 9)管理通过数据质量流程生成的元数据。 10)将数据质量控制集成到业务和技术流程中。
2.3 识别关键数据和业务规则
数据质量管理工作应首先关注组织中最重要的数据:如果数据质量更高,将为组织及其客户提供更多的价值。数据质量改进工作从主数据开始,根据定义,主数据是任何组织中最重要的数据之一。在确定关键数据之后,数据质量分析人员需要识别能描述或暗示有关数据质量特征要求的业务规则。识别能描述或暗示有关数据质量特征要求的业务规则。例如,要了解一个组织在某季度或某一段时间内的销售业绩,需要依靠有关销售流程的可靠数据(销售的数量和单位、销售给老客户和新客户的数量对比等)。分析师通过质量指标描述了规则(如字段x是强制的,必须有值)和结果(实际上,该字段3%的记录未被填充,是空的;数据完整性仅为97%)。
2.4 执行初始数据质量评估
初始数据质量评估的目标是了解数据,以便定义可操作的改进计划。通常最好从聚焦一项较小工作开始——一个基本的概念证明(Proof of Concept,POC)——来演示改进过程是如何工作的。步骤包括:
- 1)定义评估的目标。这些目标将推动工作进展。
- 2)确定要评估的数据。重点应放在一个小的数据集,甚至一个数据元素,或一个特定的数据质量问题上。
- 3)识别数据的用途和数据的使用者。
- 4)利用待评估的数据识别已知风险,包括数据问题对组织过程的潜在影响。
- 5)根据已知和建议的规则检查数据。
- 6)记录不一致的级别和问题类型。
- 7)根据初步发现进行额外的深入分析,以便:
- ①量化结果。
- ②根据业务影响优化问题。
- ③提出关于数据问题根本原因的假设。
- 8)与数据管理专员、领域专家和数据消费者会面,确认问题和优先级。
- 9)使用调查结果作为规划的基础。
- ①解决问题,最好是找到问题的根本原因。
- ②控制和改进处理流程,以防止问题重复发生。
- ③持续控制和汇报。
2.5 识别改进方向并确定优先排序
在证明改进过程可行后,需要识别潜在的改进措施,并确定其优先顺序。识别可以通过对较大数据集进行全面的数据分析来完成,以了解现有问题的广度;也可以通过其他方式实现,如就数据的影响问题与利益相关方进行沟通,并 跟踪分析这些问题的业务影响。最终,需要结合数据分析人员以及利益相关方的讨论排定最终优先顺序。
执行全面的数据剖析和分析的步骤基本上与执行小规模评估的步骤相同:定义目标、了解数据使用和风险,根据规则衡量、记录并与领域专家确认结果,利用这些信息确定补救和改进工作的优先级。大规模的剖析工作仍然应该集中在最关键的数据上。 在规划大规模分析时,确保分配足够的时间来共享结果、确定问题的优先级,并确定需要深入分析的问题。
2.6 定义数据质量改进目标
数据质量提升可以采取不同的形式,从简单的补救(如纠正记录中的错误)到根本原因的改进。许多事情都会阻碍改进工作:系统限制、数据龄期、正在进行的使用有问题数据的项目、数据环境的总体复杂性、文化变革阻力。通过设定具体的、可实现的目标来提升数据质量。改善数据必须有积极的投资回报,没有人关心字段完整性的级别,除非有业务影响。
当发现问题时,根据以下内容确定改进的投资回报率: 1)受影响数据的关键性(重要性排序)。 2)受影响的数据量。 3)数据的龄期。 4)受问题影响的业务流程数量和类型。 5)受问题影响的消费者、客户、供应商或员工数量。 6)与问题相关的风险。 7)纠正根本原因的成本。 8)潜在的工作成本。
2.7 开发和部署数据质量操作
为了保证数据质量,应围绕数据质量方案制订一个实施计划,允许团队管理数据质量规则和标准、监控数据与规则的持续一致性、识别和管理数据质量问题,并报告质量水平。
2.7.1 管理数据质量规则
预先定义规则将: 1)对数据质量特征设定明确的期望。 2)提供防止引入数据问题的系统编辑和控制要求。 3)向供应商和其他外部方提供数据质量要求。 4)为正在进行的数据质量测量和报告创建基础。
简而言之,数据质量规则和标准是元数据的一种关键形式。为了提高效率,需要将它们作为元数据进行管理。规则应该是:
- 1)记录的一致性。建立记录规则的标准和模板,使其具有一致的格式和含义。
- 2)根据数据质量维度定义。维度的一致应用将有助于度量和管理问题的过程。
- 3)与业务影响挂钩。标准和规则应该与它们对组织成功的影响直接相关。不应采取与业务流程无关的度量。
- 4)数据分析支持。数据质量分析人员不应猜测规则,而应根据实际数据测试规则。
- 5)由领域专家确认。规则的目标是描述数据的形态。通常,需要通过组织过程的知识确认规则正确地描述了数据。当主题专家确认或解释数据分析的结果时,知识就产生了。
- 6)所有数据消费者都可以访问。所有数据消费者都应该能够访问记录的规则,这样既可以让他们更好地理解数据,同时也有助于确保规则正确和完整,确保使用者能够就规则提出问题并提供反馈。
2.7.2 测量和监控数据质量
业务数据质量管理过程取决于测量和监控数据质量的能力。进行业务数据质量度量的原因有两方面,它们同等重要:1)向数据消费者通报质量水平。2)管理业务或技术流程,改变引入的变更风险。
应根据数据评估和根本原因分析(简称根因分析)的结果制定测量方法。测量结果可以分为两个层次进行描述:执行单个规则相关的详细信息和规则汇总的总体结果。度量公式:有效数据质量=(总测试数-异常数)/总测试数;无效数据质量=异常数/总测试数。
数据质量规则为数据质量的操作管理提供了基础。通过将控制和度量过程纳入信息处理流程进行持续的监控,可以通过流程或批处理的方式对数据质量规则的一致性进行自动监控,在三个粒度级别上进行度量:数据元素值、数据实例或记录、数据集。
2.7.3 制定管理数据问题的操作过程
无论采用哪种工具监控数据质量,当数据质量团队成员对结果进行评估时都需要及时、有效地对调查结果进行响应。团队必须设计和实施详细的操作过程。
- (1)诊断问题 – 目的是审查数据质量事件的症状,跟踪相关数据的血缘,确定问题及其来源,并查明问题的根本原因。
- 1)在适当的信息处理流程下查看数据问题,并隔离出现缺陷过程的位置。
- 2)评估是否存在任何可能导致错误的环境变化。
- 3)评估是否有其他过程问题导致了数据质量事件。
- 4)确定外部数据是否存在影响数据质量的问题。
- (2)制订补救方案 – 根据诊断结果,评估解决问题的备选方案。
- 1)纠正非技术性根本原因,如缺乏培训、缺乏领导支持、责任和所有权不明确等。
- 2)修改系统以消除技术类的根本原因。
- 3)制定控制措施以防止问题发生。
- 4)引入额外的检查和监测。
- 5)直接修正有缺陷的数据。
- 6)基于变更的成本和影响对比更正后的数据的价值分析,不采取 任何操作。
- (3)解决问题 – 确定解决问题的方案选项后,数据质量团队必须与业务数据的所有者协商,以确定解决问题的最佳方法。
- 1)评估替代方案的相对成本和优点。
- 2)推荐计划中的一个备选方案。
- 3)提供开发和实施该解决方案的计划。
- 4)实施该解决方案。
在问题管理过程中做出的决定应在事件跟踪系统中进行记录跟踪。如果这个跟踪系统得到良好的管理,它可以提供关于数据问题原因和成本的一些有价值的洞察,包括问题和根本原因的描述、补救方案以及如何解决该问题的决定。事件跟踪系统将收集与解决问题、分配工作、问题数量、发生频率,以及做出响应、给出诊断、计划解决方案和解决问题所需时间相关的性能数据。事件跟踪数据也可以帮助数据消费者。进行有效的跟踪需要做到以下几点:1)标准化数据质量问题和活动。标准化可使衡量问题和活动的数量、确定系统和参与者之间的模式和相互依赖关系以及报告数据质量活动的总体影响等变得更加容易。 2)提供数据问题的分配过程。操作过程指导分析人员将数据质量事件分配给个人进行诊断,并提供解决方案。3)管理问题升级过程。数据质量问题处理需要根据问题的影响、持续时间或紧急程度制定明确的升级机制,明确规定数据质量服务级别协议(SLA)中的升级顺序。4)管理数据质量解决方案工作流。数据质量服务水平协议(SLA)规定了监控、控制和解决的目标,所有这些定义了操作工作流的集合。
2.7.4 制定数据质量服务水平协议
数据质量服务水平协议(SLA)规定了组织对每个系统中数据质量问题进行响应和补救的期望。随着时间的推移,SLA中计划的数据质量检查有助于确定要解决的问题,逐步减少问题的数量。数据质量SLA中定义的数据质量控制操作包括:1)协议涵盖的数据元素。 2)与数据缺陷相关的业务影响。 3)与每个数据元素相关的数据质量指标。 4)从每个已确定指标的数据元素出发,识别数据价值链上每个应 用程序系统中的质量期望。 5)测量这些期望的方法。 6)每次测量的可接受性阈值。 7)如果不满足可接受性阈值,应通知数据管理专员。 8)预期解决或补救问题的时间和截止日期。 9)升级策略,以及可能的奖励和惩罚。
数据质量SLA还定义了与业务数据质量过程绩效相关的角色和职责。业务数据质量过程提供了符合业务规则定义的报告,并监控员工在应对数据质量事件时的表现。
2.7.5 编写数据质量报告
数据质量报告应着重于:1)数据质量评分卡。可从高级别的视角提供与各种指标相关的分数,并在既定的阈值内向组织的不同层级报告。 2)数据质量趋势。随时间显示数据质量是怎样被测量的,以及数据质量趋势是向上还是向下。 3)服务水平协议(SLA)指标。例如,运营数据质量人员是否及时诊断和响应数据质量事件。 4)数据质量问题管理。监控问题和解决方案的状态。 5)数据质量团队与治理政策的一致性。 6)IT和业务团队对数据质量政策的一致性。 7)改善项目带来的积极影响。
3.工具
应在企业数据质量项目的规划阶段建立工具架构并选择相应工具。
- 1.数据剖析工具 – 数据剖析工具生成高级别的统计信息,分析人员能够据此识别数据中的模式并对质量特征进行初始评估。
- 2.数据查询工具 – 通过查询来发现和量化数据质量的其他方面,如唯一性和完整性。
- 3.建模和ETL工具 – 用于数据建模和创建ETL过程的工具对数据质量有直接影响。
- 4.数据质量规则模板 – 一个模板可以有几个组成部分,每个部分对应一种要实现的业务规则。
- 5.元数据存储库 – 定义数据质量需要元数据,而高质量数据的定义是元数据的一种价值呈现方式。
4.方法
4.1 预防措施
创建高质量数据的最佳方法是防止低质量数据进入组织。预防措施可以阻止已知错误的发生,在事后对数据进行检查并不能提高其质量。预防方法包括:1)建立数据输入控制。2)培训数据生产者。3)定义和执行规则。4)要求数据供应商提供高质量数据。5)实施数据治理和管理制度。6)制定正式的变更控制。
4.2 纠正措施
问题发生并被检测到之后,实施纠正措施。数据质量问题应系统地、从根本上解决,最大限度地降低纠正措施的成本和风险。执行数据修正一般有三种方法:1)自动修正。自动更正技术包括基于规则的标准化、规范化和更 正。2)人工检查修正。使用自动工具矫正和纠正数据,并在纠正提交到持久存储之前进行人工检查。3)人工修正。在缺乏工具、自动化程度不足或者确定通过人工监督能更好地处理变更的情况下,人工更正是唯一的选择。
4.3 质量检查和审核代码模块
创建可共享、可链接和可重用的代码模块,开发人员可以从存储库中拿到它们,重复执行数据质量检查和审计过程。
4.4 有效的数据质量指标
在制定度量标准时,数据质量分析人员应考虑以下特征:1)可度量性。2)业务相关性。3)可接受性。4)问责/管理制度。5)可控制性。6)趋势分析。
4.5 统计过程控制
统计过程控制(SPC)是一种通过分析过程输入、输出或步骤的变化测量值来管理过程的方法。SPC基于这样一个假设:当一个具有一致输入的过程被一致执行时,它将产生一致的输出。它使用集中趋势(变量的值接近其中心值的趋势,如平均值、中值或模式)和围绕中心值可变性(如范围、方差、标准偏差)的度量来确 定过程中的偏差公差。
SPC通过识别过程中的变化来衡量过程结果的可预测性。过程有两种不同类型:流程内部固有的常见原因和不可预测或间歇性的特殊原因。
将SPC应用于控制、发现和提升,第一步是对过程进行度量,以识别和消除特殊原因。该活动建立对过程状态的控制。第二步是尽可能早地发现异常变化,因为早期发现问题简化了对问题根源的调查过程。
4.6 根本原因分析
根本原因分析是一个理解导致问题发生的因素及其作用原理的过程。其目的是识别潜在的条件,这些条件一旦消除,问题也将消失。 常见的根因分析技术包括帕累托分析(80/20规则)、鱼骨图分析、跟踪和追踪、过程分析以及五个为什么等。
5.实施指南
通常情况下,混合方法最有效——自上而下持续地提供支持和资源,自下而上地发现实际存在的问题并逐步解决。数据质量项目的实施都需要计划:1)有关数据价值和低质量数据成本的指标。2)IT/业务交互的操作模型。业务人员了解数据的意义及其重要性,IT 数据管理人员了解数据存储的位置和方式。3)项目执行方式的变化。4)对业务流程的更改。5)为补救和改进项目提供资金。6) 为数据质量运营提供资金。
5.1 就绪评估/风险评估
组织采用数据质量的实践准备情况,可以通过以下特征进行评估:1)管理层承诺将数据作为战略资产进行管理。2)组织对数据质量的当前理解。租住了解数据质量差的障碍和痛点去提升数据质量。3)数据的实际情况。以客观的方式描述导致痛点的数据情况是改进数据的第一步。量化来度量和描 述数据。4)与数据创建、处理或使用相关的风险。5)可扩展数据质量监控的文化和技术就绪。 数据质量可能受到业务和技术流程的负面影响。
5.2 组织文化变革
数据质量不是通过一些工具和口号就能改进的,而是要通过帮助员工和利益相关方树立不断行动的思维观念,同时要始终考虑数据质量和业务与客户的需求来改进。让一个组织认真对待数据质量,通常需要进行重大的文化变革。这种变革需要领导者的远见和领导力。1 先要提高数据对组织作用和重要性的认识。2 要培训和强化训练,让员工生成更高质量的数据并确保质量的方式管理数据。
培训应着重于: 1)导致数据问题的常见原因。 2)组织数据生态系统中的关系以及为什么提高数据质量需要全局 方法。 3)糟糕数据造成的后果。 4)持续改进的必要性(为什么改进不是一次性的)。 5)要“数据语言化”,阐述数据对组织战略与成功、监管报告和客户满意度的影响。
6. 数据质量和数据治理
将数据质量工作纳入整体治理工作,使数据质量方案团队能够与一系列利益相关方和推动者合作。 1)风险与安全人员可以帮助识别与数据相关的组织弱点。2)业务流程工程和培训人员,可以帮助团队实施流程改进。3)业务和运营数据专员以及数据所有者,可以识别关键数据、定义标准和质量期望,并优先处理数据问题。
治理组织可以通过以下方式加快数据质量方案的工作: 1)设定优先级。 2)确定和协调有权参与各种数据质量相关决定和相关活动的人。 3)制定和维护数据质量标准。 4)报告企业范围内数据质量的相关测量。 5)提供有助于员工参与的指导。 6)建立知识共享的沟通机制。 7)制定和应用数据质量和合规政策。 8)监控和报告绩效。 9)共享数据质量检查结果,以提高认识,确定改进机会,并就改进达成共识。10)解决变化和冲突,提供方向性指导。
6.1 数据质量制度
数据质量制度应包括: 1)制度的目的、范围和适用性。 2)术语定义。 3)数据质量团队的职责。 4)其他利益相关方的责任。 5)报告。 6)策略的实施,包括与之相关的风险、预防措施、合规性、数据 保护和数据安全性等。
6.2 度量指标
数据质量团队的大部分工作将集中于质量的度量和报告上。数据质量的高阶指标包括:
- 1)投资回报。关于改进工作的成本与改进数据质量的好处的声明。
- 2)质量水平。测量一个数据集内或多个数据集之间的错误或不满足甚至违反需求情况的数量和比率。
- 3)数据质量趋势。随着时间的推移(趋势),针对阈值和目标的质量改进,或各阶段的质量事件。
- 4)数据问题管理指标。
- ①按数据质量指标对问题分类与计数。
- ②各业务职能部门及其问题状态(已解决、未解决、已升级)。
- ③按优先级和严重程度对问题排序。
- ④解决问题的时间。
- 5)服务水平的一致性。包括负责人员在内的组织单位对数据质量评估项目干预过程的一致性。
- 6)数据质量计划示意图。现状和扩展路线图。
7.总结
-
实现数据价值的前提是数据本身是可靠和可信的。
-
导致数据质量低下的因素: 组织缺乏对低质量数据影响的理解、缺乏规划、孤岛式系统设计、不一致的开发过程、不完整的文档、缺乏标准或缺乏治理等。
-
没有一个组织拥有完美的业务流程、完美的技术流程或完美的数据管理实践,所有组织都会遇到与数据质量相关的问题。相比那些不开展数据质量管理的组织,实施正式数据质量管理的组织碰到的问题会更少。
-
数据质量管理不是一个项目,不是干一票完完事,而是一项持续性 工作。长期成功取决于组织文化的改变及质量观念的建立。高质量数据本身并不是目的,它只是组织获取成功的一种手段。
-
业务驱动因素:1)提高组织数据价值和数据利用的机会。2)降低低质量数据导致的风险和成本。3)提高组织效率和生产力。4)保护和提高组织的声誉。【创机会。降成本。提效率。强声誉】
-
低质量数据造成的后果,如:1)无法正确开具发票。2)增加客服电话量,降低解决问题的能力。3)因错失商业机会造成收入损失。4)影响并购后的整合进展。5)增加受欺诈的风险。6)由错误数据驱动的错误业务决策造成损失。7)因缺乏良好信誉而导致业务损失。
-
数据质量管理的目标:1)根据数据消费者的需求,开发一种受管理的方法,使数据适合要求。 2)定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分。3)定义和实施测量、监控和报告数据质量水平的过程。
-
数据质量管理的原则:1)重要性。 2)全生命周期管理。 3)预防。 4)根因修正。 5)治理。 6)标准驱动。 7)客观测量和透明度。 **8) 嵌入业务流程。 ** 9) 系统强制执行。 10) 与服务水平关联。
-
数据质量即指高质量数据的相关特征,也指用于衡量或改进数据质量的过程。
-
数据质量管理要把改进的重点集中在组织及客户最重要数据上。可以根据 1)监管报告 2)财务报告 3)商业政策 4)持续经营 5)商业战略,尤其是差异化竞争战略等来确定。
-
数据质量维度是数据的某个可测量的特性。
-
Strong-Wang 框架(1996)侧重于数据消费者对数据的看法,描述了数据质量的 4 大类 15个指标。(1)内在数据质量。1)准确性。2)客观性。3)可信度。4)信誉度。 (2)场景数据质量。 1)增值性。2)关联性。3)及时性。4)完整性。5)适量性。(3)表达数据质量。1) 可解释性。2)易理解性。3)表达一致性。4)简洁性。(4)访问数据质量。 1)可访问性。2)访问安全性。
-
Thomas Redman《信息时代的数据质量》将一个数据项定义为“可表示的三元组”:一个实体属性域与值的集合。维度可以与数据的任何组成部分相关联:模型(实体和属性)及其值。定义了一类用于记录数据项规则的表达维度。
-
(1)数据模型
- 1)内容。 ①数据关联性。②获取价值的能力。③定义清晰性。
- 2)详细程度。 ①特征描述颗粒度。
-
(2)属性域的精准度
- 1)构成。 ①自然性。②可识别性。 ③同一性。④最小必要冗余性。
- 2)一致性。 ①模型各组成部分的语义一致性。②跨实体类型属性的结构一致性。
- 3)应变性。 ①健壮性。②灵活性。
- 4)数据值。 ①准确性。②完备性。③时效性(Currency)。④一致性。
- 5)数据表达。 ①适当性。②可解释性。③可移植性。④格式精确性。⑤格式灵活性。 ⑥表达空值的能力。⑦有效利用存储。⑧数据的物理实例与其格式一致。
-
Larry Englist《改善数据仓库和业务信息质量》提出两在类别:固有特征和实用特征。
- (1)固有质量特征: 1)定义的一致性。2)值域的完备性。3)有效性或业务规则一致性。 4)数据源的准确性。5)反映现实的准确性。6)精确性。7)非冗余性。8)冗余或分布数据的等效性。9)冗余或分布数据的并发性。
- (2)实用质量特征: 1)可访问性。2)及时性。3)语境清晰性。4)可用性。5)多源数据的可整合性。6)适当性或事实完整性。
-
2013年,DAMA UK描述了数据质量的6个核心维度: 1)完备性。 2) 唯一性。 3) 及时性。 4) 有效性。 5) 准确性。6) 一致性。
-
DAMA UK白皮书还描述了对质量有影响的其他特性。1)可用性(Usability)2)时间问题(Timing Issues)(超出时效性本身)。3)灵活性(Flexibility)。4)置信度(Confidence)。5)价值 (Value)。
-
数据质量和元数据:数据质量为了满足预期,而元数据是阐明期望的主要手段。
-
ISO 8000 的目的是帮助组织定义 什么是符合质量的数据、什么是不符合质量的数据,使他们能够使用标准约束要求符合质量的数据,并检核他们已经收到了符合同一质量标准的数据。
-
数据质量改进生命周期: 1)计划(Plan)阶段。 2)执行(Do)阶段 。3)检查(Check)阶段。4)处理(Act)阶段。
-
戴明环新周期开始于:①现有测量值低于阈值。②新数据集正在调查中。③对现有数据集提出新的数据质量要求。④业务规则、标准或期望变更。
-
数据质量业务规则类型: 1)定义一致性。 2)数值存在和记录完备性。 3)格式符合性。 4)值域匹配性。 5)范围一致性。 6)映射一致性。 7)一致性规则。 8)准确性验证。 9)唯一性验证。 10)及时性验证。 11)其它类型
-
数据质量问题的常见原因:质量问题在数据生命周期的任何节点都可能出现。(1)缺乏领导力导致的问题。 (2)数据输入过程引起的问题。 (3)数据处理功能引起的问题。 (4)系统设计引起的问题。 (5)解决问题引起的问题。
-
数据剖析(Data Profiling): 一种用于检查数据和评估质量的数据分析形式。数据剖析使用统计技术来发现数据集合的真实结构、内容和质量。
-
数据质量和数据处理。可能过某种形式的数据处理来提升数据质量。以下四种: (1) 数据清理或数据清洗 (2) 数据增强 (3) 数据解析和格式化 (4) 数据转换与标准化。
-
数据质量活动: (1) 定义高质量数据 (2) 定义数据质量战略 (3) 识别关键数据和业务规则 (4) 执行初始数据质量评估 (5) 识别改进方向并确定优先排序 (6) 定义数据质量改进目标 (7) 开发和部署数据质量操作(管理数据质量规则、测量和监控数据质量、制定管理数据问题的操作过程、制定数据质量服务水平协议)。
-
工具: 数据剖析工具。数据查询工具。建模和 ETL 工具。数据质量规则模板。元数据存储库。
-
方法:创建高质量数据的最佳方法是防止低质量数据进入组织。 1) 预防措施 2) 纠正措施 3) 质量检查和审核代码模块 4) 有效的数据质量指标。 5) 统计过程控制 SPC。 6) 根本原因分析。
-
实施指南。混合方法最有效:自上而下持续提供支持和资源,自下而上发现实际 存在的问题并解决。