数据质量是任何数据驱动运营的重要组成部分。即使对于不打算将数据集出售给其他公司的企业,数据的质量和准确性也会极大地影响决策效率。
不幸的是,没有单一指标可以确保数据质量达到标准。您必须跟踪多个指标并不断关注它们。因此,维护数据质量是一个需要时间和精力的持续过程。
一、什么是数据质量?
数据质量是一个通用术语,指的是信息在其预期用途上的可用性。数据质量的一个简单例子是企业的会计信息。如果你查看每月的收入成本报告,它是否准确反映了实际支出和资金流入?
数据质量差会对整体业务绩效和决策产生巨大影响。如果收入成本报告不准确,企业可能会花费过多资金或不当再投资利润。
类似的情况也可能出现在其他领域,并导致决策者关注错误的产品、营销工作等。因此,数据质量指标对于维护信息来源和决策者的信任和信心至关重要。
另一方面,一流的数据质量将为有效的组织行动提供基础。决策者可以更轻松地选择营销活动和畅销产品,这可能会继续提高企业的盈利能力。
二、数据质量指标是什么?
大多数数据完整性和质量研究人员定义了两类数据质量指标(有时也称为维度)——内在和外在。
内在数据质量指标衡量准确性、完整性、一致性等内部因素。外在数据质量指标通过及时性、相关性、可靠性、可用性等方面衡量信息与现实世界的契合程度。
这两个类别对于高质量数据都至关重要。如果没有内在指标,数据可能难以分析,假设可能难以测试或验证。如果没有外在指标,数据可能难以适应现实世界的条件和决策。
内在数据质量维度通常由收集或分析团队管理和处理。数据值的准确性和完整性等因素完全独立于任何实际用例。换句话说,这些都是纯粹的分析概念。
因此,任何数据收集工作的早期阶段都必须实施数据质量控制。例如,管理数据源和验证是否收到准确信息就是控制要素之一。
此外,还应聘用数据工程师来管理数据仓库并规范化和清理信息。仓库通常会从众多内部和外部来源提取数据,其中所有内容的存储方式可能不同,从格式化到完全非结构化的信息。
外部数据质量维度由业务的另一端——利益相关者进行管理。他们应该能够清晰准确地定义用例,以避免低效的工作量和冗余数据的使用。虽然他们对提高数据质量几乎没有影响,但利益相关者必须确保信息得到适当利用。
三、数据质量指标的类型
有许多数据质量维度可以改进。虽然高质量数据理想情况下可以管理所有维度,但有时组织一次只能专注于改进其中几个维度。选择正确的数据质量维度对于数据质量评估至关重要。
内在
1.准确性
数据准确性衡量所收集信息对现实世界的描述程度。例如,发票是描述所提供服务、提供日期和付款的数据源。如果这些数据点中的任何一个不正确,则数据准确性就会下降。
但需要注意的是,数据准确性是有限的。如果只是发票上的日期有误,发票仍然是宝贵的数据来源。为了提高数据准确性,请创建参考集,通过其他人进行验证,或根据防止数据错误的规则进行检查。
2.完整性
数据完整性定义描述的总体性而非准确性。一张发票无法描述企业的全部收入和成本,但会计系统中的所有内容却可以。
完整性问题可以通过查找缺失字段或数据点来发现。也可以通过查看输入机制并衡量所提供的描述是否令人满意来验证。
3.一致性
数据一致性衡量值和数据点是否内部一致。在存在冗余数据点的情况下,可以通过查看值是否相同来验证。
一致性指标通常与数据集中值或实体的唯一性相关。此外,一致性方面的数据质量可以通过各种方法检查,例如引用数据完整性检查。
外在
1.可靠性
与数据完整性类似,可靠性是一种数据质量测量,它定义了来源和资源管理的信任度和可信度。可靠性的良好数据质量指标包括验证的难易程度、是否有足够的血统信息以及偏差是否已最小化。
还可以通过检查有多少用户尝试访问数据源以及在开展新项目时有多少用户出现或新创建来进行跟踪。
2.可用性
可用性定义了访问和查看数据的难易程度。例如,数据完整性和清晰度高的仪表板将具有良好的可用性。如果存在数据错误、歧义或解释困难,则表明可用性较低。
作为更实用的数据质量指标之一,大多数验证都是通过定性过程进行的。这些可能是要求以不同的方式呈现数据,要求提供解释帮助等。
四、如何开始使用正确的数据质量指标
很少有企业拥有开始实施上述所有数据质量措施所需的资源。如果我们添加一些较少提及的数据质量指标(有效性、充分性、偏差、简洁性等),那么所有企业可能都必须选择一些指标开始关注。
虽然内在数据质量指标的好处在于由较小的团队管理,因为没有利益相关者参与,但它们主要用于清晰度、优化和安全目的。
因此,最好从数据的用例和实际应用开始。如果一家公司收集和管理大量数据,那么他们很可能有一些实际应用。
在着手实施数据质量标准之前,您应该首先考虑哪些应用程序最有用,并努力提高其性能。
确定用例后,寻找利益相关者最常提出的问题。这些数据质量问题将为潜在改进领域提供指导。例如,低质量的数据可能会迫使用户不断手动验证信息。
提出的问题将与数据质量指标直接相关。例如,不断需要验证信息表明准确性和完整性方面存在数据质量问题。另一方面,不一致的数据值表明存在内部一致性问题。
一旦确定了这些领域,重要的是要建立衡量数据质量改进的方法。例如,如果用户通过自己访问仓库不断验证信息,那么此类操作的减少表明有所改进。
数据质量是任何使用信息支持决策的组织的命脉。数据质量差可能导致结论不准确、战略制定不当,甚至收入损失。
虽然有些人可能认为低质量意味着数据值不一致和管理不善,但这个过程远不止于此。管理数据质量意味着与各个部门密切合作,以确保信息可信、清晰、简洁。