在当今的商业环境中,数据已成为企业决策的核心。然而,数据的价值高度依赖于其质量。低质量的数据不仅会降低分析的准确性,还可能导致错误的决策,从而影响企业的竞争力和市场表现。因此,识别和解决数据质量问题是数据管理的关键环节。
寻找数据质量问题的原因是一个复杂的过程,它要求我们深入理解数据的生命周期,从数据的采集、录入、存储、处理到分析和使用,每一个环节都可能成为数据质量问题的根源。这可能涉及到技术问题,如系统缺陷或数据传输错误;流程问题,如不恰当的数据管理流程;或是人为因素,如培训不足或操作失误。
本文将重点介绍数据质量问题产生的原因,以及如何进行数据质量问题的根因分析。
一、 数据质量问题根因分析概述
每一个数据质量问题的出现,追根溯源,都植根于某些基本的诱因。在数据质量管理的众多关键活动中,最关键的任务便是深入挖掘这些根本原因,并据此制定和实施有效的改进策略。
1、什么是数据质量问题根因分析
根因分析是一种深入探究数据质量问题背后最根本原因的方法。数据质量问题可能由多种因素引起,包括外部环境条件、人为操作失误、系统内部行为、业务流程缺陷等。为了准确地识别问题源头,必须采用系统化的科学分析方法。
根因分析遵循一个结构化的问题解决流程,它包含以下几个关键步骤:
- 问题原因的识别:明确地界定问题,并收集与问题相关的数据和信息。
- 问题的深入分析:通过逻辑推理和数据分析,探究问题背后的深层次原因。
- 解决方案的寻找:基于对问题原因的理解,制定针对性的解决措施。
- 预防措施的制定:设计并实施策略来预防类似问题的再次发生。
这一过程不仅帮助组织解决现有的数据质量问题,还能够提升数据质量管理的成熟度,确保数据的长期健康和组织的决策质量。
2、数据质量问题根因分析的重要性所在
在企业中,普遍存在一种共识,即认识到高质量的数据对业务运作至关重要。特别是在当前数字化快速发展的背景下,企业对数据质量的重视程度达到了前所未有的高度。
(1)无法确定责任归属
然而,一旦讨论到数据质量的具体责任归属、行动责任和相关管理活动的资金支持时,情况往往变得复杂。责任的界定模糊常常导致部门间的相互推卸和指责,使得数据质量管理的推进工作遭遇困难。
- 技术部门认为:“数据的定义和生成均由业务团队负责,因此业务团队应当对数据质量承担责任。”
- 业务部门则回应:“我们提供的数据在输入时是准确无误的,问题出在你们技术团队在数据传输和处理阶段的失误。”
在众多情况下,企业倾向于将数据质量问题归咎于技术团队,使得技术团队不情愿地成为了数据质量问题的默认责任方。尽管技术团队可能心存不满,但他们往往需要先行着手调查和解决问题。若不深入探究数据问题的根本原因,这种责任推诿、相互指责的循环将持续存在,无法得到有效解决。
(2)治标不治本:只解决问题,不寻找原因
在企业中,数据质量问题往往只是冰山一角,表象之下隐藏着更深层的原因。普遍现象是,人们容易察觉到数据的不准确、不一致或不完整等缺陷,但却很少深入挖掘造成这些问题的根本原因。在处理数据问题时,企业常常只关注解决表面现象,而忽视了对问题根源的探究和处理。
目前,企业在应对数据质量问题时,倾向于采用技术手段进行应对。例如,通过数据清洗技术来清除所谓的“脏数据”,构建对照关系表以确保数据一致性,甚至运用人工智能算法对缺失数据进行估算和插值。尽管这些技术手段能够在一定程度上改善数据的外观质量,但如果不结合对问题根源的分析和解决,这些努力可能仅是治标不治本。
(3)进行根因分析有助于企业决策
开展对问题根本原因的深入分析有助于我们识别出更为精准和高效的解决策略,实现投入与产出的最优比例。仅仅针对问题的表象采取行动,而不探究其深层次原因,是一种短视且效率低下的解决方式。这种做法无法彻底解决问题,只会导致数据治理问题频繁复发,迫使组织反复处理相同类型的问题,其累积成本将非常高昂。
“揭开问题的表象,触及其核心”,在分析任何问题时,我们都应该追求对其本质的理解。进行数据质量问题的根本原因分析,不仅可以解决业务部门与技术部门之间的分歧,更关键的是,它能够引导企业中的利益相关者深入识别数据质量问题的关键所在,进而制定出切实可行的解决方案。
更多详细内容,推荐下载《大数据建设方案》:
https://s.fanruan.com/5iyug
分享行业真实的数字化转型案例,以及方案架构图
二、 数据生命周期各个阶段为什么都会出现数据质量问题
数据的生命周期与人类一样,遵循从产生到消亡的自然过程。正如人在一生中可能会遭遇各种健康问题,或轻微如头痛脑热,或严重如重病需要医治,数据在其存在期间也会面临多种质量问题。
数据的“一生”通常包括五个关键阶段:规划设计(定义)、创建、使用、老化和消亡。在这些阶段的每一个环节,都可能出现影响数据质量的因素。
企业的数据质量管理策略应当全面覆盖数据生命周期的每个阶段,从最初的规划设计到最终的数据消亡。通过在每个阶段实施细致的管理措施,企业可以预防或减少数据质量问题的发生,确保数据在整个生命周期内保持健康和活力。
1、 数据规划阶段
在数据的规划设计阶段,数据定义或设计的不恰当是导致数据质量问题的常见原因。例如,在进行数据建模的过程中,如果未能对数据对象进行准确和清晰的界定,就可能产生歧义。这类似于无法区分“水果蛋糕”和“水果味蛋糕”的情况,因为缺乏明确的区分标准。
此外,在数据库的构建阶段,如果某些数据项的描述不够明确,也可能造成混乱。这种含糊性会导致用户在数据输入时感到困惑,不确定是否应该输入某些数据、如何正确地输入这些数据,以及应该在数据库的哪个部分进行输入。
2、 数据创建阶段
在数据创建阶段,不当的数据录入操作是引发数据质量问题的一个关键因素。确保数据正确地输入系统是至关重要的,尽管现代企业的信息系统已经集成了许多自动化功能,但这并不能完全杜绝错误或不符合标准的数据被输入到系统中。
数据的不准确性往往是由于数据录入人员在操作过程中的无意失误造成的。这些错误可能包括数据拼写错误、数据记录的遗漏、从选项列表中错误地选择不适当的阈值,或是在错误的输入字段中输入了信息(例如,将客户的联系信息错误地填写在“客户名称”字段中)。
3、数据使用阶段
在数据使用阶段,确保数据被正确地使用和解释是至关重要的。当企业需要在多个系统中输入相同的数据项,如“客户档案”信息在ERP、CRM等多个系统中重复录入时,人为错误的风险显著增加。数据的重复输入不仅是一项耗时且繁琐的工作,而且容易造成数据的不一致性,尤其是在缺乏有效数据验证机制的情况下。
为了解决这一问题,实施数据集成是一种有效的策略。它可以减少重复录入的需求,并通过单一的数据源来确保数据的一致性。然而,数据集成过程本身也可能引入数据质量风险,尤其是在将数据迁移到新系统或进行系统间数据整合时。在数据集成和传输的过程中,可能会出现数据值的不规则变化、数据丢失或错位,甚至在日常的电子表格导出和导入操作中也可能产生数据不一致的问题。
4、数据老化阶段
数据是动态变化的,它随着时间和环境的变化而变化。试想,您当前的手机号码或职位是否与两年的情况一致?个人如此,客户信息亦然。企业必须意识到,持续更新数据的重要性,以确保其时效性。过时的数据不仅会失去其价值,还可能导致基于这些数据的业务决策偏离正确方向,从而对企业的运营和战略产生负面影响。
5、数据消亡阶段
在数据的生命周期接近尾声时,适当的数据归档和销毁成为了关键的管理活动。
数据的消亡阶段通常可以分为两个主要部分:
- 首先是确保数据被准确地归档
- 其次是确保数据被安全地销毁
这两个步骤都至关重要,不仅关系到数据的质量维护,也涉及到数据的安全性和合规性。
在数据归档阶段,重点在于确保数据按照既定的标准和流程被系统地存储,以便在未来需要时可以被检索和使用。而在数据销毁阶段,重点是采取适当的措施,确保敏感数据被彻底且安全地删除,防止数据泄露或落入未经授权的手中。
三、 为什么会产生数据质量问题
数据质量问题的根源可以追溯至企业的多个关键领域,主要集中在以下三个层面:企业经营管理、业务应用和技术操作。
1、 经营管理层面
(1)企业并购
随着企业规模的增长和市场版图的扩展,众多企业采取并购策略来迅速进入新的市场领域或业务模式,以此推动业务的多元化和创新升级。在并购过程中,一个不可避免的挑战是整合两家公司的数据库。由于它们可能采用截然不同的数据系统,且各自的数据标准和规范可能并不一致,这就容易导致在数据整合时出现各种摩擦和问题。
(2)缺少高效的管理制度
众多企业的信息化建设历程常常呈现出“先建设,后治理”的特点。
- 在早期的发展阶段,由于缺少全面的数据规划、统一的数据标准和清晰的数据质量目标,不同业务部门在处理数据时常常会遇到数据不一致或冲突的问题。
- 此外,缺乏一套有效的数据责任机制,数据管理部门和岗位职责界定不明确,这导致一旦发生数据质量问题,难以追踪到具体的责任人,从而引发部门间的相互推诿。
- 同时,缺少一套完善的数据管理制度和流程,使得从数据质量问题的发现、分配、处理到优化的整个链条缺乏必要的规范和保障。对于历史数据的质量检查以及新数据的质量校验,缺乏明确而有效的控制措施,这进一步导致数据质量问题难以得到有效的监控和考核。
(3)数据标准不统一
在数据质量管理的实践中,确保各部门之间达成共识是一个重大挑战。若没有一套统一的数据标准,不同部门对相同数据的解读可能会大相径庭,这会导致跨部门的协作和沟通变得极其困难,就像俗语所说的“鸡同鸭讲”。
数据标准构成了企业数据管理的基石,它对于确保数据的一致性和促进有效沟通至关重要。然而,许多企业对数据标准的重视往往仅停留在口头层面,缺乏将这种重视转化为具体行动的实践。这种缺乏行动的情况,严重阻碍了数据管理的效率和数据驱动决策的准确性。
2、 应用层面
(1)数据需求不明确
数据需求的不明确是数据质量管理中的一个常见问题。如果对数据的定义和业务规则的描述不够清晰,建模人员很难构建出既合理又准确的数据模型。我们经常遇到这样的情况:在项目的需求阶段,业务人员对所需数据的描述含糊不清。当数据应用开发完成后,他们才意识到结果与预期不符,这往往导致需求的不断变更,形成了一个无休止的循环,最终导致技术人员和业务人员之间的不满和摩擦。
需求描述的模糊和频繁变更对数据质量有着极大的负面影响。每当需求发生变动,从数据模型设计到数据录入、采集、转换、传输、存储等各个环节都需要相应地进行调整。即便在变更过程中表现得再小心谨慎,也难以完全避免由此引发的数据质量问题。
(2)数据录入不规范
业务部门在企业中扮演着双重角色:一方面,它们是数据需求的发起者;另一方面,它们也是数据的直接生产者。遗憾的是,业务部门的人为因素往往是导致企业数据质量问题的一个关键原因。常见的人为错误包括拼写错误、将数据输入到错误的字段、以及在数据录入时使用不正确的大小写、全半角字符或特殊字符,这些错误都可能引起数据的不规范性。
虽然通过技术手段,如实施输入限制和数据校验机制,可以在一定程度上减少这类问题,但完全避免人为错误仍然是一个挑战。因此,除了技术控制之外,还需要加强对业务部门人员的培训,提高他们对数据准确性的认识,并建立严格的数据录入规范。
3、 技术操作层面
(1)数据设计阶段
在数据模型的设计阶段,如果对数据质量的重要性缺乏足够的重视,或者对需求的理解不够深入,乃至未能与业务部门形成共识,那么最终的设计成果往往难以满足实际需求。这样的设计缺陷很可能导致后续频繁的需求变更,从而引发持续的开发迭代。
此外,如果数据库的表结构设计、约束条件设置以及数据校验规则的开发不够合理,将无法有效地进行数据录入的验证或校验,这可能导致数据出现重复、缺失或错误等问题,严重影响数据的完整性和准确性。
(2)数据传输阶段
数据传输过程涵盖了从数据采集、数据转换、数据装载到数据存储等多个关键环节。
- 在数据采集和转换阶段,可能会遇到的一些问题包括:采集点选择不当、采集频率设置不合理、采集内容不全面、映射关系不准确,以及采集参数和流程配置错误。此外,数据采集接口的性能不足也可能导致数据采集工作失败,引起数据的丢失或映射与转换过程中的错误。
- 而在数据装载和存储阶段,问题可能源自于数据存储设计不合理,或者存储容量不足以支撑当前的数据量。后台的人为数据调整可能导致数据丢失、数据无效、数据失真或记录重复。
同时,数据接口的问题也不容忽视。数据接口参数配置错误、网络连接不稳定等都可能在数据传输过程中引起数据丢失或传输错误。
(3)数据迁移阶段
数据迁移指的是将数据从一个旧的系统环境迁移至一个全新的系统平台,或是从一个数据源转移到另一个数据源的过程。业务人员可能并不充分理解,在数据从一个应用程序切换到另一个应用程序时可能遇到的挑战。通常情况下,非专业人士可能会期望迁移过程是预先配置好的,从而使得数据迁移对于业务用户来说既简单又便捷。
然而,实际情况远比直觉预期的要复杂。且不说在迁移过程中需要处理的数据采集、清洗、转换、装载等一系列技术问题,更关键的是,待迁移的数据源本身可能就存在质量问题。如果在迁移之前不识别并解决这些数据源的质量问题,即便数据迁移过程顺利完成,也无法确保最终数据的质量满足要求。
四、 如何进行根因分析
实施根因分析法以探究数据质量问题,通常遵循四个主要步骤。
1、 定义问题
(1)界定数据质量问题
为了准确界定企业中存在的数据质量问题,可以采取多种方法,如问卷调查和现场调研,以全面收集企业内可能遇到的各种数据质量问题。同时,收集与这些问题相关的数据和证据对于准确把握当前数据状况至关重要。对于发现的轻微异常或个别事件,进行个人专访是一种有效的方法,例如,可以直接访谈业务系统的管理员或业务部门的关键用户,以获得更深入的见解。
(2)按照维度归类
收集到的数据问题应当进行系统的归纳和整理,并依据数据质量的不同维度进行分类。分类不仅有助于我们更系统地审视各类数据问题,还能促进我们对每一类问题进行更深入的分析,从而更有效地制定出针对性的纠正措施。
(3)创建描述
此外,创建数据问题的详细描述也是关键一步,这份描述应涵盖问题的基础信息,包括问题发生的相关人员、时间、地点(或系统环境)、问题的本质以及产生的影响(既包括已经发生的实际影响,也包括可能带来的潜在影响)。明确问题的影响有助于我们确定处理数据问题的优先级,并为制定有效的解决方案提供决策支持。
2、 找出因素
识别导致数据质量问题的直接原因,涉及多个层面的因素,包括人为的操作失误、技术限制、系统缺陷、设备故障、可控与不可控的外部环境因素,以及流程设计不当等。
(1)找出主要因素
一方面,需要梳理与数据质量问题相关的业务流程和对照的标准文件,核查现有的业务流程是否严格遵循了数据标准设计的要求,例如,确保所有必填项的输入都是完整和准确的。另一方面,对数据标准设计本身及数据管理流程进行评估,以识别是否存在设计或流程上的缺陷。
在此过程中,应组织包括流程直接参与者和领域专家在内的团队,他们对于流程执行和纠正措施的见解对于迅速定位数据问题的解决方案至关重要。通过汇集不同角度的意见,团队可以全面考虑与数据质量问题相关的各个因素,并探讨可能的成因。
(2)挖掘根本原因
此外,可以应用5Why分析法来深入挖掘问题的根本原因。该方法通过连续提出“为什么”来逐步深入问题核心。
- 首先,针对当前数据质量问题的发生原因进行提问,并记录所有可能的答案。
- 然后,对每个答案继续追问原因,通过连续的“为什么”探索,直至揭露问题的主要因素。
- 最后,对所有已识别的因素进行综合分析,以确定问题的根本原因。
5Why法通过这种反复的追问,帮助我们逐步剥离问题的表象,直至触及问题的本质。
3、 确定根本原因
在完成上述两个步骤后,我们通常能够识别出导致数据问题发生的根本原因。然而,为了进一步验证这些原因并理解它们之间的相互关系,可以进行以下三个假设性的思考:
- 如果假定这一原因不存在,数据质量问题是否仍会发生?
- 如果这一原因被纠正或排除,数据问题是否会因为其他相同或相似的因素而再次出现?
- 如果这一原因被纠正或排除,是否还会出现类似的数据质量问题?
通过这三个假设,可以更准确地确认根本原因,并评估它们对数据质量问题的直接影响。接下来,应该列出与数据问题相关的所有系统分类,如管理层面、业务流程、技术系统、以及环境和设备因素等。通过这些系统分类,可以进一步筛选出可能的根本原因,并明确它们之间的相互联系。
4、 制定方案
在识别出数据质量问题的根本原因之后,紧接着的任务是制定并实施解决方案,以根治问题。这个过程被称为“改正和预防”,是一个独立而关键的步骤。在寻找根本原因的过程中,我们应对每一个已识别的原因进行深入评估,并为每个原因提出具体的改正措施。这样做不仅有助于立即解决问题,也能促进整体数据质量管理的提升。
例如,如果数据质量问题是由于业务人员的操作失误引起的,那么解决方案应该包括两个方面:
- 一是加强对相关业务人员的培训,提高他们对数据准确性的认识和操作技能;
- 二是从技术层面进行优化,改进系统界面和功能,使其更加用户友好和易于使用,从而减少人为错误的可能性,避免类似问题在未来重现。
五、 根因分析工具
在执行数据质量问题的根因分析过程中,可以借助多种工具来辅助识别和解决问题。一些广泛使用的分析工具包括:5Why图、帕累托图、鱼骨图、故障树图等。
1、 5Why图
5Why分析法的核心在于通过连续提问“为什么”来深入挖掘问题的根本原因。这种方法鼓励问题解决者避免陷入主观臆断和逻辑误区,而是从问题的直接结果出发,沿着因果关系的链条逐步探索。通过逐层深入,穿越不同的抽象层次,直至揭示出隐藏在问题表象之下的根本原因。
2、 帕累托图
帕累托图结合了条形图和折线图的特点,用于展示和分析质量问题的影响因素。在这种图表中,条形的长度表示各问题因素出现的频率,而折线则代表这些因素的累积频率。横轴上列出的影响质量的各个因素,根据它们对问题影响的大小(即出现频次)从左到右进行排序。
通过细致观察和分析帕累托图,可以识别出对质量影响最大的关键因素,从而帮助确定处理问题的优先顺序。这种方法依据帕累托原则,即大部分效果(80%)通常由少数原因(20%)引起,因此也称为“80/20规则”。
3、 鱼骨图
鱼骨图,也称为因果图或Ishikawa图,是一种在质量管理中广泛使用的分析工具,用于探究和解决数据质量问题。使用鱼骨图的步骤如下:
- 原因归集:首先,从多个不同的角度识别出可能导致问题的各种直接原因,并将它们进行分类。
- 事实陈述:然后,具体列出这些问题直接原因所引发的“事实”,即问题的具体表现。
- 原因分析:接着,对每个“事实”进行深入分析,探究其背后的原因。
- 根本原因定位:最终,通过这一过程,揭示出引发问题的根本原因。
鱼骨图通过其直观的结构帮助用户系统地探索阻碍期望结果的各种因素,它特别适用于对数据质量问题进行细致的因果分析。
特性:指的是问题的具体“结果”,例如,若无法对同一客户进行唯一标识,则这是特性的一个例子。
主骨:用于引导出问题本身,问题的表述应放置在图的右侧,并用方框标出。主骨以粗线绘制,并使用箭头来指示问题的方向。
大骨:代表问题可能的直接原因,如在上图中展示的人员因素、系统因素、技术因素、流程因素、方法因素和环境因素等。
中骨:用来详细描述导致问题的事实情况,例如业务操作不当或操作失误等具体事件。
小骨:进一步阐释中骨所描述事实的原因,如为何会发生操作失误,可能是因为对系统操作不熟悉或输入时的随意性。
主因:通常用红色椭圆标记,表示问题的根本原因。主因可能在鱼骨图的任何层级出现,不限于末级的小骨,也可能在大骨或中骨中被识别出来。
4、 故障树图
故障树图是一种用于展示事件因果关系的逻辑图示方法,它通过图形化的方式演绎和推理特定故障事件的发生过程。通过这种图示,可以对一个特定的故障事件进行逐层深入的追踪和分析。
故障树图的使用反映了系统工程方法在研究安全问题时的系统性思维、精确度和预测能力。它能够帮助分析者识别系统中可能导致故障的各种因素,并评估这些因素对系统安全性的影响。
六、 总结
总结而言,数据质量对于企业的成功至关重要,它直接关系到决策的质量、运营的效率和客户的信任度。在本文中,我们探讨了数据质量问题的多种潜在原因,并深入分析了如何通过根因分析法来识别和解决这些问题。通过实施系统化的数据质量管理策略,企业可以显著提高数据的准确性、完整性和可靠性,从而确保数据分析能够提供真正的洞察力,并支持更好的业务决策。
为了实现数据质量的持续改进,企业需要建立一套全面的数据治理框架,涵盖从数据采集到数据处理、再到数据分析的每一个环节。这不仅需要技术和流程上的改进,还需要培养一种数据文化,使数据质量成为每个员工的共同责任。通过持续的教育、培训和沟通,可以提升员工对数据重要性的认识,并鼓励他们在日常工作中采取正确的数据实践。
最终,通过综合运用技术工具、流程优化和人员培训,企业将能够构建一个更加健康的数据环境,释放数据的潜力,推动业务的持续创新和成长。