2019年五月,某企业数据服务平台推送了运营花呗的蚂蚁小微小额贷款有限公司进入清算程序。
究其原因,该数据服务平台抓取了不真实且不完整的数据,导致生成的数据质量低,信息不真实、存在法律合规风险等情况。
由于支付宝和花呗的用户多达数亿,该错误消息出现后,导致市场和用户产生恐慌情绪,虚假不真实的数据导致蚂蚁金服和蚂蚁微贷公司在商业信誉和商品声誉方面遭受严重损害。数据质量重要性不言而喻!
1
数据质量的重要性
《“十四五”数字经济发展规划》指出:“加快推进数据要素市场化建设,充分发挥数据要素作用。要构建以数据为关键要素的数字经济,在创新、协调、绿色、开放、共享的新发展理念指引下,推进数字产业化、产业数字化,引导数字经济和实体经济深度融合。”
因此,建立一个行之有效的数据质量管理计划的能够:
❖ 增加组织数据的价值和使用数据的机会
❖ 降低与数据质量差相关的风险和成本
❖ 提高组织效率和生产力
❖ 保护和提高组织的声誉
高质量的数据对管理决策,业务支撑都有极其重要的作用。
数据质量是数据治理中重要的一把标尺,而数据治理又是如今企业组织的首要战略重点之一,只有持续的数据质量改进才能推动数据治理体系的完善,为企业数据战略提供坚实的保障。
2
数据质量问题的来源
在数据日常输入、存储、管理、使用的过程中,出现数据缺失,数据异常,数据不一致,数据重复或错误情况,主要是业务,技术,管理三大方面导致的。
❖ 技术方面来源包含:
数据采集、数据存储、数据集成、数据分析
❖ 业务方面主要体现在:
业务需求不明确、需求频繁变更、数据输入不规范、业务数据做假
❖ 管理方面主要体现在:
缺乏数据思维、缺乏认责机制、缺乏明确目标、缺乏统一管理机制、缺乏统一数据规范、缺乏质量控制措施、缺乏问题管理制度
数据质量问题的来源
3
数据质量优化路径
数据质量控制策略形成数据质量的事前预防机制、事中过程控制和事后监督控制,进行数据质量闭环管理。
数据质量控制策略
❖ 事前:预防为主
建立数据标准化模型(对每个数据元素的业务描述、数据结构、业务规则、采集规则等等进行清晰的定义,有了清晰的定义后就通过元数据进行管理是数据可以被理解使用,以提高数据价值)。
❖ 事中:过程控制
数据质量过程控制
事中数据质量的控制,即在数据的维护和使用过程中去监控和处理数据质量。通过建立数据质量的流程化控制体系,对数据的新建、变更、采集、清洗、分发、应用等各个环节进行流程化控制。
❖ 事后:监督机制
定期开展数据质量的检查和清洗工作应作为企业数据质量治理的常态工作来抓:
① 设置数据治理规则;
② 设置数据检查任务;
③ 出具数据质量问题报告;
④ 制定和实施数据质量改进方案,进行数据质量问题的处理;
⑤ 评估与考核;通过定期对系统开展全面的数据质量状况评估,从问题率、解决时效等方面建立评价指标进行整改评估,根据整改优化结果,进行适当的绩效考核。
数据质量事后监督
4
数据质量问题控制流程
数据质量问题控制流程是指通过建立数据质量评估标准和规范,发现、跟踪并解决数据质量问题。
可以制定或复用各类质量规则,经过检测后,最终输出质量报告,指导用户整改数据,形成数据质量问题的闭环处理。
❖ 数据质量评估标准和规范
数据治理评估标准规范
❖ 数据质量规则
质量规则帮助用户更好地完成质量检测任务,比如支持唯一性判定规则和表级增量条数规则等。此外,支持用户自定义规则配置过滤表达式和自定义SQL形成新的规则,满足定制质量需求。
数据质量新建规则界面
❖ 数据任务执行
通过新建任务,配置数据资源,任务方式等,进行数据任务执行。
数据质量任务执行界面
❖ 数据质量报告
输出质量报告,指导用户整改数据,形成数据质量问题的闭环处理。
数据质量报告界面
❖ 数据质量的长期保持
输出数据质量的保证仅靠技术显然是不行的。在整个数据质量的控制过程中,人是关键因素。
要想真正长期保证数据的高质量,还必须从以下五个方面着手:
① 建立数据的标准,明确数据的定义:权衡企业内外部因素,即习惯和质量;
② 建立一个可复用的数据收集、数据预处理和数据维护流程:应对不断变化的企业内外部因素;
③ 在数据预处理流程中设立多个性能监控点:评价标准:最终用户、同类数据、前期数据等;
④ 对流程不断进行改善和优化:质量改善非一朝一夕,而是持续过程,要灵活变通;
⑤ 把责任落实到人:制定数据采集、存储、集成、分析等各项活动的质量指标。
5
做好数据质量管理的价值
数据质量是数据的生命线,没有高质量的数据,一切数据分析、数据挖掘、数据应用基于错误数据,数据价值会大打折扣,甚至出现完全错误的结论,浪费组织大量时间和精力,得不偿失。
做好数据质量管理,对于企业来说有如下价值:
❖ 降低业务运营成本
有效的数据质量管理能够降低企业IT和业务运营成本。一致性的数据环境让系统应用集成、数据清理变得更加自动化,减少过程中的人工成本;标准化的数据定义让业务部门之间的沟通保持顺畅,降低由于数据不标准、定义不明确引发的各种沟通成本。
❖ 提升业务处理效率
有效的数据质量管理可以提高企业的运营效率。高质量的数据环境和高效的数据服务让企业员工可以方便、及时地查询到所需的数据,然后即可展开自己的工作,而无须在部门与部门之间进行协调、汇报等,从而有效提高工作效率。
❖ 赋能管理决策
良好的决策是基于经验和事实的,不可靠的数据就意味着不可靠的决策。有效的数据质量管理有利于提升数据分析和预测的准确性,从而改善决策水平。
OceanMind海睿思数据中台内置数据质量模块,帮助企业建立持续性、自动化的数据质量运维机制,大幅降低企业数据运营成本,赋能管理决策助力企业实现长效收益!