海睿思分享 | 摆脱数据质量低下困扰,这个方法简单有效!

news2024/11/17 23:28:12

2019年五月,某企业数据服务平台推送了运营花呗的蚂蚁小微小额贷款有限公司进入清算程序。

究其原因,该数据服务平台抓取了不真实且不完整的数据,导致生成的数据质量低,信息不真实、存在法律合规风险等情况。

由于支付宝和花呗的用户多达数亿,该错误消息出现后,导致市场和用户产生恐慌情绪,虚假不真实的数据导致蚂蚁金服和蚂蚁微贷公司在商业信誉和商品声誉方面遭受严重损害。数据质量重要性不言而喻!

1

数据质量的重要性

《“十四五”数字经济发展规划》指出:“加快推进数据要素市场化建设,充分发挥数据要素作用。要构建以数据为关键要素的数字经济,在创新、协调、绿色、开放、共享的新发展理念指引下,推进数字产业化、产业数字化,引导数字经济和实体经济深度融合。”

因此,建立一个行之有效的数据质量管理计划的能够:

❖ 增加组织数据的价值和使用数据的机会

❖ 降低与数据质量差相关的风险和成本

❖ 提高组织效率和生产力

❖ 保护和提高组织的声誉

高质量的数据对管理决策,业务支撑都有极其重要的作用。

数据质量是数据治理中重要的一把标尺而数据治理又是如今企业组织的首要战略重点之一,只有持续的数据质量改进才能推动数据治理体系的完善,为企业数据战略提供坚实的保障。

2

数据质量问题的来源

在数据日常输入、存储、管理、使用的过程中,出现数据缺失,数据异常,数据不一致,数据重复或错误情况,主要是业务技术管理三大方面导致的。

❖ 技术方面来源包含:

数据采集、数据存储、数据集成、数据分析

❖ 业务方面主要体现在:

业务需求不明确、需求频繁变更、数据输入不规范、业务数据做假

❖ 管理方面主要体现在:

缺乏数据思维、缺乏认责机制、缺乏明确目标、缺乏统一管理机制、缺乏统一数据规范、缺乏质量控制措施、缺乏问题管理制度

数据质量问题的来源

3

数据质量优化路径

数据质量控制策略形成数据质量的事前预防机制、事中过程控制和事后监督控制,进行数据质量闭环管理。

数据质量控制策略

❖ 事前:预防为主

建立数据标准化模型(对每个数据元素的业务描述、数据结构、业务规则、采集规则等等进行清晰的定义,有了清晰的定义后就通过元数据进行管理是数据可以被理解使用,以提高数据价值)。

❖ 事中:过程控制

数据质量过程控制

事中数据质量的控制,即在数据的维护和使用过程中去监控和处理数据质量。通过建立数据质量的流程化控制体系,对数据的新建、变更、采集、清洗、分发、应用等各个环节进行流程化控制。

❖ 事后:监督机制

定期开展数据质量的检查和清洗工作应作为企业数据质量治理的常态工作来抓:

 设置数据治理规则;

 设置数据检查任务;

 出具数据质量问题报告;

 制定和实施数据质量改进方案,进行数据质量问题的处理;

 评估与考核;通过定期对系统开展全面的数据质量状况评估,从问题率、解决时效等方面建立评价指标进行整改评估,根据整改优化结果,进行适当的绩效考核。

数据质量事后监督

4

数据质量问题控制流程

数据质量问题控制流程是指通过建立数据质量评估标准和规范,发现、跟踪并解决数据质量问题。

可以制定或复用各类质量规则,经过检测后,最终输出质量报告,指导用户整改数据,形成数据质量问题的闭环处理。

 数据质量评估标准和规范

数据治理评估标准规范

❖ 数据质量规则

质量规则帮助用户更好地完成质量检测任务,比如支持唯一性判定规则和表级增量条数规则等。此外,支持用户自定义规则配置过滤表达式和自定义SQL形成新的规则,满足定制质量需求。

数据质量新建规则界面

❖ 数据任务执行

通过新建任务,配置数据资源,任务方式等,进行数据任务执行。

数据质量任务执行界面

❖ 数据质量报告

输出质量报告,指导用户整改数据,形成数据质量问题的闭环处理。

数据质量报告界面

❖ 数据质量的长期保持

输出数据质量的保证仅靠技术显然是不行的。在整个数据质量的控制过程中,人是关键因素。

要想真正长期保证数据的高质量,还必须从以下五个方面着手:

 建立数据的标准,明确数据的定义:权衡企业内外部因素,即习惯和质量;

 建立一个可复用的数据收集、数据预处理和数据维护流程:应对不断变化的企业内外部因素;

 在数据预处理流程中设立多个性能监控点:评价标准:最终用户、同类数据、前期数据等;

 对流程不断进行改善和优化:质量改善非一朝一夕,而是持续过程,要灵活变通;

 把责任落实到人:制定数据采集、存储、集成、分析等各项活动的质量指标。

5

做好数据质量管理的价值

数据质量是数据的生命线,没有高质量的数据,一切数据分析、数据挖掘、数据应用基于错误数据,数据价值会大打折扣,甚至出现完全错误的结论,浪费组织大量时间和精力,得不偿失。

做好数据质量管理,对于企业来说有如下价值:

❖ 降低业务运营成本

有效的数据质量管理能够降低企业IT和业务运营成本。一致性的数据环境让系统应用集成、数据清理变得更加自动化,减少过程中的人工成本;标准化的数据定义让业务部门之间的沟通保持顺畅,降低由于数据不标准、定义不明确引发的各种沟通成本。

❖ 提升业务处理效率

有效的数据质量管理可以提高企业的运营效率。高质量的数据环境和高效的数据服务让企业员工可以方便、及时地查询到所需的数据,然后即可展开自己的工作,而无须在部门与部门之间进行协调、汇报等,从而有效提高工作效率。

❖ 赋能管理决策

良好的决策是基于经验和事实的,不可靠的数据就意味着不可靠的决策。有效的数据质量管理有利于提升数据分析和预测的准确性,从而改善决策水平。

OceanMind海睿思数据中台内置数据质量模块,帮助企业建立持续性、自动化的数据质量运维机制,大幅降低企业数据运营成本,赋能管理决策助力企业实现长效收益!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/611628.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

飞浆AI studio人工智能课程学习(4)-优质Prompt分享

文章目录 最具商业价值Prompt分享与颁奖02最具商业价值Prompt分享与颁奖-Top102最具商业价值Prompt分享与颁奖-Top202最具商业价值Prompt分享与颁奖-Top302最具商业价值Prompt分享与颁奖-Top402最具商业价值Prompt分享与颁奖-Top502最具商业价值Prompt分享与颁奖-Top602最具商业…

数字化艺术时代的新趋势:虚拟数字展厅的崛起

引言: 艺术与技术的融合正带领我们进入一个全新的数字化艺术时代。在这个时代中,虚拟数字展厅正在以惊人的速度崛起,并引领着展览的新趋势。 一.虚拟数字展厅的定义和特点 虚拟数字展厅是一种基于虚拟现实和全景技术的数字化艺术…

经典的设计模式——UML类图的一些规范

文章目录 一、类的表示二、接口的表示三、继承的表示四、接口实现的表示五、关联关系六、聚合关系七、合成关系八、依赖关系 一、类的表示 矩形框第一层表示名称,如果是抽象类,则用斜 体表示 第二层是属性 第三层是方法 号表示公有,-表示私有…

dll修复都有哪些方法?详细解析各种dll修复方法

DLL(动态链接库)是 Windows 操作系统中的一种重要文件,它包含了许多程序所需的函数和资源。因此,当 DLL 文件出现问题时,可能会导致程序无法正常运行,甚至整个系统崩溃。这时候需要使用 DLL 修复工具进行修…

Excel集成GPT,惊呆我了

Excel&GPT 从最开始的GPT对话,到后面的Office集成GPT进行内测,用GPT实现写Word、做Excel、做PPT(别着急,后面我会分享AIPPT)已经不再是设想,而在逐步演变成真的! 当然,目前国内…

Vivado下时序逻辑模块的仿真

文章目录 D触发器两级D触发器带异步复位的D触发器带异步复位和同步置数的D触发器移位寄存器单口RAM伪双口RAM真双口RAM单口ROM 组合逻辑电路在逻辑功能上特点是任意时刻的输出仅仅取决于当前时刻的输入,与电路原来的状态无关。 时序逻辑在逻辑功能上的特点是任意时刻…

从0到1:如何建立一个大规模多语言代码生成预训练模型

国产AI辅助编程工具CodeGeeX是一个使用AI大模型为基座的辅助编程工具,帮助开发人员更快的编写代码。可以自动完成整个函数的编写,只需要根据注释或Tab按键即可。它已经在Java、JavaScript和Python等二十多种语言上进行了训练,并基于大量公开的…

【Python】打包与发布(Packaging and distributing projects)

以Unix/macOS系统为例。 前提准备:确保pip为最新版本,可使用以下命令来更新pip: python3 -m pip install --upgrade pip一、创建一个简单的项目 我们在目录packaging_tutorial下进行操作。 项目名称为:example_package_wayne。 …

【yolov5系列】yolov5目标检测的原理梳理+核心代码解析

打算写yolov5源码阅读和总结&#xff0c;已经打算了一年&#xff0c;如今已经更新到yolov8&#xff0c;只能说自己行动太慢了&#xff0c;哭泣(๑>؂<๑&#xff09;。趁着看要yolov8一起赶紧把yolov5总结总结。 一、Yolov5的网络结构 模型主要分为3部分 backbone&#x…

Maven 打包插件 maven-jar-plugin

文章目录 指定版本生成可执行 Jar准备依赖&#xff0c;并指定依赖位置自动下载依赖的 Jar 文件 打包时排除文件与其他常用打包插件比较 本文是对 maven-jar-plugin 常用配置的介绍&#xff0c;更详细的学习请参照 Apache Maven JAR Plugin 官方文档 这是 maven 生命周期 packa…

Python+Pytest+Allure+Git+Jenkins数据驱动接口自动化测试框架

一、接口基础   接口测试是对系统和组件之间的接口进行测试&#xff0c;主要是效验数据的交换&#xff0c;传递和控制管理过程&#xff0c;以及相互逻辑依赖关系。其中接口协议分为HTTP&#xff0c;RPC&#xff0c;Webservice&#xff0c;Dubbo&#xff0c;RESTful等类型。 …

实用工具 | 语音文本对齐MFA的安装及使用

Montreal Forced Aligner&#xff08;MFA&#xff09;[1]是一个用于将音频和文本进行对齐的工具。它可以用于语音识别、语音合成和发音研究等领域。MFA支持多种语言和语音&#xff0c;用户可以根据需要自定义训练模型。 本博客介绍如何使用MFA对音频和文本进行对齐&#xff0c…

计算机网络实验:交换机划分Vlan配置

目录 前言实验目的实验内容实验过程总结 前言 计算机网络是当代信息技术的重要组成部分&#xff0c;也是现代社会的基础设施之一。为了提高计算机网络的性能和安全性&#xff0c;网络管理员需要对网络进行合理的规划和设计&#xff0c;包括对网络拓扑、地址分配、路由协议、交…

TP-LINK XDR6078 WiFi6路由器 简单开箱评测

TL-XDR6078易展版AX6000双频WiFi6路由器 简单开箱测评&#xff0c;新房快装修好了&#xff0c;先装上WiFi&#xff0c;挑了一会选中这个了&#xff0c;双2.5G电口&#xff0c;6000Mbps无线速率&#xff0c;还支持端口汇聚等等功能&#xff0c;感觉还不错。 TP-LINK XDR3040 Wi…

R语言 tidyverse系列学习笔记(系列2)表格的处理

创建一个得分表 score install.packages("dplyr") library(dplyr)install.packages("tibble") library(tibble)install.packages("stringr") library(stringr)score tibble(IDc("1222-1","2001-0","3321-1",&qu…

从JMeter Cookie管理器开始,轻松掌握接口测试技能!

目录 【前言】 【1. 添加Cookie管理器】 【2. 登录接口获取Cookie】 【3. Cookie关联】 【4. 动态修改Cookie值】 【结论】 【附录】 【前言】 在接口测试中&#xff0c;我们经常需要对Cookie进行处理和关联&#xff0c;来模拟用户在浏览器中的操作。特别是在登录和权限…

chatgpt赋能python:Python名字的由来

Python名字的由来 Python是一门高级编程语言&#xff0c;它的名字来源于一个非常有趣的故事。接下来的文章将介绍如何命名Python&#xff0c;并且揭示这个名字的真正含义。 Guido van Rossum设计Python Python是由Guido van Rossum设计的。在1989年&#xff0c;Guido在荷兰国…

用Flask-Login库和阿里云短信推送服务实现网站注册登录功能

诸神缄默不语-个人CSDN博文目录 本文介绍如何用Flask-Login库和阿里云短信推送服务实现网站注册登录功能。 大致逻辑是在注册和找回密码时调用阿里云短信服务&#xff0c;登录时使用手机号密码登录&#xff08;别的安全功能还没有加&#xff09;。 很多代码都是直接由ChatGP…

Zinx框架学习 - 连接管理

Zinx - V0.9 连接管理 每个服务器的能够处理的最大IO数量是有限的&#xff0c;根据当前服务器能开辟的IO数量决定&#xff0c;最终决定权是内存大小现在我们要为Zinx框架增加链接个数的限定&#xff0c;如果超过⼀定量的客户端个数&#xff0c;Zinx为了保证后端的及时响应&…

浏览器断点调试技巧

一、前言 日常开发中&#xff0c;当业务测试数据展示有问题时&#xff0c;我们需要快速去排查问题出现原因&#xff1b;但看了自己写的逻辑&#xff0c;很自信的觉得没问题但最终展示和逻辑对不上。这个需要我们便可以利用浏览器断点调试功能&#xff0c;来逐步调试对比逻辑来…