大数据治理入门系列:数据治理

news2024/11/27 18:27:27

在信息经济时代,数据是企业的一大关键资产。为了制定科学、有效、合理的决策,企业需要收集大量的数据并进行各种数据分析,为决策提供依据。在此过程中,收集数据的速度、数据的质量和可靠性、对数据的分析过程、合适的分析工具等,都对最终决策具有显著影响。这些其实都属于数据治理的范围。

img

数据治理的含义

数据治理包含一整套的流程、角色、政策、标准和指标,旨在确保能够高效、有效地利用信息,助力企业实现数据愿景。数据治理具体可以包括以下几个方面:

  • 数据管理:确定数据的所有者/负责人
  • 数据政策:有关数据管理的各类指南、标准、规则等,通常由数据治理委员会制定
  • 数据标准:捕捉数据、记录数据、维护数据的标准
  • 元数据管理:管理有关数据的数据,例如数据库的名称、版本号等
  • 数据血缘关系:借助数据血缘分析工具(例如马哈鱼数据血缘分析器)追踪数据的来龙去脉
  • 数据目录:记录特定范围内所有数据的清单目录
  • 数据质量:通过各类质量指标评估数据质量
  • 数据安全:涉及数据访问管理、个人信息验证等安全相关的控制

简言之,数据治理规定了,谁可以在什么场景下,通过什么方式,对哪些数据采取何种行动。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jQP2fk8p-1685193251536)(https://blog.sqlflow.cn/wp-content/uploads/2022/09/%E4%BC%81%E4%B8%9A%E5%BE%AE%E4%BF%A120220912-224343@2x-1024x500.png)]

为什么需要数据治理

数字时代创造了海量的数据,手机上的各种 APP 就像勤劳的蜜蜂一样乐此不疲地生产数据,导致数据规模一刻不停地疯涨。面对如此之多的数据,如果不加治理,查找数据时不仅效率低下,而且很难保证数据的质量。这就像在杂乱无章的图书馆中寻找一本书,由于图书没有编码、没有分类,没有介绍,你需要不停在书架中穿梭,翻开每一本书查看。一番周折之后,终于找到了你想要的书,但翻看几页之后却发现丢失了很重要的一些内容,这本书如今对你而言毫无价值,花费了大量时间最终却一无所获。

为了避免在数据治理过程中遇到类似的糟糕体验,所以需要对数据进行治理。然而,需要数据治理的原因有很多,上述情形只是触及了冰山的表面。概括来说,需要数据治理的情形主要分为以下几方面。

不同的数据真相

“真相永远只有一个”在名侦探柯南的剧情中永远成立,但对于未经治理的数据而言却并非如此。很多数据机构在过去十几年里都面临的一个问题是,同一数据元素在不同的数据系统中具有不同的值。造成这种现象的原因多种多样,大体包括数据延迟、数据流动路径错误、系统不同步等。

缺席的数据所有者

应用程序所有者、系统所有者、产品所有者均有明确定义。而数据作为程序和系统的基石,却没有明确的所有者。出现问题时无法界定修复责任,无法确定谁来修复,因此进一步造成系统混乱,甚至可能会导致数据遗失。

模糊的数据上下文

有些数据会随着时间的变化而变化,例如每年的收入、支出、负债等。有时这些数据会在短时间内出现显著的增加或减少,后期分析数据时可能难以解释这些变化。因此,需要在数据治理中定义数据上下文,即解释得出某个数据的条件或环境,例如数据的结构、数据量、相关产品的定义、市场范围、宏观的经济环境、政治信息等。有了这些上下文信息就可以解释数据的来源,分析数据的变化,提升数据的可靠性。

不规范的数据文档

数据文档涉及很多内容,包括数据采样、数据收集、数据清洗、数据分析等。标准的结构化数据有利于使用者快速理解数据,降低数据的使用难度。有些数据文档排版美观,配色和谐,看起来很漂亮,但深层次上仍然缺乏一致的文档结构,组织范围内没有明确定义数据集或数据元素的格式。

展望数据治理的未来

Informatica、ASG、IBM 等数据治理领域的头部企业在市场上提供了各种各样的数据治理工具,尝试用最新的科技丰富产品特性,提升竞争力。使用人工智能技术便是其中的重要一环,例如通过 NLP 编制数据目录、通过机器学习追踪数据链路、借助人工智能检测数据质量等。借助强大的科技生产力,以及对数据真相、所有制、上下文、文档等方面的进一步完善,未来的数据收益回报率有望得到大幅提升。

数据治理不仅是对数据的控制和保护,更是对业务的赋能和洞见。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/577210.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

三十四、数学知识——约数(试除法 + 约数个数 + 约数之和 + 欧几里得算法)

约数相关算法主要内容 一、基本思路1、定义2、试除法——求一个数的所有约数3、约数个数4、约数之和5、欧几里得算法——辗转相除法(求解最大公约数) 二、Java、C语言模板实现三、例题题解 一、基本思路 1、定义 约数: 约数是指一个数&…

利用百度API进行植物识别

植物识别_拍照识别植物-百度AI开放平台百度AI植物识别,支持识别超过2万种通用植物和近8千种花卉,接口返回植物的名称,并获取百科信息,适用于拍照识图类APP中https://ai.baidu.com/tech/imagerecognition/plant 偶然看到的,不过真…

STM32F103C8T6+2.4寸SPI TFT触摸屏代码+标准库 项目开发

目录 模块清单: 模块介绍: 1:STM32F103C8T6 2:2.4寸SPI TFT触摸屏 项目结果展示 2.4寸 TFT SPI显示触摸屏 2.4寸 SPI TFT 显示触摸屏代码下载链接: (1条消息) 2.4寸SPITFT显示触摸屏资源-CSDN文库 模块清单&#x…

Vue后台管理系统【附源码】

登录 – 完成 路由拦截 – 完成 商品管理(增加、编辑、搜索、删除) – 完成 角色管理(增加、编辑、搜索、删除、权限管理) – 完成 交易订单(增加、编辑、搜索、删除) – 完成 用户管理(增加、编…

在Centos Stream 9上Docker的实操教程 - 实操准备篇

在Centos Stream 9上Docker的实操教程 - 实操准备篇 认识Docker准备Centos Stream 9安装Docker更新仓库绕不开的HelloWorld结语 认识Docker 什么都要实操了,你还不知道Docker是什么?网上关于Docker的介绍一搜一大把,博主就不必浪费时间去侃侃…

ESP32-OTA

文章目录 1. 什么是OTA?2. OTA的基本原理3. ESP32远程OTA步骤:3.1 将需要升级的程序放在该目录下3.2 启动HTTP服务器3.3 配置3.4 烧录程序3.5 上电测试ESP32端 4. 问题:5. 通过命令控制OTA6. 参考: 1. 什么是OTA? OTA…

如何用 GPT-4 帮你写游戏(以24点游戏举例)

目录 给我一个24点游戏 游戏规则 GPT给的代码 ​改进 再改进 最近呢掀起了一阵GPT-4的热潮,很多人都想用GPT-4,这里呢我就打一个广告(嘿嘿),如果不知道国内如何使用GPT的,可以看看这个博客:G…

STC89C52+DHT20设计的环境温湿度检测仪

一、项目背景 本项目基于STC89C52单片机和DHT20温湿度传感器,实现了一款环境温湿度检测仪。通过传感器采集环境的温度和湿度数据,利用IIC接口的OLED显示屏显示出来,便于用户实时监测环境温湿度状态。 在现代社会,人们对环境温湿度的要求越来越高。无论是工作场所还是居住…

局部特征匹配(LoFTR) 基于全局匹配的光流学习(GMFlow)

文章目录 特征匹配(稀疏匹配与稠密匹配)《LoFTR: Detector-Free Local Feature Matching with Transformers》【CVPR21】《GMFlow: Learning Optical Flow via Global Matching》【CVPR22】光流的定义第一个问题第二个问题方法该框架下存在的一个问题 Pr…

智慧园区管理平台优势详解

随着数字化和智能化的时代到来,越来越多的园区开始使用智慧园区管理平台来提高管理效率,降低管理成本和提升服务质量。智慧园区管理平台是一种通过智能化技术与物联网技术进行连接,对园区进行综合管理、智能化监控的信息化平台。下面将详细介…

大数据:云平台,阿里云VPC创建,创建安全组,云服务器ECS,

大数据:云平台 2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开 测开的话,你就得学数据库,sql,oracle,尤其sql要学&…

Seata之@GlobalTransactional验证

下订单 -> 减库存 -> 扣余额 -> 改(订单)状态 1.数据库初始情况: 2.正常下单 http://localhost:2001/order/create?userId1&productId1&count10&money100 3.超时异常,没加GlobalTransactional 模拟Accou…

RabbitMQ系列(24)--RabbitMQ集群搭建

前言:当RabbitMQ服务器遇到内存崩溃、机器掉电或者主板故障等情况,该怎么办?单台RabbitMQ服务器可以满足每秒1000条消息的吞吐量,那如果应用需要RabbitMQ服务满足每秒10万条消息的吞吐量呢?购买昂贵的服务器来增强单机RabbitMQ服务的性能不…

阿里云ECS部署chat-web代理访问

1、ECS服务器申请 使用阿里云账号购买了一个美国(弗吉尼亚)的2C/2G的CentOS7.9 x64服务器。 2、系统版本升级 CentOS7.9默认的python和pip版本都是3.6的,需要升级到3.9以上,升级步骤百度,大致如下: wget…

vue diff算法与虚拟dom知识整理(12) patch精细化比较新增子节点

上文中我们编写了patch函数中对相同节点的几种处理 将简单的都写完了 但还留下了最麻烦的子节点比较 既新旧节点都有子节点 需要 精细化比较 我们先将src下的入口文件index.js 代码改成这样 import h from "./snabbdom/h"; import patch from "./snabbdom/pat…

C++实现Canny边缘检测(原理+底层代码)

文章目录 一、算法原理二、环境配置三、算法详解3.1、数据结构 Mat3.2、高斯滤波器的C实现3.3、用一阶偏导有限差分计算梯度幅值和方向 三、项目实战:C实现Canny边缘检测 一、算法原理 canny边缘检测算法步骤: 1、使用高斯滤波器对图像进行平滑处理。 2、…

recurdyn履带问题

1.问题:整车履带仿真出错,车辆越障时遇到障碍物直接弹开 思路: 关于这类模型需要调节履带和地面之间的接触参数、Bushing force,还有驱动函数。 弹飞了是因为接触刚度太大了,调小一些,在100以内继续调节…

从代码角度理解DETR

一个cnn的backbone, 提图像的feature, 比如, HWC.同时对这个feature做position_embedding.然后二者相加 (在Transformer里面就是二者相加)输入encoder,输入decoder (这里有object queries.)然后接Prediction Heads, 比如分类和回归. 下面的代码参考自: https://github.com/fac…

单片机原理及应用——持续更新

目录 一、单片机概述 1、单片机简介 2、单片机的特点 3、MSC-51系列与AT89S5x系列单片机 (1)MSC-51系列单片机 (2)AT89S5x系列单片机 二、AT89S52单片机的片内硬件结构 1、AT89S52单片机的硬件组成 2、AT89S52单片机的引…

Springboot +spring security,OAuth2 四种授权模式概念

一.简介 这篇文章来讲下Spring Security OAuth2 四种授权模式。 二.什么是OAuth2 OAuth 2.0 是一种用于授权的开放标准,允许用户授权第三方应用程序访问他们的资源,例如照片、视频或其他个人信息。OAuth 2.0 提供了一些不同的授权模式,包括…