数据治理基础知识

news2024/11/20 20:41:10

文章目录

    • 基本概念
    • 相关名词术语
    • 数据治理对象

基本概念

1)从管理者视角看数据治理

数据治理是企业发展战略的组成部分,是指导整个集团进行数字化变革的基石,要将数据治理纳入企业的顶 层规划,各分/子公司、各业务部门都需要按照企业的顶层战略要求进行工作部署,以实现企业数字驱动的转型的目标。

2)从业务人员视角看数据治理

这个痛点需求恰好击中了数据治理的三大要害:

  • 第一,要定义数据,让抽象的数据变成可读、可理解的信息;
  • 第二,要有一个完整的数据地图或数据资源目录,盘活企业的数据资产,
    方便用户随时找到想要的数据;
  • 第三,要做好数据质量管理,提升数据质量并提升数据的使用率。

3)从技术人员视角看数据治理

数据治理应包含三部分:

  • 一是ETL,即数据的抽取、转换、加载,保障数据仓库内有数据可用;
  • 二是对数据的处理、转换和融合,保障数据仓库内的数据准确、可用;
  • 三是元数据管理,保障数据仓库内的数据可进行血统溯源和影响分析。

企业数据治理的重点是对数据源中数据的治理,也就是需要对业务系统实施治理,而数据仓库只是数据的应用端,只有业务系统的数据质量高了,数据仓库才能获得高质量的数据,进而获得高质量的洞察。

数据治理还得看数据湖的,从源头治理虽然好,但是操作起来太复杂,周期长,成本高。而我们在数据湖中治理就不一样了,我们的数据湖已经接入企业90%以上的数据,数据统一在”湖“中管理。所有的用数需求都需要通过数据湖调取,因此我们只需要将数据湖中的数据治理好,就什么问题都没有了。

国际数据管理协会(DAMA)给出的定义是:数据治理是对数据资产管理行使权力和控制的活动集合。

国际数据治理研究所(DGI)给出的定义是:数据治理是一个通过一系列与信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁(Who)能根据什么信息,在什么时间(When)和情况(Where)下,用什么方法(How),采取什么行动(What)。

所有为提高数据质量而展开的技术、业务和管理活动都属于数据治理范畴。数据治理的最终目标是提升数据利用率和数据价值,通过有效的数据资源管控手段,实现数据的看得见、找得到、管得住、用得好,提升数据质量和数据价值。

相关名词术语

1)数据元

数据元:一组属性描述定义、标识、表示和允许值的数据单元。数据元由对象、特性和表示三部分组成。数据元是组成实体数据的最小单元,或称原子数据。如性别为数据元,“男”和“女”为数据元的值。

作为最小颗粒度的数据,数据元是对数据进行标准化定义的基础,也是构建统一、集成、稳定的行业数据模型的基础。

2)元数据

元数据:描述数据的数据或关于数据的结构化数据。通过元数据管理和检索我们想要的“书”。可见元数据是用来描述数据的数据,让数据更容易理解、查找、管理和使用。

3) 主数据

主数据:企业内需要在多个部门、多个信息系统之间共享的数据,如客 户、供应商、组织、人员、项目、物料等。主数据是企业开展业务的基础,只有得到正确维护,才能保证业务系统的参照完整性。

主数据具有3大特性、4个超越。

  • 3大特性:高价值性、高共享性、相对稳定性。
  • 4个超越:超越业务,超越部门,超越系统,超越技术。

主数据用来解决企业异构系统之间核心数据不一致、不正确、不完整等问题。主数据是信息系统建设和大数据分析的基础,被认为是企业数字化转型的基石。

4)业务数据

业务数据是业务活动过程或系统自动产生的既定事实的数据,也称交易数据。业务数据来自三个方面。

  • 业务交易过程中产生的数据,例如计划单、销售单、生产单、采购单等,这类数据多数是手动生成的。
  • 系统产生的数据,包括硬件运行状况、软件运行状况、资源消耗状况、应用使用状况、接口调用状况、服务健康状况等。
  • 自动化设备所产生的数据,如各类物联网设备的运行数据、生产采集数据等。

业务数据的共同特点是:时效性强,数据量大。

业务数据主要面向应用,为业务应用提供服务,例如生产、销售、采购、设备管理、系统管理等。

5)主题数据

主题数据是根据数据分析的需要,按照业务主题对数据所做的一种组织和管理方式,其本质是为了进行面向主题的分析或加速主题应用的数据。主题数据是分析型数据,是按照一定的业务主题域组织的,服务于人们在决策时所关心的重点方面。一个主题数据可以由多个主数据和交易数据组成。主题数据一般是汇总的、不可更新的、用于读的数据。

主题数据是按照一定的业务主题域组织的,服务于各种数据分析或应用开发。如某生产制造企业 定义了12大主题数据,包括综合服务、人力资源、财务管理、质量管理、生产 管理、工艺管理、库存管理、销售管理、采购管理、设备管理、能源管理和安 全环保。

6)数据仓库

数据仓库(Data Warehouse,DW)是一个面向主题的、集成的、相对稳定 的、反映历史变化的数据集合,用于支持管理决策。数据仓库是数据库的一种概念上的升级,可以说是为满足新需求而设计的一种新数据库,需要容纳更加 庞大的数据集。本质上,数据仓库与数据库并没有什么区别。

数据仓库是为企业所有级别的决策制定过程提供所有类型数据支撑的战略集合,有以下三个主要作用。

  1. 数据仓库是对企业数据的汇聚和集成,数据仓库内的数据来源于不同的业务处理系统,包含主数据和业务数据。数据仓库的作用就是帮助我们利用这些宝贵的数据做出最明智的商业决策。
  2. 数据仓库支持多维分析。多维分析通过把一个实体的属性定义成维度,使用户能方便地从多个维度汇总、计算数据,增强了用户的数据分析处理能力,而通过对不同维度数据的比较和分析,用户的数据处理能力得到进一步增强。
  3. 数据仓库是数据挖掘技术的关键和基础。数据挖掘技术是在已有数据的基础上,帮助用户理解现有的信息,并对未来的企业状况做出预测。在数据仓库的基础上进行数据挖掘,可以对整个企业的发展状况和未来前景做出较为完整、合理、准确的分析和预测。

数据仓库是数据分析和数据可视化的基础,通过将来自不同业务系统的数据汇集到一起,并按照一定的主题进行编号、归类、分组,方便用户快速定位数据源,为数据分析提供支撑。

为了提升数据仓库的数据质量,确保数据分析的准确性,数据仓库的建设需要实施数据治理的策略。很多企业的数据治理项目实施的动因都是解决数据仓库中的数据质量问题,以便获得更准确的分析决策。

7)数据湖

数据湖是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无须事先对数据进行结构化处理。数据湖可以存储结构化数据(如关系型数据库中的表)、半结构化数据(如CSV、日志、 XML、JSON)、非结构化数据(如电子邮件、文档、PDF)和二进制数据(如 图形、音频、视频)。

数据湖可以更方便、以更低的成本解决不同数据结构的统一存储问题,同时还能够为机器学习提供全局数据。我们可以将数据湖理解为一个融合了大数据集成、存储、处理、机器学习、数据挖掘的解决方案。

数据仓库与数据湖的区别:

image

数据治理对象

数据治理的对象必须是重要的数据资源,是关乎企业商业利益的数据资源,这样的数据资源方可称为“数据资产”。

资产是指企业过去的交易或者事项形成的、由企业拥有或者控制的、预期会给企业带来经济利益的资源。”其中,“由企业拥有或者控制”是指企业享有某种资源的拥有权或者控制权,“预期会给企业带来经济利益”是指直接或者间接导致现金和现金等价物流入企业的潜力。

数据资产是指企业过去的交易或者事项形成的,由企业拥有或者控制的,预期会给企业带来经济利益的数据资源,并且其价值和成本是可计量的。

数据要成为资产,首先要具备可利用性,这样才能给企业带来可预期的经济收益,否则就不是资产。另外,如果数据的获取、管理和维护成本大于其实际产生的收益,或者企业无法通过自用或外部商业化对数据进行有效的变现,那么这些数据也不能视为资产。

成本或价值可衡量。数据成本一般包括采集、存储和计算的费用(人工费用、IT设备等直接费 用和间接费用等)以及运维费用(业务操作费、技术操作费等),这是相对容 易计量的。数据价值主要从数据资产的分类、使用频次、使用对象、使用效果 和共享流通等维度计量。

数据资产的利益相关方包括以下几类:

  • 数据的生产者,即通过业务交易或事项产生数据的人或组织。
  • 数据的拥有者或控制者,生产数据的人不一定拥有数据。
  • 数据价值和经济利益的受益者。

数据治理就是对数据生产者、拥有者或控制者、数据价值受益者进行规范
和协调,让数据能够规范化、高质量输出。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1720190.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【漏洞复现】电信网关配置管理系统 rewrite.php 文件上传漏洞

0x01 产品简介 中国电信集团有限公司(英文名称"China Telecom”、简称“"中国电信”)成立于2000年9月,是中国特大型国有通信企业、上海世博会全球合作伙伴。电信网关配置管理系统是一个用于管理和配置电信网络中网关设备的软件系统。它可以帮助网络管理员…

【教学类-60-01】彩色消划掉01(四个数字,X*Y宫格)

背景需求: 🧠思维启蒙 - 小红书注意力训练小分享-彩色划消 训练孩子的视觉辨别能力、视觉稳定性、注意力分配额能力👀 一起来试试吧~ #分享学习方法 #注意力训练 #专注力训练#天津 #亲子时光 #孩子成长 #思维启蒙 #数学思维启蒙 …

容量为0多线程操作的SynchronousQueue(FIFO)

一:简介 SynchronousQueue是一个没有数据缓冲的BlockingQueue,生产者线程对其的插入操作put必须等待消费者的移除操作take。SynchronousQueue的优点在于其直接性和高效性,它实现了线程间的即时数据交换,无需中间缓存,确保了数据传输的实时性和准确性,同时,其灵活的阻塞机…

数字化前沿:Web3如何引领未来技术演进

在当今数字化时代,随着技术的不断发展和创新,Web3作为一种新兴的互联网范式,正逐渐成为数字化前沿的代表。Web3以其去中心化、加密安全的特性,正在引领着未来技术的演进,为全球范围内的科技创新带来了新的可能性和机遇…

中国BI步入增长大周期,腾讯云ChatBI加速AI+BI融合

过去十年,大数据技术的快速发展,让数据消费前进一大步,数据价值得到一定程度的挖掘与释放,真正开启了“用数”的大时代。但数据分析繁杂的技术栈、复杂的处理过程以及程式化的交互方式,让“数据消费”的门槛始终降不下…

论文笔记:Image Anaimation经典论文-运动关键点模型(Monkey-Net)

Monkey-Net(MOviNg KEYpoints) paper: https://arxiv.org/pdf/1812.08861, CVPR 2019 code: https://github.com/AliaksandrSiarohin/monkey-net/tree/master 相关工作 视频生成演变过程: spatio-temporal network: 如基于GAN网络的生成模…

探索重庆耶非凡科技:揭秘其背后的技术实力与市场布局

重庆耶非凡科技有限公司,作为重庆当地一家知名的综合性服务型企业,近年来在多个领域取得了显著的成绩。其业务范围广泛,不仅涵盖了传统的行业服务,还积极探索并实践了一系列创新项目,其中最为引人注目的便是选品师项目…

第100+9步 ChatGPT文献复现:ARIMA预测百日咳

基于WIN10的64位系统演示 一、写在前面 我们来继续换一篇文章来学习学习: 《BMC Public Health》杂志的2022年一篇题目为《ARIMA and ARIMA-ERNN models for prediction of pertussis incidence in mainland China from 2004 to 2021》文章的模拟数据做案例。 这…

C++之类(class)的三种成员修饰符(public、private、protected)总结

1、背景介绍 在C中,类(class)中成员的三种访问修饰符(access specifiers)用于控制类的成员(属性和方法)的访问权限。这些修饰符决定了类成员在类的外部和内部是否可以被访问。以下是这三种访问…

一份不知道哪里来的第十五届国赛模拟题

这是一个不知道来源的模拟题目,没有完全完成,只作代码记录,不作分析和展示,极其冗长,但里面有长按短按双击的复合,可以看看。 目录 题目代码底层驱动主程序核心代码关键:双击单击长按复合代码 …

[有监督学习]1.详细图解线性回归

线性回归(linear regression)是用于预测回归问题的算法。该算法不难理解,算法中根据训练数据计算使损失最小的参数的做法是有监督学习算法的共同之处。 概述 线性回归是对“目标变量随着某个特征变量的增大而增大(或者减小&#…

如何利用智能算法降低成本,扩大收益?

算法交易(Algorithm Trading)是一种投资策略,它使用计算机算法来分析市场数据,制定交易决策,并自动执行交易。算法交易的主要目标是利用市场价格波动来获取利润,同时降低人为干预的风险和成本。 量化交易中…

django中,出现CSRF verification failed. Request aborted.错误

这是跨站点访问的防范机制&#xff0c;csrf是一个令牌&#xff0c;会验证登录&#xff0c;需要在setting中把 "django.middleware.csrViewMiddleware" 注释掉 并在html文件中的<body>内添加 {% csrf token %} 就可以了

使用shell命令开启隧道转发的方式

1.适用场景 中转电脑可以通公网&#xff0c;也可以通内网&#xff0c;想把内网映射出去&#xff0c;公网其他电脑就可以通过该隧道远程访问内网的情况 2.命令 开隧道&#xff08;21235是自定义的转发端口&#xff09;&#xff1a; ssh -R 21235:内网地址:ssh端口 用户名公网服…

DuDuTalk:营业厅智能质检终端在通信运营商线下营业厅应用价值

在通信行业日益竞争的今天&#xff0c;线下营业厅网点是企业与客户互动的黄金触点&#xff0c;但由于缺乏有效管控和人员能力素质的层次不齐&#xff0c;如何提升线下营业厅的服务质量、提高运营效率&#xff0c;成为各大通信运营商亟待解决的问题。 在此背景下&#xff0c;我…

本地电脑通过远程服务器进行ssh远程转发

☆ 问题描述 想要实现这样一个事情&#xff1a; 我想要提供一个ai服务&#xff0c;但是租计算服务器太贵了&#xff0c;我自己有配的台式机。那么用我的台式机作为服务器&#xff0c;租一个服务器做端口转发可行吗&#xff1f; ★ 解决方案 1. 修改服务器上的sshd_config文件…

一、初识Qt 之 Hello world

一、初识Qt 之 Hello world 提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 初识Qt 之 Hello world文章目录 一、Qt 简介二、Qt 获取安装三、Qt 初步使用四、Qt 之 Hello world1.新建一个项目 总结 一、Qt 简介 C &#xf…

html+css web前端 多边形

<!DOCTYPE html><html><head><meta charset"UTF-8"><title>多边形</title><style type"text/css">#pentagon_6_1 {position: absolute;top: 0px;height: 0; width: 100; border-left: 100px solid rgb(255, 255…

5.31——进军MYSQL

目录 简略版&#xff1a; 详解版&#xff1a; 一. myaql概述&#xff1a; 数据库&#xff1a; 数据库管理系统&#xff1a; SQL&#xff1a; 二. masql的安装&#xff1a; 启动与停止&#xff1a; 1. MYSQL提供的命令行 2. windows提供的命令行工具 三.数据模型 …

快手发布大模型产品“可图”,超20种创新AI图像玩法限免上线

近日&#xff0c;快手自研大模型产品“可图”&#xff08;Kolors&#xff09;正式对外开放&#xff0c;支持文生图和图生图两类功能&#xff0c;已上线20余种AI图像玩法。目前&#xff0c;用户可以通过“可图大模型”官方网站和微信小程序&#xff0c;免费使用各项AI图像功能。…