数据治理概念篇:(一)相关术语与名词

news2024/11/26 16:53:50

         数据治理内容众多,其中与数据治理相关名词和术语也是多不胜数。下面记录一下常见的数据治理相关名词。

 

1.数据仓库

1.1.名词解释

        Bill Inmon 将数据仓库定义为:“面向主题的、整合的、随时间变化的、相对稳定的支持管理决策的数据集合”。

        Ralph Kimball 将数据仓库定义为:“查询和分析定制的交易数据的副本”。

        数据仓库是数据库的一种概念上的升级,可以说是为满足新需求而设计的一种新数据库,需要容纳更加庞大的数据集。本质上,数据仓库与数据库并没有什么区别。 

1.2.主要作用

        数据仓库是为企业所有级别的决策制定过程提供所有类型数据支撑的战略集合,有以下三个主要作用:

  •         数据仓库是对企业数据的汇聚和集成,数据仓库内的数据来源于不同的业务处理系统,包含主数据和业务数据。数据仓库的作用就是帮助我们利用这些宝贵的数据做出最明智的商业决策。
  •         数据仓库支持多维分析。多维分析通过把一个实体的属性定义成维度,使用户能方便地从多个维度汇总、计算数据,增强了用户的数据分析处理能力,而通过对不同维度数据的比较和分析,用户的数据处理能力得到进一步增强。
  •         数据仓库是数据挖掘技术的关键和基础。数据挖掘技术是在已有数据的基础上,帮助用户理解现有的信息,并对未来的企业状况做出预测。在数据仓库的基础上进行数据挖掘,可以对整个企业的发展状况和未来前景做出较为完整、合理、准确的分析和预测。

1.3.应用举例

        数据仓库是数据分析和数据可视化的基础,通过将来自不同业务系统的数据汇集到一起,并按照一定的主题进行编号、归类、分组,方便用户快速定位数据源,为数据分析提供支撑

        为了提升数据仓库的数据质量,确保数据分析的准确性,数据仓库的建设需要实施数据治理的策略。很多企业的数据治理项目实施的动因都是解决数据仓库中的数据质量问题,以便获得更准确的分析决策。

2.数据元

2.1.名词解释

        国标[GB/T 18391.1—2002]对数据元的定义为:“用一组属性描述定义、标识、表示和允许值的数据单元。”

        百度百科中介绍中有这么一句话:“在一定语境下,通常用于构建一个语义正确、独立且无歧义的特定概念语义的信息单元。数据元可以理解为数据的基本单元,将若干具有相关性的数据元按一定的次序组成一个整体结构即为数据模型。”

        从百度百科介绍中得知:数据元约等于字段。(虽然不严谨,但是方便理解)

        数据元由三部分组成:对象、特性和表示。数据元是组成实体数据的最小单元,或称原子数据。

        例如个人信息中,姓名为数据元,“张三”为数据元的值;性别为数据元,“”和“”就为数据元的值;手机号码为数据元,“137****6410”就为数据元的值。

2.2.主要作用

        作为最小颗粒度的数据,数据元是对数据进行标准化定义的基础,也是构建统一、集成、稳定的行业数据模型的基础。

        在企业数据治理中,数据元是需要标准化的对象,一个数据元对象有且只有一个数据特性,每个数据特性对应一个数据表示。

        例如:人员的性别中的“男”是一个数据元对象,用数字“1”来表示。

2.3.应用举例

        目前数据元在各个领域行业应用都比较广泛,包括国家相关单位发布的关于数据元管理的一系列技术标准和行业标准。

        例如:GB/T 14946.1-2019 全国组织、干部、人事管理信息—第1部分:数据元 中人员类公共数据元标准,包含了标识符、中文名词、说明定义、数据类型、数据格式。以下部分截图:

        

3.元数据

3.1.名词解释

        元数据最常见的定义是“关于数据的数据”

        这个定义非常简单,但也容易引起误解。因为元数据的信息范围非常广,不仅包含技术和业务流程、数据规则和约束,还包括逻辑数据结构和物理数据结构等。

        举例:

                一本书的封面和目录展示了这样的元数据信息:图书名称、作者名称、出版商、出版日期、图书的提纲、标题、页码等。

                户口本中的元数据:姓名、身份证号、出生日期、住址、民族等信息外,还有家庭关系,如夫妻关系、父子关系、兄弟关系等。这些信息就是描述一个人的元数据,通过户口本的元数据就能了解一个人的基本信息,还能了解其家庭关系。

3.2.主要作用

        元数据是对数据的描述,存储着数据的描述信息。

        比如拿到一份数据  “张三,26, 男,175 ,180”,如果不对这些数据进行描述的话谁也不理解这些数据代表什么意思。加上描述  “名字叫张三,年龄26岁,性别男,身高175cm,房子180㎡”,这样就很好理解了。

 3.3.应用举例

        元数据是业界公认的数据治理中的核心要素,做好元数据管理,能够更容易地对数据进行检索、定位、管理和评估。

        用哲学的思维理解元数据的话,元数据其实解决的是我是谁、我在哪里、我从哪里来、我要到哪里去的问题。元数据是建设数据仓库的基础,是构建企业数据资源全景视图的基础,清晰的血
缘分析、影响分析、差异分析、关联分析、指标一致性分析等是数据资产管理的重要一环。

        抛开数据治理的理念外,其他的事务也都有元数据,万物皆有元数据,与学习JAVA面向对象一样万物皆对象。

4.主数据

4.1.名词解释

        主数据是企业内需要在多个部门、多个信息系统之间共享的数据。

        如组织、人员、客户、供应商、物料、会计科目、项目等等。

        与业务数据相比,主数据变化较慢,相对于稳定。

        主数据是企业开展业务的基础,只有得到正确的维护,才能保证业务系统的参照完整性。

        主数据具有3大特性、4个超越:

                3大特性:高价值性、高共享性、相对稳定性。

                4个超越:超越部门、超越业务、超越系统、超越技术。

4.2.主要作用

        主数据主要解决企业异构系统之间核心数据不一致、不正确、不完整等问题。

        主数据是信息系统建设和大数据分析的基础,是企业数据化转型的基石。

4.3.应用举例

        不同行业、不同领域的主数据的内容不同。

        政务行业中人口、法人、证照、空间地理等是主要的主数据。

        制造型企业中核心主数据有组织、人员、物料、客户、供应商、设备等。

5.业务数据

5.1.名词解释

        业务数据是业务活动过程或系统自动产生的既定事实的数据,也称交易数据。

        业务数据来自三个方面:
                第一,业务交易过程中产生的数据,例如计划单、销售单、生产单、采购单等,这类数据多数是手动生成的。
                第二,系统产生的数据,包括硬件运行状况、软件运行状况、资源消耗状况、应用使用状况、接口调用状况、服务健康状况等。
                第三,自动化设备所产生的数据,如各类物联网设备的运行数据、生产采集数据等。


        不论源自何处,业务数据的共同特点是:时效性强,数据量大

5.2.主要作用

        业务数据主要面向应用,为业务应用提供服务,例如生产、销售、采购、设备管理、系统管理等。

5.3.应用举例

        举例:某企业的产品销售记录,这是一种非常重要的业务数据。

6.基础数据

6.1.名词解释

        基础数据是系统的数据字典,在系统初始化时就存在与系统数据库中,是结构性或功能性的支撑。

        也就是我们常说的代码,常见的基础数据有国家地区、行政区划、性别代码、计量单位代码等。

6.2.主要作用

        支撑业务应用的开发、信息系统的集成和企业数据的管理。

6.3.应用举例

        国标 GB/T 2261.1-2003 个人基本信息分类与代码 第1部分:人的性别代码

7.ETL和ELT

7.1.名词解释

        ETL描述的是“抽取、转换、加载”。

        ELT描述的是“抽取、加载、转换”。

        他们的区别在于转换与加载实施过程顺序不同。如果目标系统比源系统或中间应用系统具有更强的转换能力,那么数据处理的顺序可以切换为ELT(抽取、加载、转换)。

7.2.主要作用

        不管是ETL还是ELT,它们的作用都是是将业务系统的数据经过抽取、清洗转换加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。

7.3.应用举例

        ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。

        ELT是一个比较新潮的概念,相比于ETL,从功能上来说没有差异,只是换了一个顺序。差别在于,如果采用ELT的方案,首先把数据用一种高效的方式从数据源抽取出来,然后在数据仓库中进行数据的转换处理。

        

              这个根据实际情况采用ETL,还是ELT方式进行数据处理,主要还是由目标源的转换能力而决定的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1175759.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【python】爬取斗鱼直播照片保存到本地目录

一、导入必要的模块: 这篇博客将介绍如何使用Python编写一个爬虫程序,从斗鱼直播网站上获取图片信息并保存到本地。我们将使用requests模块发送HTTP请求和接收响应,以及os模块处理文件和目录操作。 如果出现模块报错 进入控制台输入&#xff…

APP开发:用途与未来前景|软件定制开发|网站小程序建设

APP开发:用途与未来前景|软件定制开发|网站小程序建设 APP开发已成为现代科技趋势的一部分,无论是日常生活还是商业领域,都有它的身影。通过开发APP,我们可以将想法、功能和内容转化为直观、易用的移动设备应用程序,满…

【算法| 差分 No.1】AcWing 797. 差分 AcWing 798. 差分矩阵

个人主页:兜里有颗棉花糖 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 兜里有颗棉花糖 原创 收录于专栏【手撕算法系列专栏】 🍔本专栏旨在提高自己算法能力的同时,记录一下自己的学习过程,希望对大家有所帮…

Spring中@Async的使用技巧

引言 在Java开发中,我们常常会遇到需要执行耗时操作的场景,例如文件上传、网络请求等。为了提高系统的响应速度和并发能力,我们可以使用异步方法来处理这些任务。本文将介绍如何在Java中使用异步方法,并探讨其中的一些注意事项。…

棋牌室电脑计时灯控,棋牌室计时灯控安装,佳易王计时计费管理系统软件

棋牌室电脑计时灯控,棋牌室计时灯控安装,佳易王计时计费管理系统软件 棋牌室的灯可以用佳易王计时计费软件来控制开关,当开始计时的时候,软件发送开灯的指令,灯打开,在结账后,软件发送关灯指令…

酷开科技 | 酷开系统里萌萌哒小维在等你!

在一片金黄淡绿的颜色中,深秋的脚步更近了,在这个气候微凉的季节里,你是不是更想拥有一种温暖的陪伴呢?酷开科技智慧AI语音功能更懂你,贴心的小维用心陪伴你的每一天。 01.全天候陪伴 在酷开系统中,只要你…

华为OD机试 - 高效的任务规划 - 逻辑分析(Java 2023 B卷 200分)

目录 专栏导读一、题目描述二、输入描述三、输出描述四、解题思路五、Java算法源码六、效果展示1、输入2、输出3、说明 华为OD机试 2023B卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试(JAVA)真题(A卷B卷&#…

操作系统(一):进程状态与进程调度

前言 操作系统作为计算机基础的四大件,系统学习无疑是十分重要的。在这个系列的文章中,荔枝会结合操作系统的知识进行归纳梳理,总结输出博文!下面这篇文章主要介绍的是进程状态和调度,重点是几种调度算法的理解和掌握&…

基于yolov2网络的人脸识别系统matlab仿真,包括识别正脸,侧脸等

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1、训练阶段 4.2、预处理阶段 4.3、识别阶段 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 ........................................…

数据中心加密:保障数据安全的重要一环

随着信息化的快速发展,数据已经成为企业的重要资产,数据安全也成为了企业面临的重大挑战。数据中心作为企业数据存储和管理的重要场所,其安全性对于整个企业的数据安全具有至关重要的作用。而数据中心加密则是保障数据安全的重要一环。本文将…

15 款 PDF 编辑器帮助轻松编辑、合并PDF文档

PDF 编辑器在当今的数字环境中至关重要,因为 PDF 已成为共享和存储信息的首选格式。只需几分钟,可靠的 PDF 编辑器即可让用户能够根据其特定需求修改、定制和定制文档。在本文中,我们全面汇编了 15 款最佳免费 PDF 编辑器,让您可以…

1.性能优化

概述 今日目标: 性能优化的终极目标是什么压力测试压力测试的指标 性能优化的终极目标是什么 用户体验 产品设计(非技术) 系统性能(快,3秒不能更久了) 后端:RT,TPS,并发数 影响因素01:数据库读写,RPC&#xff…

详解 SpringMVC 的 HttpMessageConverter

文章目录 前言参考资料内容1、[RequestBody ](/RequestBody )2、RequestEntity3、[ResponseBody ](/ResponseBody )4、SpringMVC处理json5、SpringMVC处理ajax6、RestController注解7、ResponseEntity 推荐读物 《Spring Boot微服务实战(第2版)》内容简介目录 前言 HttpMessag…

Vue3:解决基地址不同 数据交互http与https跨域问题

配置公共管理的api文件和vue.config.js可以解决跨域问题。一个项目对接不同的基地址和接口同理。 api export default {//接口基地址Millia: process.env.NODE_ENV development ? location.protocol // location.host /milliaApi : http://xx.xxx.xxxx/index.php/,Milli…

墨者学院 内部文件上传系统漏洞分析溯源

打开web页面&#xff1a; 是个文件上传&#xff0c;先随便上传一个 txt 文件并抓包&#xff1a; 木马文件&#xff1a; <%eval request ("123")%>发现是个 IIS&#xff0c;并且给了文件的上传路径 upload&#xff0c;那就尝试上传 asp 一句话&#xff0c;直接…

C 练习实例10 打印楼梯,同时在楼梯上方打印两个笑脸。

题目&#xff1a;打印楼梯&#xff0c;同时在楼梯上方打印两个笑脸。 程序分析&#xff1a;用 ASCII 1 来输出笑脸&#xff1b;用i控制行&#xff0c;j来控制列&#xff0c;j根据i的变化来控制输出黑方格的个数。 如果出现乱码情况请参考【C 练习实例7】的解决方法。 实例 …

Ribbon讲解

一&#xff1a;Ribbon是什么&#xff1f;

记住这个考勤小技巧,快速搞定煤矿员工管理!

人脸识别技术一直以来都是一项备受关注的研究领域。传统的二维人脸识别技术主要依赖于平面照片或视频图像&#xff0c;但这些方法受到光照、角度和遮挡等因素的干扰&#xff0c;容易出现误识别问题。 为了克服这些挑战&#xff0c;三维人脸识别技术应运而生&#xff0c;来捕获更…

iOS自动化测试方案(四):保姆级搭建iOS自动化开发环境

文章目录 一、基础环境准备1.1、MacOS虚拟机 二、iPhone虚拟机三、MacOS虚拟机连接iphone真机四、扩展&&问题4.1、如果appium启动app失败&#xff0c;可能是appium driver没有安装xcuitest插件4.2、下载并安装Appium服务端&#xff0c;inspector元素定位器4.3、下载app…

YOLOv8-Seg改进:动态蛇形卷积(Dynamic Snake Convolution) | ICCV2023

🚀🚀🚀本文改进:动态蛇形卷积(Dynamic Snake Convolution),增强微小特征提取能力,引入到YOLOv8-Seg,与C2f结合实现二次创新 🚀🚀🚀Dynamic Snake Convolution亲测在番薯破损分割任务中,mask mAP@0.5 从原始的0.625提升至0.645 🚀🚀🚀YOLOv8-seg创新专…