数据治理内容众多,其中与数据治理相关名词和术语也是多不胜数。下面记录一下常见的数据治理相关名词。
1.数据仓库
1.1.名词解释
Bill Inmon 将数据仓库定义为:“面向主题的、整合的、随时间变化的、相对稳定的支持管理决策的数据集合”。
Ralph Kimball 将数据仓库定义为:“查询和分析定制的交易数据的副本”。
数据仓库是数据库的一种概念上的升级,可以说是为满足新需求而设计的一种新数据库,需要容纳更加庞大的数据集。本质上,数据仓库与数据库并没有什么区别。
1.2.主要作用
数据仓库是为企业所有级别的决策制定过程提供所有类型数据支撑的战略集合,有以下三个主要作用:
- 数据仓库是对企业数据的汇聚和集成,数据仓库内的数据来源于不同的业务处理系统,包含主数据和业务数据。数据仓库的作用就是帮助我们利用这些宝贵的数据做出最明智的商业决策。
- 数据仓库支持多维分析。多维分析通过把一个实体的属性定义成维度,使用户能方便地从多个维度汇总、计算数据,增强了用户的数据分析处理能力,而通过对不同维度数据的比较和分析,用户的数据处理能力得到进一步增强。
- 数据仓库是数据挖掘技术的关键和基础。数据挖掘技术是在已有数据的基础上,帮助用户理解现有的信息,并对未来的企业状况做出预测。在数据仓库的基础上进行数据挖掘,可以对整个企业的发展状况和未来前景做出较为完整、合理、准确的分析和预测。
1.3.应用举例
数据仓库是数据分析和数据可视化的基础,通过将来自不同业务系统的数据汇集到一起,并按照一定的主题进行编号、归类、分组,方便用户快速定位数据源,为数据分析提供支撑。
为了提升数据仓库的数据质量,确保数据分析的准确性,数据仓库的建设需要实施数据治理的策略。很多企业的数据治理项目实施的动因都是解决数据仓库中的数据质量问题,以便获得更准确的分析决策。
2.数据元
2.1.名词解释
国标[GB/T 18391.1—2002]对数据元的定义为:“用一组属性描述定义、标识、表示和允许值的数据单元。”
百度百科中介绍中有这么一句话:“在一定语境下,通常用于构建一个语义正确、独立且无歧义的特定概念语义的信息单元。数据元可以理解为数据的基本单元,将若干具有相关性的数据元按一定的次序组成一个整体结构即为数据模型。”
从百度百科介绍中得知:数据元约等于字段。(虽然不严谨,但是方便理解)
数据元由三部分组成:对象、特性和表示。数据元是组成实体数据的最小单元,或称原子数据。
例如个人信息中,姓名为数据元,“张三”为数据元的值;性别为数据元,“男”和“女”就为数据元的值;手机号码为数据元,“137****6410”就为数据元的值。
2.2.主要作用
作为最小颗粒度的数据,数据元是对数据进行标准化定义的基础,也是构建统一、集成、稳定的行业数据模型的基础。
在企业数据治理中,数据元是需要标准化的对象,一个数据元对象有且只有一个数据特性,每个数据特性对应一个数据表示。
例如:人员的性别中的“男”是一个数据元对象,用数字“1”来表示。
2.3.应用举例
目前数据元在各个领域行业应用都比较广泛,包括国家相关单位发布的关于数据元管理的一系列技术标准和行业标准。
例如:GB/T 14946.1-2019 全国组织、干部、人事管理信息—第1部分:数据元 中人员类公共数据元标准,包含了标识符、中文名词、说明定义、数据类型、数据格式。以下部分截图:
3.元数据
3.1.名词解释
元数据最常见的定义是“关于数据的数据”
这个定义非常简单,但也容易引起误解。因为元数据的信息范围非常广,不仅包含技术和业务流程、数据规则和约束,还包括逻辑数据结构和物理数据结构等。
举例:
一本书的封面和目录展示了这样的元数据信息:图书名称、作者名称、出版商、出版日期、图书的提纲、标题、页码等。
户口本中的元数据:姓名、身份证号、出生日期、住址、民族等信息外,还有家庭关系,如夫妻关系、父子关系、兄弟关系等。这些信息就是描述一个人的元数据,通过户口本的元数据就能了解一个人的基本信息,还能了解其家庭关系。
3.2.主要作用
元数据是对数据的描述,存储着数据的描述信息。
比如拿到一份数据 “张三,26, 男,175 ,180”,如果不对这些数据进行描述的话谁也不理解这些数据代表什么意思。加上描述 “名字叫张三,年龄26岁,性别男,身高175cm,房子180㎡”,这样就很好理解了。
3.3.应用举例
元数据是业界公认的数据治理中的核心要素,做好元数据管理,能够更容易地对数据进行检索、定位、管理和评估。
用哲学的思维理解元数据的话,元数据其实解决的是我是谁、我在哪里、我从哪里来、我要到哪里去的问题。元数据是建设数据仓库的基础,是构建企业数据资源全景视图的基础,清晰的血
缘分析、影响分析、差异分析、关联分析、指标一致性分析等是数据资产管理的重要一环。
抛开数据治理的理念外,其他的事务也都有元数据,万物皆有元数据,与学习JAVA面向对象一样万物皆对象。
4.主数据
4.1.名词解释
主数据是企业内需要在多个部门、多个信息系统之间共享的数据。
如组织、人员、客户、供应商、物料、会计科目、项目等等。
与业务数据相比,主数据变化较慢,相对于稳定。
主数据是企业开展业务的基础,只有得到正确的维护,才能保证业务系统的参照完整性。
主数据具有3大特性、4个超越:
3大特性:高价值性、高共享性、相对稳定性。
4个超越:超越部门、超越业务、超越系统、超越技术。
4.2.主要作用
主数据主要解决企业异构系统之间核心数据不一致、不正确、不完整等问题。
主数据是信息系统建设和大数据分析的基础,是企业数据化转型的基石。
4.3.应用举例
不同行业、不同领域的主数据的内容不同。
政务行业中人口、法人、证照、空间地理等是主要的主数据。
制造型企业中核心主数据有组织、人员、物料、客户、供应商、设备等。
5.业务数据
5.1.名词解释
业务数据是业务活动过程或系统自动产生的既定事实的数据,也称交易数据。
业务数据来自三个方面:
第一,业务交易过程中产生的数据,例如计划单、销售单、生产单、采购单等,这类数据多数是手动生成的。
第二,系统产生的数据,包括硬件运行状况、软件运行状况、资源消耗状况、应用使用状况、接口调用状况、服务健康状况等。
第三,自动化设备所产生的数据,如各类物联网设备的运行数据、生产采集数据等。
不论源自何处,业务数据的共同特点是:时效性强,数据量大。
5.2.主要作用
业务数据主要面向应用,为业务应用提供服务,例如生产、销售、采购、设备管理、系统管理等。
5.3.应用举例
举例:某企业的产品销售记录,这是一种非常重要的业务数据。
6.基础数据
6.1.名词解释
基础数据是系统的数据字典,在系统初始化时就存在与系统数据库中,是结构性或功能性的支撑。
也就是我们常说的代码,常见的基础数据有国家地区、行政区划、性别代码、计量单位代码等。
6.2.主要作用
支撑业务应用的开发、信息系统的集成和企业数据的管理。
6.3.应用举例
国标 GB/T 2261.1-2003 个人基本信息分类与代码 第1部分:人的性别代码
7.ETL和ELT
7.1.名词解释
ETL描述的是“抽取、转换、加载”。
ELT描述的是“抽取、加载、转换”。
他们的区别在于转换与加载实施过程顺序不同。如果目标系统比源系统或中间应用系统具有更强的转换能力,那么数据处理的顺序可以切换为ELT(抽取、加载、转换)。
7.2.主要作用
不管是ETL还是ELT,它们的作用都是是将业务系统的数据经过抽取、清洗转换加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。
7.3.应用举例
ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
ELT是一个比较新潮的概念,相比于ETL,从功能上来说没有差异,只是换了一个顺序。差别在于,如果采用ELT的方案,首先把数据用一种高效的方式从数据源抽取出来,然后在数据仓库中进行数据的转换处理。
这个根据实际情况采用ETL,还是ELT方式进行数据处理,主要还是由目标源的转换能力而决定的。