元数据被认为是数据治理的基石,但关于元数据相关的概念,很多人不是那么清楚,今天就和大家详解元数据相关的术语。当然,与元数据相关的概念非常多,以下仅罗列几个常见的。
01
元数据
1.名词解释
元数据最简单的定义是描述数据的数据。这里有两个关键点,一个是数据,一个是描述数据。企业中一般的可进行管理的数据如下表:
我们再来举个通俗的例子,一本书的封面和目录向我们展示了这样的元数据信息:图书名称、作者姓名、出版商和版权细节、图书的提纲、标题、页码等。
2. 主要作用
在数据治理中,元数据是对数据的描述,存储着数据的描述信息。我们可以通过元数据管理和检索我们想要的“书”。可见元数据是用来描述数据的数据,让数据更容易理解、查找、管理和使用。
元数据是建设数据仓库的基础,是构建企业数据资源全景视图的基础,清晰的血缘分析、影响分析、差异分析、关联分析、指标一致性分析等是数据资产管理的重要一环。
如果说数据是物料,那么元数据就是仓库里的物料卡片;如果说数据是文件夹,那么元数据就是夹子的标签;如果说数据是书,那么元数据就是图书馆中的图书卡。
02
元模型
1.名词解释
和元数据管理相关的另一个重要概念是元模型,定义元数据的属性、关系的模型叫做元模型,每类元数据都属于一个元模型。
比如,表模型里定义了表的属性有“注释”、“是否系统表”、“是否临时表”、“所有者”等(图1);定义了表由索引、外键、表分区、字段等组成(图2);定义了表受表输出组件、存储过程、表等的影响(图3)。
图1
图2
图3
2.主要作用
有了元模型,就能根据元模型来采集元数据信息。要实现企业元数据管理,需要定义一个符合存储企业数据现状的元数据模型,且这个模型有不同粒度和层次的元模型,有了层次和粒度的划分,未来元数据进行批量管理后就可以灵活的从不同维度进行元数据分析,如企业的数据地图、数据血统都是基于此实现的。
我们试着把企业中的技术元数据、业务元数据、操作元数据、管理元数据进行元模型的梳理,如下图所示:
将以上梳理出的信息通过UML建模处理就得到了元模型,在元模型中有包、类、属性、继承、关系。创建元模型的时候也可以参考CWM(公共仓库元模型),CWM定义了一套完整的元模型体系结构,用于数据仓库构建和应用的元数据建模。
03
父子关系
1.名词解释
子类元模型可继承父类元模型所有的属性,是将所有一类元模型将相同的属性抽取出来,形成一个父类元模型。例如:父类为哺乳动物,而人、猫、狗都是子类。
2.主要作用
元模型中的父子关系可帮助我们快速建立元数据间的关联,便于元数据的维护;有父子关系的元数据之间的映射,可确保查询时的高性能。
04
组合关系
1.名词解释
描述组合端模型由被组合端模型所组成,如:物理表模型是由字段模型组成,报表是由报表字段组成,主题域由维表和主题集组成。元数据的组合关系其实就是包含关系,比如表下面有字段、主键,那么表就是包含字段和主键的。
2.主要作用
在元数据采集的过程中,会根据采集挂载点的元数据对应元模型的组合关系,将所有元模型对应的元数据都采集过来。在元数据分析时,元数据节点展开后显示的元数据由元模型的组合关系决定。
05
依赖关系
1.名词解释
描述模型与模型之间的引用关联关系,如:报表用到了主题表,则报表依赖主题表;视图用户到表,则视图依赖于表。元数据的依赖关系类似于引用的关系,比如视图可以根据表和视图创建,那么视图就是依赖于表和视图的。
2.主要作用
元数据的血缘、影响、全链分析都是基于依赖进行分析,主要是通过采集表、视图的创建、存储过程和主外键这些信息进行解析后来构建依赖关系,各种分析出来的效果会根据元数据之间的依赖关系来进行连线。
06
血缘分析
1.名词解释
血缘分析是从某一个元数据作为起点,往回追溯数据处理过程。血缘分析是建立在元数据整合的基础上,记录数据治理过程中的血缘关系,基于这些血缘关系信息,可以往回追溯其数据处理过程,并通过图形化的方式展示数据从哪里来,经历了哪些加工。
比如,数据A经过ETL处理生成了数据B,那么我们就说数据A与B有着血缘关系,且数据A是数据B的上游数据,同时数据B是数据A的下游数据。按血缘对象来分,可分为系统级血缘、表级血缘、字段(列)级血缘。不管是结构化数据还是非结构化数据,都必定存在数据血缘关系。
2.主要作用
数据血缘分析是元数据管理的重要应用之一,其梳理系统、表、视图、存储过程、ETL、程序代码、字段等之间的关系,并采用图数据库进行可视化展示。简单地说就是通过可视化展示数据是怎么来的,经过了哪些过程、阶段及计算逻辑。数据血缘分析可以提高数据应用的可信度,为数据质量问题的追溯提供了技术上的保障。
07
影响分析
1.名词解释
影响分析是从某一个元数据出发,寻找依赖该元数据处理过程的元数据或者实体。
2.主要作用
影响分析帮助用户迅速了解分析对象的下游数据信息,快速掌握元数据变更可能造成的影响,以便更有效的评估变化该元数据带来的风险,从而帮助用户高效准确地对数据资产进行清理、维护与使用。
08
全链分析
1.名词解释
全链分析是以某个元数据为目标节点,其前后与其有关系的所有元数据,其前反应数据的来源,其后反应数据的处理过程。
2.主要作用
全链分析用来分析指定元数据前后与其有关系的所有元数据,不仅反映了元数据的来源与加工过程,也反映了元数据的使用情况,使用全链分析可清晰地了解该元数据的来龙去脉。
09
数据地图
1.名词解释
以拓扑图的形式展现各类元数据或实体、数据处理过程元数据进行分层次的的图形化展现。
下图是一个数据地图,它显示企业有3个系统域,风险平台、内部管理平台和业务平台。“风险平台”系统域下有反洗钱系统、内控合规系统和全面风险管控三个系统;“内部管理平台”系统域下有财务系统、档案系统和运营管理三个系统;“业务平台”系统域下有贷记卡系统、担保系统和国结系统三个系统。档案系统会用到运营管理和担保系统的数据。财务系统会用到内控合规系统的数据,档案系统会用到担保系统的数据等等。
2.主要作用
数据地图对数据的流转分布关系进行可视化展现,通过不同层次的图形展现粒度控制,满足业务使用、数据管理、开发运维不同应用场景的图形查询和辅助分析需求。
像睿治数据治理平台中的元数据库是分系统对系统各元数据进行展示,而数据地图则是从宏观层面展示各系统间关系。数据地图中的系统节点可以和元数据挂载点绑定。构建数据地图,首先我们可以将企业各个业务系统或从业务角度或从管理角度划分给不同的系统域,再通过实际的业务或者数据走向,来定义各系统之间的关系,最终形成企业级数据地图。