元数据相关的术语,你知道几个?

news2024/11/19 16:38:01

元数据被认为是数据治理的基石,但关于元数据相关的概念,很多人不是那么清楚,今天就和大家详解元数据相关的术语。当然,与元数据相关的概念非常多,以下仅罗列几个常见的。

01

元数据

1.名词解释

元数据最简单的定义是描述数据的数据。这里有两个关键点,一个是数据,一个是描述数据。企业中一般的可进行管理的数据如下表:

我们再来举个通俗的例子,一本书的封面和目录向我们展示了这样的元数据信息:图书名称、作者姓名、出版商和版权细节、图书的提纲、标题、页码等。

2. 主要作用

在数据治理中,元数据是对数据的描述,存储着数据的描述信息。我们可以通过元数据管理和检索我们想要的“书”。可见元数据是用来描述数据的数据,让数据更容易理解、查找、管理和使用。

元数据是建设数据仓库的基础,是构建企业数据资源全景视图的基础,清晰的血缘分析、影响分析、差异分析、关联分析、指标一致性分析等是数据资产管理的重要一环。

如果说数据是物料,那么元数据就是仓库里的物料卡片;如果说数据是文件夹,那么元数据就是夹子的标签;如果说数据是书,那么元数据就是图书馆中的图书卡。

02

元模型

1.名词解释

和元数据管理相关的另一个重要概念是元模型,定义元数据的属性、关系的模型叫做元模型,每类元数据都属于一个元模型。

比如,表模型里定义了表的属性有“注释”、“是否系统表”、“是否临时表”、“所有者”等(图1);定义了表由索引、外键、表分区、字段等组成(图2);定义了表受表输出组件、存储过程、表等的影响(图3)。

图1

图2

图3

2.主要作用

有了元模型,就能根据元模型来采集元数据信息。要实现企业元数据管理,需要定义一个符合存储企业数据现状的元数据模型,且这个模型有不同粒度和层次的元模型,有了层次和粒度的划分,未来元数据进行批量管理后就可以灵活的从不同维度进行元数据分析,如企业的数据地图、数据血统都是基于此实现的。

我们试着把企业中的技术元数据、业务元数据、操作元数据、管理元数据进行元模型的梳理,如下图所示:

将以上梳理出的信息通过UML建模处理就得到了元模型,在元模型中有包、类、属性、继承、关系。创建元模型的时候也可以参考CWM(公共仓库元模型),CWM定义了一套完整的元模型体系结构,用于数据仓库构建和应用的元数据建模。

03

父子关系

1.名词解释

子类元模型可继承父类元模型所有的属性,是将所有一类元模型将相同的属性抽取出来,形成一个父类元模型。例如:父类为哺乳动物,而人、猫、狗都是子类。

2.主要作用

元模型中的父子关系可帮助我们快速建立元数据间的关联,便于元数据的维护;有父子关系的元数据之间的映射,可确保查询时的高性能。

04

组合关系

1.名词解释

描述组合端模型由被组合端模型所组成,如:物理表模型是由字段模型组成,报表是由报表字段组成,主题域由维表和主题集组成。元数据的组合关系其实就是包含关系,比如表下面有字段、主键,那么表就是包含字段和主键的。

2.主要作用

在元数据采集的过程中,会根据采集挂载点的元数据对应元模型的组合关系,将所有元模型对应的元数据都采集过来。在元数据分析时,元数据节点展开后显示的元数据由元模型的组合关系决定。

05

依赖关系

1.名词解释

描述模型与模型之间的引用关联关系,如:报表用到了主题表,则报表依赖主题表;视图用户到表,则视图依赖于表。元数据的依赖关系类似于引用的关系,比如视图可以根据表和视图创建,那么视图就是依赖于表和视图的。

2.主要作用

元数据的血缘、影响、全链分析都是基于依赖进行分析,主要是通过采集表、视图的创建、存储过程和主外键这些信息进行解析后来构建依赖关系,各种分析出来的效果会根据元数据之间的依赖关系来进行连线。

06

血缘分析

1.名词解释

血缘分析是从某一个元数据作为起点,往回追溯数据处理过程。血缘分析是建立在元数据整合的基础上,记录数据治理过程中的血缘关系,基于这些血缘关系信息,可以往回追溯其数据处理过程,并通过图形化的方式展示数据从哪里来,经历了哪些加工。

比如,数据A经过ETL处理生成了数据B,那么我们就说数据A与B有着血缘关系,且数据A是数据B的上游数据,同时数据B是数据A的下游数据。按血缘对象来分,可分为系统级血缘、表级血缘、字段(列)级血缘。不管是结构化数据还是非结构化数据,都必定存在数据血缘关系。

2.主要作用

数据血缘分析是元数据管理的重要应用之一,其梳理系统、表、视图、存储过程、ETL、程序代码、字段等之间的关系,并采用图数据库进行可视化展示。简单地说就是通过可视化展示数据是怎么来的,经过了哪些过程、阶段及计算逻辑。数据血缘分析可以提高数据应用的可信度,为数据质量问题的追溯提供了技术上的保障。

07

影响分析

1.名词解释

影响分析是从某一个元数据出发,寻找依赖该元数据处理过程的元数据或者实体。

2.主要作用

影响分析帮助用户迅速了解分析对象的下游数据信息,快速掌握元数据变更可能造成的影响,以便更有效的评估变化该元数据带来的风险,从而帮助用户高效准确地对数据资产进行清理、维护与使用。

08

全链分析

1.名词解释

全链分析是以某个元数据为目标节点,其前后与其有关系的所有元数据,其前反应数据的来源,其后反应数据的处理过程。

2.主要作用

全链分析用来分析指定元数据前后与其有关系的所有元数据,不仅反映了元数据的来源与加工过程,也反映了元数据的使用情况,使用全链分析可清晰地了解该元数据的来龙去脉。

09

数据地图

1.名词解释

以拓扑图的形式展现各类元数据或实体、数据处理过程元数据进行分层次的的图形化展现。

下图是一个数据地图,它显示企业有3个系统域,风险平台、内部管理平台和业务平台。“风险平台”系统域下有反洗钱系统、内控合规系统和全面风险管控三个系统;“内部管理平台”系统域下有财务系统、档案系统和运营管理三个系统;“业务平台”系统域下有贷记卡系统、担保系统和国结系统三个系统。档案系统会用到运营管理和担保系统的数据。财务系统会用到内控合规系统的数据,档案系统会用到担保系统的数据等等。

2.主要作用

数据地图对数据的流转分布关系进行可视化展现,通过不同层次的图形展现粒度控制,满足业务使用、数据管理、开发运维不同应用场景的图形查询和辅助分析需求。

像睿治数据治理平台中的元数据库是分系统对系统各元数据进行展示,而数据地图则是从宏观层面展示各系统间关系。数据地图中的系统节点可以和元数据挂载点绑定。构建数据地图,首先我们可以将企业各个业务系统或从业务角度或从管理角度划分给不同的系统域,再通过实际的业务或者数据走向,来定义各系统之间的关系,最终形成企业级数据地图。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/110427.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【关于时间序列的ML】项目 7 :使用机器学习进行每日出生预测

🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎 📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃 🎁欢迎各位→点赞…

u盘无法识别如何修复?恢复U盘,建议尝试下这些方法

我们基本都有使用过U盘,也都遇到过U盘损坏的问题。u盘无法识别如何修复?有没有什么实用的方法呢?来看看这篇文章,简单几步,就可以修复成功。如果在操作过程中,遇到数据丢失,也有方法帮你恢复&am…

ASP.NET开发的医疗健康咨询平台源码 养生知识咨询 寻根问药平台源码 C#源码

一、源码特点: 爱心医生健康知识门户网站是一个权威的医疗科普视频、语音、知识、医疗健康问答平台。 包含所有源代码和数据库,可以直接部署到IIS中使用。 二、菜单功能 网站页面: 1、首页:包含幻灯片。 2…

MySQL面试常问问题(SQL 优化 ) —— 赶快收藏

目录 1.慢SQL如何定位呢? 2.有哪些方式优化慢SQL? 避免不必要的列 分页优化 索引优化 JOIN优化 排序优化 UNION优化 3.怎么看执行计划(explain),如何理解其中各个字段的含义? 1.慢SQL如何定位呢&a…

基于python开发的DIY宠物桌面系统(附源码)--可自定义修改

定制你的宠物桌面 最近想要做一个自己独一无二的桌面宠物,可以直接使用python来自己订制。属于一个小项目,这个教程主要包含几个步骤: 准备需要的动图素材 规划自己需要的功能 使用python的PyQt5订制功能 在这个教程中,我主要…

Apache Flink 任务 Tasks 和任务槽 Task Slots

目录 任务槽(Task Slots) 任务槽数量的设置 任务对任务槽的共享 任务槽和并行度的关系 任务槽(Task Slots) Flink 中每一个 worker(也就是 TaskManager)都是一个 JVM 进程,它可以启动多个独立的线程,来并…

【数据结构】详解队列和循环队列

目录一.队列1.队列的概念及结构2.队列的实现Queue.hQueue.c二.循环队列1.循环队列的实现2.设计循环队列解题思路代码一.队列 1.队列的概念及结构 队列:只允许在一端进行插入数据操作,在另一端进行删除数据操作的特殊线性表,队列具有先进先出…

四、网络层(六)移动IP

目录 6.1 移动IP的概念 6.2 移动IP的基本工作原理 6.2.1代理发现与注册 6.2.2固定主机向移动主机发送IP数据报 6.2.3移动主机向固定主机发送IP数据报 6.2.4同址转交地址(简单了解) 6.2.5三角形路由问题(简单了解) 6.1 移…

事关你“吃住行游购娱”的12项安全国标图解来了

标准是安全建设的“尺子”。近期,国家市场监督管理总局、国家标准化管理委员会发布中华人民共和国国家标准公告(2022年第13号),全国信息安全标准化技术委员会归口的14项网络安全国家标准获批发布,其中12项涉及数据安全…

不同类型单板布线策略6大类

类型一PCB布线策略 一 ,类型一主要特征如下: 严格的长度规则、严格的串扰规则、拓扑规则、差分规则、电源地规则等。 二,关键网络的处理:总线定义Class; 要求满足一定的拓扑结构、stub及其长度(时域&a…

关于模型中的R方

1、一元线性回归 R方在一元线性回归模型中,衡量【响应变量X和预测变量Y】的线性关系。 R方cor(X,Y)^2 但是,在多元线性回归模型中,因为涉及多个预测变量,全部R方就是衡量响应变量和多个预测变量当中的关系。 而有关…

阿里云张献涛:高性能计算发展的三大趋势

12 月 12-15 日,第十八届 CCF 全国高性能计算学术年会(以下简称 CCF HPC China 2022)以线上的方式举行,国内外众多知名专家学者,以及高性能计算产业界的头部企业代表云上相聚,探讨高性能计算的发展趋势。阿…

zabbix6.0安装教程(五):二进制包安装

zabbix6.0安装教程(五):二进制包安装 目录一、使用ZABBIX官方存储库二、Red Hat zabbix企业版 Linux/CentOS1. 概述2. 安装注意事项2.1 使用 Timescale DB 导入数据2.2 PHP 7.22.3 配置 SELinux3. Proxy 安装3.1 创建数据库3.2 导入数据3.3 为…

计算机网络原理第5章 运输层(12.24完结)

目录~ 5.1 运输层协议概述 5.1.1 进程之间的通信 从通信和信息处理的角度看,运输层向它上面的应用层提供通信服务,它属于面向通信部分的最高层,同时也是用户功能中的最低层。 当网络的边缘部分中的两个主机使用网络的核心部分的功能进行…

再学C语言12:字符串(3)——转换说明

一、转换说明的意义 意义:把存储在计算机中的二进制格式的数值转换成一系列字符(一个字符串)以便于显示;实质上是翻译说明,并不会替代原值 应该使转换说明与要打印的值的类型相匹配 参数传递机制 float n1; double …

陈都灵现身海南国际电影节,新片《关索岭》票房有望超《阿凡达》

刚送走了厦门金鸡奖,又迎来了海南电影节,第四届国际电影节,已经在美丽的海南岛拉开帷幕。 众多的中国优秀电影人,都欢聚一堂共话未来,为中国电影的发展献言献策,也展现出电影人的精神风貌。 在本届电影节走…

WMS系统这么重要?一文教你找到理想中的WMS系统

无论是在线上还是线下,相信大家都见过各式各样的仓库,或杂乱或整洁,有的还在使用传统的纸单作业模式,有的已经进入全自动化无人作业模式。然而,随着仓储物流行业竞争愈发激烈,以及数智化转型浪潮席卷而来&a…

python中logging模块的一些简单用法

用Python写代码的时候,在想看的地方写个print xx 就能在控制台上显示打印信息,这样子就能知道它是什么了,但是当我需要看大量的地方或者在一个文件中查看的时候,这时候print就不大方便了,所以Python引入了logging模块来…

小学生C++编程基础 课程8(B)

919.3数排序 ( 课程8) 登录 920.求最小值 (课程8) 登录 921.排名 (课程8) 登录 922.中间数 ( 课程8) 难度:1 登录 923.判断闰年 (课程8) 难度:1 登录 924.天数 (课程8) 难度:1 登录 《小学生C趣味编程…

Splunk Enterprise 存在任意代码执行漏洞

漏洞描述 Splunk 是一款机器数据的引擎,可用于收集、索引和利用所有应用程序、服务器和设备生成的快速移动型计算机数据 。 Splunk 受影响版本存在任意代码执行漏洞,经过身份验证的攻击者可利用此漏洞通过创建包含恶意代码的 SimpleXML 仪表板&#xf…