数据治理中的核心 元数据

news2024/11/24 12:54:21

数据治理中的核心元素——元数据

一、关于元数据

1、什么是元数据

元数据(metadata)是关于数据的组织、数据域及其关系的信息,简单来说,元数据就是被用来描述数据的数据。

概念阐述总归生涩,下面用几个简单的例子来比喻一下:

例1:元数据是“户口本”。有了“户口本”,我们不仅能了解此人的出生年月等基本信息,还能知晓他的亲属关系。这些信息就构成了对这个人的详细描述,这些信息就是描述这个人的元数据。

例2:元数据是“图书目录”。图书馆中的图书目录包含图书名称、编号、作者、位置等信息,有了它,图书管理员就能快速查找图书。元数据能够帮助数据管理员管理数据。

例3:元数据是“藏宝图”,按图索骥就能找到宝藏。元数据能够帮助企业盘点自己有哪些数据,以及这些数据的位置、来源、去向、路径等。

收集元数据,能够帮助企业回答下面的问题:我们有哪些数据?数据的使用人数有多少?如何查找数据?数据的流转情况如何?通过血缘关系进行溯源和问题分析等等。

那么在实际业务场景中,元数据又是怎样的呢?

示例:比如 175 这个数字,它在特定场景下,有如下的元数据:

2、元数据&元数据管理的重要性在表格中,“175”是实体数据,而业务元数据、技术元数据、操作元数据、管理元数据,分别从各自的角度描述了“175”这个数字,所以,它们都在元数据的范畴内。

数据治理的前提是要有数据,并且要求数据类型全、量大,并尽可能的覆盖数据流转的各个环节,而元数据是“所有系统、文档和流程中包含的所有数据的语境。是生数据的知识。”换句话说,如果没有元数据,组织IT系统中收集和存储的所有数据都会失去意义,也就没有业务价值。

要想获得元数据的价值,需要根据建立的流程、在行业标准和最佳实践指导的范围内管理元数据。在“DAMA车轮图”中,元数据管理占据了十大数据管理领域其中很重要的一环:

元数据管理是一项和主数据管理、数据治理一样重要的功能,因为元数据管理是每一个这些准则的基础组件。不管理好元数据,是不能管理好主数据的。

二、元数据的分类

按照不同领域和功能,元数据一般来说可分为:技术元数据、业务元数据、操作元数据、管理元数据。由于使用视角不同会影响到对元数据的分类,所以具体的分类标准并不严格。(比如数据安全等级指标——从安全部门的视角来看,属于业务元数据;从开发部门的视角来看,就属于管理元数据。)

1、技术元数据

技术元数据是用于开发和日常管理数据仓库时用的数据。它作为数据的结构化,能够方便计算机、数据库对数据进行识别、存储、传输和交换。

对开发人员来说,它有助于明确数据的存储、结构,为应用开发和系统集成打牢基础;对业务人员来说,它有助于理清数据关系,从而能够更加快速地找到想要的数据,进而对数据的来源和去向进行分析,支持数据血缘追溯和影响分析。

常见的技术元数据:

l 物理数据库表名称、列名称、字段长度、字段类型、约束信息、数据依赖关系等;

l 数据存储类型、位置、数据存储文件格式或数据压缩类型等;

l 字段级血缘关系、SQL脚本信息、ETL抽取加载转换信息、接口程序等;

l 调度依赖关系、进度和数据更新频率等。

2、业务元数据

业务元数据描述的对象,是数据的业务含义、业务规则等。通过对业务元数据的明确,人们对它的理解和使用会变得更加容易。元数据使得数据的二义性不复存在,人们对数据含义能够产生一致的认知,避免了“自说自话”的情况,进而为数据分析和应用提供支撑。

常见的业务元数据:

l 业务定义、业务术语解释等;

l 业务指标名称、计算口径、衍生指标等;

l 业务规则引擎的规则、数据质量检测规则、数据挖掘算法等;

l 数据的安全或敏感级别等。

3、操作元数据

操作元数据描述了数据的操作属性,比如管理部门、管理责任人等。数据操作属性的明确,有助于将数据管理责任落实到部门和个人,是数据安全管理的基础条件。

常见的操作元数据:

l 数据所有者、使用者等;

l 数据的访问方式、访问时间、访问限制等;

l 数据访问权限、组和角色等;

l 数据处理作业的结果、系统执行日志等;

l 数据备份、归档人、归档时间等。

4、管理元数据

管理元数据包含了数据管理的信息在其中,例如:表的业务属主、表的技术负责人。

常见的管理元数据:

l 数据的来源;

l 数据的功用;

l 数据的负责人;

l 数据的价值体现等。

三、元数据管理方法

元数据管理是对元数据的创建、存储、整合、控制的一整套流程,它能够帮助开发和业务人员快速了解数据上下游关系、数据本身含义;它可以精准定位需要查找的数据,减少数据研究的时间成本,提高工作效率。

元数据管理也是数据治理工作的重中之重,在数据治理项目中,我们通常从以下几个方面推进元数据管理工作:

1、元数据范围

首先,要确定需要进行管理操作的元数据范围。实际情况中,不一定所有数据都要做元数据管理。更多情况下,业务数据会被选择进行元数据管理,非业务数据(例如:备份数据、系统日志等)一般不会被纳入管理范围内,主要原因是,元数据管理能够帮助业务和开发人员快速掌握业务数据。

确定规则后,就要根据公司实际情况,整理出需要进行元数据管理的业务系统、数据库、数据库用户、表等。非结构化数据的元数据抽取也可支持,比如:word、pdf等。

2、元数据接入

元数据一般是从源系统接入,如果企业已经拥有数仓,或对实时性要求不高,为了节约开发工作量、提升工作效率,会将已有的元数据从数仓接入,还未接入的从源系统接入。

这种方案的风险在于:如果数仓的数据和源系统出现不一致的情况,元数据就会出现错误。现如今,大部分的元数据抽取都采用配置自动化的方式进行。

3、元数据标准

为了保证元数据的完整性和一致性,当出现数据库或数据定义不规范的情况时,要建立元数据管理的规范和标准,反推前端源数据整改。同时,要对元数据进行权限管理,规范权限的管理流程(元数据的权限分层、元数据权限申请流程、元数据的发布流程、元数据的审核流程等)。

4、元数据维护

指对已发布的元数据进行管理和维护,如果需要对已上线的元数据进行调整优化,就必须重新通过元数据发布流程,不允许直接修改元数据。同时,成立元数据操作日志,记录所有元数据操作行为。

可根据要求,按照业务流程、业务主题域、开发流程设计对应目录,将不同的元数据挂在对应的目录下。

5、元数据查找、分析、报告

划分单独页面,支持对元数据进行模糊或精准快速查找。

产出元数据资产报告,帮助企业快速了解元数据访问热度、数据价值、数据成本、数据分布等相关信息。

四、元数据应用

元数据应用场景:

可以看出,建立好元数据,不仅能够方便数据治理,也可以衍生出丰富的应用,如数据地图,血缘分析,数据冷热分析,数据资产管理等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2211854.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【千图网-登录_注册安全分析报告】

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 1. 暴力破解密码,造成用户信息泄露 2. 短信盗刷的安全问题,影响业务及导致用户投诉 3. 带来经济损失,尤其是后付费客户,风险巨大,造…

【双指针算法】移动零

1.题目解析 2.算法分析 可以归结为数组划分/数组分块(采用双指针算法)-->利用数组下标充当指针 (1)首先定义两个指针 dest:已处理的区间内,非零元素的最后一个位置cur:从左往右扫描数组&…

Stm32+Esp8266连接阿里云程序移植教程(MQTT协议)

Stm32Esp8266连接阿里云程序移植教程(MQTT协议) 一、前期准备二、移植过程三、程序的使用3.1 连接上阿里云3.2 传输用户数据到阿里云3.3 解析从阿里云下发给用户的数据3.4 关于调试接口 一、前期准备 自己要的工程文件移植所需的文件(如下图&…

CentOS 7.9安装MySQL

下载Linux版MySQL安装包 下载地址https://downloads.mysql.com/archives/community/ 下载解压后 安装,按照从上至下顺序,一条一条执行即可安装完毕。 进入到rpm所在目录rpm -ivh mysql-community-common-8.0.26-1.el7.x86_64.rpm rpm -ivh mysql-comm…

计算机网络——CDN

空间编码例子:不是发送N个相同颜色值,而是仅发送2个值,颜色和重复个数 时间编码例子:不是发送i1帧的全部编码,而是仅发送帧i差别的地方 视频播放时,先下载manifest file文件——>解析(不…

vscode中关闭cmake自动配置

前言 最近误触了一个操作,导致,一旦使用vscode打开项目,就会去配置cmake。或者你一旦更改cmakelists.txt,就会去配置cmake。 这个操作,结果对不对还另说,关键是增加计算机开销,使得vscode打开后…

【华为】配置BGP协议

边界网关协议BGP是一种实现自治系统AS之间的路由可达,并选择最佳路由的距离矢量路由协议。BGP在不同自治系统之间进行路由转发,分为EBGP(外部边界网关协议)和IBGP(内部边界网关协议)两种情况。 [A]in g0/0/…

使用docker搭建lnmp运行WordPress

一,部署目的 使用 Docker 技术在单机上部署 LNMP 服务(Linux Nginx MySQL PHP)。部署并运行 WordPress 网站平台。掌握 Docker 容器间的互联及数据卷共享。 二,部署环境 操作系统:CentOS 7Docker 版本&#xff1…

Spring 的依赖注入的最常见方式

在 Spring 中,依赖注入的方式有多种选择。下面我们来逐一分析它们的特点、适用场景和注意事项: 1. 构造函数注入 构造函数注入要求在对象创建时提供所有依赖。这种方式确保依赖在对象创建后不可变,特别适合必须强制存在的依赖。所有依赖在对…

Windows的Conda环境下使用PlotNeuralNet来绘制神经网络

项目场景: Windows环境下,使用了anaconda的Python环境管理器,使用PlotNeuralNet来绘制神经网络图 问题描述 在运行以下shell命令的时候 cd pyexamples/ bash ../tikzmake.sh test_simple出现了访问被拒绝的错误,如下所示&#x…

【数据结构】:破译排序算法--数字世界的秩序密码(一)

文章目录 一.排序算法概述1.定义和目的2.排序算法的分类2.1比较排序2.2非比较排序 二.插入排序算法1.InsertSort直接插入排序1.1.插入排序原理1.2.插入排序过程1.3.代码实现1.4.复杂度和稳定性 2.ShellSort希尔排序2.1.希尔排序原理2.2.希尔排序过程2.3.代码实现2.4.复杂度和稳…

LeetCode 132. 分割回文串 II(经典必会)

LeetCode 132. 分割回文串 II 给你一个字符串 s,请你将 s 分割成一些子串,使每个子串都是回文串。 返回符合要求的 最少分割次数 。 示例 1: 输入:s “aab” 输出:1 解释:只需一次分割就可将 s 分割成 [“…

EditPlus安装使用

1.进入EditPlus官网(https://www.editplus.com/)点击第二行蓝字 2.点击More options第一行蓝字 3.点击exe文件进入安装,点击Accept 4.选择下载路径 4.点击editplus.exe 5.在许可证协议中点击yes 6.输入username和regcode即可使用(也可以试用30天)

Leetcode 岛屿数量

首先检查网格是否为空,如果为空,直接返回 0。遍历网格中的每一个元素,当遇到陆地(1)时,计数器加 1,并且通过 DFS 将与该陆地相连的所有部分标记为已访问(即设为 0)。DFS …

第 22 章 - 你不能错过的Elasticsearch核心知识点-BM25相关性评分算法(进阶)

文章目录 前言分片对 Elasticsearch 相关性评分的影响BM25 算法和它的变量效果应用将 b b b 值设置为 0将 k 1 k1 k1 设置为0 总结 前言 上一章介绍了 Elasticsearch 的读写优化技巧。本章将深入探讨与 Elasticsearch 相关的 BM25 相关性评分公式。 我们将全面解析 BM25 如…

【Java】C++转Java基础知识

1. Java基础知识 1.1 JDK和JVM 在Java中,JDK称为Java开发工具包(Java Development Kit),包含了Java开发需要使用的工具包,前面的版本中JRE和JDK是分开的两个文件夹,从Java9开始,JDK中还包含了JRE(Java Runtime Envir…

STM32外设详解——ADC

来源:铁头山羊 基本概念 ①ADC是模数转换器的统称,stm32f103c8t6内部集成了2个12位主次逼近型ADC,外设名称为ADC1、ADC2。 ② 采样深度为12位意味着ADC可以将0~3.3V的模拟电压等比转换为0~4095的数字值(分割为2的12次方份&…

猫头虎分享:Python库 Selenium 的简介、安装、用法详解入门教程

🐯 猫头虎分享:Python库 Selenium 的简介、安装、用法详解入门教程 🚀 今天,猫头虎带大家深入了解 Selenium,这是一个非常流行的自动化测试工具,用于浏览器自动化。无论你是进行网页数据抓取,还…

Starrocks表的数据库字段类型及与MySQL 的差异

最近有用到Starrocks,实际使用中基本可以当作mysql来使用,但是数据库字段还是有所不同的。 与MySQL相同或相似的基础类型 数值类型 TINYINT、SMALLINT、INT/INTEGER、BIGINT:在Starrocks和MySQL中的定义和用途基本相似。都是用于存储整数&…

YOLO11改进|注意力机制篇|引入Mamba注意力机制MLLAttention

目录 一、【MLLAttention】注意力机制1.1【MLLAttention】注意力介绍1.2【MLLAttention】核心代码 二、添加【MLLAttention】注意力机制2.1STEP12.2STEP22.3STEP32.4STEP42.5STEP5 三、yaml文件与运行3.1yaml文件3.2运行成功截图 一、【MLLAttention】注意力机制 1.1【MLLAtte…