大数据-------元数据管理

news2024/11/23 13:07:03

一、什么是元数据

元数据就是描述数据的数据,它为企业的各类数据提供了上下文环境,使企业能够更好地了解、管理和使用数据。

现在数据对于公司的决策十分的重要,随着业务的发展,业务线会慢慢庞大起来,随着开发人员的变更以及增多,没有元数据治理,很难保证数据质量,这时候就需要元数据管理,用来记录公司拥有什么数据,数据在哪里、由谁负责,数据中的值意味着什么,数据的生命周期是什么,哪些数据安全性和隐私性需要保护,以及谁使用了数据,用于什么业务目的,数据的质量怎么样,等等。

在这里插入图片描述

二、元数据分类

1、技术元数据

技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据。对开发人员来说,它有助于明确数据的存储、结构,有助于理清数据关系,能够提升开发效率,还有助于了解到数据的来源和去向进行分析,支持数据血缘追溯和影响分析。

例如:数据字典

(1)基础信息,包括库名称、库类型、表名称、表数量、表注释、表分区字段、表分区数量、字段名称、字段类型、字段长度、字段注释、字段默认值、主键信息、外键信息、索引信息等。

(2)存储信息,本地存储中的文件信息,例如:文件路径、文件数量、文件大小、文件类型,压缩格式等。

(3)调度信息,任务名称、任务类型、任务路径、调度时间、调度SQL、调度逻辑等。

(4)血缘信息,数据加工、流转过程产生的数据与数据之间的关系,包含以下内容: 数据节点、流出节点、中间节点、流入节点、节点属性等。

2、业务元数据

业务元数据描述数据的业务含义、业务规则等。可以为数据应用提供更好的服务。

例如:

(1)业务信息,业务描述、业务部门、业务系统、负责人等。

(2)标准化信息,统一和确定指标名称、指标层级、指标口径、维度信息、计算方式、映射信息、转换规则等。

(3)数据质量信息,主要应用于监控信息,主要有:质量监控名称、监控内容、监控级别、监控规则、告警方式等。

(4)权限信息 ,访问权限、角色权限、用户权限、安全等级等。

(5)服务信息 ,当前数据对外提供服务的方式,主要有:服务方式(接口、报表、sdk等)、服务内容、接口信息、负责人等

三、元数据管理

1、数据源元数据

数据源元数据主要是数据库模型设计文档、为综合统计分析平台提供数据的各种业务系统的数据字典及数据接口文件等。

数据源元数据的管理:由相关人员对各类文档进行统一版本的管理

2、ETL规则元数据

ETL规则元数据中涉及到数据源元数据、目标系统元数据、ETL流程、源与目标的映射关系等元数据信息。

数据源元数据包括业务系统元数据和数据仓库元数据等;目标系统元数据可能是数据仓库元数据、数据集市元数据等。

ETL规则元数据的管理:由数据库开发人员根据各个模块的ETL过程以及过程运行的顺序,形成相关元数据管理文档进行统一管理。

3、数据仓库元数据

制定数据仓库模型设计文档记录事实表、维度、属性、层次等信息,物理表与多维模型的映射关系等信息 ,对文档进行统一版本的管理

4、报表元数据

包括对报表和报表中具体指标(度量)的描述信息等

报表元数据的管理:对数据集上可以计算的度量进行相关元数据的管理,包括详细设计文档中对各个表中度量的定义、描述等;对所有表和度量之间的关系进行严格的文档记录,包括度量的计算、度量之间的相互依赖关系、以及历史信息进行元数据管理

5、接口文件格式元数据

接口数据文件格式,包括接口数据文件的命名、传输周期、格式等说明信息。

接口文件格式元数据:与ETL规则元数据进行统一管理。

6、商业元数据

系统中对各项指标的业务含义的描述性信息,在综合统计分析平台中,包括维、度量的业务含义描述 ,主题的分析目标描述,报表指标的解释信息等。

商业元数据的管理可以分解成数据仓库元数据的管理和报表元数据的管理。

7、其他元数据

数据访问日志、数据装载日志等信息。数据访问日志记录数据库的访问信息,包括对数据库表的操作 、锁、内存使用、I/O使用等信息;数据装载信息记录每个ETL过程的抽取时间、操作人员、起始和截止时间、抽取涉及到的表、操作行数等相关信息

其他元数据的管理:将元数据信息记录到日志,形成元数据文件进行统一管理

4、元数据应用

1、数据地图

整体可以分为三部分,第一部分汇总库、表的数量,自己负责和有权限的表的数量等等。第二部分,展示这个库下所有表的情况。包括表名、数据量、更新时间、最近使用次数等, 第三部分,展示所有表的技术、业务的元数据。包括描述、负责人、大小、分区数、建表和更新时间、最近使用次数、变更记录、使用记录等。

2、血缘分析

通过血缘关系,就能了解到各个表/字段是怎么来的,整个数据的产生的过程和结果的路线就都可以掌握,同时匹配搜索功能可更方便员工的查找。

基于血缘关系可以做很多事情,例如:

1、结合任务完成时间,根据路径,定位性能瓶颈,调节任务时间以便更好的调节性能;

2、设计监控,当表出现变更时,可以通知任务负责人;

3、方便管理表,可以快速找到没有被使用的表; 数据生命周期管理

4、辅助维护字段的一致性,如注释、校验规则复用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/337411.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

九、STM32定时器讲解 - 通用定时器实战

目录 1.三种定时器的区别 2.通用定时器的特点描述 3.计数器模式 4.通用定时器工作过程 5.计数器时钟计算方法、 5.1定时器的输入时钟频率 - TimeClockFren 5.2计数器时钟计算方法 6.定时器相关寄存器 7.定时器库函数结构体 8.通用定时器函数 9.定时器中断配置过程 1…

图论算法:树上倍增法解决LCA问题

文章目录树上倍增法: LCA问题树上倍增法: LCA问题 树上倍增法用于求解LCA问题是一种非常有效的方法。 倍增是什么? 简单来说,倍增就是 1 2 4 8 16 … 2^k 可以发现倍增是呈 2的指数型递增的一类数据,和二分一样&…

黑马程序员 Linux 教程

目录Linux 简介不同应用领域主流操作系统Linux 系统历史Linux 系统版本Linux 安装安装方式网卡设置安装 SSH 连接工具使用 FinalShell 连接到 LinuxLinux 和 Windows 目录结构对比Linux 目录介绍Linux 常用命令Linux 命令初体验Linux 命令使用技巧Linux 命令格式文件目录操作命…

Python的文件编码,复制,缓冲,删除

能力有限,仅供参考 本篇博文是上一篇博文( Python的文件读取,写入)的后续,也是python文件管理的一部分,废话不多说,现在就开始。 1. 编码 在实际工作学习中,你可以遇到乱码的问题…

c语言递归 累和 ,累乘积,斐波那契数列,字符串长度

目录 递归使用场景 1:使用递归的方式计算 Sn123..100 2:计算 n!n*(n-1)*(n-2)*......*1; 3:计算输出斐波那契数列前20项,并按每行4个数的格式输出(2019年) 4: 用递归和非递归两种方式编写函数strlength()。该函数…

Nacos 入门微服务项目实战

Nacos 核心源码精讲 - IT贱男 - 掘金小册全方位源码精讲,深度剖析 Nacos 注册中心和配置中心的核心思想。「Nacos 核心源码精讲」由IT贱男撰写,375人购买https://s.juejin.cn/ds/BuC3Vs9/ Hi,大家好,欢迎大家来学习《Nacos 核心源…

2022黑马Redis跟学笔记.基础篇(一)

2022黑马Redis跟学笔记.基础篇 一1.Redis入门1.1.认识NoSQL1.1.1.结构化与非结构化1.1.2.关联和非关联1.1.3.查询方式1.1.4.事务1.1.5.总结1.2.认识Redis1.3.安装Redis步骤一:安装Redis依赖步骤二:上传安装包并解压步骤三:启动(1).默认启动(2…

开发微服务电商项目演示(三)

一,nginx动静分离第1步:通过SwitchHosts新增二级域名:images.zmall.com第2步:将本次项目的易买网所有静态资源js/css/images复制到nginx中的html目录下第3步:在nginx的核心配置文件nginx.conf中新增二级域名images.zma…

论文阅读:MINE: Towards Continuous Depth MPI with NeRF for Novel View Synthes

中文标题:基于连续深度多平面和神经辐射场的新视角合成 本文只介绍与NeRF原文不同的部分 创新点 对单一图像进行密集三维重建,完成新视角合成与深度估计的工作。从单个图像生成连续和遮挡绘制的三维重建。MINE借鉴NeRF可以生成连续的深度图像。 解决…

leaflet上传CSV文件,在地图上显示图形(示例代码054)

第054个 点击查看专栏目录 本示例的目的是介绍演示如何在vue+leaflet中加载CSV文件,将图形显示在地图上。CSV(逗号分隔值)文件是一种简单且开放的文件格式,以纯文本形式存储表格数据。 几乎所有电子表格和数据库软件都可以导入/导出这种文件格式。 直接复制下面的 vue+ope…

Navicat无法连接MySQL报错1251的解决方法

日期:2023年2月10日 作者:Commas 签名:(ง •_•)ง 积跬步以致千里,积小流以成江海…… 注释:如果您觉得有所帮助,帮忙点个赞,也可以关注我,我们一起成长;如果有不对的地方&#xf…

C++中的智能指针

1.RAII 与引用计数了解 Objective-C/Swift 的程序员应该知道引用计数的概念。引用计数这种计数是为了防止内存泄露而产生的。 基本想法是对于动态分配的对象,进行引用计数,每当增加一次对同一个对象的引用,那么引用对象的引用计数就会增加一次…

[AAAI 2022] TransFG: A Transformer Architecture for Fine-grained Recognition

Contents TransFG ArchitectureExperimentsReferencesTransFG Architecture Overlapping patch split:ViT 是把图片分成一系列不重叠的 patches,作者认为这可能会破坏 discriminative regions. 为了解决上述问题,作者提出使用 Overlapping patch split,划分的 patch 数 N …

消息中间件RabbitMQ

文章目录1. 协议2. RabbitMQ架构原理3.内存管理4.磁盘控制5. RabbiMQ 插件管理6. 死信6.1 死信队列6.2 延时插件7. 高可用集群方案7.1 普通集群模式7.2 镜像集群模式7.3 基于HAproxyKeepalived搭建高可用8.可靠性投递8.1 消息从生产者发送到Broker两种确认机制8.2 消息从Exchan…

数据Kylin(三):Kylin配置

Kylin配置 一、kylin.metadata.url 指定元数据库路径,默认值为 kylin_metadata@hbase 二、kylin.metadata.sync-retries 指定元数据同步重试次数,默认值为 3 三、kylin.env.hdfs-working-dir 指定 Kylin 服务所用的 HDFS 路径,默认值为 /kylin,请确保启动 Kylin 实例的用户…

【面试题】对闭包的理解?什么是闭包?

大厂面试题分享 面试题库后端面试题库 (面试必备) 推荐:★★★★★地址:前端面试题库闭包的背景由于js中只有两种作用域,全局作用域和函数作用域,而在开发场景下,将变量暴露在全局作用域下的时候…

云盘满了怎么办?阿里云服务器云盘扩容操作了解一下

1.背景 2.确定扩容云盘类型与控制台操作 3.ECS实例内部扩容操作说明 3.1 ECS实例内部执行扩容分区 3.2 ECS实例内部执行扩容文件系统 1.背景软件应用的数据库所在服务器磁盘使用率已经达到97%,服务器操作实例如下: 一旦使用达到上限,所有的数…

python基于django的 大学生健康管理系统

随着时代的发展,大学生的数量与日预增但是相对的也出现了很多心理问题,大学生因为各类心理引发的社会问题已经受到了很多人的关注,所以如何更好的培养大学生正确的心理健康问题是现在很多大学多面临的一个重要的问题。 系统设置了三种身份的登录,包括管理员,医生和学生。其中管…

SpringBoot 实现 Excel 导入导出,百万数据量,性能爆表!

最近我做过一个MySQL百万级别数据的excel导出功能,已经正常上线使用了。这个功能挺有意思的,里面需要注意的细节还真不少,现在拿出来跟大家分享一下,希望对你会有所帮助。原始需求:用户在UI界面上点击全部导出按钮&…

最近面试了一位5年的测试,一问三不知,还反怼我...

最近看了很多简历,很多候选人年限不小,但是做的都是一些非常传统的项目,想着也不能通过简历就直接否定一个人,何况现在大环境越来 越难,大家找工作也不容易,于是就打算见一见。 在沟通中发现,由…