大数据治理入门系列:元数据管理

news2024/10/7 10:20:22

在介绍数据治理一文中,我们曾用在图书馆找书的例子解释为什么需要进行数据治理。数据治理在某种程度上类似于图书管理。元数据管理作为数据治理的重要一环,也可以进行这种类比。

在图书管理过程中,需要根据相应的制度购买、记录、存放、借还图书。每一本书都有自己的分类、编号、存放位置,有些图书馆还会附上对书籍作者、内容等方面的简单介绍。

img

在数据治理领域中,也需要按照一定的标准采集、记录、分析、使用数据。图书馆中的书籍类似于数据,书籍编号、出版日期、介绍等信息就类似于元数据

介绍元数据管理之前,首先需要了解什么是元数据。

元数据的含义

说到元数据,想必很多人都听过“元数据是关于数据的数据”。这句话一针见血地点出了元数据的主要特点,但正是由于太过精炼而显得有些笼统。关于数据的数据到底是什么?

img

美国信息标准组织 (NISO) 的定义是:元数据是描述、解释、定位、简化信息检索/使用/管理过程的结构化信息。

下面通过具体的示例来进行说明。

卡号客户姓名应付金额
123小红12,000
134小明15,500
234小刚2,300

信用卡账单

以“12,000”这项数据为例,其元数据包括(但不限于)如下内容:

  • 表名:信用卡账单
  • 列名:应付金额
  • 数据类型:浮点数

如上所示,元数据即描述数据属性的数据,数据属性视具体场景不同而有所不同,一般包括数据的类型、数据库、表名、列名、数据模式(schema)、所属领域、业务线、业务定义等等。

元数据的分类

根据所描述的数据属性不同,可以将元数据分为技术元数据、业务元数据、操作元数据。

技术元数据

技术元数据定义了数据的物理属性,包括数据存储、转换、访问等方面的信息。例如,数据的来源、存储位置(包括数据库名、表名、列名)、更新时间、访问时间、字段长度、数据类型(文本/图片/数字等)、数据结构、数据压缩/转换算法、数据加密/解密密钥、数据血缘关系等。

业务元数据

业务元数据定义数据的业务属性,即在业务场景中的含义和用途等。例如,数据的所有者、业务定义(数据的定义、数据表/列的定义)、业务指标、计算方式、词汇表等。业务数据有助于从业务角度理解,为什么需要这项数据。

操作元数据

操作元数据定义了数据的操作属性,包括数据加工处理和监控等方面的信息。例如,数据处理任务的编号和结果、数据流动频率、数据质量指标等。

元数据管理

理解什么是元数据之后,也就能理解什么是元数据管理。

对元数据的采集、记录、共享、和维护,就是元数据管理。具体而言,需要管理数据的生命周期、数据所有者、质量规则、安全性、审计日志、影响分析、数据转换、风险管理、业务规则、业务术语等。元数据管理的核心在于,让数据用户能通过一些关键信息快速找到想要的数据。

由于数据量庞大,而且更新频繁,所以需要借助一定的工具来管理元数据。市场上主要的元数据管理工具供应商有 Collibra、erwin、IBM、Informatica 等,主流产品有 Collibra Catalog、Collibra Privacy & Risk、erwin Data Catalog、IBM InfoSphere Information Governance Catalog、Watson Knowledge Catalog、Informatica Intelligent Data Platform、Informatica Enterprise Data Catalog、Informatica Business Glossary……从这些产品名称中可以看出,数据目录(Data Catalog) 是重要的元数据管理方式。我们将在下一节中详细介绍数据目录。

img通过元数据管理可以让原数据更易用,在企业范围内推动数据迁移、数据整合等项目的实施,可以追溯数据血缘关系,确保数据的可靠性。完善可靠的元数据管理系统还有助于加强数据合规。此外,这些元数据本身形成了一个知识库,对企业而言也是一笔财富。未来的元数据管理将更加智能,更加深入,支持更快的分析,提供更快深的洞见。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/587922.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【LeetCode: 486. 预测赢家 | 暴力递归=>记忆化搜索=>动态规划 】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

【T+】畅捷通T+设置收入成本配比结转

【问题需求】 收入成本配比原则是指: 取得的销售收入应与为取得该收入所发生的成本相匹配, 即先出库后销货时需要等收到销售发票才能确认成本, 先销货后出库时要先确认虚拟成本。 【解决方案】 重点:业务流程选择【单据立账】的情…

ArcGis系列-java发布空间表为地图服务(map)

1,实现思路 使用java调用cmd命令执行python脚本python环境使用arcgis pro安装目录下的 \ArcGIS\Pro\bin\Python\envs\arcgispro-py3作为地图服务应该可以支持添加样式文件发布表需要用到sde文件,使用java创建sde的代码可以看这里发布表时,先在本地的空项目模板中添加数据库表作…

vue模拟el-table演示插槽用法

vue模拟el-table演示插槽用法 转载自:www.javaman.cn 很多人知道插槽分为三种,但是实际到elementui当中为什么这么用,就一脸懵逼,接下来就跟大家聊一聊插槽在elementui中的应用,并且自己写一个类似el-table的组件 vue…

回归问题里的数学

假设一个简单的案例 投入的广告费越多,广告的点击量就越高,进而带来访问数的增加,不过点击量经常变化,投入同样的广告费未必能带来同样的点击量。根据广告费和实际点击量的对应关系数据,可以将两个变量用下面的图展示…

CASA模型:生态系统NPP及碳源、碳汇模拟、土地利用变化、未来气候变化、空间动态模拟

查看原文>>>生态系统NPP及碳源、碳汇模拟、土地利用变化、未来气候变化、空间动态模拟实践技术应用 目录 第一章 CASA模型介绍(讲解案例实践) 第二章 CASA初步操作 第三章 CASA数据制备(一) 第四章 CASA数据制备&am…

4_回归算法(算法原理推导+实践)

文章目录 1 线性回归1.1 定义1.2 题目分析1.3 误差项分析1.4 目标函数推导1.5 线性回归求解1.6 最小二乘法的参数最优解 2 目标函数(loss/cost function)3 模型效果判断4 机器学习调参5 梯度下降算法5.1 梯度方向5.2 批量梯度下降算法(BGD&am…

Spring IOC容器及DI相关概念

文章目录 一、组件、框架、容器的相关概念1.组件2.框架3.容器4.总结 二、IOC与DI简介1.IOC入门案例2.DI入门案例 一、组件、框架、容器的相关概念 1.组件 组件是为了代码的重用而对代码进行隔离封装,组件的呈现方式是单个或多个.class文件,或者打包的.…

Flutter的手势识别功能实现GestureDetector

GestureDetector简介 GestureDetector 是 Flutter 中一个非常常用的小部件,它提供了许多手势识别的功能,包括点击、双击、长按、拖动、缩放等等。 使用方法 GestureDetector 可以包裹其他部件,当用户在这些部件上进行手势操作时&#xff0…

基于SSM的网辩平台的设计与实现

摘 要 线上作为当前信息的重要传播形式之一,线上辩论系统具有显著的方便性,是人类快捷了解辩论信息、资讯等相关途径。但在新时期特殊背景下,随着网辩的进一步优化,辩论赛结合网络平台融合创新强度也随之增强。本文就网辩平台进…

尧泰汉海五城联动,“益”起圆梦!用爱守护成长,助力502名孩子实现心愿

公益的力量让孩子们的梦想被看见。 文具套装、书包、篮球 、益智积木、生日蛋糕......一个个看似小小的心愿,对于城市里的孩子来说是平常不过的礼物,但却成了许多正处于困境孩子的期待。 本次活动由重庆市慈善总会指导,Home尧泰汉海慈善专项…

【项目】ROS下使用乐视深度相机LeTMC-520

本文主要记录如何在ros下使用乐视深度相机。乐视三合一体感摄像头LeTMC-520其实就是奥比中光摄像头(Orbbec Astra Pro) 系统:Ubuntu20.04 这款相机使用uvc输入彩色信息,需要使用libuvc、libuvc_ros才能在ROS上正常使用彩色功能。…

k8s实战2-用minikube发布本地应用

官网的教程中,hello-minikube其镜像都在网上(dockerhub)上,如何把本地打包的docker镜像发布到minikube中 1 终端上运行eval $(minikube docker-env) 此命令的作用是使用Minikube Docker守护进程,跟原来docker desktop的docker进程区别开来 …

FPGA深层解析

概览 高端设计工具为少有甚是没有硬件设计技术的工程师和科学家提供现场可 编程门阵列(FPGA)。无论你使用图形化设计程序,ANSI C语言还是VHDL语言, 如此复杂的合成工艺会不禁让人去想FPGA真实的运作情况。在这个芯片中的程 序在这些可设置硅片间到底是如何工作的。本书会使…

腾讯云2核4G5M服务器性能如何?来说说CPU内存带宽系统盘

腾讯云轻量应用服务器2核4G5M配置一年168元,三年628元,100%CPU性能,5M带宽下载速度640KB/秒,60GB SSD系统盘,月流量500GB,折合每天16.6GB流量,超出月流量包的流量按照0.8元每GB的支付流量费&…

SKY13330-397LF国产替代ATR5330 SUB-1G SPDT开关芯片

1.1 芯片简介 ATR5330是一款采用CMOS SOI工艺制作的单刀双掷开关单芯片,该芯片的推荐工作频率20MHz-4GHz, 开关芯片采用单电源供电控制,有非常低的电流功耗。开关开启工作时有非常低的插入损耗以及非常高的线性度。 1.2主要特征 频率范围: 0.…

项目管理:如何利用工具做好工作汇报?

我们公司曾经经历了一次惨痛的教训。我们为一家重要的大客户提供咨询服务,但在项目结束时,我们的项目负责人在电梯间遇见了客户的总经理,被问及项目结果时,却无法在短时间内清晰地表达出来。这一失误导致我们失去了这位重要客户。…

什么是跳表

什么是跳表 跳表全称为跳跃列表,它允许快速查询,插入和删除一个有序连续元素的数据链表。跳跃列表的平均查找和插入时间复杂度都是O(logn)。快速查询是通过维护一个多层次的链表,且每一层链表中的元素是前一层链表元素的子集(见右…

【Redis】Redis 内存回收

文章目录 1. 过期key处理1.1 惰性删除1.2 周期删除 2. 内存淘汰策略 Redis 中数据过期策略采用定期删除惰性删除策略结合起来,以及采用淘汰策略来兜底。 定期删除策略:Redis 启用一个定时器定时监视所有的 key,判断key是否过期,过…

大语言模型技术原理

在今天这个时代,人们的工作和生活已经离不开数据访问,而几乎所有平台背后的数据存储和查询都离不开数据库。SQL作为一种数据库的查询和处理语言历史悠久,最早由IBM于上世纪70年代初研究关系数据模型时提出,后续发展为一种广泛使用…