一、元数据概述
1.1、定义
元数据定义:描述数据的数据,对数据及信息资源的描述性信息。小编认为元数据不仅仅是关于数据的数据,它还是一种上下文,赋予信息更加丰富的身份。
以图片为例,其图片本身是一种数据,那么图片的名称、属性、尺寸、使用什么设备生成的、生成的时间、责任人等等这些信息其实都属于元数据。
1.2、类型
元数据的类型可以分为以下三种:
1.2.1、业务元数据
描述数据系统中业务领域相关概念、关系和规则的数据,包括业务术语、信息分类、指标、统计口径等。
例如:针对机场基础信息数据,其标识信息、数据质量与精度信息、空间参照信息、发布与更新信息、负责单位与联系信息等均构成描述该机场基本数据(如机场代码、坐标等)的业务元数据。
业务元数据也可以大致分为逻辑元数据和物理元数据。
1.2.1.1、逻辑元数据
有关逻辑结构(例如表)的业务元数据被视为逻辑元数据;我们使用元数据进行数据分类和标准化我们的 ETL 处理。表所有者可以在业务元数据中提供有关表的审计信息。它们还可以提供用于写入表的列默认值和验证规则。
1.2.1.2、物理元数据
有关存储在表或分区中的实际数据的元数据被视为物理元数据。
我们的 ETL 处理在作业完成时存储有关数据的指标,稍后用于验证。相同的指标可用于分析数据的成本 + 空间。鉴于两个表可以指向相同的位置(如在 Hive 中),区分逻辑元数据和物理元数据很重要,因为两个表可以具有相同的物理元数据但具有不同的逻辑元数据
1.2.2、技术元数据
描述数据系统中技术领域相关概念、关系和规则的数据,包括物理模型的表与字段、ETL规则、集成关系等。
例如:针对图像数据,其基本数字对象(对象标识符、文件大小、字节序列、压缩类别等)、基本图像信息、图像捕捉元数据、图像评估元数据(空间度量、图像色彩编码等)等构成描述该数据的技术元数据。
1.2.3、操作元数据
操作元数据:描述数据处理日志及运营情况的数据,包括系统执行日志、访问记录等。
1.3、目的及意义
小编认为通过元数据可以帮助企业更好的维护管理数据,沉淀数据资产,且在整个数据生态系统起到承上启下的作用,对于用户来说可以快速、准确获取到完整的上下文数据信息,并完全理解信任数据,对于团队来说可以提升协作效率,减少重复工作,对于企业来说可以充分挖掘数据价值,做出正确的执行决策。
1.4、元数据管理
在对元数据进行管理时需要制定元数据标准、管理规范、管理平台与管控机制,
通过全流程的元数据管理(元数据的生产、采集、注册、维护),实现元数据应用。