元数据(Metadata)为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。简单来讲,元数据提供了关于数据的上下文,可以实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。
一、元数据的主要类型
基于元数据的功能来划分其类型,主要有三类:结构化元数据、描述性元数据、管理元数据。
(1)结构化元数据
便于数据团队进一步了解数据元素的组织方式。通过对相似的数据进行分组,记录唯一数据集之间的关系,有助于快速轻松地导航。
(2)描述性元数据
添加所有者、数据创建/发布时间和数据内容等信息,提供所描述的数据的快照,以便于识别数据。
(3)管理元数据
管理元数据,顾名思义,主要用于管理内容,提供关于数据的技术信息,涵盖了数据来源、数据类型、访问、使用许可等方面。
元数据示例
二、元数据的核心功能
元数据不仅仅是描述数据的数据,还可以简化数据发现,并加深对数据集的理解。
- 描述:元数据最基本的功能就是描述信息对象的内容属性等。
- 发现:清晰全面地查看组织内的数据资产。
- 检索:支持用户查找资源的功能。以图书馆的书为例,若把书里的正文内容视作主要数据,那么元数据就是该书的简介、目录。此外,图书馆还可以添加数据,提供图书类别、风格和唯一标识码,以便于更好地管理和检索。
- 管理:通过添加元数据,明确数据的使用方式、用途以及共享的许可权限,确保组织/企业在数据集安全级别内跟踪、使用、共享数据,从而有助于符合法规要求。
三、元数据的作用
1、元数据管理是企业数据治理的基石
元数据管理作为数据治理的基础组件,与数据治理、主数据管理同等重要,只有管理好元数据才能有效开展数据治理工作,其主要作用在于提高数据质量、数据安全性和整体透明度。
提高数据质量:通过清理和分析元数据,轻松识别并管理重复、多余、不完整的数据,以此提高数据质量,让使用数据变得容易。
提高透明度:利用元数据,可以保证在不泄露敏感数据的情况下共享数据,提高组织内部各大部门的协作性和数据可发现性。
提高数据安全性:
a. 元数据使用限制和许可后,再与数据连接,确保符合法律法规。
b. 明确人员与职责,划分数据所有权、识别数据生产者和维护者,以保障数据安全。
c. 整合数据集的相关信息并严格进行存储,确保其完整性。
2、元数据是企业数据目录的重要组件
数据目录从某种角度来说算是元数据的集合,拥有查找、理解和使用可信数据的能力。以软信天成的企业数据目录为例,借助自身核心能力和元数据的基础功能,可以实现:
元数据抽取:广泛适用于各类数据源的可扩展采集适配器,自动化采集表、视图、脚本等各类实体。
元模型管理:构建元模型的360度视图,包括元数据名称、属性、类型、长度、业务术语、标签、所有权信息等;并通过实时通知、邮件等进行协同管理。
数据血缘:解析系统、数据集、ETL/ELT管道、报表、SQL代码的数据血缘,快速呈现数据的端到端旅程。
影响分析:分析数据链路上下游关系,主动识别实体可能受到重大变更的影响。
全文检索:智能模糊搜索数据集、列、描述、标签、平台、域等各种数据对象,并支持自定义高级过滤条件和高级表达式搜索。
开放API:提供丰富的API访问方式,包括SDK、GraphQL、OpenAPI等不同类型的接口,支持数据实体、数据血缘、数据作业、业务术语等的查询、新增、修改、删除等操作。
版本管理:字段级变更历史版本管理,可查看不同版本的变更日期、变更方式(字段的增加、删除、修改等)并对比变更内容。