目录
- 1. 基本介绍
- 2. 功能特色
- 2.1 支持不同平台的元数据同步和搜索
- 2.2 血缘关系
- 2.3 查询数据集的统计信息
- 2.4 实时治理
- 2.5 Datahub的权限管理
- 2.6 使用Domains、Glossary Terms、tags对数据Entity进行管理
- 2.7 在Web界面对元数据进行管理
1. 基本介绍
Datahub是现代数据栈的元数据管理平台。能够从不同的平台(比如mysql、Airflow、Superset)将元数据同步到Datahub。提供统一的元数据搜索和治理,能降低开发人员的数据探索复杂性
2. 功能特色
2.1 支持不同平台的元数据同步和搜索
可以将数据库(mysql等)、数据湖(Iceberg)、BI平台(Superset等)、调度系统(Airflow等)、机器学习特征储存等元数据同步到Datahub。提供一个类似百度一样的搜索功能,对所有平台的元数据进行搜索
2.2 血缘关系
通过追踪不同平台的元数据血缘关系,能理解数据是如何被转换和流动的。并提供一个可视化的血缘关系图,进行血缘关系展示,还可以点击查看有关实体的详细内容。如果上游的发生变更,可以查看到会影响哪些下游的实体
2.3 查询数据集的统计信息
元数据中有一部分是关于一个数据集的统计信息。比如行和列的数量,数据集被查询的次数和哪些用户查询的次数最多;每列当前时间和历史时间的最小值、最大值、空值数量、空值所占比例
2.4 实时治理
Datahub的Actions Framework提供如下实时的使用场景:
- 通知:当在DataHub上进行元数据的更改时,向治理团队发送邮件等形式的通知
- 审计:审计谁对DataHub进行了哪些更改
- 工作流集成:将DataHub集成到组织的内部工作流中
- 同步:将DataHub中的更改同步到第三方系统
2.5 Datahub的权限管理
Datahub可以创建用户组、用户、访问策略(用户或用户组对Entity有哪些操作权限
2.6 使用Domains、Glossary Terms、tags对数据Entity进行管理
- Domains:通常用于标记该Entity属于哪个部门或团体
- Glossary Terms:通常用于描述该Entity的核心业务概念
- tags:给该Entity贴一些自定义的标签,用于Datahub的页面搜索
2.7 在Web界面对元数据进行管理
可以在Web界面创建、配置、执行和调度元数据导入到Datahub