1 Atlas 概述
Apache Atlas 为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,形成数据字典。并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能。
注:数据字典:可以查到 hive 库的释义,表的介绍以及字段的解释和说明。
1.1 表与表之间的血缘依赖
1.2 字段与字段之间的血缘依赖
2 Atlas 架构原理
Metadata Sources:目前,Atlas支持从以下来源提取和管理元数据:HBase 、Hive、Sqoop、Storm、Kafka
Admin UI: 该组件是一个基于Web的应用程序,允许数据管理员和科学家发现和注释元数据。这里最重要的是搜索界面和类似SQL的查询语言,可用于查询Atlas管理的元数据类型和对象。
Ranger Tag Based Policies:权限管理模块
Business Taxonomy:业务分类
Messaging: 除了API之外,用户还可以选择使用基于Kafka的消息传递接口与Atlas集成。
API: Atlas的所有功能都通过REST API向最终用户暴露, 该API允许创建,更新和删除类型和实体。它也是查询和 发现Atlas管理的类型和实体的主要机制。
采集/导出(Ingest/Export):采集组件允许将元数据添加到Atlas。同样,“导出”组件将Atlas检测到的元数据导出。
类型系统(Type System): 用户为他们想要管理的元数据对象定义模型。Type System称为“实体”的“类型”实例,表示受管理的实际元数据对象。
图形引擎(Graph Engine): Atlas在内部使用Graph模型持久保存它管理的元数据对象。
Metadata Store<Hbase>:采用HBase来存储元数据
Index Store<Solr>:采用Solr来建索引
3 Atlas2.1特性
- 更新了组件可以使用 Hadoop3.1、Hive3.1、Hive3.0、Hbase2.0、Solr7.5 和 Kafka2.0
- 将 JanusGraph 版本跟新为 0.3.1
- 更新了身份验证支持可信代理
- 更新了指标模块收集通知
- 支持 Atlas 增量导出元数据