第1章 Atlas入门
1.1 Atlas概述
Apache Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能。
Atlas的具体功能如下:
元数据分类 |
支持对元数据进行分类管理,例如个人信息,敏感信息等 |
元数据检索 |
可按照元数据类型、元数据分类进行检索,支持全文检索 |
血缘依赖 |
支持表到表和字段到字段之间的血缘依赖,便于进行问题回溯和影响分析等 |
1)表与表之间的血缘依赖
2)字段与字段之间的血缘依赖
1.2 Atlas架构原理
第2章 Atlas安装
1)Atlas官网地址:Apache Atlas – Data Governance and Metadata framework for Hadoop
2)文档查看地址:https://atlas.apache.org/2.1.0/index.html
3)下载地址:
https://www.apache.org/dyn/closer.cgi/atlas/2.1.0/apache-atlas-2.1.0-sources.tar.gz
2.1 安装环境准备
Atlas安装分为:集成自带的HBase + Solr;集成外部的HBase + Solr。通常企业开发中选择集成外部的HBase + Solr,方便项目整体进行集成操作。以下是Atlas所依赖的环境及集群规划。本文只包含Solr和Atlas的安装指南,其余所依赖服务的安装请参考前边章节。
服务名称 |
子服务 |
服务器 hadoop102 |
服务器 hadoop103 |
服务器 hadoop104 |
JDK |
√ |
√ |
√ |
|
Zookeeper |
QuorumPeerMain |
√ |
√ |
√ |
Kafka |
Kafka |
√ |
√ |
√ |
HBase |
HMaster |
√ |
||
HRegionServer |
√ |
√ |
√ |
|
Solr |
Jar |
√ |
√ |
√ |
Hive |
Hive |
√ |
||
Atlas |