APACHE-ATLAS-2.1.0简介(三)

news2025/1/10 0:41:25

APACHE-ATLAS-2.1.0简介(一)
APACHE-ATLAS-2.1.0简介(二)

写在前面

ATLAS为组织提供开放式的元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,形成数据字典。

名词解释

元数据:就是用于描述数据的数据,也可以说是识别数据的数据,以HIVE为例,元数据就是库、表和字段等信息。元数据一般大致可为三类:业务元数据、技术元数据和操作元数据。
1. 业务元数据,用于描述数据的业务含义、业务规则等。通过明确业务元数据,让人们更容易理解和使用业务元数据。元数据消除了数据的二义性,让人们对数据有一致的认知,避免“自说自话”,进而为数据分析和应用提供支撑。
2. 技术元数据,用于对数据的结构化进行描述,方便计算机或数据库对数据进行识别、存储、传输和交换。技术元数据可以服务于开发人员,让开发人员更加明确数据的存储、结构,从而为应用开发和系统集成奠定基础。也可以服务于业务人员,通过元数据理清数据关系,让业务人员更快速地找到想要的数据,进而对数据的来源和去向进行分析,支持数据血缘追溯和影响分析。
3. 操作元数据,用于描述数据的操作属性,包括管理部门、管理责任人等。明确管理属性有利于数据管理责任到部门和个人,是数据安全管理的基础。
数据字典:也可以称为数据资产目录,通过数据字典可以查询元数据的相关信息以及元数据之间的血缘关系。

如何修改登录密码?

ATLAS当前默认的用户名密码为:admin/admin
口令信息存储在该文件中:/opt/software/apache-atlas-2.1.0/conf/users-credentials.properties
文件内容如下:

#用户名=组名::采用sha256将密码加密后的暗码
#username=group::sha256-password
admin=ADMIN::a4a88c0872bf652bb9ed803ece5fd6e82354838a9bf59ab4babb1dab322154e1
rangertagsync=RANGER_TAG_SYNC::0afe7a1968b07d4c3ff4ed8c2d809a32ffea706c66cd795ead9048e81cfaf034

如果要添加一个用户为:root/123456,怎么办呢?先采用sha256将密码加密后的暗码:

echo -n "123456"|sha256sum

在这里插入图片描述

新增root/123456新用户以后后users-credentials.properties文件内容如下:

#username=group::sha256-password
admin=ADMIN::a4a88c0872bf652bb9ed803ece5fd6e82354838a9bf59ab4babb1dab322154e1
rangertagsync=RANGER_TAG_SYNC::0afe7a1968b07d4c3ff4ed8c2d809a32ffea706c66cd795ead9048e81cfaf034
root=ADMIN::8d969eef6ecad3c29a3a629280e686cf0c3f5d5a86aff3ca12020c923adc6c92

编译时如果HBASE和SOLR的包无法下载怎么办?

(1). 方案一

打开distro/pom.xml,直接修改hbase和solr的下载路径:

<hbase.dir>${project.build.directory}/hbase</hbase.dir>
<hbase.tar>https://archive.apache.org/dist/hbase/${hbase.version}/hbase-${hbase.version}-bin.tar.gz</hbase.tar>
<hbase.folder>hbase-${hbase.version}</hbase.folder>
<solr.dir>${project.build.directory}/solr</solr.dir>
<solr.tar>https://archive.apache.org/dist/lucene/solr/${solr.version}/solr-${solr.version}.tgz</solr.tar>
<solr.folder>solr-${solr.version}</solr.folder>

在这里插入图片描述

(2). 方案二

手动下载Hbase和Solr的包,然后分别放到distro/hbase和distro/solr目录下。

原理概述

(1). 系统架构图

在这里插入图片描述

(2). 如何导入历史数据?

当用户安装好对应服务的BRIDGE组件后,手动将元数据源中的历史元数据信息一次性导入到ATLAS中,仅导入一次即可,新的或者说实时变化的元数据信息通过HOOK接入到ATLAS中。

(3). 如何增量接收数据?

通过元数据源对应的HOOK组件,来监测元数据源的变化,将变化的数据发送到KAFKA中,系统消费KAFKA中的数据,将元数据源中变化的元数据导入到ATLAS中。

(4). 导入历史数据时会通过KAFAKA吗?

A. 当我们使用Bridge导入历史数据时,使用的是REST接口导入到ATLAS中,不会通过KAFKA;
B. 当我们使用HOOK采集实时变动的元数据时,使用的是KAFKA的发布/订阅的方式将元数据实时的同步到ATLAS中。

(5). ATLAS中内置的TOPIC有哪些?

在ATLAS中用到了2个TOPIC,分别为ATLAS_HOOK和ATLAS_ENTITIES:
A. ATLAS_HOOK(从其他应用的HOOK写消息到KAFKA的TOPIC,HOOK应用-生产者,ATLASE-消费者)
B. ATLAS_ENTITIES(从ATLAS写消息到KAFKA的TOPIC,ATLAS-生产者,关心元数据变化的应用-消费者)两个TOPIC。

A. Notifications from Apache Atlas

ATLAS_ENTITIES:ATLAS将元数据的变化信息发送到该TOPIC, 以便关心该元数据的应用使用.
Apache Atlas sends notifications about metadata changes to Kafka topic named ATLAS_ENTITIES. 
Applications interested in metadata changes can monitor for these notifications. 
For example, Apache Ranger processes these notifications to authorize data access based on classifications.

B. Notifications to Apache Atlas

ATLAS_HOOK:各个组件将元数据的变化信息发送到该TOPIC, ATLAS消费这些元数据进行管理.
Apache Atlas can be notified of metadata changes and lineage via notifications to Kafka topic named ATLAS_HOOK. 
Atlas hooks for Apache Hive/Apache HBase/Apache Storm/Apache Sqoop use this mechanism to notify 
Apache Atlas of events of interest
(6). ATLAS中内置的类型有哪些?

Type System

A. Referenceable:这种类型的实体可以使用叫qualifiedName的唯一属性进行搜索。
B. Asset:这种类型扩展了Referenceable类型,添加了名称、描述和所有者等属性。Name是必需的属性(isOptional=false),其他属性是可选的。Referenceable和Asset类型的意义在于,使用户在定义与查询实体时,用于强化实体的一致性。
C. Infrastructure:这种类型扩展了Asset类型,通常可以用作基础设施元数据对象(如集群、主机等)的父类。
D. DataSet:这种类型继承自Referenceable类型。从概念上说它用于表示一个能够存储数据的类型。继承自DataSet类型的实体都有一个Schema,可以参与数据的变换,能够被ATLAS的血缘获取。
E. Process:这种类型继承自Asset类型。从概念上说它用于表示任何一个数据变换操作,也就是说从实体A到实体B的转换过程用Process类型来表示。

在这里插入图片描述

核心能力

1. 通用数据接入:ATLAS提供了实时接入增量数据的HOOK的模型和批量导入的历史数据的批处理模型,在需要采集元数据的对应的服务端安装HOOK插件,完成实时采集。
2. 统一数据模型:
ATLAS将要管理的元数据对象定义为一个模型,这个模型由称为 “类型” 的定义组成,被称为 “实体” 的 “类型” 的实例表示被管理的实际元数据对象。由ATLAS管理的所有元数据对象都使用"类型" 进行建模,并表示为实体。最终ATLAS抽象出了Type和Entity两种模型,类型表示了所定义元数据对象的一个或多个属性的集合,将要管理的元数据对象用Type进行抽象定义,这个对象的信息用Entity定义,简单的可以把Type理解为类或关系数据库的表的"表结构(SCHEMA)",把Entity理解为该类的实例或关系数据库的记录。

ATLAS中的类型分为两类:原生类型和结构化类型。
原生类型用来描述基础属性的类型,结构化类型用来构造ATLAS中元数据的复杂模型。
(1) 原生类型包括:boolean, byte, short, int, long, float, double, biginteger, bigdecimal, string;
(2) 结构化类型包括:集合类型(Array,Map)和复合类型(Class,Struct,Trait)。

元数据从功能上分为数据元数据和计算元数据,数据元数据一般继承自DataSet预定义类型,计算元数据类型一般继承自Process元数据类型。ATLAS的血缘关系正是对Process的输入输出链(数据元数据)进行分析的结果,就存储本身而言,数据元数据和计算原数据并无差别。

什么是元数据对象呢?如:一个数据库,一张HBASE的表,一个KAFKA的TOPIC,一个分区或者一个字段等等,都是一个元数据对象,他们都被抽象为TYPE。一个元数据对象就是一个TYPE,一个TYPE的实例就是一个Entity。由ATLAS管理的所有元数据对象,都由Type进行建模,并由实体进行表示。
3. 图引擎存储:基于Gremlin语法、HBASE存储引擎、Solr全文检索引擎完成图数据的存储。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/571418.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

js实现PDF 预览和文件下载

在开发过程中要求对 PDF 类型的发票提供 预览 和 下载 功能&#xff0c;PDF 类型文件的来源又包括 H5 移动端 和 PC 端&#xff0c;而针对这两个不同端的处理会有些许不同&#xff0c;下文会有所提及。 针对 PDF 预览 的文章不在少数&#xff0c;但似乎都没有提及可能遇到的问…

【Java-Crawler】SpringBoot集成WebMagic实现爬虫出现的问题集(一)

SpringBoot集成WebMagic实现爬虫出现的问题集&#xff08;一&#xff09; 一、SpringBoot集成WebMagic框架日志异常问题及解决方案二、使用 Firefox 驱动&#xff08;geckodriver&#xff09;三、设置WebMagic中site中的User-Agent&#xff08;避免反爬虫&#xff09; 一、Spri…

【网络编程】demo版TCP网络服务器实现

文章目录 一、引入二、服务端实现2.1 创建套接字socket2.2 绑定bind2.3 设置监听状态listen2.4 获取新链接accept2.5 获取信息与返回信息&#xff08;文件操作&#xff09; 三、客户端实现3.1 创建套接字socket3.2 绑定问题3.3 发起链接connect3.4 客户端并行3.4.1 多进程版3.4…

公网远程访问本地Jupyter Notebook服务

文章目录 前言视频教程1. Python环境安装2. Jupyter 安装3. 启动Jupyter Notebook4. 远程访问4.1 安装配置cpolar内网穿透4.2 创建隧道映射本地端口 5. 固定公网地址 转载自cpolar的文章&#xff1a;公网远程访问Jupyter Notebook【Cpolar内网穿透】 前言 Jupyter Notebook&am…

针对UDP协议的攻击与防御

一、UDP协议概述 UDP&#xff08;User Datagram Protocol&#xff0c;用户数据报协议&#xff09;是TCP/IP协议栈中的一种无连接的传输协议&#xff0c;能够提供面向事务的简单不可靠数据传输服务。 1&#xff0e;UDP的报文格式 UDP的报文格式如图1所示。 图1 UDP报文格式 …

怎么在pdf文件上添加水印

怎么在pdf文件上添加水印&#xff1f;PDF添加水印是一种十分实用的方式&#xff0c;可以大大提高PDF文档的安全性和防护能力。在实际操作中&#xff0c;我们可以根据具体需求在PDF文件的各个页面上添加水印。这样即使你的PDF文件被他人恶意盗用&#xff0c;也可以快速、准确地找…

堤防安全自动化监测系统

项目背景 我国河系众多&#xff0c;海岸线漫长&#xff0c;在江边、海边修筑修筑着几万公里的提防设施保卫着沿江、沿海居民的生命安全&#xff0c;也保卫着经济发展的累累硕果。近年来&#xff0c;政府加大了堤防建设改造力度&#xff0c;提高了部分堤段的防洪能力。同时&…

统信UOS系统开发笔记(一):国产统信UOS系统搭建开发环境之虚拟机安装

若该文为原创文章&#xff0c;转载请注明原文出处 本文章博客地址&#xff1a;https://hpzwl.blog.csdn.net/article/details/130876940 红胖子(红模仿)的博文大全&#xff1a;开发技术集合&#xff08;包含Qt实用技术、树莓派、三维、OpenCV、OpenGL、ffmpeg、OSG、单片机、软…

vue 弹窗实现方法

Vue实现弹窗的方法有很多种&#xff0c;这里给出一个简单的示例&#xff1a; 1. 首先&#xff0c;在Vue项目中创建一个名为Modal.vue的组件文件&#xff1a; html <template> <div class"modal-mask" v-show"visible" click.self"close"…

基于遗传算法和非线性规划的函数寻优算法(matlab实现)

以下内容大部分来源于《MATLAB智能算法30个案例分析》&#xff0c;仅为学习交流所用。 1 理论基础 1.1 非线性规划 非线性规划是20世纪50年代形成的一门新兴学科。1951年库恩和塔克发表的关于最优性条件(后来称为库恩塔克条件)的论文是非线性规划诞生的标志。非线性规划研究…

报表控件FastReport使用指南-在Ubuntu LTS中创建PDF文档

FastReport 是功能齐全的报表控件&#xff0c;可以帮助开发者可以快速并高效地为.NET&#xff0c;VCL&#xff0c;COM&#xff0c;ActiveX应用程序添加报表支持&#xff0c;由于其独特的编程原则&#xff0c;现在已经成为了Delphi平台最优秀的报表控件&#xff0c;支持将编程开…

如何避免Salesforce Apex代码中5个常见错误,提升开发技巧?

编码是一门需要严谨和谨慎的技术&#xff0c;即使是有经验的开发人员也会犯错。一些最常见的编程错误&#xff0c;可能会导致严重的后果。因此&#xff0c;作为一名开发人员&#xff0c;了解并避免这些错误是非常重要的。 本篇文章将为学习者介绍在编写Apex代码时一定要规避的…

Java核心锁基准测试

测试模型 基于JMH基准测试库 测试代码 package com.lsy.study.benchmark;import org.openjdk.jmh.annotations.*; import org.openjdk.jmh.results.format.ResultFormatType; import org.openjdk.jmh.runner.Runner; import org.openjdk.jmh.runner.options.Options; import…

《人工智能算法案例大全:基于Python》——实践AI算法,驭智创新之路

导语 随着人工智能&#xff08;AI&#xff09;技术的飞速发展&#xff0c;AI算法成为推动智能化进程的核心要素。而在这个领域中&#xff0c;一本名为《人工智能算法案例大全&#xff1a;基于Python》的书籍引起了广泛关注。本文将深入探讨这本书所呈现的丰富案例&#xff0c;…

Linux——网络套接字2|Tcp服务器编写

本篇博客先看后面的代码,再回来看上面这些内容。 .hpp文件,基本调用 服务器基本框架

Ubuntu下Docker部署Gitlab CI

1. ubuntu gitlab安装步骤 1.1 更新系统软件包列表&#xff1a; sudo apt update1.2 安装必要的依赖项&#xff1a; sudo apt install curl openssh-server ca-certificates tzdata perl1.3 下载并安装 GitLab 包&#xff1a; curl -LO https://packages.gitlab.com/instal…

Springboot2.5.x版本之自动创建(H2/DERBY/HSQL)数据源源码分析-yellowcong

场景&#xff1a;当我们没有配置mysql&#xff0c;postgresql等数据源的时候&#xff0c;pom.xml里面引入了H2/DERBY/HSQL jar包&#xff0c;也没有配置连接&#xff0c;却有数据源创建的情况。 springboot启动的第一步 1.DataSourceAutoConfiguration 配置类启动 2.DataSource…

DolphinScheduler远程启动任务

我本地有JAVA程序&#xff0c;需要调用DolphinScheduler的接口启动任务&#xff0c;动态去调用 1、DolphinScheduler的内容逻辑关系 先明确DolphinScheduler内部任务的逻辑关系 项目 |——工作流 |——任务&#xff08;节点&#xff09; 我起的是工作流&#xff0c;一个任务完…

Transformer仅有自注意力还不够?微软联合巴斯大学提出频域混合注意力SpectFormer

本文介绍一篇来自英国巴斯大学&#xff08;University of Bath&#xff09;与微软合作完成的工作&#xff0c;研究者从频率域角度入手探究视觉Transformer结构中的频域注意力和多头注意力在视觉任务中各自扮演的作用。 论文链接&#xff1a; https://arxiv.org/abs/2304.06446 …

为什么都说测试岗是巨坑,趁早跳出去?10年测试人告诉你千万别上当了...

每次都有人问我软件测试的前景是什么样的&#xff0c;每年也会有人很多人纷纷涌入测试的岗位上&#xff0c;希望自己能够进入阿里、华为等大厂。 但是测试岗位真的那么吃香吗&#xff1f;今天我结合从零基础小白到测试开发的成长经历&#xff0c;来说下这个行业的发展前景&…