元数据管理-解决方案调研三:元数据管理解决方案——开源解决方案

news2025/1/21 6:30:08

开源解决方案

3.1、Apache Atlas

Atlas 是一组可扩展和可扩展的核心基础治理服务——使企业能够有效和高效地满足其在 Hadoop 中的合规性要求,并允许与整个企业数据生态系统集成。
Apache Atlas 为组织提供开放的元数据管理和治理功能,以构建其数据资产的目录,对这些资产进行分类和治理,并为数据科学家、分析师和数据治理团队提供围绕这些数据资产的协作功能。
地址:https://atlas.apache.org
特点:
1、元数据类型和实例
1.1、各种 Hadoop 和非 Hadoop 元数据的预定义类型
1.2、能够为要管理的元数据定义新类型
1.3、类型可以有原始属性、复杂属性、对象引用;可以从其他类型继承
1.4、类型的实例,称为实体,捕获元数据对象详细信息及其关系
1.5、用于处理类型和实例的 REST API 允许更轻松的集成
2、分类
2.1、能够动态创建分类 - 如 PII、EXPIRES_ON、DATA_QUALITY、SENSITIVE
2.2、分类可以包括属性 - 如 EXPIRES_ON 分类中的 expiry_date 属性
2.3、实体可以与多个分类相关联,从而更容易发现和安全实施
2.4、通过谱系传播分类 - 自动确保分类在数据经过各种处理时跟随数据
3、血缘
3.1、直观的 UI 可在数据通过各种流程时查看数据的血缘
3.2、用于访问和更新谱系的 REST API
4、搜索/发现
4.1、直观的 UI,可按类型、分类、属性值或自由文本搜索实体
4.2、丰富的 REST API 可按复杂条件进行搜索
4.3、用于搜索实体的 SQL 之类的查询语言 - 领域特定语言 (DSL)
5、安全和数据屏蔽
5.1、元数据访问的细粒度安全性,支持对实体实例的访问和添加/更新/删除分类等操作的控制
5.2、与 Apache Ranger 的集成支持基于与 Apache Atlas 中实体关联的分类对数据访问进行授权/数据屏蔽。例如:谁可以访问归类为 PII、敏感的数据。客户服务用户只能看到归类为 NATIONAL_ID 的列的最后 4 位数字

3.2、Datahub

Datahub也是业界比较熟悉的一款工具, 支持数据发现、数据可观察性和联合治理。其特点:
1、开源
2、庞大的生态系统:DataHub 已集成Kafka、Airflow、MySQL、SQL Server、Postgres、LDAP、Snowflake、Hive、BigQuery 等等。
3、DataHub 遵循基于推送的架构,这意味着它是为不断变化的元数据而构建的。模块化设计使其能够随着任何组织的数据增长而扩展。
地址:A Metadata Platform for the Modern Data Stack | DataHub

3.3、Amundsen

Amundsen是一款开源数据发现和元数据引擎。其特点如下:
1、发现数据:通过简单的文本搜索搜索数据。受PageRank 启发的搜索算法会根据表格/仪表板上的名称、描述、标签和查询/查看活动推荐结果
2、查看自动化和精选的元数据:使用自动化和精选的元数据建立对数据的信任——表和列的描述、其他常用用户、表上次更新时间、统计信息、数据预览(如果允许)等。 通过链接 ETL 作业和生成的代码轻松分类数据。
3、协作:通过描述更新表和列,关于使用哪个表和列以及包含什么的问题,减少不必要沟通。
4、共享:查看同事经常使用、拥有或添加书签的数据。通过查看在给定表上构建的仪表板,了解最常见的表查询是什么样的。
地址:Amundsen, the leading open source data catalog

4、Lake Discovery

4.1、Databricks Unity Catalog
Unity Catalog 是由Databricks开发的一款统一目录数据和人工智能的细粒度治理工具,可与您现有的目录、数据和存储系统配合使用,因此您可以利用现有投资并构建面向未来的治理模型。例如,它允许您在 Apache Hive Metastores 或 Amazon S3 中挂载现有数据,并跨高级安全解决方案(如 Immuta 或 Privacera)管理策略,同时使用 ANSI SQL DCL 管理权限,所有这些都集中在一处。
其特点如下:
1、Unity Catalog UI 让您可以轻松地在一处地方发现、审核和管理数据资产。数据血缘、基于角色的安全策略、表或列级标签以及中央审计功能使数据管理员可以轻松自信地管理和保护数据访问,直接在 Lakehouse 上满足合规性和隐私需求。

2、Unity Catalog 通过开放标准 ANSI SQL DCL 为跨云的数据资产带来细粒度的集中治理。这意味着数据库管理员可以使用熟悉的 SQL 轻松地授予对任意、特定于用户的视图的权限,或对标记在一起的所有列设置权限

3、每个组织都需要与客户、合作伙伴和供应商共享数据,以更好地协作并从他们的数据中释放价值。 Unity Catalog 建立在开源 Delta Sharing 之上,以集中管理和治理组织内部和组织之间的共享资产。

地址:Unity Catalog - Databricks 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/26341.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

没有公网IP,怎么远程访问ERP/NAS?

当前,国内疫情形势不容乐观,企业的经营发展再一次面临巨大挑战。虽然“远程办公”早已不是新鲜词,但依然有大量企业没有做好随时切换到远程办公的准备。如遇疫情风险,企业运营很容易陷入瘫痪。 企业一般在内网部署服务器、视频监…

2分钟看懂OA与ERP

ERP (Enterprise Resource Planning)即企业资源计划,最早是一种供应链的管理思想。它汇合了商贸代理行业的各项特点,旨在协调企业各管理部门围绕市场导向,更加灵活或柔性地开展业务活动,实时地响应市场需求。 从功能来看&#xf…

AVL树左旋转算法思路与图解

AVL树左旋转算法思路与图解 对于数列{4, 3, 6, 5, 7, 8}, 当我们插入8的时候, rightHeight() - leftHeight() > 1成立(也就是当前AVL树中的根节点的BF(平衡因子)> 1了), 此时这个AVL树已经不再是平衡的了, 也就是已经不是一个AVL树了, 所以我们要经过处理之后让其重新平…

【C】输入一行字符,分别统计出其中英文字母、数字、空格和其他字符的个数

C语言没有字符串形式&#xff0c;所以可以用 char[] 数组来代替&#xff0c;但需要指定分配空间&#xff0c;所以可以采用单字符读取的形式&#xff1a; #include<stdio.h> int main(){char ch;int space0,number0,character0,other0;chgetchar(); …

WSO2安装使用的全过程详解

WSO2安装使用的全过程详解1. Install1.1 Docker Install 1.2 Uninstall2. User Guide3. Big Data -- Postgres4. Awakening1. Install 1.1 Docker Install 显示镜像 docker images/docker image ls拉去镜像/版本 docker pull wso2/wso2am 1.2 Uninstall 查看正在运行的容器 d…

流体动力润滑(轴承油膜承载机理)

目录 1.流体动力润滑 2.流体动力润滑的应用&#xff1a;楔形效应承载机理 3.承载量的计算 4.轴承动压油膜 1.流体动力润滑 定义&#xff1a;两个相对运动物体的摩擦表面&#xff0c;用于借助相对速度而产生的黏性流体膜将两摩擦面完全隔离开&#xff0c;由流体膜产生的压力…

那些下载不了的视频,Python只用1行代码就能直接下载

前言 现在有很多网站都并不支持直接下载的&#xff0c;例如我们常去的B站里面的视频&#xff0c;在页面是没有下载按钮的&#xff0c;还有的视频需要我们下载客户端才能下载…虽然这并不能拦住多少人&#xff0c;有些聪明的小伙伴就会去下载一些第三方软件去下载&#xff0c;比…

apache-atlas-hbase-bridge-源码分析

元数据类型 Hbase元数据类型, 包括命令空间、表、列族、列 public enum HBaseDataTypes {// ClassesHBASE_NAMESPACE,HBASE_TABLE,HBASE_COLUMN_FAMILY,HBASE_COLUMN;public String getName() {return name().toLowerCase();} }Hbase元数据采集实现 1&#xff09;批量采集HBa…

MyBatis基于XML的使用——缓存

1、介绍 MyBatis 内置了一个强大的事务性查询缓存机制&#xff0c;它可以非常方便地 配置和定制。 为了使它更加强大而且易于配置&#xff0c;我们对 MyBatis 3 中的缓存实现进行了许多改进。 默认情况下&#xff0c;只启用了本地的会话缓存&#xff0c;它仅仅对一个会话中的数…

【Java】异常处理

异常本质上是程序上的错误&#xff0c;包括程序逻辑错误和系统错误。比如使用空的引用、数组下标越界、内存溢出错误等. 错误在我们编写程序的过程中会经常发生&#xff0c;包括编译期间和运行期间的错误&#xff0c;在编译期间出现的错误有编译器帮助我们一起修正&#xff0c;…

使用java代码向mysql数据库插入100万条数据

使用java代码向mysql数据库插入100万条数据 使用springboot集成Mysql数据库&#xff0c;并使用java代码循环向msql数据库插入100万条数据&#xff0c;并测试插入时间 目录结构使用java代码向mysql数据库插入100万条数据一、使用工具二、项目结构图创建springboot项目启动类创建…

高并发-防止雪崩与穿透

一、DB查询前加锁 /** * 本地堆内缓存&#xff0c;优先级最高 */ ON_HEAP(1), /** * 本地堆外缓存&#xff0c;不影响GC&#xff0c;可以管理比堆内缓存更多的数据 * 数据get/set涉及序列化&#xff0c;性能次于本地堆内缓存 */ OFF_HE…

手撕红黑树

目录 一、概念 二、红黑树的插入操作 第一步: 按照二叉搜索树的规则插入新节点 第二步: 插入后检测性质是否造到破坏&#xff0c;若遭到破坏则进行调整 情况一: cur为红&#xff0c;parent为红&#xff0c;grandfather为黑&#xff0c;uncle存在且为红 情况二: cur为红&a…

JLink 添加新设备用于下载/调试固件

新驱动的安装目录结构如下&#xff1a; 可以看出新版本的 JLink 驱动中已经没有 Devices 目录和 JLinkDevices.xml 文件了&#xff0c;即旧的方法已经不能在新的驱动中使用了。 如果需要继续使用旧的方式添加新设备&#xff0c;则需要下载 JLink_V770d 之前的版本。 在新驱动…

若依框架解读(微服务版)—— 4.认证,登出(Gateway网关)

认证 我们可以查看token值 我们进入授权中心&#xff0c;这里其他的解析解析token的步骤与上一篇文章中的生成token是逆操作&#xff0c;也比较简单。我们进入ignoreWhite.getWhites()方法 此处的两个注解是获取nacos当中的白名单&#xff0c;我们打开nacos&#xff0c;进入网关…

Shell程序退出状态码的命令详解

在本篇文章当中主要给大家介绍了一些常见的程序退出的状态码&#xff01;并且给出一下例子帮助大家仔细理解&#xff0c;并且使用C语言和python语言实现获取子进程退出时候的退出状态码。 程序退出状态码 前言 在本篇文章当中主要给大家介绍一个shell的小知识——状态码。这是…

Object.defineProperty用法

Object.defineProperty() 定义新属性和修改原有的属性 Object.defineProperty( obj&#xff0c;prop,descriptor) 翻译&#xff1a;对象.定义属性&#xff08;对象&#xff0c;属性名必须是字符写法&#xff0c;{ value:所有 }&#xff09; 创建一个对象&#xff1a; var o…

OSI七层参考模型和TCP/IP四层(五层)参考模型

OSI七层参考模型 OSI&#xff08;OSI&#xff0c;Open System Interconnection&#xff09;七层模型&#xff0c;是参考模型是国际标准化组织&#xff08;ISO&#xff09;制定的一个用于计算机或通信系统间互联的标准体系。它是一个七层的、抽象的模型体&#xff0c;不仅…

泰勒展开式

泰勒展开式 文章目录泰勒展开式简介定义近似举例推导理解参考简介 泰勒公式&#xff0c;也称泰勒展开式&#xff0c;可以用来在局部范围内近似复杂函数。 通俗的讲&#xff1a; 设有一个复杂的未知函数f(x)f(x)f(x)&#xff0c;我们想要知道它在某个范围[a,b][a,b][a,b]内的值…

抽象工厂模式

思考抽象工厂模式 抽象工厂专注于产品簇的实现&#xff0c;主要是那些有关联关系的&#xff0c;如果只有一个产品的话就退化成了工厂方法模式 1.抽象工厂模式的本质 抽象工厂模式的本质:选择产品簇的实现。 产品簇&#xff08;Product family&#xff09;指具有相同或相似的功能…