元数据管理gravitino学习

news2024/11/30 0:38:24

元数据管理的组成有几个部分:Metaservice(Gravitino)、Luoshu(amoro)、Hive Metastore,其中gravitino是数据管理模块实现元数据统一管理的核心。前面有提到hive metastore可以存储hive的库表元数据信息,可以用于存储关于hive表、列、分区等对象的信息,hive metastore通常使用关系型数据库比如mysql、postgreSQL,但是hive metastore本身没有任何治理能力,并且它的元数据模型完全是关系型的数据库模型,对于像Message、topic、文件这类半结构化、非结构化的数据基本是不匹配的。业界一直希望统一元数据,从而实现多产品间的一致体验:无论是数据开发、数据消费还是数据治理,所有用户都能基于一套元数据体系,可以在多个数据源和计算引擎之间建立联系,使用统一的服务来公开这些元数据。在这种情况下,Gravitino 非常有用。因为它提供了一个统一的元数据湖,标准化了数据目录操作,并统一了所有元数据管理和治理。它可以为多种数据源提供统一的元数据视图,管理不同来源、类型和区域的元数据,支持 Hive,Iceberg,MySQL,Fileset,Messaging 等类型的数据目录。

在数据管理中,采用gravitino来统一元数据视图,不再需要直接与hive metastore进行交互,进行更高效和统一的元数据管理。gravitino支持不同的目录来管理不同来源的元数据,包括iceberg、hive、mysql、kafka等。

“元数据湖”:在gravitino出现之前,业界还没有一个统一的“元数据湖”的组件,不同于数据湖,gravitino提出了“元数据湖”的概念,通过提供一个丰富的数据目录,Gravitino使得数据湖中的资源更加易于导航和理解。有个“元数据湖”之后,不再需要中心化地管理“数据”,而是中心化管理“元数据”。因为数据往往是难以汇集到一起的,而元数据更容易方便汇集到一起。

gravitino是什么:Gravitino 是一个高性能、地理分布、联合的元数据湖。它直接管理不同来源、类型和地区的元数据。它还为用户提供数据和 AI 资产的统一元数据访问。Gravitino 为用户提供了管理和治理元数据的 API,包括标准的元数据创建、更新和删除操作。同时,它还提供了以统一方式治理元数据的能力,包括访问控制、发现等。

同时gravitino支持多云上部署,不同云之间的gravitino可以进行数据共享, 在每一个gravitino节点上都可以管理底层异构数据源,包括数据湖和数据仓库、数据库的数据源等,核心特点包括:

1.在元数据意义上支持SSOT(单一可信数据源):确保不同体系之间数据都是相同,去除冗余数据

2.统一管理AI+Data元数据:对于AI和data都提供统一catalog去管理二者元数据

3.地理分布架构:支持数据不同物理分布,这样数据不需要搬迁到一个地方

4.统一安全管理:对数据统一权限管理等

5.多引擎支持:不仅支持数据引擎,如 Trino、spark、Apache Flink(开发中),还支持 AI/ML 框架,如 Tensorflow、PyTorch和

如下图:
在这里插入图片描述
概括言之,gravitino主要有两个作用:

(1)为多种数据源提供统一的元数据视图

(2)所有数据源进行统一权限管控。

gravitino的层级结构:
在这里插入图片描述

Metalake:元数据的顶层容器。通常一个组有一个metalake来管理其中所有的元数据。每个metalake对外暴露一个三级命名空间(catalog.schema.table)来组织数据。

catalog:catalog是来自特定元数据源的元数据的集合。每个目录都有一个相关的连接器来连接到特定的元数据源。在数据湖中,数据目录作为逻辑结构,可以组织、分类数据资产。

Schema:Schema 相当于数据库,Schema 仅存在于支持关系元数据源的特定目录中,例如 Apache Hive、MySQL、PostgreSQL 等。

Table表:支持关系元数据源的目录的对象层次结构中的最低级别。可以在目录中的特定架构中创建表。

Gravitino对外暴露 RESTful的 API接口,然后将用户的各种权限设置的请求,通过自身的逻辑以及模型的转换,通过插件透传给下游的各种不同的数据生态,从而达到让 Gravitino成为权限入口的效果。

用户可以使用三级坐标:catalog.schema.entity 来描述所有数据,并用于数据集成、联合查询等。

gravitino也提供了trino connector和spark connector,在 Trino 中配置 Gravitino connector后,Trino 可以自动从 Gravitino 加载目录元数据,让用户在 Trino 中直接访问这些目录。与 Gravitino 集成后,Trino 可以操作所有 Gravitino 数据,而无需额外配置。

用gravitino创建目录的实例:

// Assuming you have just created a metalake named `metalake`
GravitinoClient gravitinoClient = GravitinoClient
    .builder("http://127.0.0.1:8090")
    .withMetalake("metalake")
    .build();

Map<String, String> hiveProperties = ImmutableMap.<String, String>builder()
        // You should replace the following with your own hive metastore uris that Gravitino can access
        .put("metastore.uris", "thrift://localhost:9083")
        .build();

Catalog catalog = gravitinoClient.createCatalog(
    NameIdentifier.of("metalake", "catalog"),
    Type.RELATIONAL,
    "hive", // provider, We support hive, jdbc-mysql, jdbc-postgresql, lakehouse-iceberg, etc.
    "This is a hive catalog",
    hiveProperties); // Please change the properties according to the value of the provider.
// ...

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2059796.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

19 自定义类型:结构体、联合体、枚举

目录 一、结构体 &#xff08;一&#xff09;结构体类型的定义 &#xff08;二&#xff09;结构体变量的创建和初始化 1、结构体变量的创建 &#xff08;1&#xff09;定义完结构体后再创建变量 &#xff08;2&#xff09;在定义结构体的同时创建变量 &#xff08;3&…

代码随想录算法day19 | 回溯算法part01 | 77. 组合,216.组合总和III,17.电话号码的字母组合

第77题. 组合 对着 在 回溯算法理论基础 给出的 代码模板&#xff0c;来做本题组合问题&#xff0c;大家就会发现 写回溯算法套路。 力扣题目链接(opens new window) 给定两个整数 n 和 k&#xff0c;返回 1 ... n 中所有可能的 k 个数的组合。 示例: 输入: n 4, k 2 输出: […

使用Xshell6远程登录Linux 服务器--远程上传下载文件Xftp6的使用

&#x1f600;前言 本篇博文是关于Linux 实操篇-使用Xshell6远程登录Linux 服务器–远程上传下载文件Xftp6的使用&#xff0c;希望你能够喜欢 &#x1f3e0;个人主页&#xff1a;晨犀主页 &#x1f9d1;个人简介&#xff1a;大家好&#xff0c;我是晨犀&#xff0c;希望我的文章…

“跨越国界,共赢未来:跨境联盟营销的策略与实践

全球化背景下跨境联盟营销的市场有很多机遇&#xff0c;随着全球化的深入发展&#xff0c;跨境电商市场不断扩大&#xff0c;为企业提供了广阔的市场空间。跨境联盟营销可以借助全球化的趋势&#xff0c;实现品牌国际化和市场拓展。随着大数据、人工智能、区块链等技术的不断发…

16款热门WMS 智能仓储管理系统盘点,助力企业数字化转型!

你是否想过&#xff0c;一个企业的仓库就如同其心脏般重要&#xff1f;而 WMS 智能仓储管理系统正是确保这颗 “心脏” 高效跳动的关键。它不仅能精准管理库存&#xff0c;实现货物的快速出入库&#xff0c;还能优化库位分配&#xff0c;提高仓库空间利用率。通过实时的数据监控…

【Linux】冯诺依曼体系|操作系统概念

目录 一、冯诺依曼体系结构 注意事项 存储器的意义&#xff1a;缓冲 数据流动事例 二、操作系统 操作系统的概念 操作系统的定位与目的 操作系统的管理 系统调用和库函数概念 一、冯诺依曼体系结构 冯诺依曼架构&#xff08;von Neumann architecture&#xff09;是一…

算法全面剖析

算法 查找算法&#xff1a; 顺序查找&#xff1a; 基本思想&#xff1a; 顺序查找也称为线形查找&#xff0c;属于无序查找算法。从数据结构线形表的一端开始&#xff0c;顺序扫描&#xff0c;依次将扫描到的结点关键字与给定值k相比较&#xff0c;若相等则表示查找成功&am…

2024年全新基于Java爬取微博数据(完整版)

2024年全新基于Java爬取微博数据(完整版) 爬虫背景爬虫分析爬取微博主页正文列表数据引入jar包编写代码关于微博 Cookie处理文本的正则微博正文长文本补全什么是正文长文本获取正文长文本编写代码导出微博数据到Excel引入jar包编写代码突来的疑问微博正文内容分析转存 图片 o…

继电器介绍及qt操作继电器实战

一.继电器基础介绍 32路继电器通常用于自动化控制系统中&#xff0c;能够同时控制多达32个不同的电气设备。以下是对32路继电器的一些详细介绍&#xff1a; 1. 基本概念 继电器&#xff1a;一种电气控制装置&#xff0c;当输入信号&#xff08;通常是电流或电压&#xff09;…

浏览器请求无缝导入apifox(无需客户端,在线使用)方法

不用下载客户端浏览器在线模拟请求&#xff0c;方便快捷&#xff01; 废话不多少&#xff0c;只需三步&#xff0c;往下看&#xff01; 一步&#xff1a; 打开F12 -> 网络 -> 找到你要模拟的请求&#xff0c;右键以cURL格式复制 二步&#xff1a; Apifox 访问Apifox的w…

“浙里办”统一用户组件-接入 基于单点登录票据换取请求 token

基于单点登录票据换取请求 token 1. 请求地址 政务外网地址: https://bcdsg.zj.gov.cn:8443/restapi/prod/IC33000020220329000007/ uc/sso/access_token 互联网地址: https://ibcdsg.zj.gov.cn:8443/restapi/prod/IC33000020220329000007 /uc/sso/access_token 2. 入参…

AFSim 仿真系统----集成指南

引言 本文档描述了将新功能扩展和集成到 AFSIM 中的有限方法。允许并描述多种方法&#xff0c;以及在 AFSIM 社区标准和指南中引入集成作为可共享资源的要求。 概述 核心可执行文件 基于 AFSIM 的可执行文件通常由单个 AFSIM “应用程序” 组成。该应用程序维护脚本类型、扩…

Linux rocky 9.2 安装mysql-8.0.39-linux-glibc2.28-x86_64.tar.xz

数据库官方下载&#xff1a;MySQL :: Download MySQL Community Server 本文也绑定该资源包&#xff0c;免费提供下载学习。 1.系统版本 2.新建目录&#xff0c;存放数据库安装包&#xff0c;并且上传 需要用到的工具&#xff1a;yum -y install vim lrzsz tar 上传解压&…

SAP EWM 包装

目录 1 简介 2 业务流程 3 主数据 4 后台配置 1 简介 SAP S4 HANA 里 EWM 包装功能使用 PS&#xff08;packaging specification&#xff09;代替原有的包装功能 PM&#xff08;packaging management&#xff09;, PI&#xff08;packaging instruction&#xff09;。PS 生…

UNiapp之微信小程序导出Excel

效果如下 参考小程序&#xff1a;日常记一记 ---账单页面 主要功能是根据筛选条件导出账单明细列表&#xff0c;实现该功能主要借助一个工具(excel.js)&#xff0c;可在文章顶部下载或者一下网盘下载 https://pan.baidu.com/s/1RLisuG4_7FGD0Cnwewyabg?pwdpd2a 提取码: pd2a…

C# 判断

|判断结构要求程序员指定一个或多个要评估或测试的条件&#xff0c;以及条件为真时要执行的语句&#xff08;必需的&#xff09;和条件为假时要执行的语句&#xff08;可选的&#xff09;| | |-------------------------------------------------------------|–| | | | 下面是…

HormonyOS踩坑JSON.stringfy

前两天发现一个问题 就是一个值 用as string就可以打印出来 用JSON.stringfy()就不行 百思不得其解 想破了脑袋&#xff01;&#xff01;&#xff01;终于被我发现了 原因就在于上边那个包&#xff01;&#xff01;&#xff01;&#xff01;把那个包删除了就好了&#xff…

勇闯机器学习(第二关-数据集使用)

以下内容&#xff0c;皆为原创&#xff0c;重在无私分享高质量知识&#xff0c;制作实属不易&#xff0c;请点点关注。 好戏开场了~~~(这关涉及到了加载数据集的代码&#xff0c;下一关&#xff0c;教你们安装机器学习库) 一.数据集 这一关的目标 知道数据集被分为训练集和测…

一款搭载远翔FP5207芯片的大功率音箱,蓝牙音箱的组成和拆解展示

一款搭载远翔FP5207芯片的大功率音箱&#xff0c;蓝牙音箱的组成和拆解展示&#xff1a; 它主要以电池、功放、蓝牙、外壳结构组成。音箱放电需内置升压芯片FP5207或5217进行电池升压给功放供电。 为同时满足便携性需求并提供足够的功率&#xff0c;音箱通常配备了12V铅酸电池…

MySQL中的DML操作()

一、添加数据(INSERT) 1.1 选择插入 INSERT INTO 表名(列名 1 &#xff0c;列名 2 &#xff0c;列名 3.....) VALUES(值 1 &#xff0c;值 2 &#xff0c;值 3......); 1.2 默认值处理(DEFAULT) 在 MySQL 中可以使用 DEFAULT 为列设定一个默认值。如果在插入数据时并未指定该…