元数据管理的组成有几个部分:Metaservice(Gravitino)、Luoshu(amoro)、Hive Metastore,其中gravitino是数据管理模块实现元数据统一管理的核心。前面有提到hive metastore可以存储hive的库表元数据信息,可以用于存储关于hive表、列、分区等对象的信息,hive metastore通常使用关系型数据库比如mysql、postgreSQL,但是hive metastore本身没有任何治理能力,并且它的元数据模型完全是关系型的数据库模型,对于像Message、topic、文件这类半结构化、非结构化的数据基本是不匹配的。业界一直希望统一元数据,从而实现多产品间的一致体验:无论是数据开发、数据消费还是数据治理,所有用户都能基于一套元数据体系,可以在多个数据源和计算引擎之间建立联系,使用统一的服务来公开这些元数据。在这种情况下,Gravitino 非常有用。因为它提供了一个统一的元数据湖,标准化了数据目录操作,并统一了所有元数据管理和治理。它可以为多种数据源提供统一的元数据视图,管理不同来源、类型和区域的元数据,支持 Hive,Iceberg,MySQL,Fileset,Messaging 等类型的数据目录。
在数据管理中,采用gravitino来统一元数据视图,不再需要直接与hive metastore进行交互,进行更高效和统一的元数据管理。gravitino支持不同的目录来管理不同来源的元数据,包括iceberg、hive、mysql、kafka等。
“元数据湖”:在gravitino出现之前,业界还没有一个统一的“元数据湖”的组件,不同于数据湖,gravitino提出了“元数据湖”的概念,通过提供一个丰富的数据目录,Gravitino使得数据湖中的资源更加易于导航和理解。有个“元数据湖”之后,不再需要中心化地管理“数据”,而是中心化管理“元数据”。因为数据往往是难以汇集到一起的,而元数据更容易方便汇集到一起。
gravitino是什么:Gravitino 是一个高性能、地理分布、联合的元数据湖。它直接管理不同来源、类型和地区的元数据。它还为用户提供数据和 AI 资产的统一元数据访问。Gravitino 为用户提供了管理和治理元数据的 API,包括标准的元数据创建、更新和删除操作。同时,它还提供了以统一方式治理元数据的能力,包括访问控制、发现等。
同时gravitino支持多云上部署,不同云之间的gravitino可以进行数据共享, 在每一个gravitino节点上都可以管理底层异构数据源,包括数据湖和数据仓库、数据库的数据源等,核心特点包括:
1.在元数据意义上支持SSOT(单一可信数据源):确保不同体系之间数据都是相同,去除冗余数据
2.统一管理AI+Data元数据:对于AI和data都提供统一catalog去管理二者元数据
3.地理分布架构:支持数据不同物理分布,这样数据不需要搬迁到一个地方
4.统一安全管理:对数据统一权限管理等
5.多引擎支持:不仅支持数据引擎,如 Trino、spark、Apache Flink(开发中),还支持 AI/ML 框架,如 Tensorflow、PyTorch和
如下图:
概括言之,gravitino主要有两个作用:
(1)为多种数据源提供统一的元数据视图
(2)所有数据源进行统一权限管控。
gravitino的层级结构:
Metalake:元数据的顶层容器。通常一个组有一个metalake来管理其中所有的元数据。每个metalake对外暴露一个三级命名空间(catalog.schema.table)来组织数据。
catalog:catalog是来自特定元数据源的元数据的集合。每个目录都有一个相关的连接器来连接到特定的元数据源。在数据湖中,数据目录作为逻辑结构,可以组织、分类数据资产。
Schema:Schema 相当于数据库,Schema 仅存在于支持关系元数据源的特定目录中,例如 Apache Hive、MySQL、PostgreSQL 等。
Table表:支持关系元数据源的目录的对象层次结构中的最低级别。可以在目录中的特定架构中创建表。
Gravitino对外暴露 RESTful的 API接口,然后将用户的各种权限设置的请求,通过自身的逻辑以及模型的转换,通过插件透传给下游的各种不同的数据生态,从而达到让 Gravitino成为权限入口的效果。
用户可以使用三级坐标:catalog.schema.entity 来描述所有数据,并用于数据集成、联合查询等。
gravitino也提供了trino connector和spark connector,在 Trino 中配置 Gravitino connector后,Trino 可以自动从 Gravitino 加载目录元数据,让用户在 Trino 中直接访问这些目录。与 Gravitino 集成后,Trino 可以操作所有 Gravitino 数据,而无需额外配置。
用gravitino创建目录的实例:
// Assuming you have just created a metalake named `metalake`
GravitinoClient gravitinoClient = GravitinoClient
.builder("http://127.0.0.1:8090")
.withMetalake("metalake")
.build();
Map<String, String> hiveProperties = ImmutableMap.<String, String>builder()
// You should replace the following with your own hive metastore uris that Gravitino can access
.put("metastore.uris", "thrift://localhost:9083")
.build();
Catalog catalog = gravitinoClient.createCatalog(
NameIdentifier.of("metalake", "catalog"),
Type.RELATIONAL,
"hive", // provider, We support hive, jdbc-mysql, jdbc-postgresql, lakehouse-iceberg, etc.
"This is a hive catalog",
hiveProperties); // Please change the properties according to the value of the provider.
// ...