如今,在数据湖三剑客(delta lake、hudi、iceberg)之上,又新出一派: apache paimon。我们恰好在工作中遇到,以下介绍在 dataworks 上,使用 maxcompute odps sql 创建 apache paimon 外部表的一些操作和注意事项。参考:创建MaxCompute Paimon外部表_云原生大数据计算服务 MaxCompute(MaxCompute)-阿里云帮助中心
1、前提条件
-
当前执行操作的账号已具备创建MaxCompute表(CreateTable)的权限。更多表权限信息,请参见MaxCompute权限。
-
已创建MaxCompute项目。具体操作,请参见创建MaxCompute项目。
-
已创建存储空间(Bucket)以及对应的文件目录。具体操作,请参见创建存储空间。
2、注意事项
-
当前MaxCompute仅支持对Paimon外部表的读取操作。要创建Paimon外部表,您可以使用阿里云实时计算Flink版或开源大数据平台E-MapReduce。
-
Paimon当前暂时不支持开启了Schema操作的MaxCompute项目。
-
Paimon外部表不支持cluster属性。
3、步骤
步骤一:在MaxCompute项目中上传Paimon插件
选择以下其中一种方式,在已创建的MaxCompute项目中上传Paimon插件。
方法一:在 dataworks 上创建
方法二:在 odpscmd 客户端创建
步骤二:通过Flink创建MaxCompute Paimon外部表
-
登录实时计算控制台,创建自定义Catalog类型。创建自定义Catalog类型操作详情,请参见创建自定义Catalog类型。
说明
创建自定义Catalog类型,需要上传Paimon自定义catalog插件。Paimon自定义catalog插件的下载链接,请参见下载链接。
-
在创建完自定义Catalog类型后,在自定义Catalog页签,单击刚创建好的自定义Catalog类型 paimon-06-1,然后单击下一步。
-
填写Catalog代码信息及参数值后,单击确定。
CREATE CATALOG `<catalog name>` WITH (
'type' = 'paimon-06-1',
'metastore' = 'maxcompute',
'warehouse' = '<warehouse>',
'fs.oss.endpoint' = '<oss endpoint>',
'fs.oss.accessKeyId' = '<oss access key id>',
'fs.oss.accessKeySecret' = '<oss access key secret>',
'maxcompute.endpoint' = '<maxcompute endpoint>',
'maxcompute.accessid' = '<maxcompute access id>',
'maxcompute.accesskey' = '<maxcompute access key>',
'maxcompute.project' = '<maxcompute project>',
'maxcompute.oss.endpoint' = '<maxcompute oss endpoint>'
);
4.创建Paimon外部表。
-
在云数据管理页面,选择paimon-06-1 > default,然后单击创建表,如下图所示。
-
在添加表对话框,选择Apache Paimon连接器,然后单击下一步。
-
执行以下语句,单击确定。本文以创建test_tbl为例。
CREATE TABLE `catalogname`.`default`.test_tbl ( dt STRING, id BIGINT, data STRING, PRIMARY KEY (dt, id) NOT ENFORCED ) PARTITIONED BY (dt);
-
在SQL 开发页面,创建包含如下语句的SQL作业,部署并运行作业。关于如何创建并运行SQL作业详情,请参见SQL作业开发。
INSERT INTO `catalogname`.`default`.test_tbl VALUES ('2023-04-21', 1, 'AAA'), ('2023-04-21', 2, 'BBB'), ('2023-04-22', 1, 'CCC'), ('2023-04-22', 2, 'DDD');
说明
-
请确认SQL作业的引擎版本为vvr-8.0.1-flink-1.17及以上版本。
-
若SQL作业有限流作业(例如执行
INSERT INTO ... VALUES ...
语句),需要在作业运维页面,编辑运行参数配置,在其他配置设置execution.checkpointing.checkpoints-after-tasks-finish.enabled: true
代码。关于如何配置作业的运行参数详情,请参见配置作业部署信息。
-
步骤三:通过MaxCompute读取Paimon外部表
-
通过使用本地客户端(odpscmd)连接或其他可以运行MaxCompute SQL的工具,执行以下命令。
SET odps.sql.common.table.planner.ext.hive.bridge = true; SET odps.sql.hive.compatible = true;
-
执行以下命令,查询MaxCompute Paimon外部表test_tbl。
SELECT * FROM test_tbl WHERE dt = '2024-02-21';
返回结果如下。
+------------+------------+------------+ | id | data | dt | +------------+------------+------------+ | 1 | AAABB | 2024-02-21 | | 2 | BBBCC | 2024-02-21 | +------------+------------+------------+