【大数据】-- 创建 Paimon 外部表

news2024/10/6 13:19:32

       如今,在数据湖三剑客(delta lake、hudi、iceberg)之上,又新出一派: apache paimon。我们恰好在工作中遇到,以下介绍在 dataworks 上,使用 maxcompute odps sql 创建 apache paimon 外部表的一些操作和注意事项。参考:创建MaxCompute Paimon外部表_云原生大数据计算服务 MaxCompute(MaxCompute)-阿里云帮助中心

1、前提条件

  • 当前执行操作的账号已具备创建MaxCompute表(CreateTable)的权限。更多表权限信息,请参见MaxCompute权限。

  • 已创建MaxCompute项目。具体操作,请参见创建MaxCompute项目。

  • 已创建存储空间(Bucket)以及对应的文件目录。具体操作,请参见创建存储空间。

2、注意事项

  • 当前MaxCompute仅支持对Paimon外部表的读取操作。要创建Paimon外部表,您可以使用阿里云实时计算Flink版或开源大数据平台E-MapReduce。

  • Paimon当前暂时不支持开启了Schema操作的MaxCompute项目。

  • Paimon外部表不支持cluster属性。

3、步骤

步骤一:在MaxCompute项目中上传Paimon插件

选择以下其中一种方式,在已创建的MaxCompute项目中上传Paimon插件。

方法一:在 dataworks 上创建

方法二:在 odpscmd 客户端创建

步骤二:通过Flink创建MaxCompute Paimon外部表

  1. 登录实时计算控制台,创建自定义Catalog类型。创建自定义Catalog类型操作详情,请参见创建自定义Catalog类型。

    说明

    创建自定义Catalog类型,需要上传Paimon自定义catalog插件。Paimon自定义catalog插件的下载链接,请参见下载链接。

  2. 在创建完自定义Catalog类型后,在自定义Catalog页签,单击刚创建好的自定义Catalog类型 paimon-06-1,然后单击下一步

  3. 填写Catalog代码信息及参数值后,单击确定

CREATE CATALOG `<catalog name>` WITH (
  'type' = 'paimon-06-1',
  'metastore' = 'maxcompute',
  'warehouse' = '<warehouse>',
  'fs.oss.endpoint' = '<oss endpoint>',
  'fs.oss.accessKeyId' = '<oss access key id>',
  'fs.oss.accessKeySecret' = '<oss access key secret>',
  'maxcompute.endpoint' = '<maxcompute endpoint>',
  'maxcompute.accessid' = '<maxcompute access id>',
  'maxcompute.accesskey' = '<maxcompute access key>',
  'maxcompute.project' = '<maxcompute project>',
  'maxcompute.oss.endpoint' = '<maxcompute oss endpoint>'
);

4.创建Paimon外部表。

  1. 云数据管理页面,选择paimon-06-1 > default,然后单击创建表,如下图所示。

    image.png

  2. 添加表对话框,选择Apache Paimon连接器,然后单击下一步

  3. 执行以下语句,单击确定。本文以创建test_tbl为例。

    CREATE TABLE `catalogname`.`default`.test_tbl (
        dt STRING,
        id BIGINT,
        data STRING,
        PRIMARY KEY (dt, id) NOT ENFORCED
    ) PARTITIONED BY (dt);
  4. SQL 开发页面,创建包含如下语句的SQL作业,部署并运行作业。关于如何创建并运行SQL作业详情,请参见SQL作业开发。

    INSERT INTO `catalogname`.`default`.test_tbl VALUES ('2023-04-21', 1, 'AAA'), ('2023-04-21', 2, 'BBB'), ('2023-04-22', 1, 'CCC'), ('2023-04-22', 2, 'DDD');

    说明

    • 请确认SQL作业的引擎版本为vvr-8.0.1-flink-1.17及以上版本。

    • 若SQL作业有限流作业(例如执行INSERT INTO ... VALUES ...语句),需要在作业运维页面,编辑运行参数配置,在其他配置设置execution.checkpointing.checkpoints-after-tasks-finish.enabled: true代码。关于如何配置作业的运行参数详情,请参见配置作业部署信息。

步骤三:通过MaxCompute读取Paimon外部表

  1. 通过使用本地客户端(odpscmd)连接或其他可以运行MaxCompute SQL的工具,执行以下命令。

    SET odps.sql.common.table.planner.ext.hive.bridge = true;
    SET odps.sql.hive.compatible = true;
  2. 执行以下命令,查询MaxCompute Paimon外部表test_tbl。

    SELECT * FROM test_tbl WHERE dt = '2024-02-21';

    返回结果如下。

    +------------+------------+------------+
    | id         | data       | dt         |
    +------------+------------+------------+
    | 1          | AAABB        | 2024-02-21 |
    | 2          | BBBCC        | 2024-02-21 |
    +------------+------------+------------+

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1493703.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

不可不知!AI大模型的力量超乎你的想象!

AI大模型是通过深度学习算法和人工神经网络训练出的具有庞大规模参数的人工智能模型。这些模型使用大量的多媒体数据资源作为输入&#xff0c;并通过复杂的数学运算和优化算法来完成大规模的训练&#xff0c;以学习和理解到输入数据的模式和特征。 想象一下&#xff0c;在一个…

【C++】string 类

1. 标准库中的string类 注意&#xff1a; 1. string是表示字符串的字符串类 2. 该类的接口与常规容器的接口基本相同&#xff0c;再添加了一些专门用来操作string的常规操作。 比特就业课 3. string在底层实际是&#xff1a;basic_string模板类的别名&#xff0c;typedef b…

知识图谱与LLMs:微调 VS RAG、LLM的局限性以及如何克服

原文地址&#xff1a;Knowledge Graphs & LLMs: Fine-Tuning Vs. Retrieval-Augmented Generation 2023 年 6 月 6 日 GitHub&#xff1a;https://github.com/neo4j/NaLLM 大型语言模型 (LLM) 的第一波炒作来自 ChatGPT 和类似的基于网络的聊天机器人&#xff0c;相信在…

国货当自强,亿道3款手持新品同步上市

深圳市亿道信息股份有限公司是国内知名的加固型移动计算机提供商&#xff0c;同时也是国内较大的行业定制及终端产品方案公司之一。 过去我们一直专注于平板电脑集成RFID射频识别、电子标签技术的研发生产与销售&#xff0c;以成熟的平板电脑制造技术&#xff0c;为客户提供RF…

重学SpringBoot3-日志Logging

重学SpringBoot3-日志Logging 引言默认日志配置日志门面如何实现默认配置 自定义日志配置日志级别日志分组日志格式日志输出自定义 Logback 配置切换日志框架 日志使用方式一&#xff1a;LoggerFactory 获取Logger对象方式二&#xff1a;引入 lombok 总结 引言 日志记录是任何…

记录一则 线上域名证书更新及cdn证书更新

本篇为阿里云免费证书更新记录。 登录阿里云账号 搜索数字证书管理服务管理控制台 点击创建证书 输入你的域名 填写相关信息&#xff08;注&#xff1a;域名验证方式选择文件验证&#xff09; 等待审核通过&#xff08;时间不久&#xff0c;一般为半小时内&#xff09; …

RabbitMQ(三):AMQP协议

目录 1 AMQP协议1.1 AMQP协议介绍1、AMQP是什么2、消息代理中间件的职责 1.2 AMQP 0-9-1模型1、AMQP的工作过程2、交换器和交换器类型3、队列队列属性队列名称队列持久化 1.3 几个概念1、绑定2、消费者3、消息确认4、预取消息5、消息属性和有效载荷&#xff08;消息主体&#x…

leetcode 经典题目42.接雨水

链接&#xff1a;https://leetcode.cn/problems/trapping-rain-water 题目描述 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图&#xff0c;计算按此排列的柱子&#xff0c;下雨之后能接多少雨水。 思路分析 首先&#xff0c;我们需要遍历数组&#xff0c;对于每个元素&am…

探秘C语言:如何轻松求解正整数公因子个数?

本篇博客会讲解力扣“2427. 公因子的数目”的解题思路&#xff0c;这是题目链接。 本题的思路是&#xff1a; 由于a和b公因子的个数就是a和b的最大公约数的因子的个数&#xff0c;所以我们需要思考以下2个问题&#xff1a; 如何求解最大公约数&#xff1f;如何求解正整数的因…

性能测试总结 —— 基础理论篇!

随着软件行业的快速发展&#xff0c;现代的软件系统越来越复杂&#xff0c;功能越来越多&#xff0c;测试人员除了需要保证基本的功能测试质量&#xff0c;性能也随越来越受到人们的关注。但是一提到性能测试&#xff0c;很多人就直接连想到Loadrunner。认为LR就等于性能测试&a…

事件流、事件捕获、事件冒泡、事件委托

一、事件流 事件流指的是事件完整执行过程中的流动路径&#xff0c;分为捕获阶段、冒泡阶段。如上图 二、事件捕获 当一个元素的事件被触发时&#xff0c;会从DOM的根元素开始&#xff0c;依次调用同名事件&#xff08;从外到里&#xff0c;从父到子&#xff09;。 DOM.addEve…

【MySQL】数据库设计

目录 数据库设计基本任务 软件项目开发周期中数据库设计数据库设计的基本步骤解释需求分析需求分析的三个步骤&#xff1a;1.需求调查:2.分析数据字典内容定义数据的方法案例 3. 评审 概念结构设计概念模型概念结构设计E-R图概念模型组成元素&#xff1a;关系解释案例分析 逻辑…

网络安全: Kali Linux 进行 SSH 渗透与防御

目录 一、实验 1.环境 2.nmap扫描目标主机 3.Kali Linux 进行 SSH 渗透 3.Kali Linux 进行 SSH 防御 二、问题 1.SSH有哪些安全配置 一、实验 1.环境 &#xff08;1&#xff09;主机 表1 主机 系统版本IP备注Kali Linux2022.4 192.168.204.154&#xff08;动态&…

基于springboot+vue的农商对接系统

博主主页&#xff1a;猫头鹰源码 博主简介&#xff1a;Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战&#xff0c;欢迎高校老师\讲师\同行交流合作 ​主要内容&#xff1a;毕业设计(Javaweb项目|小程序|Pyt…

110. 平衡二叉树【简单】

110. 平衡二叉树【简单】 题目描述&#xff1a; 给定一个二叉树&#xff0c;判断它是否是高度平衡的二叉树。 本题中&#xff0c;一棵高度平衡二叉树定义为&#xff1a; 一个二叉树每个节点的左右两个子树的高度差的绝对值不超过 1 。 示例 1&#xff1a; 输入&#xff1a;r…

Vivado HLS学习笔记

任意精度的数据类型 u 代表 unsigned&#xff0c;fixed代表定点数据&#xff0c;即常数 采用任意精度的数据类型可以使用更少的资源&#xff0c;硬件友好性 数据类型定义在 header file 中 表示任意进制 ap_int<6> a("101010",2); //二进制数据101010 ap_in…

DR模式下部署LVS负载均衡集群的详细原理

目录 一、LVS-DR模式 1、基本原理 2、数据包流向分析 二、LVS-DR中的ARP问题 三、LVS-DR 特点 3.1 DR模式的特点 3.2 LVS-DR的优缺点 四、RS设置lo:0而不设置ens33:0的原因 一、LVS-DR模式 1、基本原理 Director Server作为群集的访问入口&#xff0c;但不作为网关使…

【C++实战项目】Date日期类 --- 运算符重载的深入探索

&#x1f4f7; 江池俊&#xff1a;个人主页 &#x1f525; 个人专栏&#xff1a;✅C那些事儿 ✅Linux技术宝典 &#x1f305; 此去关山万里&#xff0c;定不负云起之望 文章目录 引言一、为什么需要运算符重载&#xff1f;二、日期类的实现1. 基本框架2. 预备工作3. Date 类…

【MySQL】数据库的操作(1)

【MySQL】数据库的操作&#xff08;1&#xff09; 目录 【MySQL】数据库的操作&#xff08;1&#xff09;创建数据库数据库的编码集和校验集查看系统默认字符集以及校验规则查看数据库支持的字符集查看数据库支持的字符集校验规则校验规则对数据库的影响数据库的删除 数据库的备…

预算有限,3D渲染更该升级显卡还是CPU?升级电脑配置推荐!

在当今数字化时代&#xff0c;影视、游戏和效果图设计等领域都需要强大的计算机来支持3D渲染工作。受当前国际和市场环境影响&#xff0c;硬件价格持续上涨&#xff0c;有专家预测这种局面将至少持续半年以上。因此&#xff0c;在预算有限的情况下&#xff0c;很多设计师在电脑…