Apache Paimon 的 CDC Ingestion 概述

news2024/11/16 19:46:58
CDC Ingestion
1)概述

Paimon支持schema evolution将数据插入到Paimon表中,添加的列将实时同步到Paimon表,并且无需重启同步作业。

目前支持的同步方式如下

  1. MySQL Synchronizing Table: 将MySQL中的一个或多个表同步到一个Paimon表中。
  2. MySQL Synchronizing Database: 将整个MySQL数据库同步到一个Paimon数据库中。
  3. Program API Sync: 自定义DataStream输入同步到一个Paimon表中。
  4. Kafka Synchronizing Table: 将一个Kafka的Topic的表同步到一个Paimon表中。
  5. Kafka Synchronizing Database: 将一个包含多个表的Kafka的Topic或包含一个表的多个Topic同步到一个Paimon数据库中。
  6. MongoDB Synchronizing Collection: 将MongoDB的一个集合同步到一个Paimon表中。
  7. MongoDB Synchronizing Database: 将整个MongoDB数据库同步到一个Paimon数据库中。
  8. Pulsar Synchronizing Table: 同步一个Pulsar的Topic的表到一个Paimon表中。
  9. Pulsar Synchronizing Database: 将一个包含多个表的Pulsar的Topic或包含一个表的多个Topic同步到一个Paimon数据库中。

什么是 Schema Evolution (模式演变)

假设有一个名为tableA的MySQL表,它有三个字段:field_1field_2field_3,想将此MySQL表加载到Paimon时,可以在Flink SQL中执行如下操作,或使用MySqlSyncTableAction。

Flink SQL:

在Flink SQL中,如果在插入后更改MySQL表的表模式(表结构),表模式更改将不会同步到Paimon。

在这里插入图片描述

MySqlSyncTableAction:

在MySqlSyncTableAction中,如果在摄取后更改MySQL表的表模式,表模式更改将同步到Paimon,新添加的field_4的数据也将同步到Paimon。

在这里插入图片描述

Schema Change Evolution(模式变化进化)

cdc Ingestion支持的模式更改行为有限,该框架无法重命名表、删除列,因此RENAME TABLEDROP COLUMN的行为将被忽略,RENAME COLUMN将添加新列。目前支持的模式更改包括:

  • 添加列。
  • 更改列类型。
    • 从字符串类型(char、varchar、text)更改为另一个长度较长的字符串类型,
    • 从二进制类型(二进制、二进制、blob)更改为另一种长度较长的二进制类型,
    • 从整数类型(tinyint、smallint、int、bigint)更改为另一个范围更广的整数类型,
    • 从浮点类型(浮动,双)更改为另一个范围更广的浮点类型。

Computed Functions(计算函数)

FunctionDescription
year(date-column)Extract year from a DATE, DATETIME or TIMESTAMP (or its corresponding string format). Output is an INT value represent the year.
month(date-column)Extract month of year from a DATE, DATETIME or TIMESTAMP (or its corresponding string format). Output is an INT value represent the month of year.
day(date-column)Extract day of month from a DATE, DATETIME or TIMESTAMP (or its corresponding string format). Output is an INT value represent the day of month.
hour(date-column)Extract hour from a DATE, DATETIME or TIMESTAMP (or its corresponding string format). Output is an INT value represent the hour.
minute(date-column)Extract minute from a DATE, DATETIME or TIMESTAMP (or its corresponding string format). Output is an INT value represent the minute.
second(date-column)Extract second from a DATE, DATETIME or TIMESTAMP (or its corresponding string format). Output is an INT value represent the second.
date_format(date-column,format)Convert date format from a DATE, DATETIME or TIMESTAMP (or its corresponding string format). ‘format’ is compatible with Java’s DateTimeFormatter String (for example, ‘yyyy-MM-dd’). Output is a string value in converted date format.
substring(column,beginInclusive)Get column.substring(beginInclusive). Output is a STRING.
substring(column,beginInclusive,endExclusive)Get column.substring(beginInclusive,endExclusive). Output is a STRING.
truncate(column,width)truncate column by width. Output type is same with column.If the column is a STRING, truncate(column,width) will truncate the string to width characters, namely value.substring(0, width). If the column is an INT or LONG, truncate(column,width) will truncate the number with the algorithm v - (((v % W) + W) % W). The redundant compute part is to keep the result always positive. If the column is a DECIMAL, truncate(column,width) will truncate the decimal with the algorithm: let scaled_W = decimal(W, scale(v)), then return v - (v % scaled_W).
Special Data Type Mapping(数据类型映射)
  1. 默认情况下,MySQL TINYINT(1)类型将映射到Boolean。如果想像MySQL一样在其中存储数字(-128~127),可以指定类型映射选项tinyint1-not-bool(使用--type_mapping),那么该列将映射到Paimon表中的TINYINT。
  2. 可以使用类型映射选项to-nullable(使用--type_mapping)来忽略所有NOT NULL约束(主键除外)。
  3. 可以使用类型映射选项to-string(使用--type_mapping)将所有MySQL数据类型映射到字符串。
  4. 可以使用类型映射选项char-to-string(使用--type_mapping)将MySQL CHAR(长度)/VARCHAR(长度)类型映射到STRING。
  5. 可以使用类型映射选项longtext-to-bytes(使用--type_mapping)将MySQL LONGTEXT类型映射到BYTES。
  6. MySQL BIGINT UNSIGNEDBIGINT UNSIGNED ZEROFILLSERIAL将默认映射到DECIMAL(20, 0)可以使用类型映射选项bigint-unsigned-to-bigint(使用--type_mapping)将这些类型映射到Paimon BIGINT,但存在潜在的数据溢出,因为BIGINT UNSIGNED可以存储多达20位的整数值,而Paimon BIGINT只能存储多达19位的整数值。因此,应确保使用此选项时不会发生溢出。
  7. MySQL BIT(1)类型将映射到Boolean。
  8. 使用Hive目录时,MySQL TIME类型将映射到STRING。
  9. MySQL BINARY将被映射到Paimon VARBINARY。因为二进制值在binlog中作为字节传递,因此它应该映射到字节类型(BYTES或VARBINARY)选择VARBINARY,因为它可以保留长度信息。

Custom Job Settings(自定义作业设置)

Checkpointing(检查点)

使用-Dexecution.checkpointing.interval=启用检查点并设置时间间隔,对于0.7及更高版本,如果尚未启用检查点,Paimon将默认启用检查点,并将检查点间隔设置为180秒。

Job Name

使用-Dpipeline.name=设置自定义同步作业的名称。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1517258.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Jenkins】data stream error|Error cloning remote repo ‘origin‘ 错误解决【亲测有效】

错误构建日志 17:39:09 ERROR: Error cloning remote repo origin 17:39:09 hudson.plugins.git.GitException: Command "git fetch --tags --progress http://domain/xxx.git refs/heads/*:refs/remotes/origin/*" returned status code 128: 17:39:09 stdout: 17…

Spring揭秘:ClassPathScanningProvider接口应用场景及实现原理!

技术应用场景 ClassPathScanningCandidateComponentProvider是Spring框架中一个非常核心的类,它主要用于在类路径下扫描并发现带有特定注解的组件,支持诸如ComponentScan、Component、Service、Repository和Controller等注解的自动扫描和注册。 ClassP…

关于MySQL数据库2

目录 前言: 1.mysql中常用的数据类型: 1.1数值类型: 1.1.1INT: 1.1.2FLOAT 和 DOUBLE: 1.1.3DECIMAL (或 NUMERIC): 1.2日期和时间类型: 1.2.1DATE: 1.2.2TIME: 1.2.3DATETIME: 1.2.4TIMESTAMP: 1.2.5YEAR: 1.3字符串类型: 1.3.1CHAR: 1.3.1VARCHAR: 1.3.1TEXT:…

java kafka客户端何时设置的kafka消费者默认值

kafka为什么有些属性没有配置却能正常工作,那是因为kafka-clients对有些消费者设置了默认值,具体看下ConsumerConfig类的静态模块,具体如下所示: kafka为什么有些属性没有配置却能正常工作,那是因为kafka-clients对有…

【软考】UML中的图之对象图

目录 1. 说明2. 图示3. 特性 1. 说明 1.对象图即object diagram2.展现了某一时刻一组对象以及它们之间的关系3.描述了在类图中所建立的事物的实例的静态快照4.对象图一般包括对象和链5.对象图展示的是对象之间关系,不存在交互,所以不是交互图 2. 图示 …

给电脑加硬件的办法 先找电脑支持的接口,再买相同接口的

需求:我硬盘太小,换或加一个大硬盘 结论:接口是NVMe PCIe 3.0 x4 1.找到硬盘型号 主硬盘 三星 MZALQ512HALU-000L2 (512 GB / 固态硬盘) 2.上官网查 或用bing查 非官方渠道信息,不确定。

智能物流新纪元:分布式I/O模块重塑仓储自动化

随着工业4.0概念的深入人心,物流行业正在经历前所未有的变革。在这个过程中,物流企业必须积极走向工业自动化、智能化,进而提高物流效率,降低物流成本,以便更好地满足客户和市场的需求。智能物流、仓库自动化已然是趋势…

云端巨擘:大数据与云计算的时代航向

文章目录 大数据时代大数据特点(4v1C大数据与云计算的关系 云计算云计算定义云计算特点云计算分类(服务类型)云计算实现机制云计算体系结构云计算的管理中间件层 大数据时代 大数据定义:海量数据或巨量数据,其规模巨大到无法通过…

经典排序算法之计数排序|c++代码实现

引言 排序算法c实现系列第8弹——计数排序。 计数排序是理解起来相对简单的一个排序算法, 计数排序 计数排序(Counting Sort)是一种非比较型的排序算法,它的基本思想是统计待排序数组中每个元素的出现次数,然后根据…

河南大学数据结构实验-顺序栈和链栈的实现

计算机与信息工程学院实验报告 姓名:杨馥瑞 学号:2212080042 专业:数据科学与大数据技术 年级:2022 课程:数据结构 主讲教师:袁彩虹老师 辅导教师:_______ 实验时间&…

【STL】set容器、pair队组与map容器

目录 1.修改set容器排序规则 2. set容器的各种函数 3.set构造函数multiset 4.创建pair队组 5.map容器 1.修改set容器排序规则 set容器会自动以升序的方式进行排序&#xff0c;想要改变可以制定排序规则&#xff0c;set<int,排序规则> s&#xff1b; 但需要注意&am…

Notepad++从文件夹查找文本内容

目录 一、背景二、Notepad搜索2.1 测试用例2.2 操作说明 一、背景 在日常的办公、学习或编程中&#xff0c;我们时长会遇到需要在大量文件中搜索特定文本内容的情况&#xff1a; 无论是快速定位某个项目中的代码片段&#xff1b;还是检索文档资料库中的相关信息等。 掌握如何…

【Python数据结构与判断5/7】列表的便捷操作

目录 目标 追加 列表的追加 列表的插入 生活场景应用 列表删除元素 变量作为列表元素 Debug 总结 目标 昨天&#xff0c;我们学习了列表&#xff0c;使用索引修改列表中的元素&#xff0c;以及通过切片获取指定元素。 今天我们会学习&#xff0c;如何在列表中追加元素、…

mysql数据库备份学习笔记

数据库备份 方法1 物理备份&#xff1a;xtrabackup 方法2 逻辑备份 mysqldump 参考备份与恢复的方法&#xff1a; 【MySql】Mysql之备份与恢复_mysql数据库备份与还原-CSDN博客 可以借鉴的物理备份&#xff1a; 思路是 先做一次全量备份&#xff0c;然后每天做一次增量备份…

Flask 专题

[CISCN2019 总决赛 Day1 Web3]Flask Message Board 查看session解密 但不知道密钥&#xff0c;题目说FLASK,那肯定就是找密钥,发现输入什么都没有显示&#xff0c;只有author那里有回显在版上&#xff0c;所以尝试sstl&#xff0c;{{config}}找到密钥 扫目录发现有admin进入…

AttributeError: cannot assign module before Module.__init__() call

原因 调用了自定义的类&#xff0c;但是在自定义的类的__init__函数下面没有写super( XXX, self ).init() 错误案例 import torch import torch.nn as nnclass SelfAttention(nn.Module):""" Self-Attention """def __init__(self, n_head, d…

四、MySQL

MySQL MySQL1.初识网站2.安装MySQL2.1 下载&#xff08;最重要的一点是路径中不能有中文&#xff0c;哪怕是同级目录也不行&#xff09;2.2安装补丁2.3安装2.4创建配置文件2.5初始化 3.启动MySQL4.连接测试4.1 设置密码4.2 查看已有的文件夹&#xff08;数据库&#xff09;4.3 …

深入浅出:Objective-C中使用MWFeedParser下载豆瓣RSS

摘要 本文旨在介绍如何在Objective-C中使用MWFeedParser库下载豆瓣RSS内容&#xff0c;同时展示如何通过爬虫代理IP技术和多线程提高爬虫的效率和安全性。 背景 随着信息量的激增&#xff0c;爬虫技术成为了获取和处理大量网络数据的重要手段。Objective-C作为一种成熟的编程…

速卖通安全测评补单技术提升运营安全性

对于一个新品来说&#xff0c;最大的问题就是评论。没有评论&#xff0c;你的广告就不能打的很靠前&#xff0c;那样你的转化率就会非常低&#xff0c;数据也很差。新品运气不好的来两个一星差评&#xff0c;链接可能就此废掉&#xff0c;做不上去了。所以虽然平台管的非常的严…

使用R语言计算模拟二项分布

二项分布理论 二项分布是一种离散概率分布&#xff0c;描述了在n次独立重复的伯努利试验中成功的次数的概率分布。其中&#xff0c;每次试验的结果只有两个可能&#xff1a;成功或失败&#xff0c;且每次试验的成功概率p是相同的。 具体来说&#xff0c;如果随机变量X表示在n次…