flinkCDC相当于Delta.io中的什么 delta.io之CDF

news2024/12/27 13:11:13

类似flink CDC

databricks 官方文档:

How to Simplify CDC With Delta Lake's Change Data Feed - The Databricks Blog

delta.io 官方文档:

Change data feed — Delta Lake Documentation

概述

更改数据馈送 (CDF) 功能允许 Delta 表跟踪 Delta 表版本之间的行级更改

在 Delta 表上启用时,运行时会记录写入表中的所有数据的“更改事件”。这包括行数据以及指示指定行是被插入、删除还是更新的元数据。

CDF的使用方式

您可以使用 DataFrame API(即 df.read )在批查询中读取更改事件,也可以在使用 DataFrame API(即 df.readStream )的流式查询中读取更改事件。

delta表开启CDF

CREATE TABLE student (id INT, name STRING, age INT) TBLPROPERTIES (delta.enableChangeDataFeed = true)

已存在的表开启CDF:

ALTER TABLE myDeltaTable SET TBLPROPERTIES (delta.enableChangeDataFeed = true)

查看CDF变更

preimage 为更新前的值

postimage 为更新后的值

CREATE TABLE delta.`/tmp/delta/student` (id INT, name STRING, age INT) USING DELTA TBLPROPERTIES (delta.enableChangeDataFeed = true) ;
insert into table delta.`/tmp/delta/student` values (1,'name1',11),(2,'name2',12),(3,'name3',13);
update delta.`/tmp/delta/student` set age = 33 where id = 1;
delete from delta.`/tmp/delta/student` where id=2;
scala>     spark.sql(""" SELECT * FROM table_changes_by_path('/tmp/delta/student', 0,3) """).show(false)
+---+-----+---+----------------+---------------+-----------------------+
|id |name |age|_change_type    |_commit_version|_commit_timestamp      |
+---+-----+---+----------------+---------------+-----------------------+
|1  |name1|11 |update_preimage |2              |2023-05-01 19:41:39.237|
|1  |name1|33 |update_postimage|2              |2023-05-01 19:41:39.237|
|2  |name2|12 |delete          |3              |2023-05-01 19:42:18.601|
|1  |name1|11 |insert          |1              |2023-05-01 19:41:32.211|
|2  |name2|12 |insert          |1              |2023-05-01 19:41:32.211|
|3  |name3|13 |insert          |1              |2023-05-01 19:41:32.211|
+---+-----+---+----------------+---------------+-----------------------+

注意: SELECT * FROM table_changes_by_path('/tmp/delta/student', 0) 等效于 SELECT * FROM table_changes_by_path('/tmp/delta/student', 0 , latest版本)

CDF配合Merge语句

How to Simplify CDC With Delta Lake's Change Data Feed - The Databricks Blog

__change_data 文件夹

Delta Lake 在Delta 表目录下的 _change_data 文件夹中记录了 UPDATE 、 DELETE 和 MERGE 操作的更改数据。当 Delta Lake 检测到它可以直接从事务日志中有效地计算更改数据馈送时,可能会跳过这些记录。特别是insert-only操作和full partition delete不会在 _change_data 目录下产生数据。

VACUUM会剔除CDF

_change_data 文件夹中的文件遵循表的保留策略。因此,如果您运行 VACUUM 命令,更改数据馈送数据也会被删除.

CDF支持速率控制

支持速率限制( maxFilesPerTrigger 、 maxBytesPerTrigger ).

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/481011.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C语言函数与递归

目录😊 1. 函数是什么🐾 2. 库函数🐾 3. 自定义函数🐾 4. 函数参数🐾 5. 函数调用🐾 6. 函数的嵌套调用和链式访问🐾 7. 函数的声明和定义🐾 8. 函数递归🐾 1. 函…

二叉搜索树(内含AVL树的旋转操作的详细解释)

二叉搜索树 二叉搜索树的概念二差搜索树结构设计二叉搜索树的操作以及实现遍历判空插入查找删除(☆☆☆)二叉搜索树的其他方法 二叉搜索树的应用二叉搜索树的性能分析二叉树习题练习AVL树AVL树的概念AVL树的结构设计AVL树的插入(非常重要)AVL树的旋转(☆☆☆☆☆)AVL树的插入操…

基于STATCOM的风力发电机稳定性问题仿真分析(Simulink)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

网页三剑客之 HTML

本章开始我们来介绍一下网页前端部分,我们只是简单的介绍一些常用的各种标签,其目的在于为我们后面的项目做准备。 我们并不要求能完全掌握前端的语法,但是在见到以后能够认识这些代码就可以了。 想走后端开发的,前端不需要多么…

【C++】哈希和unordered系列封装

1.哈希 1.1 哈希概念 顺序结构以及平衡树中,元素关键码与其存储位置之间没有对应的关系,因此在查找一个元素时,必须要经过关键码的多次比较。顺序查找时间复杂度为O(N),平衡树中为树的高度,即O( l o g 2 N log_2 N l…

CSAPP学习笔记 2 浮点数(自用)

1. 首先 我们回忆一下计算机思维导论的编码问题 小白鼠问题 (107条消息) 小白鼠喝水问题------计算机思维 编码思想(自用)_和光同尘463的博客-CSDN博客 2. 对于一些可表示的浮点数比如 101.11可以用二进制精确表示 因为是2的倍数 但是 对于一些不可整除的浮点数 我们又如何…

阿里云服务器部署node项目笔记

阿里云部署node项目笔记 此过程中全部安装都按照B站教程实现本篇是个人笔记,许多细节并未陈述比如开发阿里云对应端口等,不是完整的过程,如有误导在此致歉。 安装node报错linux查看nginx配置文件 使用 nginx -t mongodb数据库安装解决&#x…

【JAVA】#详细介绍!!! 文件操作之File对象(1)!

本文内容不涉及文件内容操作,主要是对指定文件元信息的获取,以及通过java代码如何创建一个文件或者删除文件 目录 文件操作的File对象 File对象的基本操作方法 得到文件(夹)对象的信息元 1.getParent 2. getName 3.getPath 4…

CentOS 安装与配置Nginx【含修改配置文件】

1.安装Nginx yum install nginx -y2.启动Nginx systemctl start nginx查询是否启动nginx systemctl status nginx3.尝试访问 这是默认的配置文件 # For more information on configuration, see: # * Official English Documentation: http://nginx.org/en/docs/ # * …

wordcloud制作词云图

wordcloud制作词云图 wordcloud中文方框问题 jieba(分词)jieba库分词的三种模式 wordcloud WordCloud(font_pathNone, width400, height-200,margin2,maskNone, max_words200, min_font_size4, stopwordsNone,background_colorblack, max_font_sizeNone…

js中setinterval怎么用?怎么才能让setinterval停下来?

setinterval()是定时调用的函数,可按照指定的周期(以毫秒计)来调用函数或计算表达式。 setinterval()的作用是在播放动画的时,每隔一定时间就调用函数,方法或对象。 setInterval() 方法会不停地调用函数,…

浙大数据结构与算法一些有意思的理论基础题

堆栈 有人给出了堆栈用数组实现的另一种方式,即直接在函数参数中传递数组和top变量(而不是两者组成的结构指针),其中Push操作函数设计如下。这个Push函数正确吗?为什么? #define MaxSize 100 ElementTyp…

Three.js--》Gsap动画库基本使用与原理

目录 Gsap动画库使用讲解 Gsap动画库基本使用 修改自适应画面及双击进入全屏 设置stats性能监视器 Gsap动画库使用讲解 GSAP的全名是GreenSock Animation Platform,是一个从flash时代一直发展到今天的专业动画库,今天将其与three.js进行结合&#x…

【DevOps视频笔记】1. DevOps的诞生

视频官网 目录 一、DevOps介绍 定义: 作用: 核心: 二、软件开发流程 三、流程图 一、DevOps介绍 定义: Development & Operations的缩写,也就是开发&运维DevOps 是一个不断提高效率并且持续不断工作的…

GPIO输出——LED闪烁、LED流水灯、蜂鸣器

1、STM32F1 GPIO 简介 GPIO ( General Purpose Input Output )通用输入输出口 可配置为 8 种输入输出模式 引脚电平: 0V~3.3V ,部分引脚可容忍 5V 输出模式下可控制端口输出高低电平,用以驱动 LED 、控制蜂鸣器、模拟通…

Spring 统一功能处理(拦截器)

文章目录 Spring拦截器1.统一用户登录权限校验1) SpringAOP 用户统一验证的问题2) Spring拦截器3) 拦截器实现原理4)同一访问前缀添加 2. 统一异常处理3. 统一数据返回格式1)统一数据返回的好处2)统一数据返回实现 Spring拦截器 SpringBoot统…

第13章 项目合同管理

文章目录 13.2.1 按信息系统 范围 划分的合同分类 4451、总承包合同2、单项工程承包合同3、分包合同 13.2.2 按项目 付款方式 划分的合同分类 4461、总价合同2、成本补偿合同(卖方有利)3、工料合同 13.3.1 项目合同的内容 44713.3.2 项目合同签订的注意事…

【设计模式】我终于读懂了迭代器模式。。。

看一个具体的需求 编写程序展示一个学校院系结构:需求是这样 要在一个页面中展示出学校的院系组成, 一个学校有多个学院, 一个学院有多个系。 如图: 传统的设计方案(类图) 传统的方式的问题分析 将学院看做是学校的子类&#xf…

深度学习(23):SmoothL1Loss损失函数

0. 基本介绍 SmoothL1Loss是一种常用的损失函数,通常用于回归任务中,其相对于均方差(MSE)损失函数的优势在于对异常值(如过大或过小的离群点)的惩罚更小,从而使模型更加健壮。 SmoothL1Loss的公式为: l o s s ( x , y ) { 0.5 …

机器人中的数值优化(三)—— 无约束最优化方法基础、线搜索准则

本系列文章主要是我在学习《数值优化》过程中的一些笔记和相关思考,主要的学习资料是深蓝学院的课程《机器人中的数值优化》和高立编著的《数值最优化方法》等,本系列文章篇数较多,不定期更新,上半部分介绍无约束优化,…