flinkCDC在Delta.io中是什么 是CDF

news2024/12/31 3:39:44

类似flink CDC

databricks 官方文档:

How to Simplify CDC With Delta Lake's Change Data Feed - The Databricks Blog

delta.io 官方文档:

Change data feed — Delta Lake Documentation

概述

更改数据馈送 (CDF) 功能允许 Delta 表跟踪 Delta 表版本之间的行级更改

在 Delta 表上启用时,运行时会记录写入表中的所有数据的“更改事件”。这包括行数据以及指示指定行是被插入、删除还是更新的元数据。

CDF的使用方式

您可以使用 DataFrame API(即 df.read )在批查询中读取更改事件,也可以在使用 DataFrame API(即 df.readStream )的流式查询中读取更改事件。

delta表开启CDF

CREATE TABLE student (id INT, name STRING, age INT) TBLPROPERTIES (delta.enableChangeDataFeed = true)

已存在的表开启CDF:

ALTER TABLE myDeltaTable SET TBLPROPERTIES (delta.enableChangeDataFeed = true)

查看CDF变更

preimage 为更新前的值

postimage 为更新后的值

CREATE TABLE delta.`/tmp/delta/student` (id INT, name STRING, age INT) USING DELTA TBLPROPERTIES (delta.enableChangeDataFeed = true) ;
insert into table delta.`/tmp/delta/student` values (1,'name1',11),(2,'name2',12),(3,'name3',13);
update delta.`/tmp/delta/student` set age = 33 where id = 1;
delete from delta.`/tmp/delta/student` where id=2;
scala>     spark.sql(""" SELECT * FROM table_changes_by_path('/tmp/delta/student', 0,3) """).show(false)
+---+-----+---+----------------+---------------+-----------------------+
|id |name |age|_change_type    |_commit_version|_commit_timestamp      |
+---+-----+---+----------------+---------------+-----------------------+
|1  |name1|11 |update_preimage |2              |2023-05-01 19:41:39.237|
|1  |name1|33 |update_postimage|2              |2023-05-01 19:41:39.237|
|2  |name2|12 |delete          |3              |2023-05-01 19:42:18.601|
|1  |name1|11 |insert          |1              |2023-05-01 19:41:32.211|
|2  |name2|12 |insert          |1              |2023-05-01 19:41:32.211|
|3  |name3|13 |insert          |1              |2023-05-01 19:41:32.211|
+---+-----+---+----------------+---------------+-----------------------+

注意: SELECT * FROM table_changes_by_path('/tmp/delta/student', 0) 等效于 SELECT * FROM table_changes_by_path('/tmp/delta/student', 0 , latest版本)

CDF配合Merge语句

How to Simplify CDC With Delta Lake's Change Data Feed - The Databricks Blog

__change_data 文件夹

Delta Lake 在Delta 表目录下的 _change_data 文件夹中记录了 UPDATE 、 DELETE 和 MERGE 操作的更改数据。当 Delta Lake 检测到它可以直接从事务日志中有效地计算更改数据馈送时,可能会跳过这些记录。特别是insert-only操作和full partition delete不会在 _change_data 目录下产生数据。

VACUUM会剔除CDF

_change_data 文件夹中的文件遵循表的保留策略。因此,如果您运行 VACUUM 命令,更改数据馈送数据也会被删除.

CDF支持速率控制

支持速率限制( maxFilesPerTrigger 、 maxBytesPerTrigger ).

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/480833.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue+element-plus角色权限管理分配

这里的图片是截图这个老师的项目 在src/uitls/permission.js加入以下内容 本段代码讲解: 参数一:后台传来的路由 参数二:前端所有的路由 先遍历前端所有路由,在里面继续遍历后台路由,通过二者某一个关键字的是否相同判断用户是否有权限(这里老师使用的是title关键字),关键字相…

21安徽练习

题目分为4部分 APK 集群 流量 exe 我尽量都做一下,逆向不是很会,就当提升自己。 [填空题]请获取app安装包的SHA256校验值(格式:不区分大小写)(10分) e15095d49efdccb0ca9b2ee125e4d8136cac5…

树莓派Pico W无线开发板MQTT协议通信MicroPython编程实践

本博文介绍采用ThonnyMicroPython和umqtt.simple库MQTTClient类的对象方法编制树莓派Pico W无线开发板MQTT协议通信程序,将Pico W无线开发板、电脑或Android手机无线连接到远程MQTT服务器,给出采用电脑MQTTX应用程序及手机Android MQTT客户端App远程控制…

用python的QT做界面

文章目录 入口文件界面参数调整数据从dat解析出来的文件从界面点击打开文件夹的功能实现主要功能代码网络参数存图替换功能,比如把倒频谱替换成倒频谱2 入口文件 入口文件,主要用来实例化窗口(不重要),只要知道从这里…

每日学术速递4.30

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.Masked Frequency Modeling for Self-Supervised Visual Pre-Training(ICLR 2023) 标题:用于自监督视觉预训练的掩蔽频率建模 作者:Jiahao Xie, Wei Li, Xi…

SwiftUI 设计和调试复杂界面的基本技巧示例

功能需求 对于比较复杂的 SwiftUI 界面,我们需要在充分了解 SwiftUI 各个视图基本特性的同时,合理利用 Xcode 强大的预览(Preview)机制,实时且全面的测试所有场景下的显示情况。 如上图所示:我们在 App 支持的每种语言环境中都对界面进行了全面的测试,并解决了 Cell 里…

使用Lambda表达式mutable有感

使用Lambda表达式mutable有感 在学Qt的时候,我看着mutable陷入了沉思,总觉得它和C中的某个特性很像?没错,就是 深拷贝 如果你忘记了深拷贝和浅拷贝是什么,那跟着我来一起回忆一下吧。首先来看深拷贝与浅拷贝的概念 浅…

从零开始学习Linux运维,成为IT领域翘楚(四)

文章目录 🔥Linux路径🔥Linux处理文件目录的常用命令🔥Linux文件编辑工具vi/vim🔥Linux文件内容查看命令 🔥Linux路径 路径,顾名思议,是指从树形目录中的某个目录层次到某个文件的一条道路。 Li…

设计模式-工厂、装饰模式

一. 设计模式-工厂模式 package com.factory.pattern;/**目标:工厂模式。什么是工厂设计模式?工厂模式(Factory Pattern)是 Java 中最常用的设计模式之一。这种类型的设计模式属于创建型模式,它提供了一种创建对象的方…

Spring 5 笔记 - AOP

1. AOP 简介 AOP:Aspect Oriented Programming, 面向切面编程或面向方面编程。利用AOP可以对业务逻辑的各个部分进行隔离,从而使得业务逻辑各部分之间的耦合度降低,提高程序的可重用性,同时提高了开发的效率。 将日志…

【英语】大学英语CET考试,写作部分(论述文+应用文,6篇范文)

文章目录 3项评分标准(内容&结构,语言)0.1 论述文个人小结 1、论述文:审题与功能句2、论述文:修饰内容和名言模板3、论述文:现象作文&利弊分析4、论述文:给出权威论据和有侧重的现象5、…

新老stp的配置和安全总结部分

老stp只有根桥没有备份桥 老stp的五种接口状态: disable 接口down没开stp blocking 阻塞 listening 发bpdu,比较bpdu优劣 leraning 开始学习mac地址表 forwardding 转发 老stp直接拓扑变化30秒,间接拓扑变化50秒 RSTP只有3种端口状态&#…

每日学术速递4.28

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.StepFormer: Self-supervised Step Discovery and Localization in Instructional Videos(CVPR 2023) 标题:StepFormer:教学视频中的自我监督步骤发现和定位…

vue diff算法与虚拟dom知识整理(1) 概念叙述

今天开始 我们来学习 虚拟dom和diff算法 首先 我们要简单了解 虚拟dom和diff算法在vue中的作用 例如 下图左侧是我们的加 然后 我们要将 家按图右改造一下 我们先来找一下不同 如图卷出来的效果 我们起居室想多装一个沙发 卧室床改了位置 电视不要了 阳台小改了一下 其实改…

每日学术速递4.27

Subjects: cs.CV 1.End-to-End Spatio-Temporal Action Localisation with Video Transformers 标题:使用视频转换器进行端到端时空动作定位 作者:Alexey Gritsenko, Xuehan Xiong, Josip Djolonga, Mostafa Dehghani, Chen Sun, Mario Lučić, Corde…

IS-IS协议基础知识

文章目录 前言介绍地址格式报文格式区域及路由器类型区域类型路由器类型Level-1 路由器Level-2 路由器Level-1-2路由器 IS-IS 网络类型DIS及伪节点伪节点DIS与OSPF的DR/BDR不同之处 IS-IS 邻接关系握手报文邻接关系的建立 IS-IS 链路状态数据库概述数据库同步报文泛洪机制数据库…

【网络编程】socket套接字

文章目录 一、源IP和目的IP二、端口号port三、TCP/UDP协议3.1 网络字节流 四、socket套接字4.1 socket常见接口4.2 sockaddr结构体 五、总结 一、源IP和目的IP 如果我们的台式机或者笔记本没有IP地址就无法上网,而因为每台主机都有IP地址,所以注定了数据…

Prometheus Exporter开发

Prometheus Exporter开发 Exporter数据格式介绍 Exporter徒手开发 Exporter4种指标类型演示 Exporter自定义注册表 Exporter 基于Collector的模块开发 Exporter介绍 数据格式 通讯协议 HTTP协议服务端实现了gzip 数据格式 text/plain:文本协议 数据格式 prometheus…

MySQL性能监控全掌握,快来get关键指标及采集方法!

数据库中间件监控实战,MySQL中哪些指标比较关键以及如何采集这些指标了。帮助提早发现问题,提升数据库可用性。 1 整体思路 监控哪类指标? 如何采集数据? 第10讲监控方法论如何落地? 这些就可以在MySQL中应用起来。…

ChatGPT提示词工程(四):Inferring推断

目录 一、说明二、安装环境三、推断(Inferring)1. 推断情绪(正面 / 负面)2. 确定情绪的类型3. 识别愤怒4. 从客户评论中提取产品和公司名称5. 一次完成多项任务6. 推断主题7. 主题中是否包含给定的主题 一、说明 这是吴恩达 《Ch…