26、Flink 的状态数据结构升级

26、Flink 的状态数据结构升级

news2026/2/14 20:36:51

状态数据结构升级

a）概述

Flink 流应用通常被设计为永远或者长时间运行，与所有长期运行的服务一样，应用程序需要随着业务的迭代而进行调整，应用所处理的数据 schema 也会随着进行变化。

升级状态类型的数据 schema ，对不同类型的状态结构（ValueState、ListState 等）有不同的限制；只适用于 Flink 自己生成的状态序列化器；即在声明状态时，状态描述符不可以配置为使用特定的 TypeSerializer 或 TypeInformation ，此时 Flink 会推断状态类型的信息：

在这里插入图片描述

ListStateDescriptor<MyPojoType> descriptor =
    new ListStateDescriptor<>(
        "state-name",
        MyPojoType.class);

checkpointedState = getRuntimeContext().getListState(descriptor);

在内部，状态是否可以进行升级取决于用于读写持久化状态字节的序列化器，状态数据结构只有在其序列化器正确支持时才能升级；这一过程是被 Flink 的类型序列化框架生成的序列化器透明处理的。

b）升级状态数据结构

对状态类型升级，步骤如下：

对 Flink 流作业进行 savepoint 操作。
升级程序中的状态类型（例如：修改 Avro 的结构）。
从 savepoint 恢复作业。当第一次访问状态数据时，Flink 会判断状态数据 schema 是否已经改变，并进行必要的迁移。

适应状态结构的改变而进行的状态迁移过程是自动发生的，并且状态之间是互相独立的。

Flink 内部首先会检查新的序列化器相对比之前的序列化器是否有不同的状态结构；如果有，那么之前的序列化器用来读取状态数据字节到对象，然后使用新的序列化器将对象回写为字节。

c）数据结构升级支持的数据类型

目前，仅支持 POJO 和 Avro 类型的 schema 升级。

POJO 类型

Flink 基于下面的规则来支持 POJO 类型结构的升级：

可以删除字段。一旦删除，被删除字段的前值将会在将来的 checkpoints 以及 savepoints 中删除。
可以添加字段。新字段会使用类型对应的默认值进行初始化。
不可以修改字段的声明类型。
不可以改变 POJO 类型的类名，包括类的命名空间。

注意：只有从 1.8.0 及以上版本的 Flink 生产的 savepoint 进行恢复时，POJO 类型的状态才可以进行升级；对 1.8.0 版本之前的 Flink 是没有办法进行 POJO 类型升级的。

Avro 类型

Flink 支持 Avro 状态类型的升级，只要数据结构的修改是被 Avro 的数据结构解析规则认为兼容的即可。

除非新的 Avro 数据 schema 生成的类无法被重定位或者使用了不同的命名空间，在作业恢复时状态数据会被认为是不兼容的。

d）Schema 迁移限制

Flink 的 Schema 迁移有一些限制，这些限制是确保正确性所必需的；对于需要绕过这些限制并理解它们在特定用例中是安全的用户，可以考虑使用自定义序列化程序或状态处理器 API。

不支持 key 的 schema 演变

无法迁移 key 的 schema，因为这可能导致不确定性行为；例如，如果一个POJO 被用作 key，并且一个字段被丢弃，那么可能会突然出现多个现在相同的单独键，Flink无法合并相应的值。

此外，RocksDB 状态后端依赖于二进制对象标识，而不是 hashCode 方法，对 key 的对象结构的任何更改都可能导致不确定性行为。

Kryo 不能用于 schema 演变

当使用 Kryo 时，框架不能验证是否进行了不兼容的更改；如果包含给定类型的数据结构通过 Kryo 进行序列化，那么所包含的类型就不能进行 schema 进化。

例如，如果一个 POJO 包含一个 List＜SometherPojo＞，那么该 List 及其内容是通过 Kryo 序列化的，SometherPojo 不支持模式演化。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1666190.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

住宅ip与数据中心ip代理的区别是什么

住宅ip与数据中心ip代理的区别是什么

代理通常意味着“替代”。它是用户设备和目标服务器之间的中介，允许在不同的IP地址下上网。代理ip根据来源分类可分住宅ip与数据中心ip，二者之间区别是什么呢？ 住宅ip是由互联网服务提供商(ISP)提供给家庭的IP地址。出于这个原因&#xff0c…

阅读更多...

社交媒体数据恢复：密聊猫

社交媒体数据恢复：密聊猫

一、概述密聊猫是一款提供多种优质体验的手机社交聊天软件。通过这款软件，用户可以享受到多种不同的乐趣体验，如真人在线匹配、真实的交友体验等。同时，密聊猫也提供了数据恢复功能，帮助用户找回丢失的数据。二、数据恢复步骤…

阅读更多...

【经验分享】图片自适应窗口大小css；CSS实现背景图片全屏铺满自适应的方式

【经验分享】图片自适应窗口大小css；CSS实现背景图片全屏铺满自适应的方式

目录设置背景颜色和边距设置背景图片调整背景图片尺寸和位置完整代码使用效果如下（展示） 网页版图片效果展示手机版图片效果展示如何使用 CSS 创建网页背景效果在网页设计中，背景是一个重要的视觉元素，它可以为网…

阅读更多...

Android面试题之kotlin热流和channel

Android面试题之kotlin热流和channel

本文首发于公众号“AntDream”，欢迎微信搜索“AntDream”或扫描文章底部二维码关注，和我一起每天进步一点于冷流不同，在垃圾回收之前，flow里的值都是存在内存之中，并且处于活跃状态 StateFlow StateFlow是一个状态容…

阅读更多...

排序算法及实现（上）

排序算法及实现（上）

稳定性的判断：如果两个相同大小的元素也进行了交换就是不稳定，否则稳定 1.直接插入排序： 当插入第 i 位置元素时，前面 0 到 i-1 位置的元素已经各自有序。此时将i 再次从i-1到0位置依次进行比较。找到合适位置将其插入&#x…

阅读更多...

Java 【数据结构】哈希（Hash超详解）HashSetHashMap【神装】

Java 【数据结构】哈希（Hash超详解）HashSetHashMap【神装】

登神长阶第十神装 HashSet 第十一神装 HashMap 目录 👔一.哈希 🧥1.概念 🩳2.Object类的hashCode()方法: 👚3.String类的哈希码: 👠4.注意事项: 🎷二.哈希桶 🪗1.哈希桶原理 &#x…

阅读更多...

AI地名故事：沧联村

AI地名故事：沧联村

沧联村，位于黄埔区云埔街，与开发区东区、增城区接壤，辖区面积约6.58平方公里。这个村庄的历史悠久，充满了丰富的故事。在很久以前，沧联村并未有现今的名称。然而，随着时间的流转，村庄逐渐形成…

阅读更多...

美股市场恒生指数冲刺19000点关口地产股大涨

美股市场恒生指数冲刺19000点关口地产股大涨

查查配5月10日电(中新财经记者谢艺观)5月10日,港股现强势行情,恒生指数盘中一度冲至18993.28点,距离19000点关口仅一步之遥。美港通证券以其专业的服务和较低的管理费用在市场中受到不少关注。该平台提供了实盘交易、止盈止损、仓位控制等功能,旨在为投资者提供更为全面的投…

阅读更多...

深度学习设计模式之单例模式

深度学习设计模式之单例模式

一、单例模式简介一个类只能有一个实例，提供该实例的全局访问点； 二、单例模式实现步骤使用一个私有构造函数、一个私有静态变量以及一个公有静态函数来实现。私有构造函数保证了不能通过构造函数来创建对象实例，只能通过公有静态函数返…

阅读更多...

验证码生成--kaptcha

验证码生成--kaptcha

验证码生成与点击重新获取验证码如图所示，本文档仅展示了验证码的生成和刷新显示。 1. 概述系统通过生成随机验证码图像和文本。 2. 代码分析 2.1. Maven依赖 <dependency><groupId>com.github.penggle</groupId><artifactId>kaptch…

阅读更多...

VirtualBox7安装ubantu server 22.04通过NAT+Only-Host双网卡实现宿主机与虚拟机互通

VirtualBox7安装ubantu server 22.04通过NAT+Only-Host双网卡实现宿主机与虚拟机互通

目录背景环境安装虚拟机配置网卡修改ssh端口遇到的坑参考文章背景时间长没用docker了，有些命令都快忘了，心血来潮想着搞个docker玩一玩，所以需要先搞一个虚拟机，因为之前CentOS用的比较多，所以这次想试一试ubantu。…

阅读更多...

Java入门——继承和多态（上）

Java入门——继承和多态（上）

包包是组织类的一种方式. 使用包的主要目的是保证类的唯一性. 例如, 你在代码中写了一个 Test 类. 然后你的舍友也可能写一个 Test 类. 如果出现两个同名的类, 就会冲突, 导致代码不能编译通过. 导入包中的类 Java 中已经提供了很多现成的类供我们使用. 例如 public cla…

阅读更多...

【C -＞ Cpp】由C迈向Cpp （5）

【C -＞ Cpp】由C迈向Cpp （5）

标题：【C -> Cpp】由C迈向Cpp（5） 水墨不写bug （图片来源于网络） 不抵制失败，携手失败，迈向成功正文开始： （一）深入理解构造函数在之前的讲解中&#x…

阅读更多...

linux系统（ubuntu）调用科大讯飞SDK实现语音识别

linux系统（ubuntu）调用科大讯飞SDK实现语音识别

1. 科大讯飞官网登录注册实名制 2. 点击控制台，创建应用点击左侧的语音听写，右边下滑选择Linux，点击下载选择Linux平台，普通版本，语音听写，SDK下载此时将得到一个压缩包，选择的功能不…

阅读更多...

LVS的三种工作模式---(DR/TUN/NAT)

LVS的三种工作模式---(DR/TUN/NAT)

目录一、NAT模式（LVS-NAT） 二、IP隧道模式（LVS-TUN） 三、DR模型--直接路由模式（LVS-DR） LVS/DR模式ARP抑制原因： LVS的DR工作模式及配置： LVS的NAT工作模式及配置&#xff1…

阅读更多...

邂逅Linux--常见指令，万物为文件(一)

邂逅Linux--常见指令，万物为文件(一)

引子：在之前，我们经常听到Linux，那什么是Linux呢？Linux是一种免费使用和自由传播的类UNIX操作系统，其内核由林纳斯本纳第克特托瓦兹（Linus Benedict Torvalds）于1991年10月5日首次发布&#xff…

阅读更多...

命令行工具部署达梦数据库 DMDPC（BP 多副本架构）

命令行工具部署达梦数据库 DMDPC（BP 多副本架构）

解达梦数据库DPC集群的主要使用场景： DMDPC 关注和解决的是大数据、计算与存储分离、高可用、支持全部的 SQL 标准、拥有完整的事务处理能力和集群规模能够动态伸缩的业务场景： 大量的复杂查询操作要求优化器能够生成优良的执行计划，并且执…

阅读更多...

0基础理解ECC并做题-攻防世界easy-ECC理解

0基础理解ECC并做题-攻防世界easy-ECC理解

基点p就是最初选定的那个点 1和2都是整数集合，但是1/20.5就不属于整数集合一直加，一直乘，还能保证有限个数字？这是因为采用了取模的运算，让元素始终都在有限的范围内。如何计算分数求模？ 设n1/2mod23,那么…

阅读更多...

使用注解的方式进行配置RabbitMQ

使用注解的方式进行配置RabbitMQ

引入依赖： <dependency><groupId>org.springframework.amqp</groupId><artifactId>spring-rabbit-test</artifactId><scope>test</scope></dependency> 配置application.yml server:port: 8082 spring:rabbitmq…

阅读更多...

Coze扣子开发指南：AI零代码编程创建插件

Coze扣子开发指南：AI零代码编程创建插件

在Coze扣子中创建插件，有两种方式，一是用API，具体方式参照上一篇文章《Coze扣子开发指南：用免费API自己创建插件》，还有一种方式就是编程，不过有了AI的帮助，即使不会编程的人，也可以…

阅读更多...

推荐文章

最新文章