Flink 状态管理

news2024/11/23 11:43:36

一、状态

流式计算分为无状态和有状态两种情况。无状态的计算观察每个独立事件,并且根据最后一个事件输出结果。例如,流处理应用程序从传感器接收温度读数,并在温度超过90度时发出告警。有状态的计算则会基于多个事件输出结果。例如,计算过去一小时的平均温度。以及在一分钟之内收到两个相差20度以上的温度读数,则发出告警。
在这里插入图片描述
上图中输入数据由黑条表示。无状态流处理每次只转换一条输入记录,并且仅根据最新的输入记录输出结果(白条)。有状态流处理维护所有已处理记录的状态值,并根据每条新输入的记录更新状态,因此输出记录(灰条)反映的是综合考虑多个事件之后的结果

在这里插入图片描述

  • 状态由一个任务维护,并且用来计算某个结果的所有数据,都属于这个任务的状态;
  • 可以认为状态就是一个本地变量,可以被任务的业务逻辑访问;
  • Flink 会进行状态管理,包括状态一致性、故障处理以及高校存储和访问,以便开发人员可以专注于应用程序的逻辑;

二、状态的类型

2.1 算子状态

在这里插入图片描述

  • 算子状态的作用范围限定为算子任务,由同一并行任务所处理的所有数据都可以访问到相同的状态;
  • 状态对于同意子任务而言是共享的;
  • 算子状态不能由相同或不同算子的另一个子任务访问;

列表状态(List state)

  • 将状态表示为一组数据的列表

联合列表状态(Union list state)

  • 也将状态表示为数据的列表。它与常规列表状态的区别在于发生故障时,从保存点启动应用程序时如何恢复

广播状态(Broadcast state)

  • 如果一个算子有多项任务,而它的每项任务状态又相同,那么这种特殊情况最适合应用广播状态。

2.2 键控状态

在这里插入图片描述

  • 键控状态是根据输入数据流中定义的键(key)来维护和访问的;
  • Flink 为每一个 key 维护一个状态实例,并将具有相同键的所有数据都分区到同一个算子任务中,这个任务会维护和处理这个 key 对应的状态;
  • 当任务处理一条数据时,它会自动将状态的访问范围限定为当前数据的key;

值状态(Value state)

  • 将状态表示为单个的值

列表状态(List state)

  • 将状态表示为一组数据的列表

映射状态(Map state)

  • 将状态表示为一组 Key-Value 对

聚合状态(Reducing state & Aggregating state)

  • 将状态表示为一个用于聚合操作的列表

状态后端

状态的存储、访问以及维护,由一个可插入的组件决定,这个组件就叫做状态后端(state backend),状态后端主要负责两件事:本地的状态管理,以及将检查点(checking)状态写入远程存储。

状态后端分类

MemoryStateBackend

  • 内存级的状态后端,会将键控状态作为内存中的对象进行管理,将它们存储在 TaskManager 的 JVM 堆上,而将 checkpoint 存储在 JobManager 的内存中;
  • 特点:快速、低延迟、但不稳定;

FsStateBackend

  • 将 checkpoint 存到远程的持久化文件系统上,而对于本地状态,则跟 MemoryStateBackend 一样,也会存在 TaskManager 的 JVM 堆上;
  • 同时用于内存级的本地访问速度和更好的容错保证;

RocksDBStateBackend

  • 将所有状态序列化后,存入本地的 RocksDB 中存储;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1861889.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

为什么永远不会有语言取代 C/C++?

每个 CPU 都带有一种称为 ISA(指令集架构)汇编的电路语言。ISA 程序集是一种硬件语言,由基本数据操作、数学计算和结构化编程(即 jmp)的操作组成。但是,为每个计算需求编写汇编代码无疑是耗时的&#xff0c…

DevOps CMDB平台整合Jira工单

背景 在DevOps CMDB平台建设的过程中,我们可以很容易的将业务应用所涉及的云资源(WAF、K8S、虚拟机等)、CICD工具链(Jenkins、ArgoCD)、监控、日志等一次性的维护到CMDB平台,但随着时间的推移,…

vue3-openlayers marker 光晕扩散(光环扩散)(postrender 事件和 render 方法)

本篇介绍一下使用 vue3-openlayers marker 光晕扩散(光环扩散)(postrender 事件和 render 方法) 1 需求 marker 光晕扩散(光环扩散) 2 分析 marker 光晕扩散(光环扩散)使用 post…

图片如何去水印,分享4个小妙招,手把手教会你!

作为一个经常逛社区网站下载表情包、头像的人,遇到的一个大难题就是图片有水印。如何才能快速去除水印?询问了一圈身边朋友,搜集了各种资料,小编整理了4个超好用的方法。 如果大家和小编一样,能坐着就不站着&#xff0…

38.控制功能实现

上一个内容:37.添加简易的调试功能 以 37.添加简易的调试功能 它的代码为基础进行修改 效果图: 下图红框位置的功能实现 Dlls项目中添加一个Dialog Dialog如下 然后给它添加一个类,MFC添加的类可能会报错添加 #include "afxdialogex.h…

基于SSM构建的校园失眠与压力管理系统的设计与实现【附源码】

毕业设计(论文) 题目:基于SSM构建的校园失眠与压力管理系统的设计与实现 二级学院: 专业(方向): 班 级: 学 生: 指导教师&a…

shell 脚本的部分指令和操作符

终端输入两个数,判断两数是否相等,如果不相等,判断大小关系 2.已知网址www.hqyj.com,使用expr截取出www、hqyj、com,不能使用cut,不能出现数字

C++ 基础:指针和引用浅谈

指针 基本概念 在C中,指针是存储其他变量的内存地址的变量。 我们在程序中声明的每个变量在内存中都有一个关联的位置,我们称之为变量的内存地址。 如果我们的程序中有一个变量 var,那么&var 返回它的内存地址。 int main() {int var…

Stable Diffusion 3 正式开源,超强文生图模型 SD3-M 上线,赶紧来试试吧!

前言 我们都知道 Stable Diffusion 3 是一款强大的文生图模型,拥有20亿参数,因其高效的推理速度和卓越的生成效果而备受瞩目。 近日,Stability AI在推特上宣布正式开源了 Stable Diffusion 3 Medium(SD3-M) 权重&…

住宅IP代理服务终极指南:增强安全性和可访问性

在当今的数字安装程序中,隐私和可访问性对于企业和个人都至关重要。满足这些需求的一个强大工具是住宅 IP 代理服务。这些服务为用户提供住宅 IP 地址,这些地址是互联网产品 (ISP) 计算房主的真实 IP。在本综合指南中,我们将探讨住宅 IP 代理…

Chrome插件:​Vue.js Devtools 高效地开发和调试

在现代前端开发中,Vue.js因其灵活性和性能优势,受到越来越多开发者的青睐。然而,随着项目规模的扩大,调试和优化变得愈发复杂。幸运的是,Vue.js Devtools的出现,为开发者提供了一套强大的工具集&#xff0c…

【道合顺展会预告】2024国际传感器仪器仪表物联网长沙展览会!

传感器技术作为万物互联的基石,正以前所未有的速度驱动着全球各行各业的转型升级。在此背景下,2024国际传感器&仪器仪表&物联网展览会将于6月28日至30日在长沙盛大启幕,道合顺传感将携公司最新技术及科研成果参加展览会,并…

运维.Linux下执行定时任务(上:Cron简介与用法解析)

运维专题 Linux下执行定时任务(上:Cron简介与用法解析) - 文章信息 - Author: 李俊才 (jcLee95) Visit me at CSDN: https://jclee95.blog.csdn.netMy WebSite:http://thispage.tech/Email: 291148484163.com. Shenzhen ChinaAd…

Hadoop3:MapReduce中的Reduce Join和Map Join

一、概念说明 学过MySQL的都知道,join和left join 这里的join含义和MySQL的join含义一样 就是对两张表的数据,进行关联查询 Hadoop的MapReduce阶段,分为2个阶段 一个Map,一个Reduce 那么,join逻辑,就可以…

Vlog视频如何剪辑 Vlog视频剪辑逻辑 视频剪辑制作教程

剪出感觉、剪出情绪,给Vlog视频注入高级氛围感。不用购买昂贵的前期设备,正确地剪辑思维搭配一款好用的视频剪辑软件,你也能剪出令人惊艳的Vlog作品。请收藏本文并反复练习,相信在不久的将来,您的作品必会让人眼前一亮…

宣告 adsb.exposed - 基于 ClickHouse 的 ADS-B 航班数据交互式可视化和分析

本文字数:10340;估计阅读时间:26 分钟 审校:庄晓东(魏庄) 本文在公众号【ClickHouseInc】首发 Meetup活动 ClickHouse 上海首届 Meetup 讲师招募中,欢迎讲师在文末扫码报名! 也许你已…

开发RpcProvider的网络服务

首先更改src的CMakeLists.txt的内容为: #当前目录的所有源文件放入SRC_LIST aux_source_directory(. SRC_LIST)#生成SHARED动态库 #add_library(mprpc SHARED ${SRC_LIST})#由于muduo是静态库,为了使用muduo,将mprpc也生成为静态库 add_libr…

【Docker】镜像

目录 1. 镜像拉取 2. 镜像查询 3. 镜像导出 4. 镜像上传 5. 镜像打标签 6. 镜像上推 7. 镜像删除 8. 镜像运行及修改 8.1 在registry 节点运行 mariadb 镜像,将宿主机 13306 端口作为容器3306 端口映射 8.2 查看容器ID 8.3 进入容器 8.4 创建数据库xd_d…

第三方软件测评中心▏软件系统测试详情介绍

软件系统测试是指对软件系统的功能、性能、安全等方面进行全面测试和评估的过程。在软件开发生命周期的不同阶段,通过各种测试手段和工具,对软件系统进行验证和确认,以确保软件系统的质量和可靠性。 软件系统测试的内容包括以下几个方面&…

基于4G工业路由器的连锁品牌店铺组网监测

基于4G工业路由器的连锁品牌店铺组网监测是智慧城市建设中至关重要的任务,它涉及到营运管理等多方面,应用物联网技术可确保店铺运营的高效、安全和可靠。 连锁品牌店铺遍布城市各领域,甚至跨城市部署,分布广泛。这对集团总部的管…