Flink 动态表 (Dynamic Table) 解读

news2024/11/18 9:30:38
《大数据平台架构与原型实现:数据中台建设实战》博主历时三年精心创作的《大数据平台架构与原型实现:数据中台建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行,点击《重磅推荐:建大数据平台太难了!给我发个工程原型吧!》了解图书详情,京东购书链接:https://item.jd.com/12677623.html,扫描左侧二维码进入京东手机购书页面。

题记

根据过去在流上维持状态的编程经验,我们可以深刻地体会到:Dynamic Table 的本质其实是基于 changelog 数据流维持的一个流上的状态(Streaming State)!

动态表是 Flink 能以 SQL 驱动和操纵流式处理的基础,也是 Flink 实现 ”批流一体“ 的一项内在的技术支撑。简单地说,它的思想就是:将一个”流“抽象成一张”无界”的数据表,这样就可以在上面施加 SQL 操作了。静态的关系表和数据流有可以类比的地方,这是能将两者映射在一起的理论基础,同时,它们之间也有难以弥合的差异,所以在某些方面要进行限制或做出适当的妥协。文本将以 Flink 官方文档:动态表 (Dynamic Table) 为基底,给出一些批注式的解读。

对齐“概念”


首先,让我们来统一一些概念,对于一张动态表的查询可以有两个层面的解读,从上层应用的角度看:它就是一条 SQL,在查询一张表,只不过这张表是动态的,它的查询结果会一直在变(不同时间查,结果是不一样的),相应地,这条SQL其实是一直在跑的(不是反复查询,而是是一个持续运行 streaming job);从底层实现的角度看,这条 SQL 其实是被翻译成了一个Streaming 作业,从源端不停地读取 changelog 数据,然后在流上维持一个”状态“数据,状态数据就是 SQL 要表达的结果表。所以:

查询动态表就是生成一个连续查询(一个 Streaming Job),一个连续查询是不会终止的(流是不会自行终止的,动态表是“无界”的),结果会生成一个动态表 (Streaming 上的 ”状态“),查询会不断更新这张结果表(更新状态),实时地反映新流入的数据后对结果表的影响(同样的条件,不同时间查询,结果也可能不同,结果表里的数据可能一直在变)。

为了方便描述,我们可能会交替使用以下称谓或术语,它们指得都是同一件事情:

流式 SQL 查询 <=> 查询动态表 <=> 连续查询

”动态表“ 两例


Flink 官方文档给出的两个张”动态表“的图示还是非常形象的,也是后面解释关联问题的基础,所以,这里先列出来:

  • 第一个示例:

在这里插入图片描述

  • 第二个示例:

在这里插入图片描述

结果表的状态:更新中… 或 追加中…


既然连续查询是永不停止的,那么结果表自然也是一直在变化的,它要么是在持续“更新”记录中,要么是在持续 “追加”记录中,至于是更新还是追加,取决于中间的处理逻辑,也就是 SQL 本身。官方文档给出的两个示例恰好一个是更细,另一个是追加:

  • 第一个查询的结果表是需要”持续更新“的(有 UPSERT 操作),以 Mary 为例,她的 cnt 从 1 到 2 时就是一次更新
  • 第二个查询只附加到结果表,即结果表的 changelog 流只包含 INSERT 操作。

一个查询是产生一个只追加的表还是一个更新的表有一些含义:

  • 产生更新更改的查询通常必须维护更多的状态。
  • 将 append-only 的表转换为流与将已更新的表转换为流是不同的(参阅表到流的转换章节)。

查询限制


尽管动态表的概念在语义上能将SQL(二维关系模型)比较好地映射到流上,但还是会有一些“力所不能及”的地方,这主要体现在对查询的一些“限制”上。有两类典型的限制:

  • 维持了过多/过大的“状态”:这一点比较好理解,如果你的流式查询的结果表每一条都是一个”状态“,那流就需要一直维持这个状态,表的结果集绝大,维持的状态就越大/越大,直到程序因资源不足最后报错。此类案例就是:在第一个查询示例中,如果结果表中的每一条用户数据都是一个”状态“(可被 Upsert ),如果用户数量巨大,这个 SQL 就会报错,因为维持的 ”状态“ 负担太大;

    -- 若用户数量过多,则维持的状态就会过多过大,可能会消耗大量资源
    SELECT user, COUNT(url) FROM clicks GROUP BY user;
    
  • 更新的数据量过大:通俗一点说就是:更新牵涉的数量太大,这一点在基于静态表的批量查询中并不会体现出来,但基于动态表的流式 SQL 查询是”连续查询“,它会不停地查询,不停地更新结果表,此时,如果查询每次都要更新大量已输出的结果行,那么查询成本就会被叠加”放大“,变得非常高!此类案例就是官方文档给出的示例,每此有新记录产生,都要重新进行排名,更新所有已输出的行,对于不停刷新的动态表来说,这一操作成本太大。

    -- 每此有新记录产生,都要重新进行排名,更新所有已输出的行,对于不停刷新的动态表来说,这一操作成本太大
    SELECT user, RANK() OVER (ORDER BY lastAction)
    FROM (
      SELECT user, MAX(cTime) AS lastAction FROM clicks GROUP BY user
    );
    

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1435344.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

编译原理与技术(二)——词法分析(一)正则表达式

一、词法分析的概貌 一个程序&#xff0c;在我们看来往往是像下图这样的。 实际上&#xff0c;上面的程序本质上就是一个字符串&#xff0c;所以&#xff0c;它等价于下面这样的。 上面的字符串&#xff08;字符流&#xff09; &#xff0c;就是编译器接收到的程序的形式。 所…

数据库管理-第145期 最强Oracle监控EMCC深入使用-02(20240205)

数据库管理145期 2024-02-05 数据库管理-第145期 最强Oracle监控EMCC深入使用-02&#xff08;20240205&#xff09;1 监控方式2 度量配置3 阻塞4 DG监控总结 数据库管理-第145期 最强Oracle监控EMCC深入使用-02&#xff08;20240205&#xff09; 作者&#xff1a;胖头鱼的鱼缸&…

lombok的使用

lombok的使用 Lombok如何使用&#xff1f;导入POM依赖即可使用示例 Lombok Lombok是一个可以帮助我们简化Java代码编写的工具类&#xff0c;通过注解的方式&#xff0c;可以消除代码中的构造方法、getter/setter等代码&#xff0c;使写的类更加简洁。 如何使用&#xff1f;导入…

769933-15-5,Biotin aniline,用来标记和检测细胞膜上的特定蛋白质

您好&#xff0c;欢迎来到新研之家 文章关键词&#xff1a;769933-15-5&#xff0c;Biotin aniline&#xff0c;生物素苯胺 一、基本信息 产品简介&#xff1a;Biotin aniline, also known as Biotin aniline, is a molecular probe with strong reactivity. Its uniqueness…

goland中快捷关键词forr、main等不生效的问题记录

平时用的较多的一些快捷关键词&#xff0c;如forr会提示range循环并通过回车可自动打出来&#xff0c;main会提示main函数并通过回车可自动打出来&#xff0c;这种快捷处理能极大的提高编码效率。 但由于之前更改了一些配置&#xff0c;可能有的被覆盖失效了&#xff0c;重新修…

vue+vite项目,动态导入静态资源的几种方式

博主的桌面工具软件已经正式开发&#xff0c;获取方式&#xff1a; 可以关注我的小程序【中二少年工具箱】获取。&#xff08;若小程序更新有延迟&#xff0c;可先收藏小程序&#xff09; 通过下载链接 百度网盘: 链接&#xff1a;https://pan.baidu.com/s/15zDnSoEzJGSZLjpD…

【安卓跨程序共享数据,探究ContentProvider】

ContentProvider主要用于在不同的应用程序之间实现数据共享的功能&#xff0c;它提供了一套完整的机制&#xff0c;允许一个程序访问另一个程序中的数据&#xff0c;同时还能保证被访问数据的安全性。 目前&#xff0c;使用ContentProvider是Android实现跨程序共享数据的标准方…

003集—三调数据库添加三大类字段——arcgis

在国土管理日常统计工作中经常需要用到三大类数据&#xff08;农用地、建设用地、未利用地&#xff09;&#xff0c;而三调数据库中无三大类字段&#xff0c;因此需要手工录入三大类字段&#xff0c;并根据二级地类代码录入相关三大类名称。本代码可一键录入海量三大类名称统计…

性能实测:分布式存储 ZBS 与集中式存储 HDS 在 Oracle 数据库场景表现如何

作者&#xff1a;深耕行业的 SmartX 金融团队 金鑫 在金融客户的基础架构环境中&#xff0c;HDS 是一种被广泛使用的存储解决方案。作为集中式存储的代表之一&#xff0c;HDS 拥有高性能、高可用性和可扩展性的企业级存储特点&#xff0c;适用于实时数据处理、虚拟化和灾难备份…

c++入门学习④——对象的初始化和清理

目录 对象的初始化和清理&#xff1a; why? 如何进行初始化和清理呢&#xff1f; 使用构造函数和析构函数​编辑 构造函数语法: 析构函数语法: 构造函数的分类&#xff1a; 两种分类方式&#xff1a; 三种调用方法&#xff1a; 括号法&#xff08;默认构造函数调用&…

thinkphp数据批量提交(群发消息)

<form id="edit-form" class="form-horizontal" role="form" data-toggle<

PHP实现DESede/ECB/PKCS5Padding加密算法兼容Java SHA1PRNG

这里写自定义目录标题 背景JAVA代码解决思路PHP解密 背景 公司PHP开发对接一个Java项目接口&#xff0c;接口返回数据有用DESede/ECB/PKCS5Padding加密&#xff0c;并且key也使用了SHA1PRNG加密了&#xff0c;网上找了各种办法都不能解密&#xff0c;耗了一两天的时间&#xf…

【Qt学习笔记】(三)常用控件(持续更新)

Qt 常用控件 1 控件概述2 QWidget 控件核心属性2.1 enabled2.2 geometry2.3 window frame 的影响2.4 windowTitle2.5 window Icon2.6 windowOpacity2.7 cursor2.8 font2.9 toolTip2.10 focusPolicy2.11 stylesheet 1 控件概述 Widget是Qt中的核心概念英文原义是"小部件&q…

netty-websocket扩展协议及token鉴权补充

文章源码&#xff1a;gitee 源码部分可以看上一篇文章中的源码分析netty-websocket 鉴权token及统一请求和响应头&#xff08;鉴权控制器&#xff09; 最近刚好没事&#xff0c;看到有朋友说自定义协议好搞&#xff0c;我就想了想&#xff0c;发现上面那种方式实现确实麻烦&…

假期刷题打卡--Day24

1、MT1198阶乘差 求1!-2!-3!-…-n! 格式 输入格式&#xff1a; 输入为整型 输出格式&#xff1a; 输出为整型 样例 1 输入&#xff1a; 5输出&#xff1a; -151 分析过程 看到这个题目的时候&#xff0c;感觉这个题目出现的没有必要&#xff0c;就和前面阶乘和一样的…

jbdc的简单了解

JDBC JDBC所处的位置 JDBC的本质 Java操作数据库的一套接口。 补充 ddl:数据库定义语言,例如建表,创建数据库等。 dml:数据库操作语言,例如增删改。 dql:数据库查询语言,例如查询语句。 注意 在创建Java项目后的第一个步骤是导入jar包。 导入jar包的步骤 1 创建l…

华为视频监控接入到视频监控平台 (华为网路监控摄像机IPC和华为视频节点设备VCN)

目 录 一、设备介绍 1.1 华为VCN介绍 1.2 AS-V1000视频监控平台介绍 1.3 平台服务器配置说明 二、安装、配置HW_IVS软件 2.1下载安装HW_IVS软件 2.2登录HW_IVS 2.3共享到外域 三、配置华为外域参数 3.1 PCG模块设置 3.2通信协议GBT28181配置 3.3传…

ChatGPT 4.0 升级指南, ChatGPT Plus(GPT 4.0) 有何优势?

1.ChatGPT 是什么&#xff1f; ChatGPT 是由 OpenAI 开发的一种基于人工智能的聊天机器人&#xff0c;它基于强大的语言处理模型 GPT&#xff08;Generative Pre-trained Transformer&#xff09;构建。它能够理解人类语言&#xff0c;可以为我们解决实际的问题。 ChatGPT 4.…

网络选择流程分析(首选网络类型切换流程)

首先是界面,我在此平台的界面如下: 对应的入口源码位置在Settings的UniEnabledNetworkModePreferenceController中,当然其他平台可能在PreferredNetworkModePreferenceController中,流程上都是大同小异 然后点击切换按钮会调用到UniEnabledNetworkModePreferenceControlle…

【第三十五节】idea项目的创建以及setting和Project Structure的设置

项目创建 Project Structure的设置 点击file ~ Project Structure 进入