flink 分组窗口聚合 与 窗口表值函数聚合 的区别

news2025/4/4 10:04:22

警告:分组窗口聚合已经过时。推荐使用更加强大和有效的窗口表值函数聚合。

参考官方文档
在这里插入图片描述

在 Apache Flink 中,分组窗口聚合(Group Window Aggregation)窗口表值函数聚合(Windowing TVF Aggregation) 是两种不同的窗口处理方式,主要区别体现在语法结构、灵活性和适用场景上。以下是两者的详细对比:


1. 分组窗口聚合(Group Window Aggregation)

定义
  • 语法:将窗口函数(如 TUMBLEHOPSESSION)直接嵌入 GROUP BY 子句,作为分组条件的一部分。
  • 特点
    • 语法简洁,适合快速定义简单窗口。
    • 旧版本(Flink <1.13)中常用,但逐渐被窗口表值函数替代。
    • 功能受限,无法直接访问窗口元信息(如窗口开始/结束时间)。
示例
SELECT 
    user,
    TUMBLE_START(rowtime, INTERVAL '1' HOUR) AS window_start,
    COUNT(*) AS cnt
FROM Orders
GROUP BY 
    user, 
    TUMBLE(rowtime, INTERVAL '1' HOUR)  -- 窗口作为分组条件
缺点
  • 无法扩展窗口元数据:无法在 SELECT 子句中直接获取 window_end 或窗口属性。
  • 功能局限:不支持复杂窗口操作(如窗口连接、窗口级自定义函数)。

2. 窗口表值函数聚合(Windowing TVF Aggregation)

定义
  • 语法:使用窗口函数(如 TUMBLEHOP)作为表值函数(TVF),生成一个包含窗口元数据(window_startwindow_end)的虚拟表,再通过标准 GROUP BY 聚合。
  • 特点
    • 语法符合标准 SQL,更灵活。
    • 支持访问窗口元信息(如 window_startwindow_end)。
    • 支持复杂操作(如多窗口叠加、窗口连接、自定义窗口逻辑)。
    • Flink 1.13+ 推荐方式,代表未来发展方向。
示例
SELECT 
    user,
    window_start,
    window_end,
    COUNT(*) AS cnt
FROM TABLE(
    TUMBLE(  -- 窗口作为表值函数
        TABLE Orders, 
        DESCRIPTOR(rowtime), 
        INTERVAL '1' HOUR
    )
)
GROUP BY user, window_start, window_end  -- 标准分组
优点
  • 元数据可见:可直接在结果中输出 window_startwindow_end 等字段。
  • 灵活性高:支持与其他表函数(如 JOINCROSS APPLY)结合使用。
  • 统一语法:与标准 SQL 兼容,便于扩展复杂逻辑(如窗口内 TopN)。

核心区别对比

特性分组窗口聚合窗口表值函数聚合
语法结构窗口函数嵌入 GROUP BY窗口函数作为表值函数,生成虚拟表
窗口元数据访问仅能通过 TUMBLE_START 等函数获取直接输出 window_startwindow_end
扩展性功能受限,不支持复杂操作支持窗口连接、嵌套聚合、自定义逻辑
SQL 标准兼容性Flink 特有语法符合 ANSI SQL 标准
Flink 版本兼容性旧版本(Flink <1.13)常用新版本(Flink ≥1.13)推荐
适用场景简单窗口统计(如固定时间聚合)复杂窗口逻辑(如多窗口叠加、窗口连接)

选择建议

  • 简单场景:若只需快速实现固定窗口(如每小时统计一次),分组窗口聚合语法更简洁。
  • 复杂场景:若需灵活操作窗口元数据、多窗口叠加或与其他表函数结合,选择窗口表值函数。
  • 未来兼容性:新项目建议直接使用窗口表值函数,避免未来版本迭代的兼容性问题。

进阶示例:窗口表值函数的灵活性

多窗口叠加
-- 同时统计1小时和5分钟的窗口
SELECT 
    click,
    window_start,
    window_end,
    COUNT(*) AS cnt
FROM TABLE(
    TUMBLE(TABLE test_source, DESCRIPTOR(event_time), INTERVAL '1' MINUTE)
)
GROUP BY click, window_start, window_end
union
SELECT 
    click,
    window_start,
    window_end,
    COUNT(*) AS cnt
FROM TABLE(
    TUMBLE(TABLE test_source, DESCRIPTOR(event_time), INTERVAL '5' MINUTE)
)
GROUP BY click, window_start, window_end;
窗口连接
-- 窗口连接不同表
SELECT 
    o.window_start,
    o.user,
    o.cnt AS order_count,
    p.cnt AS payment_count
FROM (
    SELECT window_start, user, COUNT(*) AS cnt
    FROM TABLE(TUMBLE(TABLE Orders, DESCRIPTOR(rowtime), INTERVAL '1' HOUR))
    GROUP BY window_start, user
) o
JOIN (
    SELECT window_start, user, COUNT(*) AS cnt
    FROM TABLE(TUMBLE(TABLE Payments, DESCRIPTOR(pay_time), INTERVAL '1' HOUR))
    GROUP BY window_start, user
) p ON o.window_start = p.window_start AND o.user = p.user;

总结

  • 分组窗口聚合:适合快速实现简单窗口逻辑,语法简洁但功能受限。
  • 窗口表值函数:提供更强大的扩展性和标准化语法,是 Flink 未来窗口处理的核心方向。

根据业务需求和 Flink 版本选择合适的方案,复杂场景优先使用窗口表值函数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2326392.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

阿里云Tair KVCache:打造以缓存为中心的大模型Token超级工厂

一、Tair KVCache 简介 Tair KVCache 是阿里云瑶池旗下云数据库 Tair 面向大语言模型推理场景推出的 KVCache 缓存加速服务。 随着互联网技术的演进与流量规模的激增&#xff0c;缓存技术逐渐成为系统架构的核心组件。该阶段催生了 Redis 等开源缓存数据库&#xff0c;阿里巴巴…

通过TIM+DMA Burst 实现STM32输出变频且不同脉冲数量的PWM波形

Burst介绍&#xff1a; DMA控制器可以生成单次传输或增量突发传输&#xff0c;传输的节拍数为4、8或16。 为了确保数据一致性&#xff0c;构成突发传输的每组传输都是不可分割的&#xff1a;AHB传输被锁定&#xff0c;AHB总线矩阵的仲裁器在突发传输序列期间不会撤销DMA主设备…

[Effective C++]条款26:尽可能延后变量定义的出现时间

. 在C中&#xff0c;尽可能延后变量定义的出现时间&#xff0c;主要原因是为了提供代码的可读性&#xff0c;减少不必要的开销以及避免潜在的错误。 1、代码执行过程中抛出异常 如果在代码开头定义了变量&#xff0c;但在后续代码中抛出了异常&#xff0c;可能导致变量在未被使…

如何在k8s中对接s3存储

github地址&#xff1a; https://github.com/majst01/csi-driver-s3 1.CSI for S3 这是用于 S3&#xff08;或兼容 S3&#xff09;存储的容器存储接口 (CSI)。它可以动态分配存储桶并通过Fuse mount将它们安装到任何容器中 2.状态 这仍处于试验阶段&#xff0c;不应在任何…

FPGA实现LED流水灯

一、在VsCode中写代码 1、建立工程项目文件water_led.v文件 2、打开项目文件&#xff0c;创建三个目录 3、打开文件trl&#xff0c;创建water_led.v文件 4、打开文件tb&#xff0c;创建water_led_tb.v文件 5、用VsCode打开water_led.v文件&#xff0c;编写源代码 module water…

百度文库免费下载器

01 引言 在国内的环境下&#xff0c;Greasy Fork网站是彻底打不开了&#xff0c;导致好多小伙伴想要用脚本都没办法。 特别是需要某Wen库下载的小伙伴&#xff0c;之前还说实在没办法&#xff0c;去Greasy Fork网站上安个脚本就可下载&#xff0c;但是现在网站被墙了&#xf…

[NCTF2019]True XML cookbook[XXE] [内网探测] [网络ip相关知识]

一模一样的登录界面 我直接故伎重演但是并卵 &#xff08;话说XXE注入之前好像其他博客都加上了<?xml version"1.0" encoding"utf-8"?>&#xff0c;但是不加好像也没有什么问题&#x1f914;&#xff09; <?php /** * autor: c0ny1 * date: …

Linux驱动的基本概念

一 交叉开发编译 概念&#xff1a;交叉开发编译(Cross Compilation)是指在一个平台上生成能在另一个不同平台上执行的代码的编译过程。这是嵌入式系统开发和跨平台软件开发中的常见技术。 二 系统启动流程 在Linux源码下&#xff0c;通过网口利用tftp协议把u-bantu下的uImage…

win server2022 限制共享文件夹d

点击配额管理中的配额 然后创建配额 导入要配额的文件即可 然后确定即可

Ansible(3)——主机清单与配置文件

目录 一、创建 Ansible 清单&#xff1a; 1、清单定义&#xff1a; 2、使用静态清单指定受管主机&#xff1a; &#xff08;1&#xff09;主机名称指定&#xff1a; &#xff08;2&#xff09;IP 地址指定&#xff1a; 3、验证清单&#xff1a; &#xff08;1&#xff0…

C语言 【初始指针】【指针一】

引言 思绪很久&#xff0c;还是决定写一写指针&#xff0c;指针这块内容很多&#xff0c;也不是那么容易说清楚&#xff0c;这里尽可能写地详细&#xff0c;让大家理解指针。&#xff08;未完序&#xff09; 一、内存和地址 在讲指针前&#xff0c;需要有一个对内存和地址的认…

IP 地址规划中的子网划分:/18 网络容纳 64 个 C 段(/24)的原理与应用解析

整体表格说明 这是某市教育城域网中某县教育相关机构的IP地址规划表&#xff0c;明确了某县一中和某县教育局的IP地址范围&#xff0c;包括终端使用地址段、业务互访地址段。 概念解析 64个C段终端及互联地址 C段地址&#xff1a;一个C段是IP地址中的一个/24网络&#xff08;…

linux下Tomcat配置提示权限不够解决办法

文章目录 前言解决方案 前言 往linux服务器上部署Java后端&#xff0c;但是在服务器上安装好的tomcat&#xff0c;却因为权限不够无法进入 这就导致后端war包项目及前端页面无法部署 解决方案 sudo chmod -R 777 /opt/tomcat/webapps修改tomcat目录下的权限即可&#xff0c;对…

您使用的开源软件许可证是否存在冲突呢?

开源软件代码使用现状 根据最新发布的《第三次自由和开源软件普查报告》&#xff0c;96%的代码库中使用了开源组件&#xff0c;这表明开源技术在现代软件开发中占据了核心地位。在国内企业软件项目中&#xff0c;开源软件的使用率达到了100%&#xff0c;平均每个项目使用了166…

leetcode刷题日记——接雨水

[ 题目描述 ]&#xff1a; [ 思路 ]&#xff1a; 题目要求求凹进去的部分能接多少雨水&#xff0c;即有多少个格子可以从第一个高度快出发去寻找下一个高于或者等于他的格子&#xff0c;然后计算其中的差值 有高于或等于他的格子&#xff0c;计算他俩中间能装的雨水当后续没有…

阿里巴巴暑期实习Java面经,灵犀互娱一面

哈希表熟悉吗&#xff0c;可以如何实现&#xff1f; 开散列版本什么时候需要扩容 高并发服务器内的主从reactor模型是如何实现的&#xff1f; 进程 线程 协程 的区别&#xff1f; 如何保证线程安全 &#xff1f; 了解读写锁吗&#xff1f; 单例模式有了解吗&#xff1f; 可以怎…

AI知识补全(十四):零样本学习与少样本学习是什么?

名人说&#xff1a;一笑出门去&#xff0c;千里落花风。——辛弃疾《水调歌头我饮不须劝》 创作者&#xff1a;Code_流苏(CSDN)&#xff08;一个喜欢古诗词和编程的Coder&#x1f60a;&#xff09; 上一篇&#xff1a;AI知识补全&#xff08;十三&#xff09;&#xff1a;注意力…

如何用Postman实现自动化测试?

&#x1f345; 点击文末小卡片&#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 这里简单演示在postman中怎样实现自动化测试&#xff08;不涉及到用户登录的token认证&#xff09; 导入测试用例文件&#xff0c;测试web接口 postman使用流程…

LeetCode Hot100 刷题笔记(9)—— 二分查找、技巧

目录 前言 一、二分查找 1. 搜索插入位置 2. 搜索二维矩阵 3. 在排序数组中查找元素的第一个和最后一个位置 4. 搜索旋转排序数组 5. 寻找旋转排序数组中的最小值 6. 寻找两个正序数组的中位数 二、技巧 1. 只出现一次的数字 2. 多数元素 3. 颜色分类 4. 下一个排列 5. 寻找重复…

Ubuntu 系统上完全卸载 Docker

以下是在 Ubuntu 系统上完全卸载 Docker 的分步指南 一.卸载验证 二.卸载步骤 1.停止 Docker 服务 sudo systemctl stop docker.socket sudo systemctl stop docker.service2.卸载 Docker 软件包 # 移除 Docker 核心组件 sudo apt-get purge -y \docker-ce \docker-ce-cli …