Flink中KeyBy、分区、分组的正确理解

news2024/11/19 4:45:25

1.Flink中的KeyBy

在Flink中,KeyBy作为我们常用的一个聚合类型算子,它可以按照相同的Key对数据进行重新分区,分区之后分配到对应的子任务当中去。
源码解析
keyBy 得到的结果将不再是 DataStream,而是会将 DataStream 转换为 KeyedStream(键控流),KeyedStream 可以认为是“分区流”或者“键控流”,它是对 DataStream 按照 key 的一个逻辑分区。
所以泛型有两个类型:除去当前流中的元素类型外,还需要指定 key 的类型。
在这里插入图片描述
KeyBy是如何实现分区的呢

Flink中的KeyBy底层其实就是通过Hash实现的,通过对Key的值进行Hash,再做一次murmurHash,取模运算。
再通过Job的并行度,就能获取每个Key应该分配到那个子任务中了。

在这里插入图片描述

2.分组和分区在Flink中的区别

分区:分区(Partitioning)是将数据流划分为多个子集,这些子集可以在不同的任务实例上进行处理,以实现数据的并行处理。
数据具体去往哪个分区,是通过指定的 key 值先进行一次 hash 再进行一次 murmurHash,通过上述计算得到的值再与并行度进行相应的计算得到。
分组:分组(Grouping)是将具有相同键值的数据元素归类到一起,以便进行后续操作(如聚合、窗口计算等)。
key值相同的数据将进入同一个分组中。
注意:数据如果具有相同的key将一定去往同一个分组和分区,但是同一分区中的数据不一定属于同一组。

3.代码示例

package com.flink.DataStream.Aggregation;

import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.common.typeinfo.Types;
import org.apache.flink.api.java.functions.KeySelector;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;

public class FlinkKeyByDemo {
    public static void main(String[] args) throws Exception {
        //TODO 创建Flink上下文执行环境
        StreamExecutionEnvironment streamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment();
        //设置并行度为1
        streamExecutionEnvironment.setParallelism(1);
        //设置执行模式为批处理
        streamExecutionEnvironment.setRuntimeMode(RuntimeExecutionMode.BATCH);
        //TODO source 从集合中创建数据源
        DataStreamSource<String> dataStreamSource = streamExecutionEnvironment.fromElements("hello word", "hello flink");
        //TODO 方式一 匿名实现类
        SingleOutputStreamOperator<Tuple2<String, Integer>> outputStreamOperator1 = dataStreamSource
                .flatMap(new FlatMapFunction<String, String>() {
                    @Override
                    public void flatMap(String s, Collector<String> collector) throws Exception {
                        String[] s1 = s.split(" ");
                        for (String word : s1) {
                            collector.collect(word);
                        }
                    }
                })
                .map(new MapFunction<String, Tuple2<String, Integer>>() {
                    @Override
                    public Tuple2<String, Integer> map(String s) throws Exception {
                        Tuple2<String, Integer> aa = Tuple2.of(s, 1);
                        return aa;
                    }
                })
                /**
                 * keyBy 得到的结果将不再是 DataStream,而是会将 DataStream 转换为 KeyedStream(键控流)
                 * KeyedStream 可以认为是“分区流”或者“键控流”,它是对 DataStream 按照 key 的一个逻辑分区
                 * 所以泛型有两个类型:除去当前流中的元素类型外,还需要指定 key 的类型。
                 * */

                /**
                 * 分组和分区在Flink 中具有不同的含义和作用:
                 * 分区:分区(Partitioning)是将数据流划分为多个子集,这些子集可以在不同的任务实例上进行处理,以实现数据的并行处理。
                 *      数据具体去往哪个分区,是通过指定的 key 值先进行一次 hash 再进行一次 murmurHash,通过上述计算得到的值再与并行度进行相应的计算得到。
                 * 分组:分组(Grouping)是将具有相同键值的数据元素归类到一起,以便进行后续操作 (如聚合、窗口计算等)。
                 *      key 值相同的数据将进入同一个分组中。
                 * 注意:数据如果具有相同的key将一定去往同一个分组和分区,但是同一分区中的数据不一定属于同一组。
                 * */

                .keyBy(new KeySelector<Tuple2<String, Integer>, String>() {
                    @Override
                    public String getKey(Tuple2<String, Integer> stringIntegerTuple2) throws Exception {
                        return stringIntegerTuple2.f0;
                    }
                })
                .sum(1);
        //TODO 方式二 Lamda表达式实现
        SingleOutputStreamOperator<Tuple2<String, Integer>> outputStreamOperator2 = dataStreamSource
                .flatMap((String s, Collector<String> collector) -> {
                    String[] s1 = s.split(" ");
                    for (String word : s1) {
                        collector.collect(word);
                    }
                })
                .returns(Types.STRING)
                .map((String word) -> {
                    return Tuple2.of(word, 1);
                })
                //Java中lamda表达式存在类型擦除
                .returns(Types.TUPLE(Types.STRING, Types.INT))
                .keyBy((Tuple2<String, Integer> s) -> {
                    return s.f0;
                })
                .sum(1);
        //TODO sink
        outputStreamOperator1.print("方式一");
        outputStreamOperator2.print("方式二");
        //TODO 执行
        streamExecutionEnvironment.execute("Flink KeyBy Demo");
    }
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1089040.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

机器学习之过拟合与欠拟合,K折交叉验证详解【含代码】

欠拟合 欠拟合&#xff08;Underfitting&#xff09;是机器学习和统计学中的一个术语&#xff0c;描述了模型在训练数据和新数据&#xff08;如测试数据或验证数据&#xff09;上都表现不佳的情况。换句话说&#xff0c;欠拟合的模型没有足够地“学习”或“捕捉”数据中的模式…

力扣刷题 day42:10-12

1.最大正方形 在一个由 0 和 1 组成的二维矩阵内&#xff0c;找到只包含 1 的最大正方形&#xff0c;并返回其面积。 方法一&#xff1a;动态规划 #方法一&#xff1a;动态规划 def maximalSquar(matrix):dp[[0]*(len(matrix[0])1) for i in range(len(matrix)1)] #dp[i][j…

十三、【画笔工具组】

文章目录 画笔工具铅笔工具颜色替换工具混合器画笔工具 画笔工具跟混合器画笔工具&#xff0c;是我们平时使用频率较高的两款工具: 画笔工具 可以把画笔工具看成我们用的毛笔,使用时可以在拾色器里边选择我们需要的画笔颜色,可以把拾色器当做我们画画时用的一个颜料盘&#xf…

健效达海豚妈妈儿保项目推介会盛大启幕,聚焦互联网+精准医疗

2023年10月12日&#xff0c;由上海健启星科技发展有限公司和北京安智因生物技术有限公司联合主办的“2023互联网精准医学平台助力基层医疗|海豚妈妈儿保项目推介会”在中国苏州盛大启幕。 本次项目推介会得到国内行业专家、权威学者、国内知名三甲名医教授、头部企业、学术大咖…

grafana接入OpenTSDB设置大盘语法

目录 1、filter过滤语法1.1 精准匹配1.2 正则匹配1.3 通配符匹配 完整示例1、 展示应用app的CPU利用率监控2&#xff09;展示应用app的在线核数 1、filter过滤语法 1.1 精准匹配 literal_or &#xff1a; tagv的过滤规则: 精确匹配多项迭代值&#xff0c;多项迭代值以’|分隔&a…

【面试经典150 | 哈希表】两数之和

文章目录 Tag题目来源题目解读解题思路方法一&#xff1a;暴力枚举方法二&#xff1a;哈希表 写在最后 Tag 【哈希表】【数组】 题目来源 1. 两数之和 题目解读 给定一个下标从 1 开始按照 非递减顺序排列 的整数数组 numbers&#xff0c;找出两数之和等于 target 的两个数&…

软件测试学习(五)

报告发现的问题 设法修复软件缺陷 ●没有足够的时间。在任何一个项目中&#xff0c;通常是软件功能太多&#xff0c;而代码编写人员和软件测试人员太少&#xff0c;而且进度中没有留出足够的空间来完成项目。假如你正在制作税务处理程序&#xff0c;4月15日 (赶在应付税务检查…

计算机毕业设计选什么题目好?springboot 高校学生综合测评管理系统

✍✍计算机编程指导师 ⭐⭐个人介绍&#xff1a;自己非常喜欢研究技术问题&#xff01;专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目&#xff1a;有源码或者技术上的问题欢迎在评论区一起讨论交流&#xff01; ⚡⚡ Java实战 |…

枚举探秘:Java中的神奇力量!

在 Java 枚举出现之前&#xff0c;通常会使用常量类来表示一组固定的常量值&#xff0c;直到Java 1.5之后推出了枚举&#xff0c;那么枚举类型有哪些特点&#xff0c;它比常量类又好在哪里呢。 本文将分析一下枚举的特点及用法。 一、什么是枚举 Java 枚举&#xff08;Enum&a…

leetcode 75. 颜色分类

2023.10.13 题目不让用sort方法&#xff0c;所以先用冒泡排序做了一下&#xff1a; 冒泡排序 class Solution {public void sortColors(int[] nums) {for(int i0; i<nums.length-1; i){for(int j0; j<nums.length-1; j){if(nums[j] > nums[j1]){int temp nums[j];n…

嵌入式实训室建设方案

嵌入式实训室概述 随着物联网和人工智能的快速发展,嵌入式技术迎来了发展机遇的同时,也给高校的嵌入式系统课程带来了挑战。嵌入式系统具有体积小、功能强、可靠性高等特点,已经广泛应用于各个领域,深入人们生活方方面面,对应培养多样化、高端化人才的需求。因此,越来越多高校…

信号弹图像立体匹配算法研究

目录 摘 要............................................. 3 第一章 绪论................................... 6 1.1 研究课题背景.......................... 6 1.2 立体匹配技术国内外发展现状............ 7 1.3 课题研究的目的...............…

代码随想录算法训练营第天十九天丨 二叉树part06

654.最大二叉树 思路 最大二叉树的构建过程如下&#xff1a; 对于这道题&#xff0c;思路整体模仿的是昨天的 根据中后序遍历构造二叉树 的解题思路。 直接看代码&#xff1a; class Solution {//用于快速查找private Map<Integer,Integer> map;public TreeNode cons…

3.6 空值的处理

思维导图&#xff1a; **3.6 空值的处理** 在前面的章节中&#xff0c;我们已经多次接触到了空值&#xff08;NULL&#xff09;的概念及其处理方式。在这一节中&#xff0c;我们将系统性地深入探讨空值的问题。 **定义&#xff1a;** 空值表示“不知道”、“不存在”或“无意…

云计算是什么?学习云计算能做什么工作?

很多人经常会问云计算是什么&#xff1f;云计算能干什么&#xff1f;学习云计算能做什么工作&#xff1f;其实我们有很多人并不知道云计算是什么&#xff0c;小知今天来给大家讲讲学习云计算能做什么。 中国的云计算行业目前正处于快速发展阶段&#xff0c;随着互联网和数字化…

介绍使用Photoshop制作ico图标

文章目录 说在前面安装制作插件制作ico 说在前面 Photoshop可以通过ICOFormat.8bi插件生成ico&#xff0c;但需要我们自行安装&#xff0c;安装过程很简单。 安装制作插件 下载地址&#xff1a; http://www.telegraphics.net/sw/ 下载完后解压文件得到下面这样的文件&#…

MySQL数据库的基本操作一

目录 什么是MySQL数据库? 数据库的基本操作 数据库操作 表操作 MySQL的增删改查 插入操作 查找操作 修改操作 删除操作 什么是MySQL数据库? MySQL 是一个关系型数据库管理系统&#xff0c;由瑞典 MySQL AB 公司开发&#xff0c;目前属于 Oracle 公司。MySQL 是一种关…

Zalo是什么?海外推广怎么做?

zalo是一款海外流行的通讯软件&#xff0c;2012年正式发布&#xff0c;至今已经拥有约2亿的用户&#xff0c;分别在越南、美国、缅甸、日本、台湾、泰国、韩国、马来西亚、沙乌地阿拉伯、安哥拉、斯里兰卡、捷克、俄罗斯地区上架。 zalo的越南用户数量很多&#xff0c;是越南地…

实操指南|如何用 OpenTiny Vue 组件库从 Vue 2 升级到 Vue 3

前言 根据 Vue 官网文档的说明&#xff0c;Vue2 的终止支持时间是 2023 年 12 月 31 日&#xff0c;这意味着从明年开始&#xff1a; Vue2 将不再更新和升级新版本&#xff0c;不再增加新特性&#xff0c;不再修复缺陷 虽然 Vue3 正式版本已经发布快3年了&#xff0c;但据我了…

c++视觉处理---直方图均衡化

直方图均衡化 直方图均衡化是一种用于增强图像对比度的图像处理技术。它通过重新分布图像的像素值&#xff0c;以使图像的直方图变得更均匀&#xff0c;从而提高图像的视觉质量。在OpenCV中&#xff0c;您可以使用 cv::equalizeHist 函数来执行直方图均衡化。以下是 cv::equal…