Flink入门(更新中)

news2025/1/10 17:12:52

目录

1.1 基本概念

1.1.1 flink简介

1.2 flink编程模版

1.3 常用概念

1.2.1 datastream

1.2.2 算子、Task

1.2.3 多流操作

1.2.6 时间语义

二、Flink编程实战(Java)

2.1 wordcount


1.1 基本概念

1.1.1 flink简介

1.图片介绍

性能:

  1. 低延迟
  2. 高吞吐
  3. 内存计算

运维:

  1. 弹性实施部署机制
  2. 高可用配置
  3. 保存点恢复机制

准确性保证:

  1. exactly-once 状态一致性
  2. 事件时间处理
  3. 专业的迟到数据处理

2.对比mapreduce

相似性

  1. 数据处理框架:都是大数据处理框架,都提供了一套编程模型和API,使得开发人员能处理大规模数据集。

  2. 分布式处理:都支持分布式处理,即数据可以在多个节点上并行处理。在MapReduce中,作业被拆分成多个map任务和reduce任务,这些任务在集群的多个节点上并行执行。在Flink中,数据流也被分割成多个部分,并在不同的任务(Task)中并行处理。

  3. 数据分区和聚合:在MapReduce中,map阶段的数据通常会被分区(sharding),并在reduce阶段进行聚合(如求和、计数等)。在Flink中,也有类似的机制,比如使用keyBy算子对数据进行分区,然后使用聚合函数(如summax等)对分区内的数据进行处理。

  4. 容错机制:都提供了容错机制,以确保在节点故障或数据丢失时能够恢复作业的执行。MapReduce通过检查点(checkpointing)和重试机制来实现容错,而Flink则提供了包括基于状态的容错和精确一次(exactly-once)语义的保证。

区别:

  1. 处理模式MapReduce是批处理框架,处理的是静态数据集(即数据在作业开始之前就已经存在)。而Flink是流处理框架,它处理的是实时数据流(即数据是持续不断地产生的)。

  2. 实时性:Flink支持低延迟的实时数据处理,能够处理毫秒级甚至微秒级的数据。而MapReduce则更适合于离线批处理场景,其处理延迟通常较高。

  3. 状态管理:Flink提供了更强大的状态管理能力,它能够在任务之间或故障恢复后保持状态的一致性,且API更丰富。

1.2 flink编程模版

1.万卷不离其宗!!!运行模型通常包括三个部分:Source(数据源)、Transformation(转换操作)、Sink(输出)。

  1. 获取一个编程之行入口环境env
  2. 通过数据源组建,加载,创建datastream
  3. 对datastream调用各种处理算子表达计算逻辑
  4. 通过sink算子指定计算结果指定计算结果的输出方式
  5. 在env上触发程序提交执行

2.添加依赖

对于Maven项目,在pom.xml文件中添加<dependency>元素,代码举例:

<dependencies>  
    <!-- Flink核心库 -->  
    <dependency>  
        <groupId>org.apache.flink</groupId>  
        <artifactId>flink-core</artifactId>  
        <version>你的Flink版本号</version>  
        <!-- 通常这个依赖的作用域设置为provided,但根据你的项目需求可以调整 -->  
        <!-- <scope>provided</scope> -->  
    </dependency>  
  
    <!-- Flink流处理库(Java API) -->  
    <dependency>  
        <groupId>org.apache.flink</groupId>  
        <artifactId>flink-streaming-java_你的Scala版本</artifactId>  
        <version>你的Flink版本号</version>  
        <!-- 如果在IDE中运行,可能需要将作用域设置为compile或runtime -->  
        <!-- <scope>compile</scope> -->  
    </dependency>  
  
    <!-- 如果你还需要使用Table API或SQL,则可以添加以下依赖 -->  
    <!-- Flink Table API和SQL的Java桥接库 -->  
    <dependency>  
        <groupId>org.apache.flink</groupId>  
        <artifactId>flink-table-api-java-bridge_你的Scala版本</artifactId>  
        <version>你的Flink版本号</version>  
        <!-- 通常这个依赖的作用域也设置为provided -->  
        <!-- <scope>provided</scope> -->  
    </dependency>  
  
    <!-- 注意:上述示例中的“你的Flink版本号”和“你的Scala版本”需要替换为实际的版本号 -->  
    <!-- Flink的版本号可以从Apache Flink的官方网站或Maven中央仓库获取 -->  
    <!-- Scala的版本号取决于你使用的Flink版本和Scala兼容性 -->  
</dependencies>

1.3 常用概念

1.2.1 datastream

  1. DataStream代表一个数据流,它可以是无界的,也可以是有界的;
  2. DataStream类似于spark的rdd,它是不可变的(immutable);
  3. 无法对一个datastream进行自由的添加或删除或修改元素;
  4. 只能通过算子对datastream中的数据进行转换,将一个datastream转成另一个datastream;
  5. datastream可以通过source算子加载、映射外部数据而来;或者从已存在的datastream转换而来

1.2.2 算子、Task

1.算子(Operator)可以被通俗地理解为一种可以调用的函数或操作,它们对数据进行处理或转换。不过,与传统的函数相比,Flink的算子是在分布式环境中执行的,它们能够处理无限的数据流或有限的数据集。

举例:

  • Window算子:Window算子就像是一个定时闹钟和一堆小盘子。你设置了时间间隔(比如每分钟、每小时),当时间到了,闹钟就会响,然后你把这段时间内收集到的所有食材(数据)放到一个小盘子里进行统一处理。这样可以让你看到数据随时间变化的趋势。

  • Filter算子:Filter算子就像是一个筛子。你把食材(数据)倒进筛子里,只有满足特定条件(比如大小、颜色等)的食材才能通过筛子继续向下流动。这个过程中,不满足条件的食材就被淘汰了。
  • Sink算子(Sink Operator):是数据流处理管道中的一个重要组成部分,它负责将处理后的数据输出到外部系统或存储中。Sink是数据流处理的终点,它接收来自上游算子的数据,并将其发送到目的地,如文件系统、数据库、消息队列等。

2.task,subtask

  1. flink程序中,每一个算子都可以成为一个独立任务(task);
  2. flink程序中,视上下游算子间数据分发规则、并行度、共享槽位设置,可组成算子链成为一个task
  3. 每个任务在运行时都可拥有多个并行的运行实例(subTask);
  4. 且每个算子任务的并行度都可以在代码中显式设置;

3. Task和算子的联系

  1. 共同作用于数据流处理:Task和算子都是处理数据流的关键组成部分。Task是执行单元,而算子定义了数据流上的具体操作。
  2. 优化与执行:为了提高处理效率和减少资源消耗,Flink会将多个算子链接(chain)成一个Task,在同一个线程中执行。

1.2.3 多流操作

多流操作指的是在数据流处理过程中,对两个或多个数据流进行各种转换和合并的操作。这些操作使得Flink能够处理复杂的数据流场景,如数据分流(将一条数据流拆分成多条)、数据合流(将多条数据流合并成一条)以及双流联结(基于特定条件将两条数据流联结起来)等。

1.2.6 时间语义

1. 事件时间(Event Time)

事件时间是指数据本身所携带的时间戳,即数据实际发生或产生的时间。你可以把它想象成每个数据项都自带了一个“出生证”,上面写着它是什么时候被创造出来的。在Flink中,事件时间允许我们按照数据实际发生的时间顺序来处理数据,即使这些数据在系统中是乱序到达的。

2. 处理时间(Processing Time)

处理时间是指数据在Flink系统中被处理时所在机器的系统时间。你可以把它想象成每个处理节点都有一个“本地时钟”,这个时钟告诉节点当前是什么时候,并且所有基于时间的操作都使用这个时钟的时间。

3. 摄入时间(Ingestion Time)

摄入时间是指数据进入Flink系统的时间戳,即数据被Flink Source算子接收的时间。你可以把它想象成Flink系统有一个“大门”,所有数据都要通过这个大门进入,而大门上有一个“计时器”,记录着每个数据项进门的时间。

二、Flink编程实战(Java)

2.1 wordcount

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1944893.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python 爬虫(爬取百度翻译的数据)

前言 要保证爬虫的合法性&#xff0c;可以从以下几个方面着手&#xff1a; 遵守网站的使用条款和服务协议&#xff1a;在爬取数据之前&#xff0c;仔细阅读目标网站的相关规定。许多网站会在其 robots.txt 文件中明确说明哪些部分可以爬取&#xff0c;哪些不可以。 例如&…

Java语言程序设计基础篇_编程练习题**15.19 (游戏:手眼协调)

**15.19 (游戏:手眼协调) 请编写一个程序&#xff0c;显示一个半径为10像素的实心圆&#xff0c;该圆放置在面板上的随机位置&#xff0c;并填充随机的顔色&#xff0c;如图15-29b所示。单击这个圆时&#xff0c;它会消失&#xff0c;然后在另一个随机的位置显示新的随机颜色的…

PySimpleGUI的安装、使用介绍

PySimpleGUI的安装等介绍 如果直接使用pip命令是无法下载免费版的&#xff0c;通过设置的python Interpreter也不可以下载到5.0.0之前的版本了。 现在已经无法通过pycharm直接获取到PySimpleGUI的免费&#xff08;无需登录&#xff09;版&#xff0c;不过听说可以登入官网然后进…

OpenTeleVision复现及机器人迁移

相关信息 标题 Open-TeleVision: Teleoperation with Immersive Active Visual Feedback作者 Xuxin Cheng1 Jialong Li1 Shiqi Yang1 Ge Yang2 Xiaolong Wang1 UC San Diego1 MIT2主页 https://robot-tv.github.io/链接 https://robot-tv.github.io/resources/television.pdf代…

JavaWeb连接(JDBC)数据库实现增删改查

JavaWeb连接(JDBC)数据库实现增删改查 1、数据库结构 (1)、创建数据库&#xff08;source_db&#xff09; (2)、创建数据表&#xff08;tb_source&#xff09;&#xff0c;结构如下 字段名说明字段类型长度备注id编号int主键&#xff0c;自增&#xff0c;增量为 1name名称v…

通过Docker安装KingbaseES V8并激活开发License

人大金仓最大连接数的修改跟pgsql差不多&#xff0c;就是修改kingbase.conf文件&#xff0c;修改里面的max_connections 10 &#xff0c;有时候会发现修改后不成功的问题&#xff0c;最直接的表现就是在修改后重启服务&#xff0c;控制台还是提示重置为10&#xff0c;最大的原…

区块链浏览器开发指南分享

01 概括 区块链浏览器是联盟链上的一种数据可视化工具&#xff0c;用户可以通过web页面&#xff0c;直接在浏览器上查看联盟链的节点、区块、交易信息和子链信息、标识使用信息等&#xff0c;用以验证交易等区块链常用操作。 02功能模块 区块链网络概览 区块链网络概览显示…

leetcode日记(47)螺旋矩阵Ⅱ

这题思路不难&#xff0c;就是找规律太难了。 我首先的思路是一行一行来&#xff0c;根据规律填入下一行的数组&#xff0c;第i行是由前i个数字&#xff08;n-2*i&#xff09;个增序数列后i个数字组成&#xff0c;后来觉得太难找规律了就换了一种思路。 思路大致是先计算出需…

【音视频之SDL2】Ubuntu编译配置SDL2环境

文章目录 前言SDL2 是什么编译SDL2下载必备的包下载SDL2.30.5源码 编写CMake模板项目测试代码 总结 前言 SDL2&#xff08;Simple DirectMedia Layer 2&#xff09;是一个用于开发跨平台多媒体应用程序的广泛使用的库&#xff0c;特别是在游戏开发中。它为音频、键盘、鼠标、操…

pageoffice常见问题处理

pageoffice是由卓正软件公司开发的一套在线编辑office的插件。要在自己的系统中使用&#xff0c;需要进行集成开发&#xff0c;把pageoffice嵌入到自己的系统中。以下记录在使用过程中常见的问题和解决方法&#xff1a; 1.PageOffice对客户端的要求 office 不能是家庭版&#x…

【区块链+绿色低碳】基于区块链的碳排放管理系统 | FISCO BCOS应用案例

目前业内的碳排放核查方式主要依靠于第三方人工核查、手动填报数据&#xff0c;然后由具备有认证资质的机构进行核验 盖章。但在此过程中存在数据造假的情况&#xff0c;给碳排放量核算的准确性、可靠性带来挑战。 中科易云采用国产开源联盟链 FISCO BCOS&#xff0c;推出基于…

【时序约束】读懂用好Timing_report

一、静态时序分析&#xff1a; 静态时序分析&#xff08;Static Timing Analysis&#xff09;简称 STA&#xff0c;采用穷尽的分析方法来提取出整个电路存在的所有时序路径&#xff0c;计算信号在这些路径上的传播延时&#xff0c;检查信号的建立和保持时间是否满足时序要求&a…

SpringBoot原理——面试高频

目录 1.什么是起步依赖&#xff1f; 2.起步依赖如何工作&#xff1f; 3.什么是自动配置&#xff1f; 4.自动配置原理 1.什么是起步依赖&#xff1f; 起步依赖是Spring Boot中的一个概念&#xff0c;它实质上是一个Maven项目对象模型&#xff08;POM&#xff09;&#xff0c;…

1 go语言环境的搭建

本专栏将从基础开始&#xff0c;循序渐进&#xff0c;由浅入深讲解Go语言&#xff0c;希望大家都能够从中有所收获&#xff0c;也请大家多多支持。 查看相关资料与知识库 专栏地址:Go专栏 如果文章知识点有错误的地方&#xff0c;请指正&#xff01;大家一起学习&#xff0c;…

IT服务管理业务策划与实施:追求IT用户满意与持续改进

在当今的信息化时代&#xff0c;IT服务已成为企业运营不可或缺的一部分。有效的IT服务管理不仅能够提升企业运营效率&#xff0c;还能显著增强IT用户满意度。本文将围绕IT服务管理的业务策划与实施展开探讨&#xff0c;旨在为运维团队提供一套全面、系统的参考框架。 一、IT服…

AI在候选人评估中的作用:精准筛选与HR决策的助力

一、引言 随着科技的迅猛发展&#xff0c;人工智能&#xff08;AI&#xff09;技术已逐渐渗透到各个行业和领域&#xff0c;人力资源管理&#xff08;HRM&#xff09;亦不例外。在候选人评估的环节中&#xff0c;AI技术以其高效、精准的特性&#xff0c;正在逐步改变着传统的招…

el-table表格 及其el-pagination分页 封装及其使用

1、首页在components文件夹中新建table文件夹 table文件夹下table.vue全部代码&#xff1a; <template><el-table:stripe"stripe":row-key"handlerRowKey()":tree-props"treeProps":border"border":show-summary"showS…

Vue3相比于Vue2进行了哪些更新

1、响应式原理 vue2 vue2中采用 defineProperty 来劫持整个对象&#xff0c;然后进行深度遍历所有属性&#xff0c;给每个属性添加getter和setter&#xff0c;结合发布订阅模式实现响应式。 存在的问题&#xff1a; 检测不到对象属性的添加和删除数组API方法无法监听到需要对…

蓝桥杯单片机学习总结(Day15 超声波测距)

开启超声波模块测距方法&#xff1a; X20106A是一款红外线检波接收的专用芯片&#xff0c;常用于电视机红外遥控接收器。当CX20106A接收到40KHz的信号时&#xff08;第五脚200K的电阻决定了其频率为40KHz&#xff09;&#xff0c;会在OUT脚输出一个低电平下降脉冲。这个信号甚至…

IDEA打开终端报错Cannot open Local Terminal命令行功能

idea项目中不能打开命令行功能 IDEA打开终端报错Cannot open Local Terminal 意思是打开命令行发生错误 idea上配置shell终端&#xff0c;命令行页面 打开右上角 File–> setting–> Tools–> 终端 找到Shell 路径 文本框中原本是是powershell.exe&#xff0c;现在…