Flink入门（更新中）

news2025/7/8 9:11:06

一、Flink

1.1 基本概念

1.1.1 flink简介

1.2 flink编程模版

1.3 常用概念

1.2.1 datastream

1.2.2 算子、Task

1.2.3 多流操作

1.2.6 时间语义

二、Flink编程实战(Java)

2.1 wordcount

一、Flink

1.1 基本概念

1.1.1 flink简介

1.图片介绍

性能：

低延迟
高吞吐
内存计算

运维：

弹性实施部署机制
高可用配置
保存点恢复机制

准确性保证：

exactly-once 状态一致性
事件时间处理
专业的迟到数据处理

2.对比mapreduce

相似性

数据处理框架：都是大数据处理框架，都提供了一套编程模型和API，使得开发人员能处理大规模数据集。

分布式处理：都支持分布式处理，即数据可以在多个节点上并行处理。在MapReduce中，作业被拆分成多个map任务和reduce任务，这些任务在集群的多个节点上并行执行。在Flink中，数据流也被分割成多个部分，并在不同的任务（Task）中并行处理。

数据分区和聚合：在MapReduce中，map阶段的数据通常会被分区（sharding），并在reduce阶段进行聚合（如求和、计数等）。在Flink中，也有类似的机制，比如使用keyBy算子对数据进行分区，然后使用聚合函数（如sum、max等）对分区内的数据进行处理。

容错机制：都提供了容错机制，以确保在节点故障或数据丢失时能够恢复作业的执行。MapReduce通过检查点（checkpointing）和重试机制来实现容错，而Flink则提供了包括基于状态的容错和精确一次（exactly-once）语义的保证。

区别:

处理模式：MapReduce是批处理框架，处理的是静态数据集（即数据在作业开始之前就已经存在）。而Flink是流处理框架，它处理的是实时数据流（即数据是持续不断地产生的）。

实时性：Flink支持低延迟的实时数据处理，能够处理毫秒级甚至微秒级的数据。而MapReduce则更适合于离线批处理场景，其处理延迟通常较高。

状态管理：Flink提供了更强大的状态管理能力，它能够在任务之间或故障恢复后保持状态的一致性，且API更丰富。

1.2 flink编程模版

1.万卷不离其宗！！！运行模型通常包括三个部分：Source（数据源）、Transformation（转换操作）、Sink（输出）。

获取一个编程之行入口环境env
通过数据源组建，加载，创建datastream
对datastream调用各种处理算子表达计算逻辑
通过sink算子指定计算结果指定计算结果的输出方式
在env上触发程序提交执行

2.添加依赖

对于Maven项目，在pom.xml文件中添加<dependency>元素，代码举例：

<dependencies>  
    <!-- Flink核心库 -->  
    <dependency>  
        <groupId>org.apache.flink</groupId>  
        <artifactId>flink-core</artifactId>  
        <version>你的Flink版本号</version>  
        <!-- 通常这个依赖的作用域设置为provided，但根据你的项目需求可以调整 -->  
        <!-- <scope>provided</scope> -->  
    </dependency>  
  
    <!-- Flink流处理库（Java API） -->  
    <dependency>  
        <groupId>org.apache.flink</groupId>  
        <artifactId>flink-streaming-java_你的Scala版本</artifactId>  
        <version>你的Flink版本号</version>  
        <!-- 如果在IDE中运行，可能需要将作用域设置为compile或runtime -->  
        <!-- <scope>compile</scope> -->  
    </dependency>  
  
    <!-- 如果你还需要使用Table API或SQL，则可以添加以下依赖 -->  
    <!-- Flink Table API和SQL的Java桥接库 -->  
    <dependency>  
        <groupId>org.apache.flink</groupId>  
        <artifactId>flink-table-api-java-bridge_你的Scala版本</artifactId>  
        <version>你的Flink版本号</version>  
        <!-- 通常这个依赖的作用域也设置为provided -->  
        <!-- <scope>provided</scope> -->  
    </dependency>  
  
    <!-- 注意：上述示例中的“你的Flink版本号”和“你的Scala版本”需要替换为实际的版本号 -->  
    <!-- Flink的版本号可以从Apache Flink的官方网站或Maven中央仓库获取 -->  
    <!-- Scala的版本号取决于你使用的Flink版本和Scala兼容性 -->  
</dependencies>

1.3 常用概念

1.2.1 datastream

DataStream代表一个数据流，它可以是无界的，也可以是有界的；
DataStream类似于spark的rdd，它是不可变的（immutable）；
无法对一个datastream进行自由的添加或删除或修改元素；
只能通过算子对datastream中的数据进行转换，将一个datastream转成另一个datastream；
datastream可以通过source算子加载、映射外部数据而来；或者从已存在的datastream转换而来

1.2.2 算子、Task

1.算子（Operator）可以被通俗地理解为一种可以调用的函数或操作，它们对数据进行处理或转换。不过，与传统的函数相比，Flink的算子是在分布式环境中执行的，它们能够处理无限的数据流或有限的数据集。

举例：

Window算子：Window算子就像是一个定时闹钟和一堆小盘子。你设置了时间间隔（比如每分钟、每小时），当时间到了，闹钟就会响，然后你把这段时间内收集到的所有食材（数据）放到一个小盘子里进行统一处理。这样可以让你看到数据随时间变化的趋势。

Filter算子：Filter算子就像是一个筛子。你把食材（数据）倒进筛子里，只有满足特定条件（比如大小、颜色等）的食材才能通过筛子继续向下流动。这个过程中，不满足条件的食材就被淘汰了。
Sink算子（Sink Operator）：是数据流处理管道中的一个重要组成部分，它负责将处理后的数据输出到外部系统或存储中。Sink是数据流处理的终点，它接收来自上游算子的数据，并将其发送到目的地，如文件系统、数据库、消息队列等。

2.task,subtask

flink程序中，每一个算子都可以成为一个独立任务（task）；
flink程序中，视上下游算子间数据分发规则、并行度、共享槽位设置，可组成算子链成为一个task
每个任务在运行时都可拥有多个并行的运行实例（subTask）；
且每个算子任务的并行度都可以在代码中显式设置；

3. Task和算子的联系

共同作用于数据流处理：Task和算子都是处理数据流的关键组成部分。Task是执行单元，而算子定义了数据流上的具体操作。
优化与执行：为了提高处理效率和减少资源消耗，Flink会将多个算子链接（chain）成一个Task，在同一个线程中执行。

1.2.3 多流操作

多流操作指的是在数据流处理过程中，对两个或多个数据流进行各种转换和合并的操作。这些操作使得Flink能够处理复杂的数据流场景，如数据分流（将一条数据流拆分成多条）、数据合流（将多条数据流合并成一条）以及双流联结（基于特定条件将两条数据流联结起来）等。

1.2.6 时间语义

1. 事件时间（Event Time）

事件时间是指数据本身所携带的时间戳，即数据实际发生或产生的时间。你可以把它想象成每个数据项都自带了一个“出生证”，上面写着它是什么时候被创造出来的。在Flink中，事件时间允许我们按照数据实际发生的时间顺序来处理数据，即使这些数据在系统中是乱序到达的。

2. 处理时间（Processing Time）

处理时间是指数据在Flink系统中被处理时所在机器的系统时间。你可以把它想象成每个处理节点都有一个“本地时钟”，这个时钟告诉节点当前是什么时候，并且所有基于时间的操作都使用这个时钟的时间。

3. 摄入时间（Ingestion Time）

摄入时间是指数据进入Flink系统的时间戳，即数据被Flink Source算子接收的时间。你可以把它想象成Flink系统有一个“大门”，所有数据都要通过这个大门进入，而大门上有一个“计时器”，记录着每个数据项进门的时间。