Flink 系列二 Flink 状态化流处理概述

news2024/12/24 21:05:25

在这里插入图片描述
本篇作为Flink系列的第二篇,第一篇是环境准备,需要的同学可以看:https://blog.csdn.net/lly576403061/article/details/130358449?spm=1001.2014.3001.5501。希望可以通过系统的学习巩固该方面的知识,丰富自己的技能树。废话不多说咱们开始吧。

1、传统数据处理架构

在我们的日常生活中数据和数据处理无处不在,随着数据的采集和使用量的不断增加,设计并构建了各种架构来管理数据,传统的数据处理架构分为两类:事务性处理架构和分析型处理架构。

1.1、事务型处理架构

咱们在平时开发的各类应用都属于事务性处理架构。例如:客户管理系统(CRM)、任务系统(ZEUS)、订单系统(SHUTTLE-ORDER)以及所有的基于Web的应用等。
在这里插入图片描述上图就是一个将数据存储在远程关系型数据库内的传统事务型应用的设计。传统的事务型机构有以几个特点。

  1. 连接的实际用户或者外部的服务。
  2. 持续接受来自外部(用户或者系统)的请求并实时处理返回数据,期间处理每个请求的时候基本上都会通过执行远程数据库的事务来进行CRUD。
  3. 很多时候都是共享同一个DB和同一个table。
    以上系统设计有个弊端就是在需要更新或者扩缩容是会导致一些问题,所以就出现微服务,通过将复杂庞大紧耦合的服务进行优化,分化出很多独立、微型、独立的应用,各个服务之间通过标准化接口进行通行。

1.2、分析型处理架构

存储于不同数据库的数据为可以为我们的业务分析做好数据准备,但是由于事务型的数据库都是相互隔离的,我们不会在事务型的数据库上进行数据查询,所以想要将这些数据进行统一分析要做的就是将不同的DB的数据转换为某种通用的形式。这就出现了分析型数据处理架构(数据仓库)。
为了将分散的数据填充到数据仓库我们要将事务型数据库中的数据copy过去,这个过程分为三步:提取-转换-加载(ETL)。整个过程比较复杂和性能挑战,为了保证数据同步需要进行周期型的同步数据。
在这里插入图片描述
上图就是一个分析型数据仓库架构,分析型数据仓库可以提供两大类的查询。

  1. 定期类的报告查询:将业务数据进行周期型的分析计算,统计重要指标,为企业健康状态提供评估依据。(收入、产出、用户增长、订单量等等)
  2. 即溪查询:提供较为实时的数据基础辅助关键性的商业决策。(广告投入、获客、转换等等)目前ApacheHaDoop生态组建已经为我们提供了强大而且丰富的存储查询引擎,我们的海量的日志文件、社交媒体、点击等等数据不再使用传统的关系型数据库存储而是是用HaDoop分布式文件系统(HDFS)、S3、Apache Hbase等大容量存储系统中,并且他们还提供了丰富的基于HaDoop的SQL引擎(Apache Hive、Apache Dirll)进行查询和处理。

2、状态化流处理架构

我们都知道现实生活中的数据都是不间断的产生的,在处理事件流的过程中我们要支持多条记录的转换并且能够存储和访问中间结果,并且在进行数据分析的时候有时候业务需要的是比较实事的分析结果,在海量的事件处理中,传统的事物型数据架构和ETL架构就难以支撑。基于以上的各方面就设计出现了有状态的流处理架构。有状态的流处理架构(Flink)可以接收大量的请求并且天生支持并行计算,具有高吞吐,低延迟特性,并且将计算的中间结果存储到本地或者存储到远程存储,Flink还会定期进行检查点(CheckPoint)写入到持久化存储,在进行故障恢复的时候根据检查点进行恢复。
在这里插入图片描述

3、Flink的主要特点

3.1、事件驱动

事件驱动其实是借鉴于传统的事务型架构,接收事件请求(可以是实时触发的操作或者事件日志Kafka、redis等等存储介质),并且存储中间状态到本地或者远程存储,最后将计算结果返回可以出发操作或者写入到相关的存储介质中(Mysql、Redis、Kafka等等)供消费方使用。

3.2、基于流的世界观

在Flink的世界中都是流,分为有界流和无界流。无界流:定义了开始,但是没有定义终点,所以没有办法获得所有的事件,这就要求无界流需要实时进行处理,通常情况下无界流需要根据某种特定的顺序处理以便获得准确的结果(比如事件时间)。无界流就是定义了开始和终点的流,因为能够获得所有的事件所以不需要定义特定的顺序。
在这里插入图片描述

3.3、分层API

Flink提供了三层API。每个API在简洁性和表达性之间提供不同的权衡。越顶层越抽象,表达的含义越简洁,使用越方便。越底层越具体,表达能力越丰富,使用越灵活。
在这里插入图片描述

这里我们采用的是DataStream API进行系统的学习,下面是一个简介的Flink的执行框架
1、定义了Flink的执行环境。
2、从数据源获取数据。
3、进行转换计算。
4、输出到控制台。

import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;

public class SocketTextStreamWordCount {
    public static void main(String[] args) throws Exception {
        //参数检查
        if (args.length != 2) {
            System.err.println("USAGE:\nSocketTextStreamWordCount <hostname> <port>");
            return;
        }

        String hostname = args[0];
        Integer port = Integer.parseInt(args[1]);


        // set up the streaming execution environment
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        //获取数据
        DataStreamSource<String> stream = env.socketTextStream(hostname, port);

        //计数
        SingleOutputStreamOperator<Tuple2<String, Integer>> sum = stream.flatMap(new LineSplitter())
                .keyBy(0)
                .sum(1);

        sum.print();

        env.execute("Java WordCount from SocketTextStream Example");
    }

    public static final class LineSplitter implements FlatMapFunction<String, Tuple2<String, Integer>> {
        @Override
        public void flatMap(String s, Collector<Tuple2<String, Integer>> collector) {
            String[] tokens = s.toLowerCase().split("\\W+");

            for (String token : tokens) {
                if (token.length() > 0) {
                    collector.collect(new Tuple2<String, Integer>(token, 1));
                }
            }
        }
    }
}

3.4、时间语义

Flink的支持以下三种时间语义,默认情况下使用的处理时间。

@PublicEvolving
public enum TimeCharacteristic {
   ProcessingTime,
   
   IngestionTime,

   EventTime
}
  1. 事件时间:根据事件的时间戳处理流数据,事件时间配合水位线能够针对无序的事件提供一致、精确的计算结果。
  2. 处理时间:处理时间是具体的算子接收到事件的时间,使用处理时间的应用程序一定是要求延迟比较低的数据流。
  3. 摄取时间:摄入时间是时间进入到Flink 的时间,一般情况下不会使用该时间进行计算。

3.5、精确一次处理

exactly-once精确一次的状态保障:Flink的检查点和恢复算法可确保发生故障时应用程序状态的一致性。
因此,可以透明地处理故障,并且不会影响应用程序的正确性。

3.6、众多存储系统连接

Flink可以连接众多的存储介质。常见的Source和Sink包括:Apache Kafka 、Mysql、Redis、ES 、S3、HDFS等等。

3.7、其他特点

1、支持高可用配置:K8s、Yarn等等集群部署。
2、低延迟,每秒可处理百万级别的事件,毫秒级的延迟。
3、同事也支持批处理,具有成熟的API( DataSet API)。
4、支持窗口操作,为无限的数据流处理提供了成熟的计算机制。

总结

Apache Flink 是一个分布式流处理引擎,它提供了直观且极富表达力的 API 来实现有状态的流处理应用,并且支持在容错的前提下高效、大规模地运行此类应用。本篇通过Flink状态化流处理的各种概念的介绍,大家从整体上了解了相关概念和特点,下一篇咱们进行实践,从实际操作来看看Flink的运行机制,敬请期待!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/645160.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

解决 org.eclipse.jface.text.Document class file version 61.0 报错

问题描述 运行好好的项目&#xff0c;没有做任何改动&#xff0c;最近在编译时报以下错误 java.lang.UnsupportedClassVersionError: org/eclipse/jface/text/Document has been compiled by a more recent version of the Java Runtime (class file version 61.0), this vers…

解决Python使用pip安装库文件出现“ERROR: Cannot unpack file…”

解决问题 1 ERROR: Could not find a version that satisfies the requirement robotframework (from versions: none) ERROR: No matching distribution found for robotframework 在dos命令输入 pip install robotframework 在线安装robotframework 如下报错&#xff1a; …

在紧急情况下,120可以定位我们的位置吗

随着科技的快速发展&#xff0c;越来越多的人们开始意识到科技对于生活的重要性。在现代社会中&#xff0c;GPS定位系统已经成为了一个不可或缺的工具&#xff0c;并且被广泛应用于各个领域&#xff0c;包括医疗救援行业。 120急救车和120急救指挥调度系统都采用了GPS定位技术…

SpringCloud Eureka注册中心高可用集群配置(八)

当注册中心扛不住高并发的时候&#xff0c;这时候 要用集群来扛&#xff1b; 我们再新建两个module microservice-eureka-server-2002 microservice-eureka-server-2003 第一步&#xff1a; pom.xml 把依赖加下&#xff1a; <dependencies> <dependency…

失败的统一错误处理

1.拦截器 在调用接口的时候,客户端会向服务器发送请求,请求之前有请求拦截器&#xff0c;返回数据之前有响应拦截器。 2:示例 根据自己的状态码来进行判断的一般2字开头代表成功&#xff0c;这个状态码是由后端来进行控制的。 成年的代码处理: if (res.data.success) {// 成功…

都是被逼的... ,LM算法的具体实现python和C++代码

L-M方法全称Levenberg-Marquardt方法&#xff0c;是一种非线性最小二乘优化算法&#xff0c;它通过同时利用高斯牛顿方法和梯度下降方法来解决非线性最小二乘问题。其核心思想是在每次迭代中&#xff0c;根据当前参数估计计算目标函数的梯度和海森矩阵&#xff0c;并使用这些信…

华为OD机试之最大N个数与最小N个数的和

最大N个数与最小N个数的和 题目描述 给定一个数组&#xff0c;编写一个函数来计算它的最大N个数与最小N个数的和。你需要对数组进行去重。 说明&#xff1a; 数组中数字范围[0, 1000]最大N个数与最小N个数不能有重叠&#xff0c;如有重叠&#xff0c;输入非法返回-1输入非法返…

Python之pyecharts的常见用法3-极坐标图-漏斗图

Pyecharts是一个基于Echarts的Python可视化库&#xff0c;可以用Python语言轻松地生成各种交互式图表和地图。它支持多种图表类型&#xff0c;包括折线图、柱状图、散点图、饼图、地图等&#xff0c;并且可以通过简单的API调用实现数据可视化。 Pyecharts的优点包括&#xff1a…

Python编程入门基础及高级技能、Web开发、数据分析和机器学习与人工智能

文章目录 入门基础安装 Python 环境&#xff0c;选择一个 IDE&#xff0c;如 PyCharm、VSCode等。学习基本语法&#xff1a;变量、数据类型、条件语句、循环语句、函数、异常处理等。熟悉标准库&#xff1a;常用模块、内置函数等。学习基本的面向对象编程&#xff08;OOP&#…

Doris数仓的4大特点

01-极简架构 Doris从设计上来说&#xff0c;融合了Google Mesa的数据存储模型、Apache的ORCFile存储格式、Apache Impala查询引擎和MySQL交互协议&#xff0c;是一个拥有先进技术和先进架构的领先设计产品&#xff0c;如图1所示。 ▲图1 Doris技术分解图 在架构方面&#xff…

Android Binder机制浅谈以及使用Binder进行跨进程通信的俩种方式(AIDL以及直接利用Binder的transact方法实现)

Binder机制学习 Binder机制是Android进行IPC&#xff08;进程间通信&#xff09;的主要方式Binder跨进程通信机制&#xff1a;基于C/S架构&#xff0c;由Client、Server、ServerManager和Binder驱动组成。 进程空间分为用户空间和内核空间。用户空间不可以进行数据交互&#xf…

Guitar Pro8.0.1吉他制谱打谱软件

Guitar Pro是一款专业的吉他编曲、打谱软件&#xff0c;Guitar pro的特点是它几乎涵盖了所有的乐谱形式&#xff0c;包括四线谱、五线谱、六线谱等等&#xff0c;最新的Guitar Pro8.1版本还新增了简谱&#xff0c;我们可以在GuitarPro8.1中使用简谱进行演奏。Guitar pro支持在制…

使用ETL工具Kettle实现,把一个数据库中的多张表的数据同步到另外一个数据库中

需求&#xff1a;使用ETL工具Kettle实现&#xff0c;把一个数据库中的多张表的数据&#xff08;不少于3张表&#xff09;同步到另外一个数据库中 1》使用Kettle工具连接MySQL数据库&#xff1a;连接第一个数据库db03。出现圈3说明连接成功。 &#xff08;依次点击&#xff1a;…

webpack处理CSS文件,打包到单独的文件、压缩、以及兼容性处理

一、将css打包到单独的文件 如上图&#xff1a; Css 文件目前被打包到 js 文件中&#xff0c;当 js 文件加载时&#xff0c;会创建一个 style 标签来生成样式 这样对于网站来说&#xff0c;如果网络比较慢的话会出现闪屏现象&#xff0c;用户体验不好 我们去控制台将往速调慢&…

JDK version和class file version对应关系

https://docs.oracle.com/javase/specs/jvms/se20/html/jvms-4.html#jvms-4.1 表 4.1-A. 类文件格式主要版本 Java SEReleasedMajorSupported majors1.0.2May 199645451.1February 199745451.2December 19984645 .. 461.3May 20004745 .. 471.4February 20024845 .. 485.0Sept…

手把手教你实战TDD | 京东云技术团队

1. 前言 领域驱动设计&#xff0c;测试驱动开发。 我们在《手把手教你落地DDD》一文中介绍了领域驱动设计&#xff08;DDD&#xff09;的落地实战&#xff0c;本文将对测试驱动开发&#xff08;TDD&#xff09;进行探讨&#xff0c;主要内容有&#xff1a;TDD基本理解、TDD常…

depcheck检查缺失的或者位使用的依赖

depcheck它可以帮助我们找出问题&#xff0c;在 package.json 中&#xff0c;每个依赖包如何被使用、哪些依赖包没有用处、哪些依赖包缺失。它是解决前端项目中依赖包清理问题的一个常用工具 depcheck官方文档地址 Github&#xff1a;https://github.com/depcheck/depcheck 1…

笔记本触摸板没反应?1分钟,快速解决!

案例&#xff1a;在使用笔记本电脑时&#xff0c;我喜欢使用触摸板进行一些电脑上的操作。但是最近我的触摸板突然没反应&#xff0c;不能使用。有小伙伴知道这是什么原因吗&#xff1f;该如何解决呀&#xff1f; 笔记本电脑已经成为我们日常生活和工作中不可或缺的工具。然而…

光传感芯片产品应用领域解析

光传感产品主要应用于穿戴心率等健康检测、安防环境光监测、智能家居环境光感测、智慧电子产品自动控制、工业自动控制及安全检查、控制。 WH光感材料特点&#xff1a; 1、双波普独立通道&#xff0c;独立控制 2、波谱响应波长可客制化定制&#xff1a; —环境光红蓝绿、光距感…

企业邀请媒体报道活动,邀请本地媒体好,还是全国性的媒体好

传媒如春雨&#xff0c;润物细无声&#xff0c;大家好&#xff0c;我是51媒体网胡老师。 企业做活动在制定媒体策略&#xff0c;媒体传播规划的时候&#xff0c;往往不知道改如何选择&#xff0c;今天胡老师就来分享下本地媒体和全国性媒体的特点&#xff0c;帮助大家更好的制…