大数据-98 Spark 集群 Spark Streaming 基础概述架构概念执行流程优缺点

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

Hadoop（已更完）
HDFS（已更完）
MapReduce（已更完）
Hive（已更完）
Flume（已更完）
Sqoop（已更完）
Zookeeper（已更完）
HBase（已更完）
Redis （已更完）
Kafka（已更完）
Spark（正在更新！）

章节内容

上节我们完成了如下的内容：

Spark SQL JOIN
Boardcast JOIN
Shuffle JOIN
SQL解析过程
SparkSQL 常见的优化逻辑

在这里插入图片描述

背景概述

随着大数据技术的不断发展，人们对于大数据的实时性处理要求也不断提高，传统的MapReduce等批处理框架在某些特定领域，例如实时用户推荐、用户行为分析这些应用场景上逐渐不能满足人们对实时性的需求，因为诞生了一批如 S3、Samza、Storm、Flink等流式分析、实时计算框架。

Spark Streaming 是 Spark 核心组件之一，用于实时数据处理。它能够将实时数据流分批处理，转换为可操作的分布式数据集 (RDDs)，从而实现流数据的实时处理和分析。

基本概念

DStream: DStream（离散流）是 Spark Streaming 中的核心抽象，代表一个连续的数据流。它可以来自 Kafka、Flume、HDFS、Socket 等数据源，或者由现有的 RDD 经过转换产生。
Batch Interval: 数据流被划分为多个小批次，每个批次在指定的时间间隔（例如 1 秒或 10 秒）内进行处理，这个时间间隔称为 Batch Interval。

架构概念

Spark Streaming 的架构主要包括如下组件：

输入源: Spark Streaming 支持多种输入源，如 Kafka、Flume、HDFS、S3 等。
处理引擎: 核心是 Spark Core 的 RDD 处理引擎，利用它来执行批处理操作。
输出操作: 处理后的数据可以输出到文件系统、数据库、仪表板等。

编程模型

Spark Streaming 使用与 Spark 相同的编程模型，支持常见的 Map、Reduce、Join、Window 等操作。你可以通过在 DStream 上调用这些操作来进行实时数据处理。

Transformation: 如 map、flatMap、filter 等。
Window Operations: Spark Streaming 提供了基于时间窗口的操作，例如窗口化计算，通过 window 和 slide 函数实现。

容错性

检查点机制: 为了处理故障和保证数据一致性，Spark Streaming 提供了检查点机制，可以将中间状态保存到可靠的存储系统（如 HDFS），从而在故障恢复时重建这些状态。
数据重放: 在 Kafka 等消息队列中，消息是基于偏移量的，这使得 Spark Streaming 可以在故障发生时重新处理未处理的消息，确保数据的可靠性和一致性。

什么是 Spark Streaming

Spark Streaming 类似于 Apache Storm（来一条处理一条、延迟低、响应快、吞吐量低），用于流式数据的处理。
Spark Streaming 具有高吞吐量和容错能力强的特点。
Spark Streaming 支持的数据输入源很多，例如：Kafka（最重要的数据源）、Flume、TCP套接字等。
数据输入后可用高度抽象API：map reduce join window等进行运算
处理结果可存 HDFS、数据库等
Spark Streaming 可以与 MLib、GraphX融合

Spark Streaming 与 Spark 基于RDD的概念比较类似，Spark Streaming 使用离散化流（Discretized Stream）作为抽象表示，成为 DStream。
DStream是随着时间推移而收到的数据的序列，在内部，每个时间区间收到的数据都作为RDD存在，DStream是由这些RDD所组成的序列。

DStream 可以从各种输入源创建，比如 Flume、Kafka或者HDFS，创建出来的DStream支持两种操作：

转化操作，会生成一个新的DStream
输出操作（output operation），把数据写入外部系统中

DStream 提供了许多与RDD所支持的操作相类似的操作支持，还增加了与时间相关的的新操作，比如滑动窗口。

Spark Streaming 架构

Spark Streaming 使用 mini-batch 架构，把流式计算当作一系列连续的小规模批处理来对待。
Spark Streaming 从各种输入源中读取数据，并把数据分组小批次，新的批次按均匀的时间间隔创建出来。
在每个时间区间开始的时候，一个新的批次就创建出来，在该区间内收到的数据都会被添加到这个批次中，在时间区间结束时，批次停止增长。

时间区间的大小是由批次间隔这个参数决定的，批次间隔一般设置在500ms到几秒之间，由开发者配置。
每个输入批次都形成一个RDD，以Spark作业的方式处理并生成其他的RDD，处理的结果可以批处理的方式传给外部的系统。

在这里插入图片描述
Spark Streaming的编程抽象是离散化流，也就是DStream。它是一个RDD序列，每个RDD代表数据流中的一个时间片内的编程。

在这里插入图片描述

应用于DStream上的转换操作都会转换为底层RDD上的操作。如对行DStream中的每个RDD应用FlatMap操作以生成单词DStream的RDD。

在这里插入图片描述

这些底层RDD转换是Spark引擎完成的，DStream操作隐藏了大部分的细节，为开发人员提供了更高级的API以方便使用。

Spark Streaming为每个输入源启动对应的接收器，接收器运行在Executor中，从输入源收集数据并保存为RDD。
默认情况下接收到数据后会复制到另一个Executor中，进行容错。
Driver中的 StreamingContext 会周期性的运行 Spark作业来处理这些数据。
在这里插入图片描述

Spark Streaming运行流程

客户端提交Spark Streaming作业后启动Driver，Driver启动Receiver，Receiver接收数据源的数据
每个作业包含多个Executor，每个Executor以线程的方式运行Task，Spark Streaming至少包含一个Receive Task（一般情况下）
Receive接收数据后生成Block，并把BlockId汇报给Driver，然后备份到另一个Executor上
ReceiveTracker维护Receiver汇报的BlockId
Driver定时启动JobGenerator，根据DStream的关系生成逻辑RDD，然后创建JobSet，交给JobScheduler。
JobScheduler 负责调度JobSet，交给DAGScheduler，DAGScheduler根据逻辑RDD，生成Stages，每个Stage包含一到多个Task，将Task提交给TaskScheduler。
TaskScheduler负责把Task调度到Executor上，并维护Task的运行状态

Spark Streaming 优缺点

与传统流式框架相比，Spark Streaming 最大的不同点在与它对待数据是粗粒度的处理方式，即一次处理一小批数据，而其他框架往往采用细粒度的处理模式，即依次处理一条数据，Spark Streaming这样的设计实现既为其带来了显而易见的优点，又引入了不少不可避免的缺点。

优点概括

Spark Streaming 内部的实现和调度方式高度依赖Spark的DAG调度器和RDD，这就决定了Spark Streaming的设计初衷必须是粗粒度的方式的。同时，由于Spark内部调度器足够快速和高效，可以快速地处理小批量数据，这就获得准实时的特性
Spark Streaming 的粗粒度执行方式使其确保 “处理且仅处理一次”的特性（EOS），同时也可以更方便地实现容错恢复机制
由于Spark Streaming的DStream本质上RDD在流式数据上的抽象，因为基于RDD的各种操作也有相应的基本DStream的版本，这样就大大降低了用户对于新框架的学习成本，在了解Spark的情况下用户将很容易使用Spark Streaming。
由于 DStream 是在RDD上的抽象，那么也就更容易与RDD进行交互操作，在需要将流式数据和批处理数据结合进行分析的情况下，将会变得方便。