【Spark分布式内存计算框架——Spark Streaming】1. Streaming 概述（上）Streaming 应用场景、Lambda 架构

news2026/2/11 23:00:16

前言

在很多实时数据处理的场景中，都需要用到流式处理（Stream Process）框架，Spark也包含了两个完整的流式处理框架Spark Streaming和Structured Streaming（Spark 2.0出现），先阐述流式处理框架，之后介绍Spark Streaming框架使用。

1. Streaming 概述

在传统的数据处理过程中，我们往往先将数据存入数据库中，当需要的时候再去数据库中进行检索查询，将处理的结果返回给请求的用户；另外，MapReduce 这类大数据处理框架，更多应用在离线计算场景中。而对于一些实时性要求较高的场景，我们期望延迟在秒甚至毫秒级别，就需要引出一种新的数据计算结构——流式计算，对无边界的数据进行连续不断的处理、聚合和分析。

1.1 Streaming 应用场景

如下的场景需求, 仅仅通过传统的批处理/离线处理/离线计算/处理历史数据是无法完成的：

1）、电商实时大屏：每年双十一时，淘宝和京东实时订单销售额和产品数量大屏展示，要求：

数据量大，可能每秒钟上万甚至几十万订单量
快速的处理，统计出不同维度销售订单额，以供前端大屏展示
2）、商品推荐：京东和淘宝的商城在购物车、商品详情等地方都有商品推荐的模块，商品推荐的要求：
快速的处理, 加入购物车以后就需要迅速的进行推荐
数据量大
需要使用一些推荐算法
3）、工业大数据：现在的工场中, 设备是可以联网的, 汇报自己的运行状态, 在应用层可以针对这些数据来分析运行状况和稳健程度, 展示工件完成情况, 运行情况等，工业大数据的需求：
快速响应, 及时预测问题
数据是以事件的形式动态的产品和汇报
因为是运行状态信息, 且一般都是几十上百台机器, 所以汇报的数据量很大
4）、集群监控：一般的大型集群和平台, 都需要对其进行监控，监控的需求
要针对各种数据库, 包括 MySQL, HBase 等进行监控
要针对应用进行监控, 例如 Tomcat, Nginx, Node.js 等
要针对硬件的一些指标进行监控, 例如 CPU, 内存, 磁盘等
工具的日志输出是非常多的, 往往一个用户的访问行为会带来几百条日志, 这些都要汇报, 所以数据量比较大
要从这些日志中, 聚合系统运行状况

上述展示场景需要实时对数据进行分析处理，属于大数据中领域：实时流式数据处理，概况应用场景如下几个大方面：
在这里插入图片描述

1.2 Lambda 架构

Lambda架构是由Storm的作者Nathan Marz提出的一个实时大数据处理框架。Marz在Twitter工作期间开发了著名的实时大数据处理框架Storm，Lambda架构是其根据多年进行分布式大数据系统的经验总结提炼而成。
在这里插入图片描述
Lambda架构的目标是设计出一个能满足实时大数据系统关键特性的架构，包括有：高容错、低延时和可扩展等。Lambda架构整合离线计算和实时计算，融合不可变性（Immunability），读写分离和复杂性隔离等一系列架构原则，可集成Hadoop，Kafka，Storm，Spark，Hbase等各类大数据组件。
在这里插入图片描述
Lambda架构通过分解的三层架构来解决该问题：批处理层（Batch Layer），速度层（Speed Layer）和服务层（Serving Layer）。

1）、批处理层（Batch Layer）

批处理层主用由Hadoop来实现，负责数据的存储和产生随意的视图数据；
承担了两个职责：存储Master Dataset，这是一个不变的持续增长的数据集；针对这个Master Dataset进行预运算；
Batch Layer执行的是批量处理，例如Hadoop或者Spark支持的Map-Reduce方式；

2）、速度层（Speed Layer）
从对数据的处理来看，speed layer与batch layer非常相似，它们之间最大的区别是前者只处理最近的数据，后者则要处理所有的数据；
为了满足最小的延迟，speed layer并不会在同一时间读取所有的新数据，相反，它会在接收到新数据时，更新realtime view，而不会像batch layer那样重新运算整个view；
speed layer是一种增量的计算，而非重新运算（recomputation）；
Speed Layer的作用包括：对更新到serving layer带来的高延迟的一种补充、快速、增量的算法和最终Batch Layer会覆盖speed layer。

3）、服务层（Serving Layer）
服务层负责建立索引和呈现视图，以便于它们可以被非常好被查询到；
Batch Layer通过对master dataset执行查询获得了batch view，而Serving Layer就要负责对batch view进行操作，从而为最终的实时查询提供支撑；
职责包含：对batch view的随机访问和更新batch view；

总结下来，Lambda架构就是如下的三个等式：