0. 相关文章链接

Spark文章汇总

1. 的核心思想

Structured Streaming 的核心思想是:把持续不断的流式数据当做一个不断追加的表。这使得新的流式处理模型同批处理模型非常相像。我们可以表示我们的流式计算类似于作用在静态数表上的标准批处理查询, spark 在一个无界表上以增量查询的方式来运行。

2. 基本概念

2.1. 输入表

把输入数据流当做输入表(Input Table)。到达流中的每个数据项(data item)类似于被追加到输入表中的一行。

2.2. 结果表

作用在输入表上的查询将会产生“结果表(Result Table)”。每个触发间隔(trigger interval, 例如 1s), 新行被追加到输入表, 最终会更新结果表。无论何时更新结果表, 我们都希望将更改的结果行写入到外部接收器(external sink)。

2.3. 输出

输出(Output)定义为写到外部存储。输出模式(outputMode)有 3 种:

Complete Mode 整个更新的结果表会被写入到外部存储。存储连接器负责决定如何处理整个表的写出(类似于 spark streaming 中的有转态的转换)。
Append Mode 从上次触发结束开始算起, 仅仅把那些新追加到结果表中的行写到外部存储(类似于无状态的转换)。该模式仅适用于不会更改结果表中行的那些查询。 (如果有聚合操作, 则必须添加 wartemark, 否则不支持此种模式)
Update Mode 从上次触发结束开始算起, 仅仅在结果表中更新的行会写入到外部存储。此模式从 2.1.1可用。注意, Update Mode 与 Complete Mode 的不同在于 Update Mode 仅仅输出改变的那些行。如果查询不包括聚合操作, 则等同于 Append Mode

2.4. 快速入门代码的再次说明

lines DataFrame是“输入表”, wordCounts DataFrame 是“结果表”, 从输入表到结果表中间的查询同静态的 DataFrame 是一样的。查询一旦启动, Spark 会持续不断的在 socket 连接中检测新的数据, 如果其中有了新的数据, Spark 会运行一个增量(incremental)查询, 这个查询会把前面的运行的 count 与新的数据组合在一起去计算更新后的 count。

注意, Structured Streaming 不会实现整个表。它从流式数据源读取最新的可用数据, 持续不断的处理这些数据, 然后更新结果, 并且会丢弃原始数据。它仅保持最小的中间状态的数据, 以用于更新结果(例如前面例子中的中间counts)

3. 处理事件-时间和延迟数据(Handling Event-time and Late Data)

Structured streaming 与其他的流式引擎有很大的不同。许多系统要求用户自己维护运行的聚合, 所以用户自己必须推理数据的一致性(at-least-once, or at-most-once, or exactly-once)。在Structured streaming模型中, 当有新数据的时候, spark 负责更新结果表, 从而减轻了用户的推理工作。

我们来看下这个模型如何处理基于事件时间的处理和迟到的数据：

Event-time 是指嵌入到数据本身的时间, 或者指数据产生的时间。对大多数应用程序来说, 我们想基于这个时间去操作数据。例如, 如果我们获取 IoT(Internet of Things) 设备每分钟产生的事件数, 我们更愿意使用数据产生时的时间(event-time in the data), 而不是 spark 接收到这些数据时的时间。

在这个模型中, event-time 是非常自然的表达。来自设备的每个时间都是表中的一行, event-time 是行中的一列。允许基于窗口的聚合(例如, 每分钟的事件数)仅仅是 event-time 列上的特殊类型的分组（grouping）和聚合（aggregation）: 每个时间窗口是一个组,并且每一行可以属于多个窗口/组。因此,可以在静态数据集和数据流上进行基于事件时间窗口（ event-time-window-based）的聚合查询,从而使用户操作更加方便。

此外, 该模型也可以自然的处理晚于 event-time 的数据, 因为spark 一直在更新结果表, 所以它可以完全控制更新旧的聚合数据,或清除旧的聚合以限制中间状态数据的大小。自 Spark 2.1 起,开始支持 watermark 来允许用于指定数据的超时时间（即接收时间比 event-time 晚多少）,并允许引擎相应的清理旧状态。

4. 容错语义

提供端到端的exactly-once语义是 Structured Streaming 设计的主要目标。为了达成这一目的, spark 设计了结构化流数据源, 接收器和执行引擎(Structured Streaming sources, the sinks and the execution engine)以可靠的跟踪处理的进度, 以便能够对任何失败能够重新启动或者重新处理。

每种流数据源假定都有 offsets(类似于 Kafka offsets) 用于追踪在流中的读取位置。引擎使用 checkpoint 和 WALs 来记录在每个触发器中正在处理的数据的 offset 范围。结合可重用的数据源(replayable source)和幂等接收器(idempotent sink), Structured Streaming 可以确保在任何失败的情况下端到端的 exactly-once 语义。

注：其他Spark相关系列文章链接由此进 -> Spark文章汇总

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/790018.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！