Spark（21）：SparkStreaming之DStream入门

news2025/4/17 8:02:55

0. 相关文章链接

1. WordCount 案例实操

1.1. 需求

1.2. 添加依赖

1.3. 编写代码

1.4. 启动程序并通过netcat发送数据

2. WordCount 解析

0. 相关文章链接

Spark文章汇总

1. WordCount 案例实操

1.1. 需求

使用 netcat 工具向 9999 端口不断的发送数据，通过 SparkStreaming 读取端口数据并统计不同单词出现的次数

1.2. 添加依赖

<dependency> 
    <groupId>org.apache.spark</groupId> 
    <artifactId>spark-streaming_2.12</artifactId> 
    <version>3.0.0</version> 
</dependency>

1.3. 编写代码

import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}

object StreamTest{

    def main(args: Array[String]): Unit = {

        //1.初始化Spark配置信息
        val sparkConf: SparkConf = new SparkConf()
            .setMaster("local[*]")
            .setAppName("StreamTest")

        //2.初始化SparkStreamingContext
        val ssc: StreamingContext = new StreamingContext(sparkConf, Seconds(3))

        //3.通过监控端口创建DStream，读进来的数据为一行行
        val lineStreams: ReceiverInputDStream[String] = ssc.socketTextStream("localhost", 9999)
        //将每一行数据做切分，形成一个个单词
        val wordStreams: DStream[String] = lineStreams.flatMap((_: String).split(" "))
        //将单词映射成元组（word,1）
        val wordAndOneStreams: DStream[(String, Int)] = wordStreams.map(((_: String), 1))
        //将相同的单词次数做统计
        val wordAndCountStreams: DStream[(String, Int)] = wordAndOneStreams.reduceByKey((_: Int)+(_: Int))
        //打印
        wordAndCountStreams.print()

        //启动SparkStreamingContext
        ssc.start()
        ssc.awaitTermination()

    }

}

1.4. 启动程序并通过netcat发送数据

# centos7中的启动netcat命令
nc -lk 9999

# win10中的启动netcat命令
nc -l -p 9999

最终输入数据和输出结果如下图片所示：

2. WordCount 解析

Discretized Stream 是 Spark Streaming 的基础抽象，代表持续性的数据流和经过各种 Spark 原语操作后的结果数据流。在内部实现上，DStream 是一系列连续的 RDD 来表示。每个 RDD 含有一段时间间隔内的数据：

对数据的操作也是按照 RDD 为单位来进行的：

计算过程由 Spark Engine 来完成：

注：其他Spark相关系列文章链接由此进 -> Spark文章汇总

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/749049.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

Spark（21）：SparkStreaming之DStream入门

0. 相关文章链接

1. WordCount 案例实操

1.1. 需求

1.2. 添加依赖

1.3. 编写代码

1.4. 启动程序并通过netcat发送数据

2. WordCount 解析

相关文章

Flutter系列文章-Flutter环境搭建和Dart基础

Blender 3.6 LTS更新的5个新功能，一定要试试

IDEA自动添加注释作者版本时间等信息

深度图像Range Image

Leaflet Ant Path(水系流动效果)

【UE】运行游戏时就获取鼠标控制

12、k8s Namespaces 资源隔离

【LeetCode热题100】打卡第36天：多数元素打家劫舍

pytorch安装问题【超级简单版】

MS1205N激光测距用高精度时间测量(TDC)电路

案例分析：成功的APP开发背后的故事

822. 走方格

【Docker】简单的Linux安装Redis

数据结构初阶--顺序表

用ChatGPT搞定12 种编程语言：看看它如何表现

前端学习——Web API (Day6)

SPEC CPU 2017 1.0.5 不同版本CentOS 7 8 安装笔记

#{} 和 ${} 的区别？

亚马逊云科技联合Nolibox定制工业设计AIGC解决方案

企业云性能监控是一项关键的任务