2023_Spark_实验二十:SparkStreaming累加计算单词频率

news2025/1/12 13:18:22

一、需求分析

在服务器端不断产生数据的时候,sparkstreaming客户端需要不断统计服务器端产生的相同数据出现的总数,即累计服务器端产生的相同数据的出现的次数。

二、实验环境

centos7 + nc + spark2.1.1 + windows + idea

三、思路分析

流程分析

思路分析

每次客户端程序处理服务器端数据后,将其结果缓存在检查点中,下一次客户端读入数据并处理数据时会去检查点根据key查询和进行更新,并重新将结果更新到检查点中。

检查点:本质上就是对应于HDFS上的一个目录,将数据写入到该目录下以文件的形式将结果保存下来。故,需要先在hdfs上创建检查点对应的目录。

四、编程实现

实验步骤:

  • 编写客户端处理程序,程序如下


import org.apache.spark.SparkConf

import org.apache.spark.storage.StorageLevel

import org.apache.spark.streaming.{Seconds, StreamingContext}



object MyTotalNetworkWordCount {

def main(args: Array[String]): Unit = {

//创建一个Context对象: StreamingContext (SparkContext, SQLContext)

//指定批处理的时间间隔

val conf = newSparkConf().setAppName("MyNetworkWordCount").setMaster("local[2]")

val ssc = new StreamingContext(conf,Seconds(5))

//设置检查点

ssc.checkpoint("file:///d:/temp/checkpoint")



//创建一个DStream,处理数据,hadoop001为虚拟机的主机名,端口号为netcat服务的端口号

val lines = ssc.socketTextStream("192.168.245.110",1234,StorageLevel.MEMORY_AND_DISK_SER)



//执行wordcount

val words = lines.flatMap(_.split(" "))



//定义函数用于累计每个单词的总频率

val addFunc = (currValues: Seq[Int], prevValueState: Option[Int]) => {

//通过Spark内部的reduceByKey按key规约,然后这里传入某key当前批次的Seq/List,再计算当前批次的总和

val currentCount = currValues.sum

// 已累加的值

val previousCount = prevValueState.getOrElse(0)

// 返回累加后的结果,是一个Option[Int]类型

Some(currentCount + previousCount)

}



val pairs = words.map(word => (word, 1))



val totalWordCounts = pairs.updateStateByKey[Int](addFunc)

totalWordCounts.print()



ssc.start()

ssc.awaitTermination()

}

}

  • 运行程序

  • 在Linux中启动nc: nc -l  1234

  • 输入测试数据,每输入一次数据执行一次回车:

查看下检查点是否有数据:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1097093.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

BUUCTF学习(7): 随便注,固网杯

1、介绍 2、解题 11;show tables;# select * from 1919810931114514 concat(sel,ect from 1919810931114514 ) PEREPARE y from sql; ECCUTE y; -1; sEt sql CONCAt(se,lect * from 1919810931114514;); prePare stmt from sql; EXECUTE stmt; # 结束

代码随想录算法训练营第二十三天丨 回溯算法part01

回溯算法理论基础 #题目分类 #理论 #什么是回溯法 回溯法也可以叫做回溯搜索法,它是一种搜索的方式。 在二叉树系列中,不止一次提到了回溯,例如二叉树:以为使用了递归,其实还隐藏着回溯 (opens new window)。 回溯…

5款令人骄傲的国产优质软件,能让你的电脑办公更加高效

很多人都喜欢用国外软件,其实国内也有不少优秀软件。这些国产软件不输国外软件,能够提高我们的办公效率,帮助我们更好地处理日常事务。今天就给大家分享5款令人骄傲的国产优质软件,它们能让你的电脑办公更加高效。 Listary——文件…

机器学习 - 混淆矩阵:技术与实战全方位解析

目录 一、引言1.1 什么是混淆矩阵?1.2 为什么需要混淆矩阵? 二、基础概念TP, TN, FP, FN解释True Positive (TP)True Negative (TN)False Positive (FP)False Negative (FN) 常见评价指标 三、数学原理条件概率与贝叶斯定理ROC与AUC敏感性与特异性阈值选…

探寻JWT的本质:它是什么?它有什么作用?

JWT(JSON Web Token)是一种基于 JSON 格式的轻量级令牌(token)协议,它被广泛应用于网络应用程序的身份验证和授权。相较于传统的 session-based 认证机制,JWT 具有更好的扩展性和互操作性,同时也…

KdMapper扩展实现之AVG(aswArPot.sys)

1.背景 KdMapper是一个利用intel的驱动漏洞可以无痕的加载未经签名的驱动,本文是利用其它漏洞(参考《【转载】利用签名驱动漏洞加载未签名驱动》)做相应的修改以实现类似功能。需要大家对KdMapper的代码有一定了解。 2.驱动信息 驱动名称aswA…

再玩玩B端搭建

一、背景 在 B 端领域深耕多年,接触了成百上千的 B 端页面,发现对于 B 端产品需求和 C 端有着明显的差异,B端产品一般是基于现有的“业务”形态,将传统线下工作,通过程序化、系统化、信息化转换为线上产品&#xff0c…

网络安全工程师的入门学习的路径

网络安全工程师的入门学习的路径 最近看到网上有很多人在问诸如:“怎样成为网络信息安全工程师”等相关问题,这可能与近几年网络安全事件频发,国家对于互联网信息安全和互联网舆情的重视程度不断提升有关,网络信息安全工程师随之…

【Linux学习笔记】调试工具gdb

1. gdb2. debug和release的认识3. gdb命令 1. gdb gdb是Linux下的一个调试工具,主要内容是利用命令行来调试代码,下面我将以vs2019的调试操作逐一对应到gdb的调试命令。 首先我是在xshell连接远端云服务器搭配Linux环境来使用gdb的,第一步要…

vue 和 后端交互

1.前端的路径请求是(请求参数:key和value): this.$http.delete("http://localhost:8080/user/delete?id"id).then(res>{ 后端是接收前端参数 DeleteMapping("/delete")public String delete(Integer id)…

4.1 网络层提供的两种服务

思维导图: ## 第4章 网络层 ### 概述 网络层主要关注网络互连问题,其中重点是网际协议(IP)。掌握了IP协议的内容,我们就能理解互联网的工作机制。本章还涉及了ICMP、路由选择协议、IPv6特点、IP多播概念,以及VPN、NAT和MPLS。 #…

正点原子嵌入式linux驱动开发——字符设备驱动开发

经过之前这么多篇笔记的学习,Ubuntu操作系统以及完整的Linux系统移植,已经初步掌握了开发板系统搭建的过程,在STM32MP157上搭建了自己的简单开发系统,从这一篇笔记开始就可以证实Linux驱动开发的学习了!之后的正点原子…

VBA之正则表达式(43)-- 从网页中提取指定数据

实例需求:由网页中提取下图中颜色标记部分内容,网页中其他部分与此三行格式相同。 方法1 Sub Demo()Dim objRegex As ObjectDim inputString As StringDim objMatches As ObjectDim objMatch As ObjectSet objRegex CreateObject("VBScript.RegEx…

Drecom 的《Eternal Crypt - Wizardry BC -》加入 The Sandbox 啦!

经典 “Wizardry” 游戏系列的新区块链迭代将通过全球合作拓展 Web3 游戏宇宙。 我们非常高兴地宣布,沙盒游戏公司与富有远见的传奇游戏《Wizardry》系列创造者 Drecom 将建立充满活力的合作伙伴关系。我们将共同推出《Eternal Crypt - Wizardry BC -》&#xff0c…

260. 只出现一次的数字 III (中等,位运算)

还是不会做,思路来自官解 对于整个数组按异或求和,可以得到只出现一次的两个数的异或值,通过这个值我们可以知道这两个数哪一位是相同的,哪一位是不同的假设这两个数字最低的不同发生在第 l 位(因为两个数字不同&…

网络安全 - 一名合格的Web安全工程师之成长路径

最近经常听到公司的招聘专员反馈应聘者简历“水分”太大,尤其是技术岗位,例如Web安全工程师,明明是初级阶段的菜鸟,就敢写资深Web安全工程师;在几个项目做一些基础打杂的工作,就敢写带过团队,项…

强制禁止,线程池不允许使用Executors创建

目录 一、线程池二、线程池不允许使用Executors创建三、这是为什么呢?四、下面通过一段代码,测试一下。五、线程池参数 大家好,我是哪吒。 一、线程池 在程序开发中,高并发场景越来越多,线程池首当其冲。 简单回顾一…

LVGL_基础控件线条line

LVGL_基础控件线条line 1、创建基础空间line(只创建出来是没有东西显示的) /* 创建一个 line 组件(对象),他的父对象是活动屏幕对象 */ lv_obj_t * line lv_line_create(lv_scr_act());2、添加点,把这些点连成线 /* 设置一组…

文件路径操作

避开-转义字符 python文件路径导致的错误常常与“\”有关,因为在路径中的“\”常会被误认为转义字符。 所以在上述路径中,\table\name\rain中的\t,\n,\r都易被识别为转义字符。 解决的办法主要由以下三种: #1 前面加r表示不转义 pathr&quo…

南美厄瓜多尔市场最全分析开发攻略,收藏一篇就够了

2023年5月11日,中厄自由贸易协定签署,不仅标志着中国加强与拉美地区的经济合作,也为外贸人拓展市场提供了巨大的机会。厄瓜多尔是一个具有潜力的市场,其年轻的消费群体和较高的互联网普及率为外贸人提供了广阔的发展空间。今天来分…