Spark第一课

news2024/11/18 17:42:44

在这里插入图片描述
从数据处理的方式角度:

流式: 一条数据一条数据的处理
微批量: 一小批一小批的处理
批量: 一批数据一批数据的处理(Spark)

从数据处理的延迟角度
离线: 数据处理的延迟是以小时,天为单位
准(近)实时: 以秒为单位
实时:延迟以毫秒为单位,

Spark是一个批量数据处理的离线数据分析框架
为了适应实时分析的场景,创建新功能模块,SparkStreaming
SparkStreaming 微批次 准实时

批量多少才可以
采用时间范围来接收数据批次
使用新模块是对SparkCore的封装的功能模块
在这里插入图片描述
ctrl+p 提示
在这里插入图片描述
持续时间duration
采集周期
在这里插入图片描述
SparkStreaming需要采集器,周期性采集数据
jsc.awaitTermination 等待采集器结束,
在这里插入图片描述
设置为3000秒一个周期
在这里插入图片描述
在这里插入图片描述
rdd.collect从exector采集到Driver端的内存中
dstream.print
在这里插入图片描述
在这里插入图片描述
默认存储方式为内存+磁盘 2个副本
一般不会采用socket接收数据
因为如果速率不一致, 处理太慢,就会产生数据积压,那么就需要一个缓冲区了,这时候,就需要Kafka了
为什么不用flume
1.flume的应用面窄 而Kafka是个消息传输队列系统
2.flume是单点消峰,每个机器都得装一个flume,无法分布式,性能不如Kafka
Kafka是集群 而Flume是单点, 无法集中管理
在这里插入图片描述
![在这里插入图片描述](https://img-blog.csdnimg.cn/d62dd50660cb46e4b7472f8dc0e6734f.png)
所以Kafka再传输数据时最重要的是V

在这里插入图片描述

RDD的方法才叫算子
而DStream的方法不叫算子,叫做原语

Spark可以将一个范围的数据采集后,再进行计算,这个采集的范围,称之为窗口。
采集范围不是采集周期 采集范围是采集周期的整数倍
滑动窗口
滑窗计算
在这里插入图片描述
范围大小: 方框大小
滑动幅度:每次移动的距离
窗口处理过程中,根据窗口滑动幅度的不同,存在不同的类型,
什么是不同的类型?

  1. 滑动幅度小于窗口范围: 重复数据 就会存在重复数据 统计结果比实际数据多
  2. 滑动幅度等于窗口范围: 滚动窗口 数据结构与实际结果一致
  3. 滑动幅度大于窗口范围: 不会重复数据,但会丢失数据,统计结果小于实际数据

SparkStreaming数据的计算时间点为滑动时间点。滑动一次算一次。
也就是说,如果不专门设置滑动窗口,默认滑动窗口与采集时间一致。

sparkcore 和 sparksql对的都是有界数据流

而无界数据流是临时保存,所以必须要有输出。
Save和Print 或者转换成RDD调用行动算子
时间戳只有print方法才有
在这里插入图片描述
采集器一般不停止运行,但是特殊场景需要停止后重新启动(如业务升级)
停一般不再Main调用,而是创建新线程完成调用

在这里插入图片描述
优雅关闭: 不接收新请求,但是将当前数据处理完,而不是打断丢失数据
在这里插入图片描述
多加了参数
在这里插入图片描述
通过临时存储中修改特定文件的内容来开关
为什么需要另开一个线程来关闭
为了给他一些处理消息的时间,而不是直接就关闭

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1105968.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

微积分(一) 函数的极限

前言 微积分“以直代曲”的思想就是将整体非线性化为局部线性的一个经典的例子,尽管高等数学在定义微分时并没有用到一点线性代数的内容。许多非线性问题的处理――譬如流形、微分几何等,最后往往转化为线性问题。 函数 定义:设 x x x 和 …

京东手机销售数据:2023年9月京东手机行业TOP10品牌排行榜

鲸参谋监测的京东平台9月份手机市场销售数据已出炉! 9月份,手机市场销售整体呈现下滑。鲸参谋数据显示,今年9月,京东平台手机销量为300万,环比下降约20%,同比下降约18%;销售额为92亿&#xff0c…

Python 进阶(九):CSV 文件读写(csv模块)

《Python入门核心技术》专栏总目录・点这里 文章目录 1. CSV文件简介2. 导入csv模块3. 读取CSV文件3.1 打开CSV文件3.2 逐行读取数据3.3 获取每行的字段值 4. 写入CSV文件4.1 打开CSV文件4.2 写入数据行 5. 其他操作5.1 指定分隔符5.2 读取和写入字典格式5.3 自定义引号字符 6.…

树的基本操作(数据结构)

树的创建 //结构结点 typedef struct Node {int data;struct Node *leftchild;struct Node *rightchild; }*Bitree,BitNode;//初始化树 void Create(Bitree &T) {int d;printf("输入结点(按0为空结点):");scanf("%d",&d);if(d!0){T (Bitree)ma…

Python学习笔记——存储容器

食用说明:本笔记适用于有一定编程基础的伙伴们。希望有助于各位! 列表 列表类似数组,其中可以包含不同类型的元素,写法如下: list1 [Google, Runoob, 1997, 2000] list2 [1, 2, 3, 4, 5 ] list3 ["a", …

Speech | .flac文件转换为.wav文件,并进行重采样(Python脚本)

把flac结尾的,替换为wav文件,然后对wav文件进行重采样(48000->22050),可以更换采样率,运行后保存为新的地址,所有文件都在同一文件夹下(保证能运行)。 # 把flac结尾的…

java中使用sqlserver调用MySQL数据库的表进行操作

项目场景: 部分需求需要对不同的数据库进行操作,我这里是一个小程序里调用了另一个数据 解决方案: 目前我个人使用了两个方案解决的,看自己觉得哪个方便 方案一: 使用JDBC 新建一个实体类,相当于mapper.xml了,然后在这个实体类里进行数据库的连接操作…

2023年中国气体压缩机市场规模及产量分析[图]

气体压缩机是把机械能转换为气体压力能的一种动力装置,常用于风动工具提供气体动力,在石油化工、钻采、冶金等行业也常用于压送氧、氢、氨、天然气、焦炉煤气、惰性气体等介质。常见的气体压缩机包括离心式压缩机、螺杆式压缩机、往复式压缩机等。 气体…

VUE:可收缩工具栏

作者:CSDN @ _乐多_ 本文记录了一个vue可伸缩工具栏组件,代码即插即用。 只需要新增函数名并且填函数体就可以。 效果如下图所示, 文章目录 一、Vue代码一、Vue代码 <template><div class="ToolBar"><div class=

全球范围内先进封装设备划片机市场将迎来新的发展机遇

随着半导体工艺的不断发展&#xff0c;先进封装技术正在迅速发展&#xff0c;封装设备市场也将迎来新的发展机遇。作为先进封装设备中的关键设备之一&#xff0c;划片机的发展也备受关注。 划片机是用于切割晶圆或芯片的设备&#xff0c;其精度和稳定性直接影响到封装产品的质量…

Vue_组件详解

Vue_组件详解 初识组件组件组成组件的根节点父子组件 组件注册全局注册局部注册 组件间数据传递Props&#xff08;父 ----> 子&#xff09;props声明注意问题 组件间数据传递emit&#xff08;子 ----> 父&#xff09; 初识组件 组件&#xff08;Component&#xff09;&a…

WordPress导航主题蘑菇导航源码

蘑菇导航的列表页有两种风格&#xff0c;分别对应宽屏、窄屏。可以点击 文章。博客查看演示。文章页也是如此&#xff0c;这两种风格可以在后台设置。 本站菜单中的 VIP解析、音乐、图床&#xff0c;是单独的源码&#xff0c;不包含在本次主题中。后期看大家的要求&#xff0c…

Python中的循环语句Cycle学习

二、循环语句 1、什么是循环语句 一般编程语言都有循环语句,为什么呢? 那就问一下自己,我们弄程序是为了干什么? 那肯定是为了方便我们工作,优化我们的工作效率啊。 而计算机和人类不同,计算机不怕苦也不怕累,也不需要休息,可以一直做。 你要知道,计算机最擅长就…

【Java】栈和队列的模拟实现(包括循环队列)

异常为空栈异常&#xff1a; public class EmptyStackException extends RuntimeException {public EmptyStackException(){}public EmptyStackException(String msg){super(msg);}}循环队列&#xff1a; class MyCircularQueue {public int[] elem;public int front;//队…

绿色低碳,数字为先:万应低代码推动能源资产管理优化

10月7日&#xff0c;湘江新区经济发展局发布关于印发《湖南湘江新区推进碳达峰碳中和三年行动工作方案及责任分工&#xff08;2023-2025&#xff09;》的通知&#xff0c;把碳达峰碳中和工作纳入湖南湘江新区经济社会发展和生态文明建设整体布局。 随着科学技术的不断发展&…

10月第2周榜单丨飞瓜数据B站UP主排行榜榜单(B站平台)发布!

飞瓜轻数发布2023年10月9日-10月15日飞瓜数据UP主排行榜&#xff08;B站平台&#xff09;&#xff0c;通过充电数、涨粉数、成长指数、带货数据等维度来体现UP主账号成长的情况&#xff0c;为用户提供B站号综合价值的数据参考&#xff0c;根据UP主成长情况用户能够快速找到运营…

线程池线程保活以及动态更新线程数

基本知识 各位大佬在面试过程肯定会被问到线程池或者多线程的问题&#xff0c;例如&#xff1a; 线程池核心参数及其作用线程池添加任务的执行顺序任务队列以及任务的拒绝策略等等 这些问题是相信稍微研究过线程池JDK源码的都能掌握。有兴趣的可以参数这篇博文。 在进入今天…

去除照片中多余人物方法分享-这些方法快收藏起来

拍照时经常会碰到一些意外的情况&#xff0c;比如不小心捕捉到了一些不需要的人或物&#xff0c;这会影响照片的美观效果&#xff0c;因此学习如何去除照片中多余人物就显得特别重&#xff0c;下面分享一些常用的去除照片中多余人物的方法&#xff0c;如果你也感兴趣的话&#…

使用按钮从 SAP 系统内打开 Excel 文件

了解如何通过 SAP 屏幕上创建的按钮打开所需的 Excel 文件。为了演示这一点&#xff0c;将指导您完成以下步骤。 使用 del 命令删除 SAP 上不必要的元素添加一个按钮&#xff0c;单击后打开弹出窗口创建一个函数来选择 excel 文件创建打开所需 excel 文件的函数 定制 登录 S…

Linux下程序(C语言)实现对文件的复制

目标&#xff1a; 使用系统调用实现cp命令。 原理&#xff1a; 使用系统调用fopen打开文件&#xff0c;使用fgets()从文件读数据&#xff0c;使用fputs() 向文件写数据。 linux 文件 创建命令为 vi (文件名&#xff09;.c 文件源码&#xff1a; #include<stdio.h>…