Spark优化-缓存和checkpoint

news2024/10/12 5:23:57

目录

缓存使用

checkpoint使用

两者的区别


如下图,如果不适用缓存,rdd3的数据需要经过两次计算,而每次计算也是在内存中计算,很消耗内存,而使用了缓存,可以直接从缓存中直接获取数据,不需要每次对rdd2进行计算

缓存和checkpoint也叫作rdd的持久化,将rdd的数据存储在指定位置

作用:

1-计算容错

2-提升计算速度

缓存使用

缓存是将数据存储在内存或者磁盘上,缓存的特点时,计算结束,缓存自动清空.默认是缓存到内存上.

StorageLevel.DISK_ONLY # 将数据缓存到磁盘上
StorageLevel.DISK_ONLY_2 # 将数据缓存到磁盘上 保存两份
StorageLevel.DISK_ONLY_3 # 将数据缓存到磁盘上 保存三份
StorageLevel.MEMORY_ONLY # 将数据缓存到内存  默认
StorageLevel.MEMORY_ONLY_2 # 将数据缓存到内存 保存两份
StorageLevel.MEMORY_AND_DISK # 将数据缓存到内存和磁盘  优先将数据缓存到内存上,内存不足可以缓存到磁盘
StorageLevel.MEMORY_AND_DISK_2 = # 将数据缓存到内存和磁盘
StorageLevel.OFF_HEAP # 不使用  缓存在系统管理的内存上   heap jvm的java虚拟机中的heap
StorageLevel.MEMORY_AND_DISK_ESER # 将数据缓存到内存和磁盘  序列化操作,按照二进制存储,节省空间
  • persist 使用该方法

  • cache 内部调用persist

  • 手动释放 unpersist

# storageLevel 修改缓存级别
rdd_groupby.persist(storageLevel=StorageLevel.MEMORY_AND_DISK)

对列表单词进行统计

from pyspark import SparkContext
from pyspark.storagelevel import StorageLevel
sc = SparkContext()


rdd = sc.parallelize(['a','b','c','a','a','b'])

# rdd数据转换
rdd_kv = rdd.map(lambda x : (x,1))

# 进行缓存
rdd_kv.persist(storageLevel=StorageLevel.MEMORY_AND_DISK)

# 触发缓存
rdd_kv.collect()

# 分组处理
rdd_group = rdd_kv.groupByKey()

# 聚合处理
rdd_reduce = rdd_kv.reduceByKey(lambda x,y: x+y)

# 查看结果
res = rdd_group.collect()
print(res)

res1 = rdd_reduce.collect()
print(res1)

checkpoint使用

也是将中间rdd数据存储起来,但是存储的位置实时分布式存储系统,可以进行永久保存,程序结束不会释放

如果需要删除就在hdfs上删除对应的目录文件

  • # 使用sc对象指定checkpoint存储位置
  • sc.setCheckpointDir('hdfs://node1:8020/data/checkpoint')
  • # 进行checkpoint
  • rdd_kv.checkpoint()

 对列表单词进行统计,并存储到hdfs上

from pyspark import SparkContext
from pyspark.storagelevel import StorageLevel
sc = SparkContext()

# 使用sc对象指定checkpoint存储位置
sc.setCheckpointDir('hdfs://node1:8020/data/checkpoint')

rdd = sc.parallelize(['a','b','c','a','a','b'])

# rdd数据转换
rdd_kv = rdd.map(lambda x : (x,1))

# 进行checkpoint
rdd_kv.checkpoint()

# 需要使用action触发缓存checkpoint
print(rdd_kv.glom().collect())

# 分组处理
rdd_group = rdd_kv.groupByKey()

# 聚合处理
rdd_reduce = rdd_kv.reduceByKey(lambda x,y: x+y)

# 查看结果
res = rdd_group.collect()
print(res)

res1 = rdd_reduce.collect()
print(res1)

两者的区别

  • 生命周期
    • 缓存数据, 程序计算结束后自动删除
    • checkpoint 程序结束,数据依然保留在hdfs
  • 存储位置
    • 缓存 优先存储在内存上,也可以选在存储在本地磁盘,是在计算任务所在的内存和磁盘上
    • checkpoint 存储在hdfs上
  • 依赖关系
    • 缓存数据后,会保留rdd之间依赖关系 缓存时临时存储,数据可能会丢失,需要保留依赖,当缓存丢失后可以按照依赖重新计算
    • checkpoint,数据存储后会断开依赖, 数据保存在hdfs,hdfs三副本可以保证数据不丢失,所以没有比较保留依赖关系

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2207069.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

快速总结ACmix

ACMix:On the Integration of Self-Attention and Convolution 卷积和自注意力模块通常遵循不同的设计范式: 传统卷积根据卷积滤波器权重利用局部感受野上的聚合函数,这些权重在整个特征图中共享。 内在特性对图像处理施加了至关重要的归纳…

Linux入门:进程状态与优先级

文章目录 一. OS进程状态1.1 一般分类1.2 运行状态1.3 阻塞状态1.4 挂起状态1.5 并行与并发 二. Linux进程状态2.1 分类2.1.1 R状态2.1.2 S状态2.1.3 D状态2.1.4 T状态与t状态2.1.6 X状态 2.2 僵尸状态(Z)2.2.1 概念2.2.2 查看状态 三. 进程的优先级3.1 …

6N137S1取反电路图

文章目录 一、前言二、6N137S1性能介绍三、应用电路图 一、前言 在硬件电路设计中需要用到隔离电路,但此引脚输出为WS2812的信号,频率有840khz,所以需要使用逻辑光耦,选用6N137S1光耦,速率能达到10Mhz,能满…

Python+Flask接口判断身份证省份、生日、性别、有效性验证+docker部署+Nginx代理运行

这里写目录标题 一、接口样式二、部署流程2.1 镜像打包2.1.1 准备工作2.1.2 build打包2.1.3 dokcer部署运行2.1.4 Nginx代理 三、代码及文件3.1 index.py3.2 areaCodes.json3.3 Dockerfile 一、接口样式 https://blog.henryplus.cn/idcardApi/idCard/query?idcard{idcard} 二、…

anatraf网络性能监控与故障排除

目录 网络性能监控的必要性 1. 提前预警问题 2. 快速响应与故障排除 网络故障排除的常见场景 1. 带宽不足导致的网络卡顿 2. IP冲突引发的网络中断 3. 网络设备故障 结语 随着现代企业对网络依赖性的日益增强,网络性能监控(Network Performance …

进口磁力仪G882SX和原装G882究竟有什么区别?

Geometrics公司的铯光泵磁力仪G882有两个型号:一个是出口型号G882SX,另一个是原装型号G882,出口型号的噪声水平比原装型号高一个量级。国内搞磁力仪的专业人士认为进口型号故意加了噪声。 ​ 在之前的博文《如何利用matlab对G882数据进行频谱…

SpringCloud Alibaba-01 入门简介

1.Spring Cloud Alibaba 是由阿里巴巴结合自身丰富的微服务实践而推出的微服务开发的一站式解决方案。它是 Spring Cloud 生态中的第二代实现,提供了包括服务注册与发现、分布式配置管理、服务限流降级、消息驱动能力、阿里云对象存储、分布式任务调度等在内的多种功…

打开cad自动新建一个图纸

命令栏输入:startmode,改为0 即为自动打开cad新建一个图纸。 改为2,即不会新建图纸。

高效录制 PPT 秘籍:四款卓越录屏软件深度解析

一、引言 在现代工作、学习与知识传播的多元场景中,PPT 已然成为不可或缺的信息载体。将 PPT 内容录制下来,其用途广泛,从教师精心打造线上教学课件,到职场精英分享项目方案,再到培训师筹备培训素材等。而获取优质的 P…

来电无通话界面问题分析

1、问题描述 场测反馈&#xff0c;无法接到电话&#xff0c;被叫失败。 2、Log分析 从Modem log看&#xff0c;空口确实有上报到有相关通话信息 排查AT相关Log&#xff0c;确实有上报AT< EAIC相关命令 查看相关AT指令 /* * EAIC: <call_id>,<number>,<type…

Centos 7.9NFS搭建

原创作者&#xff1a;运维工程师 谢晋 Centos 7.9NFS搭建 NFS服务端安装客户机访问共享配置 NFS服务端安装 SSH连接系统登录到服务端安装nfs服务 # yum -y install nfs-utils2. 安装完成后&#xff0c;查看需要共享的目录&#xff0c;这边共享的是/home目录&#xff0c;如…

C#里在使用DataGridView的过程中,当需要让某行数据进行居中显示

在使用DataGridView的过程中,当需要让某行数据进行居中显示,又需要怎么样来实现的呢? 由于DataGridView显示的过程,最上面一行显示的内容取决于FirstDisplayedCell属性, 因此只要设置这个属性,那么这一行就会显示到列表最顶端上。 要让指定的行显示在中间位置,那么还需要…

ICT产业新征程:深度融合与高质量发展

在信息时代的浪潮中&#xff0c;每一场关于技术革新与产业融合的盛会都闪耀着智慧的光芒&#xff0c;引领着未来的方向。9月25日&#xff0c;北京国家会议中心内&#xff0c;一场聚焦全球信息通信业的顶级盛事——第32届“国际信息通信展”&#xff08;PT展&#xff09;隆重拉开…

基于SSM的教材管理系统(含源码+sql+视频导入教程)

&#x1f449;文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1 、功能描述 基于SSM的教材管理系统1拥有两种角色&#xff1a; 管理员&#xff1a;学生管理、学院管理、出版社管理、教材管理、入库、分配、订购分类 学生&#xff1a;查看出版社和教材 1.1 背景描…

认识Pulsar

功能 Pulsar是一种用于服务器到服务器消息传递的多租户、高性能解决方案。Pulsar 最初由 Yahoo 开发&#xff0c;由 Apache 软件基金会管理。 Pulsar是由Apache软件基金会开发的分布式发布/订阅消息系统&#xff0c;它结合了传统消息系统&#xff08;如RabbitMQ&#xff09;和…

『Mysql进阶』Mysql SQL语句性能分析(七)

目录 什么是Profile&#xff1f; 开启Profile功能 基本使用 分析案例 什么是Profile&#xff1f; Query Profiler是 MySQL 自带的一种 Query 诊断分析工具 &#xff0c;通过它可以分析出一条 SQL 语句的 硬件性能瓶颈 在什么地方。 通常我们是使用的 explain &#xff0c;…

【数学分析笔记】第5章第1节 微分中值定理(2)

5. 微分中值定理及其应用 5.1 微分中值定理 5.1.4 一阶导数与单调性的关系 【定理5.1.5】【一阶导数与单调性的关系】 f ( x ) f(x) f(x)在区间 I \textbf{I} I&#xff08;可以是开区间&#xff0c;也可以闭区间&#xff0c;也可以半开半闭区间&#xff09;定义且可导&…

linux基本环境配置 安装Docker RedisMysql

目录 一、安装docker 1、卸载系统之前的docker 2、安装Docker-CE 3、启动docker 4、设置docker开机自启 5、root测试docker命令 6、配置docker镜像加速 二、Docker安装Mysql 1、下载镜像文件 2、创建实例并启动 3、修改MySQL字符集 4、设置容器自启动 三、Docker安…

如何提高专利申请的成功率?

在当今充满创新与竞争的时代&#xff0c;专利成为了保护智力成果、赢得市场优势的重要武器。然而&#xff0c;专利申请并非一帆风顺&#xff0c;许多申请人在这一过程中面临诸多挑战&#xff0c;导致申请成功率不尽如人意。那么&#xff0c;如何才能在这复杂的专利申请之路上提…

安卓13usb触摸唤醒系统 android13触摸唤醒

总纲 android13 rom 开发总纲说明 文章目录 1.前言2.问题分析3.代码分析4.代码修改5.编译6.彩蛋1.前言 android13在待机后,需要能够使用触摸屏去唤醒我们的系统,这就需要我们修改系统的相关配置了。 2.问题分析 对于这个问题,我们需要知道安卓的事件分发,通过事件分发,…