Spark RDD持久化机制

news2025/1/23 2:05:27

文章目录

  • 一、RDD持久化
    • (一)引入持久化的必要性
    • (二)案例演示持久化操作
      • 1、RDD的依赖关系图
      • 2、不采用持久化操作
      • 3、采用持久化操作
  • 二、存储级别
    • (一)持久化方法的参数
    • (二)Spark RDD存储级别表
    • (三)如何选择存储级别
    • (四)persist()与cache()的关系
    • (五)案例演示设置存储级别
  • 三、利用Spark WebUI查看缓存
    • (一)创建RDD并标记为持久化
    • (二)Spark WebUI查看RDD存储信息
    • (三)将RDD从缓存中删除


一、RDD持久化

在这里插入图片描述

(一)引入持久化的必要性

Spark中的RDD是懒加载的,只有当遇到行动算子时才会从头计算所有RDD,而且当同一个RDD被多次使用时,每次都需要重新计算一遍,这样会严重增加消耗。为了避免重复计算同一个RDD,可以将RDD进行持久化。

Spark中重要的功能之一是可以将某个RDD中的数据保存到内存或者磁盘中,每次需要对这个RDD进行算子操作时,可以直接从内存或磁盘中取出该RDD的持久化数据,而不需要从头计算才能得到这个RDD。

(二)案例演示持久化操作

1、RDD的依赖关系图

读取文件,进行一系列操作,有多个RDD,如下图所示。
在这里插入图片描述

2、不采用持久化操作

在上图中,对RDD3进行了两次算子操作,分别生成了RDD4和RDD5。若RDD3没有持久化保存,则每次对RDD3进行操作时都需要从textFile()开始计算,将文件数据转化为RDD1,再转化为RDD2,最终才得到RDD3。

查看要操作的HDFS文件
在这里插入图片描述
以集群模式启动Spark Shell
在这里插入图片描述
按照图示进行操作,得RDD4和RDD5
在这里插入图片描述
查看RDD4内容,会从RDD1到RDD2到RDD3到RDD4跑一趟
在这里插入图片描述
显示RDD5内容,也会从RDD1到RDD2到RDD3到RDD5跑一趟
在这里插入图片描述

3、采用持久化操作

可以在RDD上使用persist()或cache()方法来标记要持久化的RDD(cache()方法实际上底层调用的是persist()方法)。在第一次行动操作时将对数据进行计算,并缓存在节点的内存中。Spark的缓存是容错的:如果缓存的RDD的任何分区丢失,Spark就会按照该RDD原来的转换过程自动重新计算并缓存。

计算到RDD3时,标记持久化
在这里插入图片描述
计算RDD4,就是基于RDD3缓存的数据开始计算,不用从头到尾跑一趟
在这里插入图片描述
计算RDD5,就是基于RDD3缓存的数据开始计算,不用从头到尾跑一趟
在这里插入图片描述

二、存储级别

(一)持久化方法的参数

利用RDD的persist()方法实现持久化,向persist()方法中传入一个StorageLevel对象指定存储级别。每个持久化的RDD都可以使用不同的存储级别存储,默认的存储级别是StorageLevel.MEMORY_ONLY。

(二)Spark RDD存储级别表

Spark RDD有七种存储级别

存储级别说明
MEMORY_ONLY将RDD存储为JVM中的反序列化Java对象。如果内存不够,部分分区就不会被缓存,并且在每次需要这些分区的时候都会被动态地重新计算。此为默认级别。
MEMORY_AND_DISK将RDD存储为JVM中的反序列化Java对象。如果内存不够,就将未缓存的分区存储在磁盘上,并在需要这些分区时从磁盘读取。
MEMORY_ONLY_SER将RDD存储为序列化的Java对象(每个分区一个字节数组)。这通常比反序列化对象更节省空间,特别是在使用快速序列化时,但读取时会增加 CPU负担。
MEMORY_AND_DISK_SER类似于MEMORY_ONLY_SER,但是溢出的分区将写到磁盘,而不是每次需要对其动态地重新计算。
DISK_ONLY只在磁盘上存储RDD分区。
MEMORY_ONLY_2与MEMORY_ONLY 相同,只是每个持久化的分区都会复制一份副本,存储在其他节点上。这种机制主要用于容错,一旦持久化数据丢失,可以使用副本数据,而不需要重新计算。
MEMORY_AND_DISK_2与MEMORY_AND_DISK相同,只是每个持久化的分区都会复制一份副本,存储在其他节点上。这种机制主要用于容错,一旦持久化数据丢失,可以使用副本数据,而不需要重新计算。

在Spark的Shuffle操作(例如reduceByKey()中,即使用户没有使用persist()方法,也会自动保存一些中间数据。这样做是为了避免在节点洗牌的过程中失败时重新计算整个输入。如果想多次使用某个RDD,那么强烈建议在该RDD上调用persist()方法。

(三)如何选择存储级别

选择原则:权衡内存使用率和CPU效率

如果RDD存储在内存中不会发生溢出,那么优先使用默认存储级别(MEMORY_ONLY),该级别会最大程度发挥CPU的性能,使在RDD上的操作以最快的速度运行。

如果RDD存储在内存中会发生溢出,那么使用MEMORY_ONLY_SER并选择一个快速序列化库将对象序列化,以节省空间,访问速度仍然相当快。

除非计算RDD的代价非常大,或者该RDD过滤了大量数据,否则不要将溢出的数据写入磁盘,因为重新计算分区的速度可能与从磁盘读取分区一样快。

如果希望在服务器出故障时能够快速恢复,那么可以使用多副本存储级别MEMORY_ONLY_2或MEMORY_AND_DISK_2。该存储级别在数据丢失后允许在RDD上继续运行任务,而不必等待重新计算丢失的分区。其他存储级别在发生数据丢失后,需要重新计算丢失的分区。

(四)persist()与cache()的关系

查看两个方法的源码

/**                                                                                           
 * 在第一次行动操作时持久化RDD,并设置存储级别,当RDD从来没有设置过存储级别时才能使用该方法                                           
 */                                                                                          
def persist(newLevel: StorageLevel): this.type = {                                            
  if (isLocallyCheckpointed) {                                                                
    // 如果之前已将该RDD设置为localCheckpoint,就覆盖之前的存储级别                                                
    persist(LocalRDDCheckpointData.transformStorageLevel(newLevel), allowOverride = true)     
  } else {                                                                                    
    persist(newLevel, allowOverride = false)                                                  
  }                                                                                           
}                                                                                             
/**                                                                                           
  * 持久化RDD,使用默认存储级别(MEMORY_ONLY)                                                              
  */                                                                                          
def persist(): this.type = persist(StorageLevel.MEMORY_ONLY)                                  
                                                                                              
/**                                                                                           
  * 持久化RDD,使用默认存储级别(MEMORY_ONLY)                                                              
  */                                                                                          
def cache(): this.type = persist()                                                            

从上述代码可以看出,cache()方法调用了无参的persist()方法,两者的默认存储级别都为MEMORY_ONLY,但cache()方法不可更改存储级别,而persist()方法可以通过参数自定义存储级别。

(五)案例演示设置存储级别

在net.army.rdd根包里创建day05子包,然后在子包里创建SetStorageLevel对象
在这里插入图片描述
运行程序,查看结果
在这里插入图片描述

三、利用Spark WebUI查看缓存

使用集群方式重启Spark Shell
在这里插入图片描述

(一)创建RDD并标记为持久化

执行命令:val rdd = sc.parallelize(List(56, 67, 32, 89, 90, 66, 100))
在这里插入图片描述

(二)Spark WebUI查看RDD存储信息

浏览器中访问Spark Shell的WebUI http://master:4040/storage/ 查看RDD存储信息,可以看到存储信息为空
在这里插入图片描述
执行命令:rdd.collect,收集RDD数据
在这里插入图片描述
刷新WebUI,发现出现了一个ParallelCollectionRDD的存储信息,该RDD的存储级别为MEMORY,持久化的分区为8,完全存储于内存中。
在这里插入图片描述
单击ParallelCollectionRDD超链接,可以查看该RDD的详细存储信息
在这里插入图片描述

上述操作说明,调用RDD的persist()方法只是将该RDD标记为持久化,当执行行动操作时才会对标记为持久化的RDD进行持久化操作。

执行以下命令,创建rdd2,并将rdd2持久化到磁盘
在这里插入图片描述
刷新WebUI,发现多了一个MapPartitionsRDD的存储信息,该RDD的存储级别为DISK,持久化的分区为8,完全存储于磁盘中。
在这里插入图片描述

(三)将RDD从缓存中删除

Spark会自动监视每个节点上的缓存使用情况,并以最近最少使用的方式从缓存中删除旧的分区数据。如果希望手动删除RDD,而不是等待该RDD被Spark自动从缓存中删除,那么可以使用RDD的unpersist()方法。

执行命令:rdd.unpersist(),将rdd(ParallelCollectionRDD)从缓存中删除
在这里插入图片描述

刷新WebUI,发现只剩下了MapPartitionsRDD,ParallelCollectionRDD已被移除。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/615270.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

最优化理论-KKT定理的推导与实现

目录 一、引言 二、最优化问题的基本概念 三、KKT条件的引入 1. 梯度条件 2. 原始可行性条件 3. 对偶可行性条件 四、KKT定理的表述 五、KKT定理的证明 1. 构造拉格朗日函数 2. 构造拉格朗日对偶函数 3. 推导KKT条件 4. 解释KKT条件 六、KKT定理的应用 七、总结 …

Python数据攻略-Pandas常用数据操作

大家好,我是Mr数据杨。今天我将带领各位走进Python的奇妙世界,就像步入三国演义那样热闹且复杂的战争年代。这里,数据就像那些智勇双全的武将和策士,我们要学习如何访问和修改它们,就如同诸葛亮那样掌控战局。 先来理…

1+X 大数据应用开发(Java)理论题库(中级题4)

文章目录 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950 1 <ALL表示小于最小 2 大于ANY表示大于最小值 3 LEFT OUTER JOIN 等同于LEFT JOIN 4 5 6 substr(string string,num start,num length); string为字符串&#x…

1160万美元!美国匹兹堡大学批准贷款建设量子信息核心WPQIC

​ 宾夕法尼亚州西部量子信息中心的首任主任Michael Hatridge教授展示量子信息科学和工程的技术实践&#xff08;图片来源&#xff1a;网络&#xff09; 量子物理学是植根于计算机、网络和传感器的有形世界。为了开创量子技术的新时代&#xff0c;研究人员需要可专用的定制化设…

Linux系统编程学习 NO.6 ——yum、Linux生态、vim的介绍

文章目录 1.Linux的安装软件的方式2.Linux的软件生态2.1.软件生态的概念2.2.Linux的软件生态 3.Linux生态4.yum安装软件4.1.验证网络4.2.使用yum安装lrzsz4.2.1.什么是lrzsz4.2.2.安装lrzsz 4.3.yum是如何找到官方yum源安装的软件呢&#xff1f;4.4.简单介绍扩展yum源4.5.关于y…

Mysql进阶【2】论述锁机制,SQL加锁情况

1.MySQL 的锁机制 1.1按粒度分有三种&#xff1a; 全局锁&#xff1a;核心服务层实现&#xff0c;锁住数据库&#xff0c;full table with read lock;表级锁&#xff1a;核心服务层实现&#xff0c;锁住数据库中的某张表 加表级读锁&#xff1a;本事务不能读取其他未加锁的表…

大数据存储与处理技术探索:Hadoop HDFS与Amazon S3的无尽可能性【上进小菜猪大数据】

上进小菜猪&#xff0c;沈工大软件工程专业&#xff0c;爱好敲代码&#xff0c;持续输出干货。 大数据时代带来了数据规模的爆炸性增长&#xff0c;对于高效存储和处理海量数据的需求也日益迫切。本文将探索两种重要的大数据存储与处理技术&#xff1a;Hadoop HDFS和Amazon S3…

Sqoop ---- Sqoop一些常用命令及参数

Sqoop ---- Sqoop一些常用命令及参数 1. 常用命令列举2. 命令&参数详解1. 公用参数&#xff1a;数据库连接2. 公用参数&#xff1a;import3. 公用参数&#xff1a;export4. 公用参数&#xff1a;hive5. 命令&参数&#xff1a;import6. 命令&参数&#xff1a;export…

设计模式(行为型模式)之:Template Method(模板方法)

文章目录 简介动机定义 早绑定代码晚绑定 模板设计模式对比分析总结 简介 该篇文章内容及思想出自 张建忠《设计模式》、GOF: 《设计模式》 定义一个操作中算法的骨架&#xff0c;而将一些操作延迟到子类中。TemplateMethod使得子类可以不改变一个算法的结构&#xff0c;即可重…

智能监控和汽车领域中的网络边缘嵌入式视觉最佳选择——低功耗ECP5 FPGA LFE5U-25F-8BG256I 莱迪思深力科

莱迪思深力科LFE5U-25F-8BG256I&#xff0c;属于ECP5系列。它拥有24,300个LUT&#xff08;Look-Up Table&#xff09;&#xff0c;可编程逻辑块&#xff0c;是一款高性能的可编程逻辑器件&#xff0c;具有高性能、灵活性和可编程性的FPGA芯片&#xff0c;适用于多个领域的高性能…

公众号开发小程序,为品牌拓展更广阔的市场!

公众号开发小程序是指在微信公众号平台上开发出一种类似于手机App的轻量级应用&#xff0c;能够给用户提供更加便捷、快速、个性化的服务和体验。 相比于传统的应用&#xff0c;公众号开发小程序有如下优势&#xff1a; 1、提升用户体验&#xff1a;相比于网页应用&#xff0c…

边缘云风口正酣,边缘一体化服务是竞争关键

连接世界从边缘开始&#xff0c; 重新定义公有云的未来 【全球云观察 &#xff5c; 热点关注】公有云已经进入白热化竞争阶段&#xff0c;从当初的云资源竞争&#xff0c;到当下更细分的云服务竞争&#xff0c;随着云计算服务市场继续蓬勃发展&#xff0c;正在催生出多样化的非…

【Spring Boot学习】今天是我的生日,舍友催我去吃饭,我还是坚持写完了Spring Boot配置文件,祝自己生日快乐哈

前言: 大家好,我是良辰丫,上一篇文章中我们已经学习了Spring Boot项目的的创建,今天我们会学习Spring Boot的配置文件,在今天的学习中我们会遇到许多我们不认识的注解,这些注解是Spring MVC中的,我们后续会介绍,大家先不用管这些注解是什么意思.那么,为什么不先学习MVC呢?我想…

5.9 使用Vue CLI创建VUE项目

使用Vue CLI创建VUE项目 目录一、 开发前准备1. 搭建NodeJS环境2. 环境确认3.开发工具 二、创建一个新的VUE项目1. 命令创建新的vue项目2. 选择项目模板3. 选择项目配置4. 选择项目版本5. 选择配置文件存放位置6. 是否将当前的项目配置保存为预设7. 完成构建 三、启动项目 目录…

Yolov3 模型构建和深入掌握快速搭建网络的搭积木方法

&#xff08;一&#xff09;设计Conv2dBatchLeaky 1、了解LeakyReLU激活函数 LeakyReLU 激活层&#xff0c;创建一个可调用对象以计算输入 x 的 LeakReLU 。其中&#xff0c;x为输入的 Tensor 感觉和飞桨的api有点相同&#xff0c;可以对照参考理解&#xff1a; LeakyReLU激活…

【JavaEE】HTTP应用层协议

HTTP应用层协议 文章目录 JavaEE & HTTP应用层协议1. HTTP的报文协议格式1.1 fiddler介绍1.2 HTTP请求1.3 HTTP响应 2. HTTP请求与响应2.1 首行2.1.1 http方法2.1.2 URL2.1.3 版本号 2.2 header与空行2.2.1 Host2.2.2 Content-Type 与 Content-Length2.2.3 User-Agent&…

chatgpt赋能python:Python编程中如何取消上一步操作

Python编程中如何取消上一步操作 Python是一种强大的编程语言&#xff0c;被广泛应用于数据科学、机器学习、Web开发等众多领域。在Python编程过程中&#xff0c;有时会发生一些错误或者需求发生变化&#xff0c;但我们又不想完全重写代码来解决这些问题。这时&#xff0c;我们…

OpenStack部署(一)

OpenStack部署 1. 流程介绍1.1 模块关联1.2 虚拟机创建流程 2. 部署2.1 服务器规划2.2 环境整备1. 配置控制节点域名/计算节点解析2. 关闭控制节点/计算节点selinux和防火墙3. 安装与配置控制节点/计算节点的时间同步服务4. 在控制节点/计算节点执行命令验证时间同步服务5. 在控…

AI文本生成视频,根据文字就能一键生成视频的模型

const name "AI生成视频";console.log(name); 可以从给定的文字内容就能生成短视频&#xff0c;基于文本到图像生成技术&#xff0c;该技术旨在实现文本到视频的生成&#xff0c;可以通过文本生成独一无二的视频&#xff0c;将无限的想象力带入生活。 我们来看看文…

XShell 7 中文版一键安装激活教程

Xshell 7是一款功能强大的终端模拟器&#xff0c;支持SSh2&#xff0c;SSh3&#xff0c;SFTP&#xff0c;TELNET&#xff0c;RLOGIN和SERIAL。通过提供业界先进的性能&#xff0c;Xshell包含了其他SSH客户端无法发现的功能和优势。 Xshell是一款功能强大且安全的终端模拟器&…