Spark中cache、persist、checkpoint三者的比较

news2024/9/23 17:12:36

原文链接:https://blog.csdn.net/AnameJL/article/details/124362219,再次主要是为了方便查找,把原文章复制一遍

目录

1. 三者的使用

1.1 cache的讲解与使用

1.2 persist的讲解与使用

1.3checkpoint 的讲解与使用

2. 三者的比较

2.1 优缺点

2.2 使用场景

3.释放内存


在Spark的数据处理过程中我们可以通过cache、persist、checkpoint这三个算子将中间的结果数据进行保存,这里主要就是介绍这三个算子的使用方式和使用场景

1. 三者的使用


1.1 cache的讲解与使用


  cache算子可以将spark任务的中间结果数据缓存到内存当中,用以优化数据处理的时效性,这里结合代码进行讲解。
  首先这里准备好数据文件

# 通过命令我们可以看到数据文件有4592639 行
[root@lx01 bin]# wc -l /root/log-t.txt
4592639 /root/log-t.txt
# 将数据文件上传至hdfs,并对文件重命名
[root@lx01 ~]# hdfs dfs -put /root/log-t.txt /log/log01
[root@lx01 ~]# hdfs dfs -put /root/log-t.txt /log/log02
[root@lx01 ~]# hdfs dfs -put /root/log-t.txt /log/log03
[root@lx01 ~]# hdfs dfs -put /root/log-t.txt /log/log04
[root@lx01 ~]# hdfs dfs -put /root/log-t.txt /log/log05
[root@lx01 ~]# hdfs dfs -put /root/log-t.txt /log/log06
[root@lx01 ~]# hdfs dfs -put /root/log-t.txt /log/log07

这里可以看到文件的大小是65.7MB 

# 这里为了方便直接启动spark-shell对数据进行处理
[root@lx01 bin]# ./spark-shell --master spark://lx01:7077 --executor-memory 4G --total-executor-cores 2

进入spark-shell后,我们对文件简单的做一个行数统计,然后看一下耗时时间

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.0.0
      /_/

Using Scala version 2.12.10 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_231)
Type in expressions to have them evaluated.
Type :help for more information.

scala>  val lines = sc.textFile("hdfs://lx01:8020/log")
lines: org.apache.spark.rdd.RDD[String] = hdfs://lx01:8020/log MapPartitionsRDD[1] at textFile at <console>:24

scala> lines.count
res0: Long = 32148480

scala> lines.count
res1: Long = 32148480

scala> lines.count
res2: Long = 32148480

scala> lines.count
res3: Long = 32148480

统计完可以看到是32148480,这里我们看一下时间

通过上图我们可以看到查询这里数据总耗时最快可达到2s,这里我们开始使用cache算子,将数据缓存到内存当中,然后再查询数据的总行数,这里要注意cache算子并非action算子,所以要执行一次action算子cache算子才会生效。

# 这里我们还是使用的action算子还是count
scala> lines.cache
res4: lines.type = hdfs://lx01:8020/log MapPartitionsRDD[1] at textFile at <console>:24

scala> lines.count
res5: Long = 32148480

 我们先砍一下将数据存储到内存中,然后在使用count算子计算总行数的耗时时长

 通过上图我们可以看到,这次使用cache算子后,比未使用cache算子的耗时时长还要多5s,这是因为我们在执行count时不仅要从hdfs中读取数据计算行数,还要将数据存储到内存中,所以时间更长,下面我们在直接执行一次count并看一下耗时时长

scala> lines.count
res3: Long = 18370560

通过上图我们可以看到,数据存储到内存中后我们再直接使用count时,计算速度提高了几十倍,从这里也说明了一个问题,只有中间结果的数据被重复利用的时候,我们使用cache算子才有意义,如果整个spark程序对同一数据只执行一次action算子,我们将数据存储到内存中不仅没有任何意义,还会降低数据处理的时效性,并且浪费资源,这里为什么说浪费资源,因为cache算子是将数据以java对象的形式存储,作为开发人员我们都清楚以java对象进行存储的方式是很重的,这里我读取的文件每个都是65.7MB,一共读取了7个,我们看一下数据存储到内存中后的大小

通过上图我们可以看到,459.9MB的数据存储到内存中后就变成了2.3GB,从这里就可以看出,cache算子对内存的开销是极大的,如果不对脏数据进行处理,或者进行一些数据筛选,直接将数据存储到内存中,是很浪费资源的,再就是上面提到的,只有一次action不要使用cache算子,其实persist也是一样的。

注意:cache把数据缓存到内存,其实是缓存到每个executor的内存中,cache是以分区为单位进行缓存的,要么整个分区全部被缓存到内存,要么整个分区数据都不被缓存,不会发生缓存某个分区的一部分数据的情况。

1.2 persist的讲解与使用


  persist算子相对于cache算子要更加的灵活,persist可以配置中间结果数据存储级别,存储数据的副本数据量等。而且通过翻看源码我们可以看到cache算子底层调用的就是persist算子
 

  /**
   * Persist this RDD with the default storage level (`MEMORY_ONLY`).
   */
  def cache(): this.type = persist()

 通过上面的源码我们可以看到cache算子使用的就是persist算子的MEMORY_ONLY,这里我们官网看一下persist的存储级别都有哪些

通过上图我们可以看到persist的存储级别是很丰富的,这里我们可以根据具体的需求选择对应的存储级别。

注意:persist把数据缓存到内存,其实是缓存到每个executor的内存中,内存存储不下,就存储在磁盘,磁盘就是executor所在的机器的磁盘上,不是hdfs


这里我们重新开启一个spark-shell,用以测试persist算子

[root@lx01 bin]# ./spark-shell --master spark://lx01:7077 --executor-memory 4G --total-executor-cores 2
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.0.0
      /_/

Using Scala version 2.12.10 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_231)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

 这里我们先测试persistDISK_ONLY的效率,还是以相同的文件

# 这里还是先测试直接做count的时效
scala> val lines = sc.textFile("hdfs://lx01:8020/log")
lines: org.apache.spark.rdd.RDD[String] = hdfs://lx01:8020/log MapPartitionsRDD[1] at textFile at <console>:24

scala> lines.count
res0: Long = 32148480

scala> lines.count
res1: Long = 32148480

scala> lines.count
res2: Long = 32148480

scala> lines.count
res3: Long = 32148480

 可以看到最高时效还是2s
这里我们再将数据以DISK_ONLY的方式进行存储

# 因为这里使用的是spark-shell,我们要先进行导包
scala> import org.apache.spark.storage.StorageLevel
import org.apache.spark.storage.StorageLevel

scala> lines.persist(StorageLevel.DISK_ONLY)
res4: lines.type = hdfs://lx01:8020/log MapPartitionsRDD[1] at textFile at <console>:24

scala> lines.count
res5: Long = 32148480

 通过上图我们可以看到,使用persist算子的DISK_ONLY存储耗时为6s,和使用cache算子时的原理是相同的,不仅要从hdfs读取数据做count计算,还要将数据存储到本地磁盘,但是我们可以看到,将数据存储到本地磁盘比存储到内存的总耗时小,我们在使用cache的时候耗时7s,使用persist的DISK_ONLY存储耗时6s,造成这样的原因就是存储到本地磁盘的数据是从hdfs读取的原始数据文件,而存储到内存中的数据是以java对象的形式存储,多了很多附加信息,如下图

每个文件为65.7MB,7个文件正好是459.9MB
这里我们再测试一下,存储到磁盘后的数据计算时效性

scala> lines.count
res3: Long = 18370560

 

通过上图可以看到,将数据存储到本地磁盘后,在做count计算用时1s,相对于直接做count的计算速度还是翻倍的,但是相对于存储到内存中还是慢了不少,比直接做count快是因为做计算时是从本地磁盘读取的数据,而不从hdfs上读取的数据,而且数据量越大,时效性的差距越明显.
使用本地磁盘的存储方式和内存存储相比,虽然时效性下降,但是可利用的存储资源更多,而且比内存存储更节约资源.
这里我们在测试一下内存和磁盘并用,重复的代码这里就省略了
 

scala> lines.persist(StorageLevel.MEMORY_AND_DISK)
res0: lines.type = hdfs://lx01:8020/log MapPartitionsRDD[1] at textFile at <console>:24

scala> lines.count
res1: Long = 32148480

这里可以看到将数据做count计算的同时,并将数据存储到内存和本地磁盘中总耗时19s

这里我们在直接执行一次count计算,看一下耗时

scala> lines.count
res2: Long = 32148480

可以看到总耗时为0.1s,和直接将数据存储到内存后再进行计算的速度是相同的,这是因为我们将数据同时存储到内存和本地磁盘中后,再重复利用这些数据时,会优先读取内存中的数据.当内存中的数据丢失时才会读取本地磁盘中存储的数据.

1.3checkpoint 的讲解与使用


  checkpoint算子同样是将中间结果数据进行存储,不过它是将数据存储到高可靠,高可用的文件系统HDFS,相对于cache和persist是更加安全的.

# 使用checkpoint的时候注意,一定要先设置checkpoint在hdfs存储数据的路径
scala> sc.setCheckpointDir("hdfs://lx01:8020/check")

scala> val lines = sc.textFile("hdfs://lx01:8020/log")
lines: org.apache.spark.rdd.RDD[String] = hdfs://lx01:8020/log MapPartitionsRDD[1] at textFile at <console>:24

scala> lines.checkpoint

scala> lines.count
res2: Long = 32148480

这里我们先看一下已经配置好的checkpointHDFS路径是否有数据

用过上图可以看到在check路径下已经有了7个数据块 

这里执行了6s,比直接执行count算子要多出4s,就是因为我们在计算数据的同时也在将数据存储到HDFS上.

2. 三者的比较

2.1 优缺点


cache
优点: 对相同的数据进行处理是,时效性最高,可以大大提高spark程序的时效性能
缺点: 很耗费内存资源,如果数据量较大并不适用cache
persist
优点: 可以进行灵活的配置,如果内存不够大,可以将中间结果数据存储到本地磁盘,同cache相比时效性降低,但是同样比直接从hdfs读取数据做计算要高出几倍的效率,而且如果将数据存储到本地磁盘相对于只将数据存储到内存中要更加安全
缺点: 虽然persist可以将数据存储到内存或者磁盘,但是对单节点的磁盘和内存资源存在一定的限制性
checkpoint
优点: 将中间结果数据存储到HDFS中能更加能确保中间结果数据的安全性
缺点: 重复利用中间结果数据时,还是和HDFS进行交互,时效性相对于内存存储和本地磁盘存储较低


2.2 使用场景


cache
当中间结果数据的数据量较小,并且要求的时效性较高时比较适合使用cache算子
persist
当单一的内存存储无法满足业务需求时,或者中间结果数据给内存造成很大压力时,可以使用persist算子
checkpoint
当中间结果数据极其宝贵,对数据的安全要求较高时,比如使用机器学习可能程序执行几天才的到的模型数据,这一类数据的安全性能要求相对较高,就比较适用于checkpoint算子.

以上就是对cache,persist,checkpoint的介绍,这三者有一个共同点,就是数据的重复利用,如果对相同的中间结果数据只执行一次action算子是没有必要使用这三个算子的,读取中间结果数据的优先级:内存<–磁盘<–hdfs,对于这三者的介绍就结束了,相对来说比较齐浅显,希望对有疑问的朋友有所帮助.


3.释放内存

rdd.unpersist(true) ,即释放内存的方法为同步的,必须将executor中的内存释放完后,Driver的方法才会进行往下执行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/351257.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于Web的智慧能源可视化管理系统

自工业革命开始&#xff0c;全球能源消耗持续增长&#xff0c;由碳循环体系破坏引发的全球变暖、海平面上升等问题严重影响着人类的可持续发展。得益于数字孪生、物联网、5G、AI识别等技术的不断成熟&#xff0c;以“大数据能源监控、精细化能源管理”为核心的智慧能源解决方案…

【电子学会】2022年12月图形化三级 -- 绘制雷达

绘制雷达 1. 准备工作 &#xff08;1&#xff09;绘制黑色背景&#xff1b; &#xff08;2&#xff09;删除默认角色小猫&#xff0c;添加角色Pencil。 2. 功能实现 &#xff08;1&#xff09;画笔的颜色设为黄色&#xff0c;Pencil的中心点设在笔尖位置&#xff0c;画笔的…

在Java 中 利用Milo通信库,实现OPCUA客户端,并生成证书

程序结构&#xff1a; 配置文件resources&#xff1a; opcua.properties 西门子PLC端口号为4840&#xff0c;kepserver为49320 #opcua服务端配置参数 #opcua.server.endpoint.urlopc.tcp://192.168.2.102:49320 opcua.server.endpoint.urlopc.tcp://192.168.2.11:4840 opcu…

2023年私募股权基金研究报告

第一章 概况 PE是私募&#xff0c;也即私募投资基金&#xff0c;是指以非公开发行方式向合格投资者募集的&#xff0c;投资于股票、股权、债券、期货、期权、基金份额及投资合同约定的其他投资标的&#xff08;如艺术品、红酒等&#xff09;的投资基金&#xff0c;简称私募基金…

【PyTorch学习3】《PyTorch深度学习实践》——反向传播(Back Propagation)

目录一、Tensor1.定义2.Tensor常见形式3.torch.tensor和torch.Tensor4.Tensor.grad二、反向传播一、Tensor 1.定义 张量的定义是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数。 在PyTorch上有这样一句话&#xff0c;A torch.Tensor is a multi…

TeeChart for .NET 2023.2.13 Crack

TeeChart NET Pro Edition 是一个基于 Nuget 的图表控件&#xff0c;旨在为您的 NET 应用程序提供即时图表、地图和仪表功能。TeeChart 拥有数十种图表类型、统计函数和开发人员工具&#xff0c;是当今开发人员可用的最全面的图表库之一。易于使用设计时编辑器和直观的编程结构…

蒙特卡洛计算圆周率

使用MC计算圆周率的小例子&#xff0c;使用python的numpy&#xff0c;matplotlib库import numpy as npimport matplotlib.pyplot as pltdef mc_calculate_pi(t):np.random.seed(t)rand_num np.random.rand(t)rand_num2 np.random.rand(t)l1 rand_num-0.5l2 rand_num2-0.5l0…

记录-配置unity多人游戏服务器中的踩坑经历

最近沉迷于gpt这个“魔法海螺”无法自拔&#xff0c;总之这是题外话了&#xff0c;Let.s go 文章目录前言一、IIS的HTTPS站点设置二、VS的远程部署设置三、运行.NET CORE的IIS站点——注意项四、SQL Server使用sa账号不能登录的问题解决五、SVN忽略so文件的提交&#xff0c;导致…

深入浅出带你学习IIS中间件常见漏洞

前言 在渗透过程中我们经常会思考如何去进行渗透&#xff0c;假如给了我们一个有很多中间件的网站我们要如何进行渗透呢&#xff1f;于是本人准备写一些包含常见中间件漏洞攻击的总结&#xff0c;希望可以帮到大家在面临不同渗透环境时会有渗透思路&#xff0c;本篇文章就先给…

开源单点登录MaxKey和JumpServer 堡垒机单点登录集成指南

1. MaxKey介绍 MaxKey社区专注于身份安全管理(IM)、单点登录(SSO)和云身份认证(IDaas)领域&#xff0c;将为客户提供企业级的身份管理和认证&#xff0c;提供全面的4A安全管理&#xff08;指Account&#xff0c;Authentication&#xff0c;Authorization和Audit&#xff09;。…

HCIP中期实验(华为)

题目&#xff1a; 实验要求&#xff1a; 1、该拓扑为公司网络&#xff0c;其中包括公司总部、公司分部以及公司骨干网&#xff0c;不包含运营商公网部分。 2、设备名称均使用拓扑上名称改名&#xff0c;并且区分大小写。 3、整张拓扑均使用私网地址进行配置。 4、整张网络中&am…

javaEE 初阶 — 延迟应答与捎带应答

文章目录1. 延迟应答2. 捎带应答TCP 工作机制&#xff1a;确认应答机制 超时重传机制 连接管理机制 滑动窗口 流量控制与拥塞控制 1. 延迟应答 延时应答 也是提升效率的机制&#xff0c;也是在滑动窗口基础上搞点事情。 滑动窗口的关键是让窗口大小大一点&#xff0c;传输…

骑行是什么?骑行是这十一非物质的东西

很多骑友一直在想&#xff0c;我们骑行是为什么&#xff1f;又没有什么实质性的价值&#xff0c;又不算是劳动&#xff0c;但究竟是什么&#xff1f;让我们坚持不懈的在坚持&#xff0c;在热爱&#xff1f; 1.骑行是一种自由&#xff0c;它可以让你放松心情&#xff0c;放空思绪…

JS中的数据类型判断

JS中的数据类型 基本数据类型 number、string、boolean、null、undefined、symbol 引用数据类型 object、array、function、date、regexp 判断数据类型的方法有 typeof 、instanceof、constructor、toString() typeof用法 从上面可以看出&#xff0c;typeof 对于JS中基本类型…

Promise学习笔记(一)

课程内容 1、Promise基础 2、手写Promise 3、Async和Await 4、应用实战 1、初始Promise 1.1、promise介绍 1.2、回调地狱&#xff08;嵌套金字塔&#xff09; 1.3、promise使用 &#xff08;1&#xff09;then(成功函数&#xff0c;失败函数)&#xff1a;要么使用then传…

滑块连杆模型仿真(三菱ST+博途SCL计算源代码)

由滑块位置逆计算曲柄角度,请参看下面的文章链接。这篇博客主要计算由曲柄转动角度计算滑块位置。 https://blog.csdn.net/m0_46143730/article/details/128943228https://blog.csdn.net/m0_46143730/article/details/128943228简单的看下连杆滑块模型 模型的数学推导过程,大…

SpringCloud Alibaba项目环境

前言 有小伙伴说自己搭建Spring Cloud项目时&#xff0c;总会出现很多问题&#xff0c;项目无法正常启动&#xff0c;就算启动成功了也会出现一些难以预料的异常。 项目无法正常启动或者项目搭建不起来的原因大多是各个组件间的依赖和版本问题&#xff0c;这里就提供一个可以…

虹科HiveMQ MQTT解决方案在奔驰汽车制造中的应用

前言 戴姆勒股份公司&#xff08;Daimler AG&#xff09;&#xff0c;总部位于德国斯图加特&#xff0c;是全球最大的商用车制造商&#xff0c;全球第一大豪华车生产商、第二大卡车生产商。公司旗下包括梅赛德斯-奔驰汽车、梅赛德斯-奔驰轻型商用车、戴姆勒载重车和戴姆勒金融…

excel批处理:如何按给定目录批量创建系列文件夹

建立一个文件夹&#xff0c;小意思&#xff1b;建立十个文件夹&#xff0c;也很快完成&#xff1b;建立171个文件夹&#xff0c;这就是一项大工程了。如果不能批量创建的话&#xff0c;2个小时能完成就算不错了。收到领导的小要求&#xff0c;按照下面图片中的目录建立文件夹。…

基于SpringBoot的智慧社区网站

文末获取源码 开发语言&#xff1a;Java 框架&#xff1a;springboot JDK版本&#xff1a;JDK1.8 服务器&#xff1a;tomcat7 数据库&#xff1a;mysql 5.7/8.0 数据库工具&#xff1a;Navicat11 开发软件&#xff1a;eclipse/myeclipse/idea Maven包&#xff1a;Maven3.3.9 浏…