Spark 存储系统

news2024/11/13 20:29:27

Spark 存储系统

  • MemoryStore
  • DiskStore

Spark 存储系统架构:

在这里插入图片描述

Spark 存储系统维护的数据 :

  • Shuffle 中间文件 :Shuffle Map 输出数据 , 消耗节点磁盘
  • 广播变量 :在 Executors 内保存所有数据 ,消耗节点的内存
  • RDD Cache : 将 RDD 缓存到内存/磁盘 ,消耗内存,又消耗磁盘

BlockManagerMaster/BlockManager 之间交换的信息 (Executors 的数据状态) :

在这里插入图片描述

BlockManager 负责:管理数据块的元数据(Meta data),这些元数据记录并维护数据块的地址、位置、尺寸以及状态

在这里插入图片描述

BlockManager 的存储抽象 :

  • MemoryStore : 负责内存中的数据存取
  • DiskStore : 负责磁盘中的数据访问

Spark 存储系统支持两种类型:

  • 对象值(Object Values):字节数组还原成原始对象值:反序列化
  • 字节数组(Byte Array) :对象值转为字节数组:序列化

MemoryStore

MemoryStore 用 MemoryEntry 封装了两种数据存储:存储对象值,字节数组

  • 采用 LRU 逐一清除字典中最近、最久未使用的 Block

MemoryStore 用 LinkedHashMap 记录数据块的信息

  • LinkedHashMap[BlockId, MemoryEntry]: Key 是 BlockId,Value 是 MemoryEntry 的链式哈希字典

在这里插入图片描述

  • BlockId (数据结构) :标记 Block 的身份,记录了:Block 名字、所属 RDD、Block 对应的 RDD 数据分区、是否为广播变量、是否为 Shuffle Block
  • MemoryEntry (对象) :承载数据实体,某个 RDD 的数据分区或广播变量,类似于数据实体的地址

MemoryEntry 有两个实现类:

  • DeserializedMemoryEntry : 封装原始对象值 ,用 Array[T]来存储对象值序列,其中 T 是对象类型
  • SerializedMemoryEntry : 序列化后的字节数组 ,使用 ByteBuffer 来存储序列化后的字节序列

创建 RDD Cache 过程:

  1. 以数据分区为粒度,计算 RDD 执行结果,生成对应的数据块
  2. 将数据块封装到 MemoryEntry,同时创建数据块元数据 BlockId
  3. (BlockId,MemoryEntry)键值对添加到 LinkedHashMap

在这里插入图片描述

详细过程:

  1. 通过 putIteratorAsValues/putIteratorAsBytes ,把 RDD 展开为数据值,把数据暂存到 ValuesHolder 结构中
  2. 为了节省内存开销,调用 toArray/toByteBuffer ,把 ValuesHolder 转为 MemoryEntry 结构
  3. MemoryEntry 与 BlockId 对应 ,会一起被存入 LinkedHashMap[BlockId, MemoryEntry] 链式哈希字典中

在这里插入图片描述

DiskStore

DiskStore :维护数据块与磁盘文件的对应关系,实现磁盘数据的存取访问

  • DiskStore 利用 DiskBlockManager : 维护元数据

DiskStore 的数据存取过程:

  • spark.local.dir 下创建目录和子目录,spark.diskStore.subDirectories 控制子目录数,默认是 64

在这里插入图片描述

DiskBlockManager 是类对象 : 记录了逻辑数据块 Block 与磁盘中的物理文件的对应关系,每个 Block 都对应一个磁盘文件

  • 通过 getFile(BlockId)把文件内容转为数据块
  • 通过 putBytes 把字节序列存入磁盘文件

在这里插入图片描述

获取 Shuffle 文件过程:

  • Shuffle write:Shuffle manager 通过 BlockManager 调用 DiskStore.putBytes将数据块写入文件
  • Shuffle read :Shuffle manager 通过 BlockManager 调用 DiskStore. getBytes 方法,读取 data/index 文件,将文件内容转化为数据块,再通过网络分发到 Reducer 端进行聚合计算

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/393029.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大数据技术之Hive(五)拉链表的设计与实现

一、什么是拉链表针对订单表、订单商品表,流水表,这些表中的数据是比较多的,如果使用全量的方式,会造成大量的数据冗余,浪费磁盘空间。所以这种表,一般使用增量的方式,每日采集新增的数据。在这…

DevOps平台之GitLab 账户个性化设置【二】

1、简介 上一篇文章安装完GITLAB服务之后,我们可以很方便地从浏览器登录上去进行仓库项目管理。 但是初始化的界面默认设备并不是能很好地使用,比如语言,皮肤,个人信息不完善等等。 所以本文就为了完善这些。 上一篇:…

Linux 配置本地yum源

挂载光盘 进入包 配置路径,查看在线yum源 移动在线yum源到/home/目录下 进入vi,任意取名以.repo结尾即可 按住i进行编辑,输入以下内容 注意gpgcheck1是检验,配置本地yum源不需要检验 写入上图内容按住:输入wq,点击回车…

LeetCode - 1653 使字符串平衡的最少删除次数

目录 题目来源 题目描述 示例 提示 题目解析 算法源码 题目来源 1653. 使字符串平衡的最少删除次数 - 力扣(LeetCode) 题目描述 给你一个字符串 s ,它仅包含字符 a 和 b​​​​ 。 你可以删除 s 中任意数目的字符,使得 …

广州银行冲刺A股上市:不良贷款规模突破100亿元,不良率飙升

又一家城商行平移申报IPO。近日,广州银行股份有限公司(下称“广州银行”)递交招股书,准备在深圳证券交易所主板上市。本次冲刺上市,广州银行计划募资约94.79亿元,国泰君安证券为其保荐机构。 截至目前&…

省选模拟测试23 T1直径

题目大意 给你一个数kkk&#xff0c;请你构造一棵节点数量小于等于5000的直径数量为kkk的树。 我们定义这棵树的直径为&#xff0c;所有满足1≤i<j≤n1\leq i<j\leq n1≤i<j≤n的(i,j)(i,j)(i,j)中&#xff0c;dis(i,j)dis(i,j)dis(i,j)最大的。如果有多个这样的(i,…

buu RSA what 1

题目描述&#xff1a; 题目四个文件&#xff0c;分别如下&#xff1a; rsa.py from Crypto.Util.number import bytes_to_long, getPrime from random import randint from gmpy2 import powmodp getPrime(2048) q getPrime(2048) N p*q Phi (p-1)*(q-1) def get_enc_key…

珠海先达盈致数据智能监控器+SaaS平台 轻松实现注塑生产管控

数据智能监控器 兼容市面上99%的注塑设备 直接读取设备生产数据与状态&#xff0c;如&#xff1a;计划产出、实际产出、累计产出、停机、节拍、线利用率、直通率、停产时间、工单状态、OEE、注胶时间…… 产品功能价值 ◎ OEE不达标报警&#xff0c;一手掌握生产效能 ◎ 首…

论文精读:Ansor: Generating High-Performance Tensor Programs for Deep Learning

文章目录1. Abstract2. Introduction3. Background4. Design Overview5. Program Sampling5.1 Sketch Generation5.2 Random Annotation6. Performance Fine-tuning6.1 Evolutionary Search6.2 Learned Cost Model7. Task Scheduler7.1 Problem Formulation7.2 Optimizing with…

使用nvm管理node版本

下载nvm版本参考文章&#xff1a;https://blog.csdn.net/langmanboy/article/details/126357952下载安装选择nvm的目录为d:\nvm&#xff0c;nodejs的目录为d:\nodejs&#xff1a;v14.0.0&#xff1a;执行nvm install 14生成的目录v16.0.0&#xff1a;执行nvm install 16生成的目…

详解vite原理

背景 自从尤大大的 vite 问世后&#xff0c;现在前端的构建工具由 webpack 转向 vite 的越来越多&#xff0c;今天主要来讨论一下 vite 的一些工作原理&#xff0c;讨论之前大家可以看这篇文章&#xff0c;尤其是注意其中谈到的 Bundleless&#xff0c;这样也能更好的理解 vit…

C#学习记录0.1

一、环境 编译器使用 Visual Studio 2022。  IDE(集成开发环境)搭建不做阐述。 二、创建项目与解决方案 打开Visual Studio 2022点击创建新项目&#xff0c;如下图所示。 搜索并选择控制台应用程序&#xff0c;如下图所示。 解决方案&#xff1a;针对用户的具体需要&#x…

RocketMQ【3】Rocketmq集群部署(多master多slave)异步复制

系列文章目录 RocketMQ【1】linux安装配置Rocketmq&#xff08;单机版&#xff09; RocketMQ【2】Rocketmq控制台安装启动&#xff08;单机版&#xff09; 文章目录系列文章目录一、异步复制的优缺点1、优点2、缺点二、架构1、架构图2、介绍3、机器配置三、配置1、master节点配…

ES32中OTA空中升级

打开SDK可视化配置&#xff0c;检查flash大小设定和“partition table”分区表设定。 左下角&#xff0c;点击SDK可视化配置按钮&#xff0c;进入配置。flash大小为4MB&#xff0c;Partition Table选择Factory app, two OTA definitions&#xff0c;分区表烧写偏移地址0x8000&…

关于缓存的理解

关于缓存的理解 为系统引入缓存的理由 通常情况&#xff0c;在我们面临系统的基础设施&#xff0c;例如数据库无法处理量级的请求时候&#xff0c;总是会下意识的使用缓存&#xff0c;这次我们以设计的角度思考&#xff0c;在为你的系统引入缓存之前&#xff0c;它是否真的需…

Windows下nvm的安装配置及使用

目录 一&#xff1a;nvm简介 二&#xff1a;nvm下载及安装 三&#xff1a;nvm配置镜像 四&#xff1a;nvm的基本使用 五&#xff1a;nvm的一些常用命令 一&#xff1a;nvm简介 nvm 全名叫做 nodejs version manage&#xff0c;是一个非常棒的nodejs的版本管理工具&#x…

Mp4屏录文件无法播放的修复方法

屏录文件算是比较特殊的一类文件&#xff0c;原因是其采集范围仅限于桌面&#xff0c;和我们现实的摄像机采集相比&#xff0c;桌面类的更单一&#xff0c;所以能实现较小的长度存放较多的帧。下面我来看一个屏录文件损坏后的修复案例&#xff0c;同时讲下CHS零壹视频修复程序Q…

GraphCut、最大流最小割定理

G&#xff08;V&#xff0c;E&#xff09;&#xff1b;V为点集&#xff0c;E为边集&#xff1b; 节点集V中的节点分为&#xff1a; &#xff08;1&#xff09;终端节点。不包含图像像素&#xff0c;用S和T表示。S为源点&#xff0c;T为汇点。图像分割中通常用S表示前景目标&a…

sql开窗函数

用的Oracle数据库进行测试一、数据准备DROP TABLE T_TEST; CREATE TABLE T_TEST (id NUMBER(10) VISIBLE NOT NULL ,姓名 VARCHAR2(50 BYTE) VISIBLE ,性别 VARCHAR2(50 BYTE) VISIBLE ,班级 VARCHAR2(50 BYTE) VISIBLE ,成绩 NUMBER(5,2) VISIBLE );INSERT INTO T_TEST VALUE…

【蓝桥杯专题】 递归 递推 (C++ | 洛谷 | acwing)

文章目录【蓝桥杯专题】 递归 &递推 &#xff08;C | 洛谷 | acwing&#xff09;复习P5534 【XR-3】等差数列P4994 终于结束的起点P1028 [NOIP2001 普及组] 数的计算波动数列[递归]母牛的故事蓝桥杯&#xff1a;耐摔指数菜狗现在才开始备战蓝桥杯QAQ 【蓝桥杯专题】 递归 &…