Spark 存储系统

news2025/7/4 18:41:30

Spark 存储系统

MemoryStore
DiskStore

Spark 存储系统架构：

在这里插入图片描述

Spark 存储系统维护的数据 :

Shuffle 中间文件：Shuffle Map 输出数据，消耗节点磁盘
广播变量：在 Executors 内保存所有数据，消耗节点的内存
RDD Cache : 将 RDD 缓存到内存/磁盘，消耗内存，又消耗磁盘

BlockManagerMaster/BlockManager 之间交换的信息 (Executors 的数据状态) :

在这里插入图片描述

BlockManager 负责：管理数据块的元数据（Meta data），这些元数据记录并维护数据块的地址、位置、尺寸以及状态

在这里插入图片描述

BlockManager 的存储抽象：

MemoryStore : 负责内存中的数据存取
DiskStore : 负责磁盘中的数据访问

Spark 存储系统支持两种类型：

对象值（Object Values）：字节数组还原成原始对象值：反序列化
字节数组（Byte Array）：对象值转为字节数组：序列化

MemoryStore

MemoryStore 用 MemoryEntry 封装了两种数据存储：存储对象值，字节数组

采用 LRU 逐一清除字典中最近、最久未使用的 Block

MemoryStore 用 LinkedHashMap 记录数据块的信息

LinkedHashMap[BlockId, MemoryEntry]： Key 是 BlockId，Value 是 MemoryEntry 的链式哈希字典

在这里插入图片描述

BlockId (数据结构) ：标记 Block 的身份，记录了：Block 名字、所属 RDD、Block 对应的 RDD 数据分区、是否为广播变量、是否为 Shuffle Block
MemoryEntry (对象) ：承载数据实体，某个 RDD 的数据分区或广播变量，类似于数据实体的地址

MemoryEntry 有两个实现类：

DeserializedMemoryEntry ：封装原始对象值，用 Array[T]来存储对象值序列，其中 T 是对象类型
SerializedMemoryEntry ：序列化后的字节数组，使用 ByteBuffer 来存储序列化后的字节序列

创建 RDD Cache 过程：

以数据分区为粒度，计算 RDD 执行结果，生成对应的数据块
将数据块封装到 MemoryEntry，同时创建数据块元数据 BlockId
将 (BlockId，MemoryEntry)键值对添加到 LinkedHashMap

在这里插入图片描述

详细过程：

通过 putIteratorAsValues/putIteratorAsBytes ，把 RDD 展开为数据值，把数据暂存到 ValuesHolder 结构中
为了节省内存开销，调用 toArray/toByteBuffer ，把 ValuesHolder 转为 MemoryEntry 结构
MemoryEntry 与 BlockId 对应，会一起被存入 LinkedHashMap[BlockId, MemoryEntry] 链式哈希字典中

在这里插入图片描述

DiskStore

DiskStore ：维护数据块与磁盘文件的对应关系，实现磁盘数据的存取访问

DiskStore 利用 DiskBlockManager : 维护元数据

DiskStore 的数据存取过程：

在 spark.local.dir 下创建目录和子目录，spark.diskStore.subDirectories 控制子目录数，默认是 64

在这里插入图片描述

DiskBlockManager 是类对象 : 记录了逻辑数据块 Block 与磁盘中的物理文件的对应关系，每个 Block 都对应一个磁盘文件

通过 getFile(BlockId)把文件内容转为数据块
通过 putBytes 把字节序列存入磁盘文件

在这里插入图片描述

获取 Shuffle 文件过程：

Shuffle write：Shuffle manager 通过 BlockManager 调用 DiskStore.putBytes将数据块写入文件
Shuffle read ：Shuffle manager 通过 BlockManager 调用 DiskStore. getBytes 方法，读取 data/index 文件，将文件内容转化为数据块，再通过网络分发到 Reducer 端进行聚合计算

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/393029.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

大数据技术之Hive（五）拉链表的设计与实现

大数据技术之Hive（五）拉链表的设计与实现

一、什么是拉链表针对订单表、订单商品表，流水表，这些表中的数据是比较多的，如果使用全量的方式，会造成大量的数据冗余，浪费磁盘空间。所以这种表，一般使用增量的方式，每日采集新增的数据。在这…

阅读更多...

DevOps平台之GitLab 账户个性化设置【二】

DevOps平台之GitLab 账户个性化设置【二】

1、简介上一篇文章安装完GITLAB服务之后，我们可以很方便地从浏览器登录上去进行仓库项目管理。但是初始化的界面默认设备并不是能很好地使用，比如语言，皮肤，个人信息不完善等等。所以本文就为了完善这些。上一篇：…

阅读更多...

Linux 配置本地yum源

Linux 配置本地yum源

挂载光盘进入包配置路径，查看在线yum源移动在线yum源到/home/目录下进入vi,任意取名以.repo结尾即可按住i进行编辑，输入以下内容注意gpgcheck1是检验，配置本地yum源不需要检验写入上图内容按住：输入wq，点击回车…

阅读更多...

LeetCode - 1653 使字符串平衡的最少删除次数

LeetCode - 1653 使字符串平衡的最少删除次数

目录题目来源题目描述示例提示题目解析算法源码题目来源 1653. 使字符串平衡的最少删除次数 - 力扣（LeetCode） 题目描述给你一个字符串 s ，它仅包含字符 a 和 b 。你可以删除 s 中任意数目的字符，使得 …

阅读更多...

广州银行冲刺A股上市：不良贷款规模突破100亿元，不良率飙升

广州银行冲刺A股上市：不良贷款规模突破100亿元，不良率飙升

又一家城商行平移申报IPO。近日，广州银行股份有限公司（下称“广州银行”）递交招股书，准备在深圳证券交易所主板上市。本次冲刺上市，广州银行计划募资约94.79亿元，国泰君安证券为其保荐机构。截至目前&…

阅读更多...

省选模拟测试23 T1直径

省选模拟测试23 T1直径

题目大意给你一个数kkk，请你构造一棵节点数量小于等于5000的直径数量为kkk的树。我们定义这棵树的直径为，所有满足1≤i<j≤n1\leq i<j\leq n1≤i<j≤n的(i,j)(i,j)(i,j)中，dis(i,j)dis(i,j)dis(i,j)最大的。如果有多个这样的(i,…

阅读更多...

buu RSA what 1

buu RSA what 1

题目描述： 题目四个文件，分别如下： rsa.py from Crypto.Util.number import bytes_to_long, getPrime from random import randint from gmpy2 import powmodp getPrime(2048) q getPrime(2048) N p*q Phi (p-1)*(q-1) def get_enc_key…

阅读更多...

珠海先达盈致数据智能监控器+SaaS平台轻松实现注塑生产管控

珠海先达盈致数据智能监控器+SaaS平台轻松实现注塑生产管控

数据智能监控器兼容市面上99%的注塑设备直接读取设备生产数据与状态，如：计划产出、实际产出、累计产出、停机、节拍、线利用率、直通率、停产时间、工单状态、OEE、注胶时间…… 产品功能价值 ◎ OEE不达标报警，一手掌握生产效能 ◎ 首…

阅读更多...

论文精读：Ansor: Generating High-Performance Tensor Programs for Deep Learning

论文精读：Ansor: Generating High-Performance Tensor Programs for Deep Learning

文章目录1. Abstract2. Introduction3. Background4. Design Overview5. Program Sampling5.1 Sketch Generation5.2 Random Annotation6. Performance Fine-tuning6.1 Evolutionary Search6.2 Learned Cost Model7. Task Scheduler7.1 Problem Formulation7.2 Optimizing with…

阅读更多...

使用nvm管理node版本

使用nvm管理node版本

下载nvm版本参考文章：https://blog.csdn.net/langmanboy/article/details/126357952下载安装选择nvm的目录为d:\nvm，nodejs的目录为d:\nodejs：v14.0.0：执行nvm install 14生成的目录v16.0.0：执行nvm install 16生成的目…

阅读更多...

详解vite原理

详解vite原理

背景自从尤大大的 vite 问世后，现在前端的构建工具由 webpack 转向 vite 的越来越多，今天主要来讨论一下 vite 的一些工作原理，讨论之前大家可以看这篇文章，尤其是注意其中谈到的 Bundleless，这样也能更好的理解 vit…

阅读更多...

C#学习记录0.1

C#学习记录0.1

一、环境编译器使用 Visual Studio 2022。 IDE(集成开发环境)搭建不做阐述。二、创建项目与解决方案打开Visual Studio 2022点击创建新项目，如下图所示。搜索并选择控制台应用程序，如下图所示。解决方案：针对用户的具体需要&#x…

阅读更多...

RocketMQ【3】Rocketmq集群部署（多master多slave）异步复制

RocketMQ【3】Rocketmq集群部署（多master多slave）异步复制

系列文章目录 RocketMQ【1】linux安装配置Rocketmq（单机版） RocketMQ【2】Rocketmq控制台安装启动（单机版） 文章目录系列文章目录一、异步复制的优缺点1、优点2、缺点二、架构1、架构图2、介绍3、机器配置三、配置1、master节点配…

阅读更多...

ES32中OTA空中升级

ES32中OTA空中升级

打开SDK可视化配置，检查flash大小设定和“partition table”分区表设定。左下角，点击SDK可视化配置按钮，进入配置。flash大小为4MB，Partition Table选择Factory app, two OTA definitions，分区表烧写偏移地址0x8000&…

阅读更多...

关于缓存的理解

关于缓存的理解

关于缓存的理解为系统引入缓存的理由通常情况，在我们面临系统的基础设施，例如数据库无法处理量级的请求时候，总是会下意识的使用缓存，这次我们以设计的角度思考，在为你的系统引入缓存之前，它是否真的需…

阅读更多...

Windows下nvm的安装配置及使用

Windows下nvm的安装配置及使用

目录一：nvm简介二：nvm下载及安装三：nvm配置镜像四：nvm的基本使用五：nvm的一些常用命令一：nvm简介 nvm 全名叫做 nodejs version manage，是一个非常棒的nodejs的版本管理工具&#x…

阅读更多...

Mp4屏录文件无法播放的修复方法

Mp4屏录文件无法播放的修复方法

屏录文件算是比较特殊的一类文件，原因是其采集范围仅限于桌面，和我们现实的摄像机采集相比，桌面类的更单一，所以能实现较小的长度存放较多的帧。下面我来看一个屏录文件损坏后的修复案例，同时讲下CHS零壹视频修复程序Q…

阅读更多...

GraphCut、最大流最小割定理

GraphCut、最大流最小割定理

G（V，E）；V为点集，E为边集； 节点集V中的节点分为： （1）终端节点。不包含图像像素，用S和T表示。S为源点，T为汇点。图像分割中通常用S表示前景目标&a…

阅读更多...

sql开窗函数

sql开窗函数

用的Oracle数据库进行测试一、数据准备DROP TABLE T_TEST; CREATE TABLE T_TEST (id NUMBER(10) VISIBLE NOT NULL ,姓名 VARCHAR2(50 BYTE) VISIBLE ,性别 VARCHAR2(50 BYTE) VISIBLE ,班级 VARCHAR2(50 BYTE) VISIBLE ,成绩 NUMBER(5,2) VISIBLE );INSERT INTO T_TEST VALUE…

阅读更多...

【蓝桥杯专题】递归递推（C++ | 洛谷 | acwing）

【蓝桥杯专题】递归递推（C++ | 洛谷 | acwing）

文章目录【蓝桥杯专题】递归 &递推 （C | 洛谷 | acwing）复习P5534 【XR-3】等差数列P4994 终于结束的起点P1028 [NOIP2001 普及组] 数的计算波动数列[递归]母牛的故事蓝桥杯：耐摔指数菜狗现在才开始备战蓝桥杯QAQ 【蓝桥杯专题】递归 &…

阅读更多...

推荐文章

最新文章