Spark RDD

news2026/2/11 9:08:27

RDD

RDD 是构建 Spark 分布式内存计算引擎的基石，如：DAG/调度系统都衍生自 RDD

RDD 是对分布式数据集的抽象，囊括所有内存/磁盘的分布式数据实体

RDD/数组差异

对比项	数组	RDD
概念	数据结构实体	数据模型抽象
数据跨度	单机进程内	跨进程，跨计算节点
数据构成	数组元素	数据分片(Partitions)
数据定位	数组下标，索引	数据分片索引

RDD属性

RDD 的 4 大属性：

属性名	成员变量	属性含义	RDD特性	刻画方向
partitions	变量	RDD的切片实体	分布式	横向
partitioner	方法	切分 RDD规则
dependencies	变量	RDD 依赖父RDD	容错性	纵向
compute	方法	生成 RDD 接口

薯片的加工流程 :

不同的食材形态 - RDD 概念
同一种食材形态在不同流水线上的具体实物 - partitions
食材按照什么规则被分配到哪条流水线 - partitioner
每一种食材形态都会依赖上一种形态，依赖关系 - dependencies
不同环节的加工方法 - compute

在这里插入图片描述

dependencies/compute ：

在这里插入图片描述

编程模型

高阶函数(Higher-order Functions）：本身是函数，参数是函数、返回值是函数的函数

map、filter、flatMap、reduceByKey 这些算子都是高阶函数，都用在 RDD 上、用来 RDD 之间的转换
RDD 到 RDD 的转换，就是数据形态上的转换（Transformations）

RDD 的编程模型有两种算子：

Transformations 类算子：定描述数据形态的转换过程
Actions 类算子：将计算结果收集起来、物化到磁盘

Spark 运行时的两个计算环节：

基于不同数据形态之间的转换，构建计算流图（DAG，Directed Acyclic Graph）
通过 Actions 类算子，以回溯的方式去触发执行这个计算流图

延迟计算（Lazy Evaluation):

用 Transformations 算子，不会执行计算，只有调用 Actions 算子时，才会执行

运行流程 :

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/384387.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

GC简介和监控调优

GC简介和监控调优

GC简介： GC(Garbage Collection)是java中的垃圾回收机制，是Java与C/C的主要区别之一，在使用JAVA的时候，一般不需要专门编写内存回收和垃圾清理代码。这是因为在Java虚拟机中，存在自动内存管理和垃圾清扫机制。什么…

阅读更多...

ThreadLoca基本使用以及与synchronized的区别

ThreadLoca基本使用以及与synchronized的区别

文章目录1. ThreadLocal介绍1.1 官方介绍1.2 基本使用1.2.1 常用方法1.2.2 使用案例1.3 ThreadLocal类与synchronized关键字1.3.1 synchronized同步方式1.3.2 ThreadLocal与synchronized的区别2. 运用场景_事务案例2.1 转账案例2.1.1 场景构建2.1.2 引入事务2.2 常规解决方案2.…

阅读更多...

k8s servelList(服务列表) 卡死不同步问题分析

k8s servelList(服务列表) 卡死不同步问题分析

提要容器集群版本情况：k8s 1.20客户端k8s client版本： 0.21事情是这样的，运行了一年的服务，突然有一天业务反馈服务使用异常，然后初步调查结果如下以下截图是网关异常以下截图是客户端zull（feign&#xff0…

阅读更多...

依赖倒置DIP在系统架构中的应用

依赖倒置DIP在系统架构中的应用

最近在对项目中的某一模块进行重构和功能的拓展。一直没想到好方法。简单理解为： R项目调用了 E项目的打印接口，但是E项目需要对R传来对数据传输对象DTO进行二次处理，甚至夹杂很多R项目的业务逻辑（去调用R项目的接口&#xff0…

阅读更多...

代码规范书写说明

代码规范书写说明

目录一，命名风格二、常量定义三、代码格式一，命名风格 （1）、不能够以下划线或者美元符号开始，也不能以下划线或者美元符号结束反例：_name / __name / $name / name_ （2）、所…

阅读更多...

春招进行时：“211文科硕士吐槽工资5500” HR：行情和能力决定价值

春招进行时：“211文科硕士吐槽工资5500” HR：行情和能力决定价值

学历重要，还是能力重要？ 春招进行时，不少学生求职遇冷，会把原因归结为学历水平不够高、毕业院校不够档次、专业不够热门、非一线城市就业机会少等等。直到上海一位211大学的文科男硕士，吐槽招聘会提供的岗位薪资待遇…

阅读更多...

10个实用技巧：如何让你的外贸独立站排名直线上升

10个实用技巧：如何让你的外贸独立站排名直线上升

在当今竞争激烈的互联网市场中，谷歌SEO已经成为了外贸独立站排名提升的必修课程。为了使得自己的网站能够在谷歌上排名更高，网站优化的工作显得尤为重要。在这篇文章中，我们将分享10个实用技巧，帮助你的外贸独立站排名直线上升。…

阅读更多...

【软件测试】接口测试总结

【软件测试】接口测试总结

本文主要分为两个部分： 第一部分：主要从问题出发，引入接口测试的相关内容并与前端测试进行简单对比，总结两者之前的区别与联系。但该部分只交代了怎么做和如何做？并没有解释为什么要做？ 第二部分&#xff1…

阅读更多...

java虚拟机栈解读

java虚拟机栈解读

虚拟机栈出现的背景由于跨平台性的设计，Java的指令都是根据栈来设计的。不同平台CPU架构不同，所以不能设计为基于寄存器的。优点是跨平台，指令集小，编译器容易实现，缺点是性能下降，实现同样的功能需要更…

阅读更多...

【微信小程序-原生开发】实用教程11 - 用户登录鉴权（含云函数的创建、删除、使用，通过云函数获取用户的openid）

【微信小程序-原生开发】实用教程11 - 用户登录鉴权（含云函数的创建、删除、使用，通过云函数获取用户的openid）

此篇可在实用教程10（见下方链接）的基础上继续开发，也可以在任何微信小程序中直接使用。 https://blog.csdn.net/weixin_41192489/article/details/128835069 用户登录鉴权逻辑核心技术：通过云函数获取用户的openid 要想使用云函数…

阅读更多...

网络层IP协议与数据链路层以太网协议

网络层IP协议与数据链路层以太网协议

文章目录一、IP协议IP地址地址管理路由选择DNS二、以太网协议以太网帧MTU一、IP协议 IP协议是我们网络层的代表协议，今天我们就来一起学习一下吧，我们这里介绍的主要是IPv4协议。版本：指定IP协议的版本，版本的取值只有4&#x…

阅读更多...

如何使用ExchangeFinder在给定域中寻找Microsoft Exchange实例

如何使用ExchangeFinder在给定域中寻找Microsoft Exchange实例

关于ExchangeFinder ExchangeFinder是一款功能强大且使用简单的开源工具，该工具能够在给定域中尝试搜索指定的Microsoft Exchange实例，该工具的搜索机制基于Microsoft Exchange的常见DNS名称实现，并且能够识别指定的Microsoft Exchange版本&…

阅读更多...

java基础之异常总结(自问自答版本）

java基础之异常总结(自问自答版本）

1.errors和exception的区别是什么？ 二者都是JAVA异常处理的重要子类，各自都包含大量子类区别: exception:程序本身可以处理的异常，可以通过catch来进行捕获，遇到这种错误，应对其进行处理，使应用程序可以继…

阅读更多...

大数据技术之Canal入门篇

大数据技术之Canal入门篇

大数据技术之Canal入门篇文章目录大数据技术之Canal入门篇写在前面第 1 章 Canal 入门1.1 什么是 Canal1.2 MySQL 的Binlog1.2.1 什么是 Binlog1.2.2 Binlog 的分类1.3 Canal 的工作原理1.3.1 MySQL 主从复制过程1.3.2 Canal 的工作原理1.4 使用场景第 2 章 MySQL 的准备2.1 创…

阅读更多...

作为产品经理，你都是怎样思考问题的？

作为产品经理，你都是怎样思考问题的？

作为产品经理，我们既不是产品的业务员更不是原型画师，而是伟大的创造者。用户对一个产品的评价可能只有好与坏，而作为产品工作者的我们必须有自己思考产品的视角，透过表现洞察本质。笔者根据自己有限的用户研究与产品设计的工作经…

阅读更多...

leetcode_回溯算法

leetcode_回溯算法

回溯算法刷题总结回溯法理论基础回溯算法的模板组合问题77.组合优化版本216.组合总和III17.电话号码的字母组合组合总和组合总和II分割131.分割回文串93.复原IP地址子集78.子集90.子集II491.递增子序列（和子集问题很像）排列全排列全排列II其他问题332.重…

阅读更多...

RK3568平台开发系列讲解（Linux系统篇）伪文件系统目录详细介绍

RK3568平台开发系列讲解（Linux系统篇）伪文件系统目录详细介绍

🚀返回专栏总目录文章目录一、procfs文件系统二、sysfs文件系统沉淀、分享、成长，让自己和他人都能有所收获！😄 📢除了专门用于存储设备记录文件的文件系统外，Linux 内核还提供了procfs、sysfs 等伪文件系统。伪文件系统存在于内存中，通常不占用硬盘空间，它以文…

阅读更多...

QML 键盘事件

QML 键盘事件

作者：一去、二三里个人微信号： iwaleon 微信公众号：高效程序员和鼠标一样，键盘同样也提供了用户交互的能力，所以在介绍完《QML 鼠标事件》之后，是时候深入键盘事件了。在 QML 中，有一个附加属性 - Keys，是专供可视元素进行按键处理的。当用户按下或释放一个按键时…

阅读更多...

DDD：统一语言

DDD：统一语言

目录一、统一语言的作用阐述二、统一语言与领域分析2.1、统一的领域术语2.2、统一的领域行为描述三、统一语言落地执行一、统一语言的作用阐述【统一语言】，怎么强调都不为过！！ 日常沟通中，时常会出现这么一幕：A同学…

阅读更多...

第四章 reactive对象的简单实现以及reactive的依赖收集和触发依赖

第四章 reactive对象的简单实现以及reactive的依赖收集和触发依赖

reactive对象的简单实现主要通过reactive.spec.ts这个测试案例来实现功能 import { reactive } from "../reactive"describe(reactive,()>{it(happy path,()>{const original {foo:1}const observed reactive(original)expect(observed).not.toBe(origina…

阅读更多...

推荐文章

最新文章