spark02-内存数据分区切分原理

news2025/12/21 10:41:00

代码：

val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("wordcount")
val sc=new SparkContext(conf)
//[1] [2,3] [4,5]
val rdd: RDD[Int] = sc.makeRDD(List(1,2,3,4,5),3)
//将处理的数据保存分区文件
rdd.saveAsTextFile("output2")
sc.stop()

通过sc.makeRDD(List(1,2,3,4,5),3) 得到3个文件分别存储数据为[1] [2,3] [4,5]

点击makeRDD方法

positions(array.length, numSlices) 有两个参数一个是数组的长度，一个是分区的数量

对应代码为positions(5,3)

0 until numSilces 的结果为0 1 2，进行迭代 i的取值分别去 0 1 2

当i=0时，start=0,end=1*5/3=1 返回(0,1）

当i=1是，start=1*5/3=1,end=2*5/3=3 返回（1,3）

当i=2时，start=3 ,end=3*5/3=5 返回（3,5）

得到元祖之后进行操作array.slice(start, end).toSeq

i=0 => (0,1）=> slice(0,1) => 0 索引 => 1

i=1 => (1,3）=> slice(1,3) => 1,2 索引 => 2,3

i=2 => (3,5）=> slice(3,5) => 3,4 索引 => 4,5

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/341891.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

【PTA Advanced】1152 Google Recruitment（C++）

目录题目 Input Specification: Output Specification: Sample Input 1: Sample Output 1: Sample Input 2: Sample Output 2: 思路代码题目 In July 2004, Google posted on a giant billboard along Highway 101 in Silicon Valley (shown in the picture below)…

清除 git 所有历史提交记录，使其为新库

清除 git 所有历史提交记录，使其为新库需求方案需求基于以前的仓库重新开发，这样可保留以前的配置等文件，但是需要删除全部的历史记录、tag、分支等。方案创建新的分支使用 --orphan 选项，可创建1个干净的分支（无…

设置测试用例的具体方法

文章目录一、等价类分区/分块的概念等价类的划分二、边界值三、因果图(判定表)四、场景设计法五、错误猜测法总结一、等价类用户的密码为6~18位,测试的时候使用到的测试数据是什么? 穷举法,6,7,8,9,10…18全部都测试一边,可以但是将范围改成6~1000位,穷举法就不可取了分区/…

从零实现高并发WebRTC服务器(五):ICE协议

文章目录零、ICE具体做些什么一、ICE协议是什么二、ICE Candidate2.1 ICE CANDIDATE TYPE2.2 收集candidate零、ICE具体做些什么收集candidate对不同type的所有candidate pair进行排序，比如优先使用同一内网的host candidate连通性检查一、ICE协议是什么 ICE,i…

线性杂双功能PEG试剂OPSS-PEG-Acid，OPSS-PEG-COOH，巯基吡啶聚乙二醇羧基

英文名称：OPSS-PEG-COOH，OPSS-PEG-Acid 中文名称：巯基吡啶-聚乙二醇-羧基 OPSS-PEG-COOH是一种具有OPSS和羧基的线性杂双功能PEG试剂。它是一种有用的带有PEG间隔基的交联剂。OPSS代表正吡啶基二硫化物或邻吡啶基二硫代，与硫醇、…

Java 修饰符和运算符，超详细整理，适合新手入门

目录一、访问控制修饰符 1、访问权限二、运算符 1、算术运算符 2、关系运算符 3、逻辑运算符 4、赋值运算符 5、三元运算符一、访问控制修饰符 Java 支持 4 种不同的访问权限： private 私有的 protected 受保护的 public 公共的 default 默认 1、…

程序员必备小众又实用的网站，你知道几个？

程序员是世人眼中的高薪职业，虽然亚历山大，但是年收入非常可观。职场上的程序员有很多所谓的标签， 比如：秃头，找不到女朋友，和产品经理的斗智斗勇等等.... 可以说，一个程序员的必备素养就是…

【C++11智能指针】unique_ptr

【C11智能指针】unique_ptr 概述一个 unique_ptr “拥有”它所指向的对象。与 shared_ptr 不同，某个时刻只能有一个 unique_ptr 指向一个给定对象。当 unique_ptr 被销毁时，它所指向的对象也被销毁。初始化直接初始化 unique_ptr<int> p…

AcWing 166. 数独（DFS + 剪枝优化 + lowbit函数 + 状态压缩）

AcWing 166. 数独（DFS 剪枝优化 lowbit函数状态压缩）一、题目二、分析1、状态压缩2、lowbit函数（1）函数作用（2）函数实现3、DFS思路4、剪枝优化三、代码一、题目二、分析 1、状态压缩那么如果针对某一…

情人节专场即将到来，各大平台各显神通

一年一度的情人节即将到来，情人节除了有情侣、恋人之间表达爱意或者追求浪漫之外，也有很多人想要购买一些特殊的礼物送给自己的爱人或者亲人。对于跨境电商而言，这个时段往往能更好的将品牌与社交媒体上的目标客户建立起联系，同时…

【青训营】分布式定时任务简述

这是我参与「第五届青训营」伴学笔记创作活动的第 13 天分布式定时任务简述定义定时任务是指系统为了自动完成特定任务，实时、延时、周期性完成任务调度的过程。分布式定时任务是把分散的、可靠性差的定时任务纳入统一平台，并且实现集群管理调度和…

OpenCV-PyQT项目实战（6）项目案例02滚动条应用

欢迎关注『OpenCV-PyQT项目实战 Youcans』系列，持续更新中 OpenCV-PyQT项目实战（1）安装与环境配置 OpenCV-PyQT项目实战（2）QtDesigner 和 PyUIC 快速入门 OpenCV-PyQT项目实战（3）信号与槽机制 …

JumpServer开源堡垒机v3.0版本设计重点解读

编者注：在1月17日的JumpServer开源堡垒机v3.0预发布恳谈会直播中，JumpServer创始人广宏伟与大家分享了JumpServer v3.0版本的设计思路与功能亮点。在v3.0版本正式发布之前，JumpServer开源项目组基于此次直播内容为大家整理总结了JumpServer v…

C++11可变模板参数

C11可变模板参数一、简介二、语法三、可变模版参数函数3.1、递归函数方式展开参数包3.2、逗号表达式展开参数包一、简介 C11的新特性–可变模版参数（variadic templates）是C11新增的最强大的特性之一，它对参数进行了高度泛化，它能…

STM32单片机红外遥控

红外遥控接口电路STM32单片机红外遥控程序源代码#include "sys.h"#define LED_RED PBout(12) //红色发光二极管控制管脚初始化PB12#define LED_GREEN PBout(13) //绿色发光二极管控制管脚初始化PB13#define LED_YELLOW PBout(14) //黄色发光二极管控制管脚初始化PB14…

反射，枚举，lambda表达式

目录 1、反射 1.1 基本概念 1.2 反射相关的类 1.3 创建 Class 对象 1.4 反射的使用 1.4.1 通过反射创建对象： 1.4.2 获取私有的构造方法 1.4.3 获取私有的成员变量 1.4.4 获取私有的方法 1.5 总结 2、枚举 2.1 认识枚举 2.2 使用枚举 2.3 枚举与反射…

第4章流程控制-if-else,Switch,For循环（循环守卫，循环步长，倒叙打印），While循环，多重循环...

第 4 章流程控制-if-else,Switch,For循环(循环守卫，循环步长，倒叙打印)，While循环，多重循环 4.1 分支控制 if-else 让程序有选择的的执行，分支控制有三种：单分支、双分支、多分支 4.1.1 单分支 1)基本语法…

Leetcode-每日一题1234. 替换子串得到平衡字符串（滑动窗口 + 哈希表）

题目链接：https://leetcode.cn/problems/replace-the-substring-for-balanced-string/description/ 思路题目意思这题意思是一个只含有[Q, W, E, R] 四个字符的字符串s且长度一定是 4的倍数， 需要你通过替换子串，使他变成一个「平衡字符…

【C++设计模式】学习笔记（6）：Bridge 桥模式

目录简介动机（Motivation）模式定义结构（Structure）要点总结笔记结语简介 Hello！非常感谢您阅读海轰的文章，倘若文中有错误的地方，欢迎您指出～ ଘ(੭ˊᵕˋ)੭ 昵称：海轰标签：程序猿｜C++选手｜学生简介：因C语言结识编程，随后转入计算机专业，获得过国家奖学金…

【C++设计模式】学习笔记（2）：模式分类与模版方法 Template Method

目录简介模式分类GOF-23 模式分类从封装变化角度对模式分类重构获得模式 Refactoring to Patterns重构关键技法“组件协作”模式Template Method 模式动机（Motivation）结构化软件设计流程面向对象软件设计流程早绑定与晚绑定模式的定义结构（Structure）要点总结结语简介 He…

spark02-内存数据分区切分原理

相关文章