4.RDD编程指南

news2025/1/20 1:04:28

概述

spark 提供的重要的抽象是一个 弹性分布式数据集(RDD) ,能被并行操作的,在集群上分区的集合元素。RDDs 可以通过 hadoop 文件(或共它的 hadoop 支持的文件系统),或者编程中的 scala 集合,转换它创建 RDD。用户还可以要求 sparkRDD 保存在内存中,以便在并行操作中高效的重用;最后 RDDs 会自动的从节点故障中恢复。
第二个抽象是spark中的共享变量,默认的,当 spark 在不同节点上作为一组并行运行一个函数时,它会将函数中使用的每个变量的副本发送给每个任务,有的时候,变量需要在任务之间共享,或者taskdriver 之间共享,spark 支持两种类型的共享变量:广播变量和累加器,前者可以被用于所有节点(缓存在对应节点的内存中),后者仅添加到其中的变量,如计数器的总和
此篇只使用 scala 语言,其它语言请参考spark官网,如果对于如何使用 scalal 编程,请移步 使用spark开发第一个程序WordCount程序及多方式运行代码

弹性分布式数据集(RDDS)

spark 围绕着弹性分布式数据集(RDD) 的概念展开,RDD 是一个可以并行操作的容错元素集合。两种方法创建 RDD :并行化程序中现有集合,或引用外部存储系统中的数据集,如共享文件系统,HDFSHBASE

并行集合

并行化集合是通过程序(scala-seq)中的现有集合,调用 SparkContext’s 并行化方法来创建的。集合的元素被复制形成可以并行操作的分布式数据集。例如,以下如何创建一个包含数字15的并行集合
注意: 是在 spark-shell 下进行代码验证,详细请参考 使用spark开发第一个程序WordCount程序及多方式运行代码

val data = Array(1, 2, 3, 4, 5)
val distData = sc.parallelize(data)

代码执行如下
在这里插入图片描述
一旦创建,分布式数据集(distData)就可以并行操作。例如,可以调用distData.reduce((a,b)=>a+b)来将数组的元素相加。稍后将描述分布式数据集上的操作。
还有一个重要的参数,就是可以设置并行度,通常,spark会尝试根据集群自动设置分区数量,也可以手动设置,例如: sc.parallelize(data,10)

外部数据集

Spark可以从Hadoop支持的任何存储源创建分布式数据集,包括您的本地文件系统、HDFSCassandraHBaseAmazon S3
详细请移步 spark开发第一个程序WordCount程序

RDD操作

RDD 支持两种类型的操作:

  • transformations(转换),从现有数据集创建新的数据集;例如:map 是一种转换,它将每个数据集元素传递给一个函数,并返回新的RDD
  • actions 在数据集上运行计算后,向 driver 返回值,reduce 是一种使用某种函数聚合RDD 的所有元素并将结果返回给 driver 的操作(尽管也有一个并行的reduceByKey返回分布式数据集)

spark 中所有的 transformations 都是惰性的,因为它们不会立即计算结果,相反的,它们只是记录 transformations 的数据集,只有 actions 才会触发 transformations ,这种设计使 spark 能够更高效的运行。
默认情况下,每次对 RDDtransformations 操作,都可能需要重新计算它,可以采取在内存中持久化 RDD,这样,方便下次直接使用,还支持将 RDD 保持在磁盘上,或跨多个节点复制。

val path = "hdfs:///tmp/hello.txt"
sc.textFile(path).flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _).foreach(println _)

在这里插入图片描述

spark的函数式编程

Spark’s API 很大程度上依赖于函数式编程,推荐以下两种方法:

  • 匿名函数,简洁,行云流水
  • 静态方法
object MyFunctions {
  def func1(s: String): String = { s + "_X" }
}
val data = Array("1", "2", "3")
val distData = sc.parallelize(data)
distData.map(MyFunctions.func1).foreach(println(_))

在这里插入图片描述

了解闭包

有一个难点是善于spark 是要理解变量作用域和生命周期,当在集群上执行方法时,这个和 js 的闭包,是不同的,因为方法执行是在多个节点上执行的,不在一个 jvm 里,可以使用 Accumulator 解决,会在后结的共享变量中进行详细说明。

Shuffle 操作

Spark中的某些操作会触发一个称为shuffle的事件。shuffleSpark的一种机制,用于重新分发数据,以便在分区之间以不同的方式进行分组。这通常涉及到在执行器和机器之间复制数据,使洗牌成为一项复杂而昂贵的操作。

WordCount(单词统计) ,其实有一步就包含了 Shuffle 操作,要统计某个单词出现的次,那就要聚合这个单词 key ,key 可能在不同的机器上。

可能导致混洗的操作包括重分区操作(如重分区和合并)、“ByKey操作”(如groupByKey和reduceByKey)以及联接操作(如cogroup和join)。

结束

RDD 编程指南,至此结束,如有问题,欢迎评论区留言。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1165714.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux】:基础IO

基础IO 一.C语音文件操作1.fopen2.fwrite3.fopen以a方式打开 二.Linux下一切皆文件三.系统调用接口四.文件描述符-fd 共识原理: 1.文件属性内容。 2.文件分为打开文件和未打开文件。 3.打开的文件:进程打开。 4.未打开的文件:在磁盘里存放着。…

在Node.js中,什么是中间件(middleware)?它们的作用是什么?

聚沙成塔每天进步一点点 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 欢迎来到前端入门之旅!感兴趣的可以订阅本专栏哦!这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们量身打造的。无论你是完全的新手还是有一些基础的开发…

企业中台如何进行测试(下篇)

《企业中台如何进行测试》包含了主数据治理测试、统一认证测试、业务集成测试、门户建设测试、数据分析测试等内容。由于篇幅较长,将分为上、下两个篇章与大家分享,在上篇主要从主数据治理和统一认证两个方面对企业中台的测试内容进行介绍,下…

Visual Studio Code 常用快捷键大全

Visual Studio Code 常用快捷键大全 快捷键是编码过程中经常使用,且能够极大提升效率的部分,这里给大家介绍一些VS Code中非常有用的快捷键。 打开和关闭侧边栏 Mac — Command B Windows — Ctrl B Ubuntu — Ctrl B 选择单词 Mac — Command D …

洗衣洗鞋柜洗衣洗鞋小程序

支持:一键投递、上门取衣、自主送店、多种支付方式 TEL: 17638103951(同V) -----------------用户下单-------------- -------------------------多种支付和投递方式------------------------- -----------------商家取鞋--------------

基于冠状病毒群体免疫算法的无人机航迹规划-附代码

基于冠状病毒群体免疫算法的无人机航迹规划 文章目录 基于冠状病毒群体免疫算法的无人机航迹规划1.冠状病毒群体免疫搜索算法2.无人机飞行环境建模3.无人机航迹规划建模4.实验结果4.1地图创建4.2 航迹规划 5.参考文献6.Matlab代码 摘要:本文主要介绍利用冠状病毒群体…

从关键新闻和最新技术看AI行业发展(2023.10.9-10.22第八期) |【WeThinkIn老实人报】

Rocky Ding 公众号:WeThinkIn 写在前面 【WeThinkIn老实人报】旨在整理&挖掘AI行业的关键新闻和最新技术,同时Rocky会对这些关键信息进行解读,力求让读者们能从容跟随AI科技潮流。也欢迎大家提出宝贵的优化建议,一起交流学习&…

测试总结模板

​​​​​​​ ​​​​​​​ ​​​​​​​ xx电力工作计划管理系统 系统测试总结 评审核准单 时间 作者 工作内容 版本 确认人 确认时间 2007/11/6 姜全尧 创建延边电力工作计划管理系统测试总结 1.0 …

二叉树OJ题(用前序和中序遍历构建二叉树,用中序和后续遍历构建二叉树)

文章目录 二叉树OJ题一、用前序和中序遍历构建二叉树1.思路2.代码 二、用中序和后续遍历构建二叉树1.思路2.代码 二叉树OJ题 一、用前序和中序遍历构建二叉树 1.思路 1.根据前序遍历找到根结点root 2.在中序遍历中(inBegin0和inEndelem.length-1范围之间&#xff09…

老外总结的14条Go接口最佳实践

最近几个月,没事喜欢看看老外写的技术文章,发现他们的一些思考维度真的有些不太一样。当然,他们写的文章大多数没有国内的那么卷。 今天这篇文章是关于Go语言中接口设计的一些最佳实践,与Java等语言不尽相似,但又带着…

Linux常用命令——chcon命令

在线Linux命令查询工具 chcon 修改对象(文件)的安全上下文 补充说明 chcon命令是修改对象(文件)的安全上下文,比如:用户、角色、类型、安全级别。也就是将每个文件的安全环境变更至指定环境。使用--ref…

Ubuntu连不上WiFi 或者虽然能连上校园网,但是浏览器打不开登录页面

写在前面 自己的电脑环境: Ubuntu20.04 一、问题描述 自己的 Ubuntu 遇到连接不上 除校园网之外的其他WiFi, 或者 虽然能连上校园网,但是浏览器打不开登录页面的问题。 二、解决方法 出现这种问题的原因可能是 之前开过VPN, 导致系统的网络设置出现…

上海亚商投顾:创业板指高开低走 传媒、游戏板块逆势大涨

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 一.市场情绪 三大指数昨日震荡调整,创业板指尾盘跌超1%。传媒、游戏板块逆势大涨,百纳千成、天龙集…

浮动模块布局

基本思路 若宽度和浏览器一样宽,则不需要设置width 一般父盒子使用标准流,然后标准流内使用浮动 一般父盒子需要居中显示,使用 margin: 0 auto; 注意浮动盒子之间的margin值 与 父盒子width、height值之间的相等关系,一定要计算…

APUS成为深圳市人工智能行业协会理事单位,CEO李涛受聘专家

近日,APUS正式成为深圳市人工智能行业协会理事单位,APUS董事长兼CEO李涛同时受聘为协会专家委员会专家。 深圳市人工智能行业协会成立于2017年,由电子通信、大数据、计算机视觉、自然语言处理等AI相关领域企事业单位组成,致力于加…

Goland 对容器中的 Go 程序断点远程调试

1,针对 golang 程序打断点有哪几种情况 临时进程:针对临时运行一次的 Golang 脚本,比如定时统计脚本,定时推送脚本。常驻进程:针对一直在后台运行的 Golang 程序,比如 HTTP 或者 GRPC 服务。 我们现在假设…

【多线程面试题二十一】、 分段锁是怎么实现的?

文章底部有个人公众号:热爱技术的小郑。主要分享开发知识、学习资料、毕业设计指导等。有兴趣的可以关注一下。为何分享? 踩过的坑没必要让别人在再踩,自己复盘也能加深记忆。利己利人、所谓双赢。 面试官: 分段锁是怎么实现的&am…

最新ChatGPT商业运营系统源码+支持GPT4/支持ai绘画+支持Midjourney绘画

一、AI创作系统 SparkAi创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如…

[common c/c++] ring buffer/circular buffer 环形队列/环形缓冲区

前言: ring buffer / circular buffer 又名环形队列 / 环形缓冲区,其通过开辟固定尺寸的内存来实现反复复用同一块内存的目的。由于预先开辟了固定尺寸的内容,所以当数据满的时候,可以有两种处理方式,具体使用哪一种按…

DC系列 DC:3

DC系列 DC:3 文章目录 DC系列 DC:3调试靶机信息收集IP端口信息收集 框架漏洞利用joomscan扫描工具利用msf工具利用(无法使用)kali漏洞库利用sqlmap利用 文件上传提权 调试靶机 点击虚拟机设置选择CD/DVD点击高级将IDE调成画面中这个选项 信息收集 IP端口信息收集 对自己网…