RDD——Action算子

news2025/2/24 16:16:21

常用Action算子

  • countByKey
  • collect
  • reduce
  • fold
  • first
  • take
  • top
  • count
  • takeSample
  • takeOrdered
  • foreach
  • saveAsTextFile
  1. countByKey()

返回值是一个 字典类型

## 读取文本文件
rdd1 = sc.textFile(f"file:///{ROOT}/data/input/words.txt")
rdd2 = rdd1.flatMap(lambda x:x.split(" ")).map(lambda x:(x,1))

print(rdd2.collect())
# [('hello', 1), ('spark', 1), ('hello', 1), ('hadoop', 1), ('hello', 1), ('flink', 1)]

res = rdd2.countByKey()
print(res)
# defaultdict(<class 'int'>, {'hello': 3, 'spark': 1, 'hadoop': 1, 'flink': 1})

print(type(res))
# <class 'collections.defaultdict'>
  1. collect()

将RDD各分区数据统一收集到Driver 形成一个List对象

确定数据量不是太大 不然会把Driver 内存撑爆

  1. reduce()

将RDD数据集 进行聚合,返回值就是传入的数据同类型

注意reduceByKey 返回值是RDD

rdd = sc.parallelize([1, 2, 3, 4, 5])
res = rdd.reduce(lambda a,b:a+b)
res
# 15
  1. fold

在这里插入图片描述

初始值 在分区内 和 分区间 都会作用

一般不使用

  1. first()

RDD的第一个元素

  1. take(N)

取RDD的前N个元素 组合成List 返回

  1. top(N)

对RDD数据进行降序排序 ,取得前N个 组合成List

  1. count()

计算RDD有多少条数据,返回值是一个数字

  1. takeSample(参数1:True or False,参数2:采样数,参数3:随机种子)

    参数1: True 表示可以重复取同一个数据

随机抽样RDD数据 返回List

  1. takeOrdered(N,参数2)

    升序排列

    参数2 可以对排序数据进行改变 不改变本身

对RDD进行排序 取前N个

rdd = sc.parallelize([1, 3, 2, 4, 7, 9, 6], 1)

print(rdd.takeOrdered(3))
# [1,2,3]
print(rdd.takeOrdered(3, lambda x: -x))
# [9,7,6]
  1. foreach(func)

对RDD每一个元素 执行提供的逻辑操作(同map)也不改变传入的RDD 但是没有返回值

rdd = sc.parallelize([1, 2, 3, 4, 5])
rdd2 = rdd.foreach(lambda x:print(x*10) )
# print(rdd.collect())
print(rdd2)

20
10
30
40
50
None
  1. saveasTextFile()
rdd = sc.parallelize([1, 3, 2, 4, 7, 9, 6], 1)# 分区可以控制生成的文件数
# rdd.saveAsTextFile("../data/output/out1")  保存写相对路径也不行 还是要绝对路径
# 本地
rdd.saveAsTextFile(f"file:///{ROOT}/data/output/out1")
# hdfs
rdd.saveTextFile("hdfs://hadoop102:8080/路径")

在这里插入图片描述

foreach; saveAsTextFile 都是由分区(Excutor)直接执行的,跳过Driver

其余的 Action 算子都会将结果发送至Driver

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/40657.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【数字信号去噪】小波软阈值+硬阈值+改进阈值数字信号去噪【含Matlab源码 1025期】

⛄一、小波语音降噪简介 对于噪声频谱遍布于语音信号频谱之中的宽带噪声&#xff0c;如果噪声振幅比大部分的语音信号振幅低&#xff0c;则削去低幅度成分也就削去了宽带噪声。基于这种思路&#xff0c;可以在频域中采取中心限幅的方法&#xff0c;即让带噪语音信号通过一限幅…

实战关于登录框的渗透测试

前言 登录框可以说是我们漏洞挖掘中最常见的点&#xff0c;漏洞的种类也是相当的多&#xff0c;相信大家在登录框中发现的漏洞数不胜数。 主要有以下这些漏洞 弱口令 SQL注入 水平越权 垂直越权 逻辑漏洞 短信轰炸 邮箱轰炸 信息泄露SQL注入 看到登录框&#xff0c;输入信…

C++智能指针之weak_ptr

C智能指针之weak_ptr前言weak_ptr总结前言 在C中&#xff0c;动态内存的申请和释放是通过运算符&#xff1a;new 和 delete 进行管理的。其中 new 负责申请内存&#xff0c;delete负责释放内存。 动态内存的使用很容易出现问题&#xff0c;这主要在于你需要保证在正确的时间释放…

【MAX78000基础案例演示】

【MAX78000基础案例演示】1. MAX78000配套软硬件1.1 硬件1.2 软件1.3 demo例程2. ADC2.1 描述2.2 设置2.3 输出3. GPIO3.1 描述3.2 设置3.3 输出4. UART4.1 描述4.2 设置4.3 输出6.小结1. MAX78000配套软硬件 有关使用 SDK 的详细信息&#xff0c;请参阅MAX78000 评估套件入门…

(附源码)计算机毕业设计Java巴音学院学生资料管理系统

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat8.5 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; Springboot mybatis Maven Vue 等等组成&#xff0c;B/…

Android Parcelable反序列化漏洞分析与利用

文章目录前言背景知识Parcelable序列化Bundle的数据结构LaunchAnyWhereCVE-2017-13288漏洞利用原理解析POC程序攻击演示CVE-2017-13315漏洞利用原理解析POC程序攻击演示漏洞Demo思考漏洞利用原理解析POC程序(供参考)总结前言 今年年初曾关注到 heen 大佬在 2018 年中旬写的一篇…

3-6数据链路层-广域网

广域网&#xff08;WAN&#xff0c;Wide Area Network)&#xff0c;通常跨接很大的物理范围&#xff0c;所覆盖的范围从几十公里到几千公里&#xff0c;它能连接多个城市或国家&#xff0c;或横跨几个洲并能提供远距离通信&#xff0c;形成国际性的远程网络。 文章目录一.基本概…

本周总结(11.21-11.27)

周一&#xff1a; ssm项目写了委托 写的过程中边写边学习了一些布局用法。 周二: ssm项目写了查看 这部分内容主要还是在前端上改了很久&#xff0c;首先就是因为三种房源各不相同&#xff0c;每个房源都需要创建一个表&#xff0c;数据也不一致&#xff0c;所以详细房源页面…

ps常用操作

ps常用操作 个人总结&#xff0c;半路出家&#xff0c;仅供个人习惯&#xff0c;仅供个人参考。1.如何将导入的图片放大&#xff1f;&#xff1f;&#xff1f; ctrl 和 加号 2.如何去除阴影或者粗糙的地方&#xff1f; 第一种方式&#xff0c;选择图像&#xff0c;选择填充 …

进军东南亚市场,腾讯云数据库 TDSQL 助力印尼 BNC 银行数字化转型

腾讯云数据库在助力金融核心系统分布式替换上&#xff0c;已经辐射到了东南亚市场。 东南亚最大的银行之一印尼BNC银行&#xff08;Bank Neo Commerce&#xff09;已正式完成新核心分布式迁移&#xff0c;使用腾讯云数据库TDSQL后&#xff0c;系统运行平稳顺畅。这标志着腾讯云…

电机与拖动 - 2 变压器

2 变压器2.1 变压器的用途与种类2.3 变压器基本结构2.4 变压器型号与额定值2.2 变压器工作原理2.5 变压器的等效电路2.6 变压器的参数测定 2 变压器 2.1 变压器的用途与种类 变压器用途&#xff1a;本课程讨论变换交流的电压幅值&#xff0c;不改变频率与电压交直流类型。电厂…

HBase安装部署

首先&#xff0c;启动Zookeeper 集群 启动Hadoop集群 HBase 的解压 更名 配置环境变量 添加 #HBASE_HOME export HBASE_HOME/opt/module/hbase export PATH$PATH:$HBASE_HOME/bin注意路径和你配置的hbase安装路径相同&#xff0c;不要直接抄 source一下 让配置的环境变量…

【Android】App开发-动画效果篇

在我们玩手机的过程中&#xff0c;如果我们点击某一个页面时&#xff0c;会出现一个页面动画加载或者动画效果的现象。现在我们就来看看App开发中是如何实现动画效果的。 目录 动画的分类 逐帧动画&#xff1a; 补间动画&#xff1a; 动画的分类 在常见的app使用的动画中&…

面试:事件拦截相关问题

Q1&#xff1a;分发的事件被view消耗了&#xff0c;后续事件是如何快速找到这个view的&#xff1f; ViewGroup不拦截事件又是如何将事件分发给子View&#xff1f; 带着问题重学Android事件分发 - 掘金 我们之前经常背的八股文&#xff1a; 当你手指触摸到屏幕这时候ViewGro…

BUUCTF Misc 隐藏的钥匙 另外一个世界 FLAG 神秘龙卷风

隐藏的钥匙 下载文件 使用010 editor工具查看 查找flag 将内容复制到base64在线 得到flag flag{377cbadda1eca2f2f73d36277781f00a} 另外一个世界 下载文件 使用010 eitor查看 看到了一串二进制&#xff0c;进行二进制转换字符串 得到flag flag{ko…

XCTF1-web unseping

unseping 题目描述 进入场景 源代码分析&#xff0c;反序列化场景 <?php highlight_file(__FILE__);class ease{private $method;private $args;function __construct($method, $args) {$this->method $method;$this->args $args;}function __destruct(){if (in_…

FPGA 20个例程篇:18.SD卡存放音频WAV播放(上)

第七章 实战项目提升&#xff0c;完善简历 18.SD卡存放音频WAV播放&#xff08;上&#xff09; 在最后一章里&#xff0c;我们来做几个实战项目&#xff0c;一方面是对前面学习知识的一种回顾&#xff0c;另一方面这几个小项目也非常贴近实际工程&#xff0c;其中例程“SD卡存…

CENTOS安装 graylog4.39

我们直接开始 基础环境和java sudo yum install epel-release 并安装带有 sudo yum install pwgenyum install java-1.8.0-openjdk-headless.x86_64 MONGODB 安装数据库 vi /etc/yum.repos.d/mongodb-org.repo[mongodb-org-4.2] nameMongoDB Repository baseurlhttps://rep…

【STL】map容器

map 作为关联式容器的一种&#xff0c;map容器存储的都是pair对象&#xff0c;也就是用pair类模板创建的键值对。其中&#xff0c;各个键值对的键和值可以是任意数据类型&#xff0c;包括C基本数据类型、使用结构体或类自定义的类型。 默认情况下&#xff0c;map容器选用std:…

vmware虚拟机centos7扩容

vmware先进行磁盘扩展 从原来的20G扩展到100G: 扩展磁盘时可能会遇到需要修复磁盘的情况: // 进入vmware安装目录cd D:\开发工具\VMWare\ // 修复, 其中.vmdk文件为虚拟机磁盘文件vmware-vdiskmanager -R "F:\VM_Centos\CentOS 7 64 位.vmdk" 扩展成功&#xff1…