spark:数据的关联与合并、缓存和checkpoint

news2025/1/22 18:06:48

文章目录

  • 1. 数据的关联与合并
    • 1.1 join关联
      • 1.1.1 内关联
      • 1.1.2 左关联
      • 1.1.3 右关联
    • 1.2 Union合并
  • 2. 缓存和checkpoint

1. 数据的关联与合并

1.1 join关联

students表数据:
在这里插入图片描述

1.1.1 内关联

内关联只返回两个 DataFrame 中在连接键上匹配的行。

# join 关联
from pyspark.sql import SparkSession

ss = SparkSession.builder.getOrCreate()

#读取文件数据转为df
df1 = ss.read.csv('hdfs://node1/data/students.csv',header=True,sep=',')
df2 = ss.read.csv('hdfs://node1/data/students2.csv',header=True,sep=',')

#join 关联
df_join = df1.join(df2,'id') #默认时内关联
df_join.show()

运行结果:
在这里插入图片描述

1.1.2 左关联

左关联以左 DataFrame 为基础,返回左 DataFrame 的所有行以及在右 DataFrame 中与左 DataFrame 连接键匹配的行。如果右 DataFrame 中没有匹配的行,则相应的列将填充为 null

# join 关联
from pyspark.sql import SparkSession

ss = SparkSession.builder.getOrCreate()

#读取文件数据转为df
df1 = ss.read.csv('hdfs://node1/data/students.csv',header=True,sep=',')
df2 = ss.read.csv('hdfs://node1/data/students2.csv',header=True,sep=',')
#左关联
df_left_join = df1.join(df2,'id','left')
df_left_join.show()

运行结果:
在这里插入图片描述

1.1.3 右关联

右关联以右 DataFrame 为基础,返回右 DataFrame 的所有行以及在左 DataFrame 中与右 DataFrame 连接键匹配的行。如果左 DataFrame 中没有匹配的行,则相应的列将填充为 null

# join 关联
from pyspark.sql import SparkSession

ss = SparkSession.builder.getOrCreate()

#读取文件数据转为df
df1 = ss.read.csv('hdfs://node1/data/students.csv',header=True,sep=',')
df2 = ss.read.csv('hdfs://node1/data/students2.csv',header=True,sep=',')

#右关联
df_right_join = df1.join(df2,'id','right')
df_right_join.show()

运行结果
在这里插入图片描述

1.2 Union合并

在 Spark 中,union用于合并两个或多个相同数据结构的数据集(DataFrame 或 Dataset)。

# union合并  上下行合并要保证字段数量和类型一致
from pyspark.sql import SparkSession

ss = SparkSession.builder.getOrCreate()

# 读取文件数据转为df
df1 = ss.read.csv('hdfs://node1:8020/data/students.csv',header=True,sep=',')
df2 = ss.read.csv('hdfs://node1:8020/data/students2.csv',header=True,sep=',')

# 合并
df_union = df1.union(df2)
df_union.show(100)

df_unionAll = df1.unionAll(df2)  # 和union效果一样
df_unionAll.show(100)

# 合并后去重
df_distinct =  df_union.distinct()
df_distinct.show(100)

注意:union合并时,上下行合并要保证字段数量和类型一致。

2. 缓存和checkpoint

# 缓存和checkpoint
from pyspark.sql import SparkSession

ss = SparkSession.builder.getOrCreate()

# 指定checkpoint位置
sc = ss.sparkContext
sc.setCheckpointDir('hdfs://node1:8020/df_checpoint')

# 读取文件数据转为df
df1 = ss.read.csv('hdfs://node1:8020/data/students.csv',header=True,sep=',')

# df1数据缓存
df1.persist()

# df1数据checkpoint
df1.checkpoint()

# df中的缓存和checkpoint不需要触发执行,内部会自动触发

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2217748.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Microsoft Visual Studio当程序中用了try catch ,如何定位到出错的地方。

在Microsoft Visual Studio中,当用了try catch的时候,程序报错一般会抛出异常到前端,无法捕捉到源代码的地方。这时候只要设置调试就行。

java基本语法(二)

continue,break,return有什么区别 在循环结构中,当循环条件不满足或者循环次数达到要求时,循环会正常结束。但是,有时候可能需要在循环的过程中,当发生了某种条件之后 ,提前终止循环&#xff0…

安科瑞/ACREL能源管理软件能耗管理软件

综合智慧能源管理系统的参与方很多,包括电网、能源服务商、大中小微用能企业甚至个人等,这是一个需要多方参与的系统,系统要有很好的兼容性和易用性。首先,系统的设计需要支持多种工业接口的应用,如第三方系统接口、智能感知设备接口以及用能…

【从零开始的LeetCode-算法】3195. 包含所有 1 的最小矩形面积 I

给你一个二维 二进制 数组 grid。请你找出一个边在水平方向和竖直方向上、面积 最小 的矩形,并且满足 grid 中所有的 1 都在矩形的内部。 返回这个矩形可能的 最小 面积。 示例 1: 输入: grid [[0,1,0],[1,0,1]] 输出: 6 解释&…

Xshell使用密钥远程登录Ubuntu 22.04报错:所选的用户密钥未在远程主机上注册。请再试一次

报错截图如下: 问题原因: Ubuntu 22.04 不支持 Xshell使用的私钥。 查看系统支持的私钥:sudo sshd -T | egrep "pubkey" ~$ sudo sshd -T | egrep "pubkey" pubkeyauthentication yes pubkeyacceptedalgorithms ssh-ed…

一字线激光模组在道路检测方面的应用

在现代道路检测领域,一字线激光模组作为一项先进的检测技术,正发挥着越来越重要的作用。这一技术以其独特的优势,为道路检测提供了更为精准、高效的解决方案。接下来我们就一起了解一下关于一字线激光模组在道路检测方面的应用。 一字线激光模…

号码品牌认证是什么?为什么我的号码总被错误标记?

电话营销,听起来十分简单,但想要让客户接听并听完您的介绍,可没那么容易。今天,我就来分享几个让客户“不拒绝”的小技巧。 首先,您可以选择使用号码品牌认证服务,在您拨打电话时,它就像给您的电…

Zico 2 靶机 - 详细流程

✨ 准备工作 靶机 && kali 环境要求 机器名网络配置靶机Zico 2NAT 模式攻击机kaliNAT 模式 靶机下载链接:zico2: 1 ~ VulnHub 打开 VMware,将 zico2.ova 拖拽到 VMware 中 设置 虚拟机名称(A) - 存储路径(P)- 导入 若是,…

FreeRTOS - 单片机程序设计模式

在学习FreeRTOS过程中,结合韦东山-FreeRTOS手册和视频、野火-FreeRTOS内核实现与应用开发、及网上查找的其他资源,整理了该篇文章。如有内容理解不正确之处,欢迎大家指出,共同进步。 单片机程序设计模式(第2章&#xf…

10月17日

输入一个数组,循环输出数组的元素,以及各个元素的长度 arr("apple" "banana" "date")# 初始化索引 index0# 获取数组长度 arr_len${#arr[]}# 使用 while 循环遍历数组 while [ $index -lt $arr_len ]; doelement${arr[$in…

“人工智能+中职”:VR虚拟仿真实训室的发展前景

随着人工智能技术的飞速发展,中职教育也迎来了新的发展机遇。特别是虚拟现实(VR)技术在中职教育领域的应用,结合人工智能的加持,为中职教育提供了全新的教学模式和实训体验。其中,VR虚拟仿真实训室的发展前…

不使用U盘重装windows系统

优点:可以不使用U盘,重装速度快,可以保留系统的激活状态! 然后自己设置就可以重装系统了~~~

【重学 MySQL】七十、揭秘数据库对象,打造高效数据管理之旅

【重学 MySQL】七十、揭秘数据库对象,打造高效数据管理之旅 数据库(Database)数据表(Table)视图(View)存储过程(Stored Procedure)触发器(Trigger&#xff09…

初识git · 有关模型

目录 前言: 有关开发模型 前言: 其实文章更新到这里的时候,我们已经学习了可以满足我们日常生活中的基本需求的指令了,但是为什么要更新本篇文章呢?是因为实际生活中我们对于开发工作,运维工作&#xff…

每日OJ题_牛客_非对称之美_最长非回文字符串_C++_Java

目录 牛客_非对称之美_最长非回文字符串 题目解析 C代码 Java代码 牛客_非对称之美_最长非回文字符串 非对称之美 (nowcoder.com) 题目解析 找到规律就是最长非回文字符串(判断是否全同->0,否则是n-1(回文减去1)或n&…

架构设计笔记-17-通信系统架构设计理论及实践

目录 知识要点 案例分析 1.数据中心架构的技术 论文 1.论网络安全体系设计 知识要点 开放系统的存储方式主要有: 1. 直连式存储(Direct-Attached Storage,DAS):在服务器上外挂一组大容量硬盘,存储设…

Maven--简略

简介 Apache旗下的一款开源项目,用来进行项目构建,帮助开发者管理项目中的jar及jar包之间的依赖,还拥有项目编译、测试、打包的功能。 管理方式 统一建立一个jar仓库,把jar上传至统一的仓库,使用时,配置…

生产工单系统的功能是什么?有哪些应用实践?

前段时间我们公司忙得不可开交:订单像雪花一样飞来,可生产现场却一片混乱。客户催单的电话不断,大家都急得像热锅上的蚂蚁。我也整天为了协调各个环节而焦头烂额。有一天路过生产车间,看到大家手忙脚乱地找单子、问进度&#xff0…

“vue : 无法加载文件 D:\nodejs\node_global\vue.ps1,因为在此系统上禁止运行脚本”的解决方法

用VS Code来直接创建vue项目时,出现了以下错误,导致创建失败: 于是按照错误提示去查看了下出错原因:是因为PowerShell的执行政策阻止了该操作。用 Get-ExecutionPolicy 查看发现执行策略为受限状态: 解决方法如下&am…

PDF编辑功能是灰色的,什么原因?

PDF文件打开之后,发现编辑功能都是灰色的,无法使用,无法编辑PDF文件,遇到这种情况,因为PDF文件设置了限制编辑导致的。一般情况下,我们只需要输入PDF密码,将限制编辑取消就可以正常编辑文件了&a…