Spark SQL 数据的加载和保存

news2025/1/15 12:51:06

目录

 

通用的加载和保存方式

1.1 加载数据

 1.2保存数据

1.3 Parquet

1. 加载数据

2.保存数据

1.4 JSON

1.导入隐式转换

2.加载 JSON 文件

3.创建临时表

4.数据查询

1.5 CSV


 

通用的加载和保存方式

SparkSQL 提供了通用的保存数据和数据加载的方式。这里的通用指的是使用相同的
API,根据不同的参数读取和保存不同格式的数据,SparkSQL 默认读取和保存的文件格式
为 parquet


1.1 加载数据


spark.read.load 是加载数据的通用方法

如果读取不同格式的数据,可以对不同的数据格式进行设定

scala> spark.read.format("…")[.option("…")].load("…")

  • format("…"):指定加载的数据类型,包括"csv"、"jdbc"、"json"、"orc"、"parquet"和"textFile"。
  • load("…"):在"csv"、"jdbc"、"json"、"orc"、"parquet"和"textFile"格式下需要传入加载数据的路径。
  • option("…"):在"jdbc"格式下需要传入 JDBC 相应参数,url、user、password 和 dbtable
  • 我们前面都是使用 read API 先把文件加载到 DataFrame 然后再查询,其实,我们也可以直接在文件上进行查询: 文件格式.`文件路径`

 
1.2保存数据


df.write.save 是保存数据的通用方法

scala>df.write.
csv jdbc json orc parquet textFile… …


如果保存不同格式的数据,可以对不同的数据格式进行设定


format("…"):指定保存的数据类型,包括"csv"、"jdbc"、"json"、"orc"、"parquet"和
"textFile"。
save ("…"):在"csv"、"orc"、"parquet"和"textFile"格式下需要传入保存数据的路径。
option("…"):在"jdbc"格式下需要传入 JDBC 相应参数,url、user、password 和 dbtable
保存操作可以使用 SaveMode, 用来指明如何处理数据,使用 mode()方法来设置。
有一点很重要: 这些 SaveMode 都是没有加锁的, 也不是原子操作。

 
SaveMode 是一个枚举类,其中的常量包括:

1.3 Parquet


Spark SQL 的默认数据源为 Parquet 格式。Parquet 是一种能够有效存储嵌套数据的列式
存储格式。
数据源为 Parquet 文件时,Spark SQL 可以方便的执行所有的操作,不需要使用 format。
修改配置项 spark.sql.sources.default,可修改默认数据源格式。

 Apache Parquet是一种常见的列式存储文件格式,常用于Pig, Spark, Hive等大数据组件中,其后缀是.parquet。

核心特点有:

  1. 跨平台
  2. 可被各种文件系统识别的格式
  3. 按列存储数据
  4. 存储元数据


1. 加载数据

scala> val df = spark.read.load("examples/src/main/resources/users.parquet")
scala> df.show


2.保存数据

scala> var df = spark.read.json("/opt/module/data/input/people.json")
//保存为 parquet 格式
scala> df.write.mode("append").save("/opt/module/data/output")


1.4 JSON

Spark SQL 能够自动推测 JSON 数据集的结构,并将它加载为一个 Dataset[Row]. 可以
通过 SparkSession.read.json()去加载 JSON 文件。
注意:Spark 读取的 JSON 文件不是传统的 JSON 文件,每一行都应该是一个 JSON 串。
式如下:
{"name":"Michael"}
{"name":"Andy", "age":30}
[{"name":"Justin", "age":19},{"name":"Justin", "age":19}]


1.导入隐式转换

import spark.implicits._


2.加载 JSON 文件

val path = "/opt/module/spark-local/people.json"
val peopleDF = spark.read.json(path)


3.创建临时表

peopleDF.createOrReplaceTempView("people")


4.数据查询

val teenagerNamesDF = spark.sql("SELECT name FROM people WHERE age BETWEEN 13
AND 19")
teenagerNamesDF.show()
+------+
| name|
+------+
|Justin|
+------+


1.5 CSV

Spark SQL 可以配置 CSV 文件的列表信息,读取 CSV 文件,CSV 文件的第一行设置为
数据列
spark.read.format("csv").option("sep", ";").option("inferSchema",
"true").option("header", "true").load("data/user.csv")


 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/428720.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JS的防抖与节流

在进行窗口的resize、scroll,输入框内容校验等操作时,如果事件处理函数调用的频率无限制,会加重浏览器的负担,导致用户体验非常糟糕。此时我们可以采用debounce(防抖)和throttle(节流&#xff0…

PP-KANBAN-看板概述

PP-KANBAN-看板概述看板概述-OverviewPUSH-PULL 原则看板的补充策略看板的系统配置看板概述-Overview 看板是1953年由Mr. Taiichi Ohno在丰田汽车公司发明的。当时,整个汽车行业正在通过实施丰田的“丰田生产系统”来提升管理。这个系统基于基于物料的卡片实现物资…

《2023游戏行业热点趋势报告》|Party Game游戏成为新趋势,备受消费者瞩目

过去的2022年,在各路重拳下,我们目睹了游戏行业的“焦虑”: 版号停发,版号数量缩减; 整个行业8年内首次下滑,玩家数量减少; 市场空间被挤压,买量成本激增; ...... 游…

【安全防御】防火墙

目录 1.什么是防火墙? 2.状态防火墙的工作原理? 3.防火墙实验 1.什么是防火墙? 防火墙(英语:Firewall),也称防护墙,是由Check Point 创立者Gil Shwed于1993 年发明并引入国际互联…

“AIGC+影像”成势,美图出头?

配图来自Canva可画 众所周知,美图公司是业界出了名的多边形玩家,从牙科、区块链、盲盒到炒币等等,美图似乎总出现在意想不到的地方,而正因此它也被盖上了“不务正业”的标签。 所幸的是,经由去年AIGC爆火,…

【1026. 节点与其祖先之间的最大差值】

来源:力扣(LeetCode) 描述: 给定二叉树的根节点 root,找出存在于 不同 节点 A 和 B 之间的最大值 V,其中 V |A.val - B.val|,且 A 是 B 的祖先。 (如果 A 的任何子节点之一为 B&…

大小端字节序存储

每个数据类型在内存中都会被分配若干个字节,而这些字节在内存中的存储顺序就是字节序。在计算机底层存储中,有两种常见的字节序:大端字节序和小端字节序。 大端字节序:高位字节在前,低位字节在后;小端字节…

藏经阁(七)有源蜂鸣器和无源蜂鸣器 解析

文章目录特征区别场景选型实战应用特征 有源蜂鸣器特征: 又被称为直流蜂鸣器包含了一个多谐振荡器只要额定直流电压可以在两端发出声音具有驱动控制简单价格略高 无源蜂鸣器特征: 又被称为交流蜂鸣器内部没有振荡器需要在两端施加特定频率的方波电压…

如何借助无线通讯终端实现组态王与PLC之间通信?

本方案是基于Modbus RTU协议下实现的1主多从自组网无线通信形式,主站为组态王,从站为两台三菱FX5U PLC。在工厂里,组态王和plc所处位置距离较为分散,重新铺设电缆线工期长,成本高,故采用日系PLC专用无线通讯…

LDMUI-001 61320946C模拟量模件的40端即直流24伏的负端接至逻辑地汇流排上

LDMUI-001 61320946C模拟量模件的40端即直流24伏的负端接至逻辑地汇流排上 ​ 八、现场接地常用注意事项 1.现场控制站 接地螺丝因机柜本体与底座间有胶皮形成绝缘,屏蔽地汇流排与底座间绝缘,现场控制站必须按规定做好接地处理。即分别接至现场控制站接…

tmall.item.sizemapping.template.update( 更新天猫商品尺码表模板 )

¥开放平台免费API必须用户授权 更新天猫商品尺码表模板 公共参数 请求地址: 公共请求参数: 公共响应参数: ![在这里插入图片描述](https://img-blog.csdnimg.cn/d28890c8804c4a50bdd0877f0d2a9659.png请求参数 响应参数 点击获取key和secret 请求示例 响应示例 异…

PHP的垃圾回收机制(全网详解)

概念: PHP的垃圾回收机制是自动的,它通过内置的垃圾回收器(Garbage Collector)来实现。当一个PHP对象不再被引用时,它就成为垃圾。垃圾回收器会定期扫描内存中的所有对象,将没有引用的对象标记为垃圾,并释放它们占用的…

MDK编译过程及文件类型

编译过程 .c和.s文件通过armcc编译器转为.o 其中的code、RO、RW、ZI-data 程序运行时rom中的rw-data复制到SRAM中,SRAM中一般存储可读写的变量,所以ZI-data和RW-data的数据存储在这 经典问题 C语言的全局变量存放在哪里? C语言的全局变量存放在…

HTB-Magic

HTB-Magic信息收集80端口立足www-data -> theseustheseus -> root信息收集 80端口 主页如下。 左下角有一个Login。 抓包后尝试sql注入。 上传一个图片并保存请求。 上传的文件会在/uploads/上传文件名后缀。 只允许我们上传jpg,jpeg,png文…

C/C++每日一练(20230418)

目录 1. 搜索插入位置 🌟 2. 最长有效括号 🌟🌟🌟 3. 子集 🌟🌟 🌟 每日一练刷题专栏 🌟 Golang每日一练 专栏 Python每日一练 专栏 C/C每日一练 专栏 Java每日一练 专栏…

2023软件测试银四如何逆势涨薪,开头30秒给你想要的答案

引言 2023软件测试银四逆势涨薪,这是一个让人兴奋的话题。毕竟,在当前就业市场的背景下,很多人正在面临着困境,而能够在逆势中实现薪资上涨的机会,显然是非常值得我们去关注的。 那么,到底是什么让这些软…

C语言实现惯导更新算法(机械编排)

四元数 四元数可用于描述刚体转动或姿态变换,与方向余弦阵相比,表达简洁。四元数是一个包含四个元素的列向量,列向量的第一个元素表示刚体围绕旋转轴转过的角度大小,其余3个元素代表了旋转轴的方向。 姿态更新算法 本程序姿态的递推计算采用四元数来实现,姿态的变化采…

coinex02// 撮合引擎 RingBuffer Disruptor的构建与使用

目录 0. 课程视频地址 0.1 撮合引擎课程 0.1 RocketMQ安装 0.3 RocketMQ搭建成功后登录 1. docker 配置rocketmq 2 逻辑树 : 构建RingBuffer -> 使用RingBuffer 2.1 生产者往RingBuffer中放数据 Disruptor把数据推给消费者cpu 2.2 RingBuffer, Disruptor的创建 ->…

麻了,别再为难测试工程师了...

前言 有不少技术友在测试群里讨论,近期的面试越来越难了,要背的八股文越来越多了,考察得越来越细,越来越底层,明摆着就是想让我们徒手造航母嘛!实在是太为难我们这些测试工程师了。 这不,为了帮大家节约时…

Stable Diffusion XL:更快,更强

Stable Diffusion XL:更快,更强 今天,Stability AI 的创始人兼首席执行官 Emad Mostaque 发推宣布,Stable Diffusion XL 进入公测阶段。 核心信息总结起来有2点: “XL”不是新模型的官方名称,Stability …