Spark SQL数据帧与数据集

news2024/11/15 5:37:43

文章目录

  • 一、数据帧 - DataFrame
    • (一)DataFrame概述
    • (二)将RDD转成DataFrame
  • 二、数据集 - Dataset
    • (一)Dataset概述
    • (二)将RDD转成DataSet
    • (三)DataFrame与Dataset的关系
  • 三、简单使用Spark SQL
    • (一)了解SparkSession
    • (二)准备工作
      • 1、准备数据文件
      • 2、启动Spark Shell
    • (三)加载数据为Dataset
      • 1、读文件得数据集
      • 2、显示数据集内容
      • 3、显示数据集模式
    • (四)给数据集添加元数据信息
      • 1、定义学生样例类
      • 2、导入隐式转换
      • 3、将数据集转换成学生数据集
      • 4、对学生数据集进行操作
        • (1)显示数据集内容
        • (2)打印数据集模式
        • (3)对数据集进行投影操作
        • (4)对数据集进行过滤操作
        • (5)对数据集进行统计操作
        • (6)对数据集进行排序操作
        • (7)重命名数据集字段
    • (五)将数据集转为数据帧
      • 1、将数据集转为数据帧
      • 2、对学生数据帧进行操作
        • (1)显示数据帧内容
        • (2)显示数据帧模式信息
        • (3)对数据帧进行投影操作
        • (4)对数据帧进行过滤操作
        • (5)对数据帧进行统计操作
        • (6)对数据帧进行排序操作
        • (7)重命名数据帧字段
    • (六)基于数据帧进行SQL查询
      • 1、基于数据帧创建临时视图
      • 2、使用spark对象执行SQL查询
        • (1)查询全部表记录
        • (2)显示数据表结构
        • (3)对表进行投影操作
        • (4)对表进行选择操作
        • (5)对表进行统计操作
        • (6)对表进行排序操作
        • (7)重命名数据表字段
  • 四、练习


一、数据帧 - DataFrame

(一)DataFrame概述

DataFrame是Spark SQL提供的一个编程抽象,与RDD类似,也是一个分布式的数据集合,但与RDD不同,DataFrame的数据都被组织到有名字的列中,就像关系型数据库中的表一样。在Spark 1.3.0版本之前,DataFrame被称为SchemaRDD。此外,多种数据都可以转化为DataFrame,例如Spark计算过程中生成的RDD、结构化数据文件、Hive中的表、外部数据库等。

(二)将RDD转成DataFrame

DataFrame在RDD的基础上添加了数据描述信息(Schema,模式,即元信息),因此看起来更像是一张数据库表。

一个RDD中有5行数据

将RDD转成DataFrame

使用DataFrame API结合SQL处理结构化数据比RDD更加容易,而且通过DataFrame API或SQL处理数据,Spark优化器会自动对其优化,即使写的程序或SQL不高效,也可以运行得很快。

二、数据集 - Dataset

(一)Dataset概述

Dataset是一个分布式数据集,Spark 1.6中添加的一个新的API。相对于RDD,Dataset提供了强类型支持,在RDD的每行数据加了类型约束。而且使用Dataset API同样会经过Spark SQL优化器的优化,从而提高程序执行效率。

(二)将RDD转成DataSet

一个RDD中有5行数据

将RDD转换为Dataset

(三)DataFrame与Dataset的关系

在Spark中,一个DataFrame所代表的是一个元素类型为Row的Dataset,即DataFrame只是Dataset[Row]的一个类型别名。

三、简单使用Spark SQL

(一)了解SparkSession

Spark Shell启动时除了默认创建一个名为sc的SparkContext的实例外,还创建了一个名为spark的SparkSession实例,该spark变量可以在Spark Shell中直接使用。

从Spark2.0以上版本开始, Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能。

SparkSession只是在SparkContext基础上的封装,应用程序的入口仍然是SparkContext。SparkSession允许用户通过它调用DataFrame和Dataset相关API来编写Spark程序,支持从不同的数据源加载数据,并把数据转换成DataFrame,然后使用SQL语句来操作DataFrame数据。

(二)准备工作

1、准备数据文件

1,张三,,20
2,李四,,18
3,王五,,21
4,刘六,,19
5,闪七,,20

在/home目录里创建student.txt文件
在这里插入图片描述
将student.txt上传到HDFS的/student/input目录
在这里插入图片描述

2、启动Spark Shell

启动Spark Shell,执行命令:spark-shell --master spark://master:7077
在这里插入图片描述

(三)加载数据为Dataset

1、读文件得数据集

调用SparkSession对象的read.textFile()可以读取指定路径中的文件内容,并加载为一个Dataset

执行命令:val ds = spark.read.textFile("hdfs://master:9000/student/input/student.txt")
在这里插入图片描述
从变量ds的类型可以看出,textFile()方法将读取的数据转为了Dataset。除了使用textFile()方法读取文本内容外,还可以使用csv()、jdbc()、json()等方法读取CSV文件、JDBC数据源、JSON文件等数据。(csv: comma separated value)

2、显示数据集内容

执行命令:ds.show
在这里插入图片描述
可以看出,Dataset将文件中的每一行看作一个元素,并且所有元素组成了一列,列名默认为value。

3、显示数据集模式

执行命令:ds.printSchema
在这里插入图片描述
这样的单列数据集显得太粗糙,应该加点元数据信息,让它更精细化。

(四)给数据集添加元数据信息

1、定义学生样例类

定义一个样例类Student,用于存放数据描述信息(Schema)

执行命令:case class Student(id: Int, name: String, gender: String, age: Int)
在这里插入图片描述
基于样例类创建对象很简单,不需要new关键字,只需要传入相应参数即可创建对象
在这里插入图片描述

2、导入隐式转换

导入SparkSession的隐式转换,以便后续可以使用Dataset的算子

执行命令:import spark.implicits.__表示implicits包里所有的类,类似于Java里的*
在这里插入图片描述

3、将数据集转换成学生数据集

调用Dataset的 map() 算子将每一个元素拆分并存入Student 样例对象

执行命令 :paste 进入粘贴模式,然后执行红框类的命令
在这里插入图片描述

val studentDS = ds.map(line => {
      val fields = line.split(",")
      val id = fields(0).toInt
      val name = fields(1)
      val gender = fields(2)
      val age = fields(3).toInt
      Student(id, name, gender, age)
   }
)

4、对学生数据集进行操作

(1)显示数据集内容

执行命令:studentDS.show
在这里插入图片描述
可以看到,studentDS中的数据类似于一张关系型数据库的表。

(2)打印数据集模式

执行命令:studentDS.printSchema
在这里插入图片描述

(3)对数据集进行投影操作

显示学生的姓名和年龄字段,执行命令:studentDS.select(“name”, “age”).show

在这里插入图片描述
对应的SQL语句:select name, age from student

执行命令:studentDS.select(studentDS(“name”), studentDS(“age”) + 1).show
在这里插入图片描述

执行命令:studentDS.select(studentDS(“name”).as(“姓名”), (studentDS(“age”) + 1).as(“年龄”)).show(给字段取别名)
在这里插入图片描述
相当于SQL语句:select name as 姓名, age + 1 as 年龄 from student;

(4)对数据集进行过滤操作

显示女生记录,执行命令:studentDS.filter(“gender == ‘女’”).show
在这里插入图片描述
显示年龄在[19, 20]之间的记录,执行命令:studentDS.filter(“age >= 19 and age <= 20”).show
在这里插入图片描述
如果条件是age <19 or age > 20,那么两个数据集ds1与ds2就应该求并集:ds1.union(ds2)

逻辑运算集合运算
not补集 - complement
and交集 - intersection
or并集 - union

(5)对数据集进行统计操作

求20岁以上的女生人数
在这里插入图片描述
分组统计男女生总年龄,执行命令:studentDS.groupBy(“gender”).sum(“age”).show
在这里插入图片描述

相当于SQL语句:select gender, sum(age) from student group by gender;

分组统计男女生平均年龄:执行命令:studentDS.groupBy(“gender”).avg(“age”).show
在这里插入图片描述

相当于SQL语句:select gender, avg(age) from student group by gender;

分组统计男女生最大年龄,执行命令:studentDS.groupBy(“gender”).max(“age”).show
在这里插入图片描述

相当于SQL语句:select gender, max(age) from student group by gender;

分组统计男女生最小年龄,执行命令:studentDS.groupBy(“gender”).min(“age”).show
在这里插入图片描述相当于SQL语句:select gender, min(age) from student group by gender;

(6)对数据集进行排序操作

按年龄升序排列,执行命令:studentDS.sort(“age”).show
在这里插入图片描述

相当于SQL语句:select * from student order by age; (默认是asc - ascending)

按年龄降序排列,执行命令:studentDS.sort(studentDS(“age”).desc).show
在这里插入图片描述
按年龄降序排列,执行命令:studentDS.sort(desc(“age”)).show
在这里插入图片描述
相当于SQL语句:select * from student order by age desc; (desc - descending)

先按性别升序排列,再按年龄降序排列,执行命令:studentDS.sort(asc(“gender”), desc(“age”)).show
在这里插入图片描述
对应的SQL语句:select * from student order by gender asc, age desc;

(7)重命名数据集字段

执行命令:studentDS.select(studentDS(“id”).as(“学号”), studentDS(“name”).as(“姓名”), studentDS(“gender”).as(“性别”), studentDS(“age”).as(“年龄”)).show
在这里插入图片描述

(五)将数据集转为数据帧

Spark SQL查询的是DataFrame中的数据,因此需要将存有元数据信息的Dataset转为DataFrame。调用Dataset的toDF()方法,将存有元数据的Dataset转为DataFrame。

1、将数据集转为数据帧

将学生数据集转为学生数据帧,执行命令:val studentDF = studentDS.toDF()
在这里插入图片描述

2、对学生数据帧进行操作

(1)显示数据帧内容

显示学生数据帧内容,执行命令:studentDF.show
在这里插入图片描述

(2)显示数据帧模式信息

打印学生数据帧模式信息,执行命令:studentDF.printSchema
在这里插入图片描述

(3)对数据帧进行投影操作

显示学生数据帧姓名与年龄字段,年龄加1,执行命令:studentDF.select(studentDF(“name”), studentDF(“age”) + 1).show
在这里插入图片描述
执行命令:studentDF.select(studentDF(“name”).as(“姓名”), (studentDF(“age”) + 1).as(“年龄”)).show (给字段取别名)
在这里插入图片描述

(4)对数据帧进行过滤操作

查询年龄在19岁以上的记录,执行命令:studentDF.filter(studentDF(“age”) > 19).show
在这里插入图片描述
查询20岁以上的女生记录,执行命令:studentDF.filter(“age > 20 and gender == ‘女’”).show()
在这里插入图片描述

(5)对数据帧进行统计操作

统计学生数据帧总记录数,执行命令:studentDF.count
在这里插入图片描述
分组统计男女生总年龄,执行命令:studentDF.groupBy(“gender”).sum(“age”).show
在这里插入图片描述
分组统计男女生平均年龄,执行命令:studentDF.groupBy(“gender”).avg(“age”).show
在这里插入图片描述
分组统计男女生最大年龄,执行命令:studentDF.groupBy(“gender”).max(“age”).show
在这里插入图片描述
分组统计男女生最小年龄,执行命令:studentDF.groupBy(“gender”).min(“age”).show
在这里插入图片描述
分组统计男女生人数,执行命令:studentDF.groupBy(“gender”).count.show
在这里插入图片描述

(6)对数据帧进行排序操作

对年龄升序排列,执行命令:studentDF.sort(“age”).show
在这里插入图片描述对年龄降序排列,执行命令:studentDF.sort(desc(“age”)).show
在这里插入图片描述
先按性别升序,再按年龄降序,- 执行命令:studentDF.sort(asc(“gender”), desc(“age”)).show
在这里插入图片描述

(7)重命名数据帧字段

执行命令:studentDF.select(studentDF(“id”).as(“学号”), studentDF(“name”).as(“姓名”), studentDF(“gender”).as(“性别”), studentDF(“age”).as(“年龄”)).show
在这里插入图片描述
直接对数据帧进行操作,其实并不是很方便,因此,我们需要基于数据帧创建临时视图,然后对于临时视图就可以进行SQL操作,那样就会十分方便。

(六)基于数据帧进行SQL查询

1、基于数据帧创建临时视图

基于学生数据帧studentDF,创建一个临时视图student,就可以对student视图进行SQL操作

执行命令:studentDF.createTempView(“student”)

如果临时视图存在,使用这个命令就会报错,此时,执行命令:studentDF.createOrReplaceTempView(“student”),就不会报错

如果指定的视图不存在,那就创建,如果存在,那就替换。

2、使用spark对象执行SQL查询

在Spark Shell环境里,系统已经创建了名为spark的SparkSession对象

spark.sql()方法用于执行一个SQL查询,返回结果是一个数据帧

(1)查询全部表记录

执行命令:spark.sql(“select * from student”).show
在这里插入图片描述

(2)显示数据表结构

执行命令:spark.sql(“describe student”).show
在这里插入图片描述

(3)对表进行投影操作

执行命令:spark.sql(“select name, age + 1 from student”).show
在这里插入图片描述

(4)对表进行选择操作

查询年龄在19岁以上的记录,执行命令:spark.sql(“select * from student where age > 19”).show
在这里插入图片描述
查询20岁以上的女生记录,执行命令:spark.sql(“select * from student where age > 20 and gender = ‘女’”).show
在这里插入图片描述

(5)对表进行统计操作

查询学生表总记录数,执行命令:spark.sql(“select count() count from student").show
在这里插入图片描述分组统计男女生总年龄,执行命令:spark.sql(“select gender, sum(age) from student group by gender”).show
在这里插入图片描述
分组统计男女生平均年龄,执行命令:spark.sql(“select gender, avg(age) from student group by gender”).show
在这里插入图片描述
分组统计男女生最大年龄,执行命令:spark.sql(“select gender, max(age) from student group by gender”).show
在这里插入图片描述
分组统计男女生最小年龄,执行命令:spark.sql(“select gender, min(age) from student group by gender”).show
在这里插入图片描述
分组统计男女生人数,执行命令:spark.sql("select gender, count(
) count from student group by gender”).show
在这里插入图片描述

(6)对表进行排序操作

按年龄升序排列,执行命令:spark.sql(“select * from student order by age”).show
在这里插入图片描述按年龄降序排列,执行命令:spark.sql(“select * from student order by age desc”).show
在这里插入图片描述
先按性别升序,再按年龄降序,执行命令:spark.sql(“select * from student order by gender asc, age desc”).show
在这里插入图片描述

(7)重命名数据表字段

执行命令:spark.sql(“select id stu_id, name stu_name, gender stu_gender, age stu_age from student”).show
在这里插入图片描述
执行命令:spark.sql(“select id 学号, name 姓名, gender 性别, age 年龄 from student”).show(),无法解析中文别名
在这里插入图片描述

四、练习

成绩表,包含四个字段(姓名、语文、数学、英语),只有三条记录

姓名语文数学英语
张钦林789076
陈燕文958898
卢志刚788060

在/home里创建scores.txt文件

将scores.txt文件上传到HDFS上指定目录

基于scores.txt文件,创建scoreDF数据帧

基于scoreDF数据帧进行下列操作
(1)显示数据帧内容
(2)显示数据帧模式信息
(3)对数据帧进行投影操作
(4)对数据帧进行过滤操作
(5)对数据帧进行统计操作
(6)对数据帧进行排序操作
(7)重命名数据帧字段

基于scoreDF数据帧创建临时表score

基于score数据表进行下列操作
(1)查询全部表记录
(2)显示数据表结构
(3)对表进行投影操作
(4)对表进行选择操作
(5)对表进行统计操作
(6)对表进行排序操作
(7)重命名数据表字段

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/638119.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ATA-4000系列高压功率放大器——超声导波中的典型应用

ATA-4000系列高压功率放大器——超声导波中的典型应用 超声导波技术 超声导波(guided waves ultrasonic)技术是一项近年来广受关注的无损检测技术。导波是由于介质边界存在而被限制在介质中传播的、同时其传播方向平行于介质边界的波。超声导波较早期的研究由一些著名学者完成&…

react + antd实现动态切换主题功能(适用于antd5.x版本)

前言 在之前的几篇文章中&#xff08;React Antd实现动态切换主题功能之二&#xff08;默认主题与暗黑色主题切换&#xff09;、React Antd实现动态切换主题功能&#xff09;介绍了antd实现动态切换主题功能&#xff0c;文章里介绍的方法在antd5.x版本却不适用&#xff0c;因…

【UE5】分分钟简单使用像素流云服务(Pixel Streaming)

【UE5】分分钟简单使用像素流云服务&#xff08;Pixel Streaming&#xff09; 前言 UE5的Pixel Streaming已经封装的很好&#xff0c;简单三步实现简单的服务搭建。 安装插件打包项目运行服务 注&#xff1a;实例平台为Windows 安装插件 编辑→插件→输入查询Pixel Strea…

Java之~Bigdicmal的长度,小数点后用0补位

/*** 获取bigdicmal的长度* param number 需要截取的数字* param num 需要保留小数点后的位数* return*/ public static int checkBigDecimalLength(String number ,int num){String s getSupString(number,num);return s.length(); }/*** 补充后面数值0* param number 需要截…

5G技术学习——5GNR帧结构和空口资源

这里写目录标题 4G时域定义&#xff1a;资源划分 5GNR中时域 频域 与空域资源 循环前缀CP:背景和原理5G帧结构&#xff1a;基本框架5G slot分类 5G 频域资源5G频域资源基本概念信道带宽与传输带宽BWP定义及其应用场景 4G 时域定义&#xff1a; 帧&#xff1a;10ms&#xff0c;…

【go-zero】go-zero微服务实战系列九 聚合策略 极致优化秒杀性能(转)

上一篇文章中引入了消息队列对秒杀流量做削峰的处理,我们使用的是Kafka,看起来似乎工作的不错,但其实还是有很多隐患存在,如果这些隐患不优化处理掉,那么秒杀抢购活动开始后可能会出现消息堆积、消费延迟、数据不一致、甚至服务崩溃等问题,那么后果可想而知。本篇文章我们…

深度学习-pytorch_lightning框架使用实例

下面是我写过的一个pytorch_lightning项目的代码框架。关键代码已经省略。 模型构建 import pytorch_lightning as pl from pytorch_lightning.plugins.io import TorchCheckpointIO as tcio import torch from torch import nn import torch.nn.functional as F from torch.…

师生相逢,潇潇洒洒出品

师生相逢2023年6月10日潇潇洒洒出品骑行肩并肩 相望曾相识①遥忆多年前 青春勃发时豪情梦摘星 清纯玉壶冰感叹岁月老 友情弥久新寄情山水间 天涯不负卿①骑行路上&#xff0c;偶遇30年前的学生&#xff0c;现在是骑行群的骑友&#xff0c;共同的兴趣爱好使我们30年后再相逢&…

【服务器数据恢复】热备盘激活失败导致raid5瘫痪的数据恢复案例

服务器数据恢复环境&#xff1a; 一台EMC存储中数块磁盘组建了一组raid5磁盘阵列&#xff0c;阵列中有2块热备盘&#xff1b;上层采用ZFS文件系统&#xff0c;划分了一个lun&#xff0c;供sun小机使用。 服务器故障&检测&#xff1a; 存储在正常运行中突然崩溃无法使用&…

STM32单片机(五)第一节:EXTI外部中断

❤️ 专栏简介&#xff1a;本专栏记录了从零学习单片机的过程&#xff0c;其中包括51单片机和STM32单片机两部分&#xff1b;建议先学习51单片机&#xff0c;其是STM32等高级单片机的基础&#xff1b;这样再学习STM32时才能融会贯通。 ☀️ 专栏适用人群 &#xff1a;适用于想要…

AST反混淆js代码——猿人学竞赛第二题

猿人学JS比赛第二题解混淆 分析代码解混淆代码结果 前一段时间参加猿人学js比赛&#xff0c;今天把第二题的还原做一下笔记。 分析代码 首先&#xff0c;我们需要对混淆js代码进行分析&#xff0c;确定还原的思路&#xff0c;才能书写解混淆代码进行还原。代码是静态的&#x…

KYOCERA Programming Contest 2023(AtCoder Beginner Contest 305)(A、B、C、D)[施工中]

文章目录 A - Water Station(模拟)B - ABCDEFG&#xff08;模拟&#xff09;C - Snuke the Cookie Picker(模拟、暴力)D - Sleep Log&#xff08;二分&#xff0c;前缀&#xff09; A - Water Station(模拟) 题意&#xff1a;在[0,100]所有 x % 5 0的地方设置一个水站&#x…

由源码生成Python可调用的dll

1. 不带参数的函数与调用 blog.csdn.net/qq 40833391/article/details/128000638python编程&#xff08;python调用dll程序&#xff09;_python 调用dll_嵌入式-老费的博客-CSDN博客思路很简单&#xff0c;只需要在Visual Studio中设置输出类型即可 1.1. 创建项目 首先创建一…

【HashMap集合】存储学生对象并遍历

HashMap集合存储学生对象并遍历 1.键是String&#xff0c;值是Student 需求&#xff1a;创建一个HashMap集合&#xff0c;键是学号(String)&#xff0c;值是学生对象(Student)。存储三个键值对元素&#xff0c;并遍历 思路&#xff1a; 定义学生类 创建HashMap集合对象 创建…

uni.navigateBack()返回上一页携带参数的实现

a页面跳转b页面&#xff0c;再b页面点击确定返回到a页面刷新列表 //b页面confirm(){let pages getCurrentPages();//当前页面let prevPage pages[pages.length - 2];//上一个页面prevPage.setData({//直接给上一个页面赋值isRefresh: true})uni.navigateBack();} 返回到a页面…

适用于 Linux 的 Windows 子系统wsl文档

参考链接&#xff1a;https://learn.microsoft.com/zh-cn/windows/wsl/ 鸟哥的Linux私房菜&#xff1a;http://cn.linux.vbird.org/ http://cn.linux.vbird.org/linux_basic/linux_basic.php http://cn.linux.vbird.org/linux_server/ 目录 安装列出可用的 Linux 发行版列出已…

【Protobuf】Map类型的使用

文章目录 2.4 map 类型一、 基本认识二、map相关函数4.3 contact2.4的改写 2.4 map 类型 本系列文章将通过对通讯录项目的不断完善&#xff0c;带大家由浅入深的学习Protobuf的使用。这是Contacts的2.4版本&#xff0c;在这篇文章中将带大家学习Protobuf的 map 语法&#xff0c…

STM32F407软件模拟I2C实现MPU6050通讯(CUBEIDE)

STM32F407软件模拟I2C实现MPU6050通讯&#xff08;CUBEIDE&#xff09; 文章目录 STM32F407软件模拟I2C实现MPU6050通讯&#xff08;CUBEIDE&#xff09;模拟I2C读写的实现mpu6050_iic.cmpu6050_iic.h代码分析 复位&#xff0c;读取温度&#xff0c;角度等函数封装mpu6050.cmpu…

HTTPS 原理浅析及其在 Android 中的使用

1.HTTP协议的不足 HTTP1.x在传输数据时&#xff0c;所有传输的内容都是明文&#xff0c;客户端和服务器端都无法验证对方的身份&#xff0c;存在的问题如下&#xff1a; 通信使用明文(不加密)&#xff0c;内容可能会被窃听&#xff1b;不验证通信方的身份&#xff0c;有可能遭…

Hbase-- 03

4.原理加强 4.1数据存储 4.1.1行式存储 传统的行式数据库将一个个完整的数据行存储在数据页中 4.1.2列式存储 列式数据库是将同一个数据列的各个值存放在一起 传统行式数据库的特性如下&#xff1a; ①数据是按行存储的。 ②没有索引的查询使用大量I/O。比如一般的数据库表…