Spark SQL概述、数据帧与数据集

news2024/12/26 20:55:07

文章目录

      • 一、准备工作
        • 1、准备数据文件
        • 2、启动Spark Shell
      • 二、加载数据为Dataset
        • 1、读文件得数据集
      • 三、给数据集添加元数据信息
        • 1、定义学生样例类
        • 2、导入隐式转换
        • 3、将数据集转换成学生数据集
        • 4、对学生数据集进行操作
          • (1)显示数据集内容
          • (2)打印数据集模式
          • (3)对数据集进行投影操作
          • (4)对数据集进行过滤操作
          • (5)对数据集进行统计操作
          • (6)对数据集进行排序操作
          • (7)重命名数据集字段
      • 四、将数据集转为数据帧
        • 1、将数据集转为数据帧
        • 2、对学生数据帧进行操作
          • (1)显示数据帧内容
          • (2)显示数据帧模式信息
          • (3)对数据帧进行投影操作
          • (4)对数据帧进行过滤操作
          • (5)对数据帧进行统计操作
          • (6)对数据帧进行排序操作
          • (7)重命名数据帧字段
      • 五、基于数据帧进行SQL查询
        • 1、基于数据帧创建临时视图
        • 2、使用spark对象执行SQL查询
          • (1)查询全部表记录
          • (2)显示数据表结构
          • (3)对表进行投影操作
          • (4)对表进行选择操作
          • (5)对表进行统计操作
          • (6)对表进行排序操作
          • (7)重命名数据表字段

一、准备工作

1、准备数据文件

1,郑秀芸,,20
2,王志峰,,18
3,陈燕文,,21
4,郑国栋,,19
5,肖雨涵,,20

  • 在/home目录里创建student.txt文件

cd /home
vim student.txt

  • 将student.txt上传到HDFS的/student/input目录

hdfs dfs -mkdir -p /student/input
hdfs dfs -put student.txt /student/input

2、启动Spark Shell

  • 启动Spark Shell,执行命令:spark-shell --master spark://master:7077

在这里插入图片描述

二、加载数据为Dataset

1、读文件得数据集

  • 调用SparkSession对象的read.textFile()可以读取指定路径中的文件内容,并加载为一个Dataset
  • 执行命令:val ds = spark.read.textFile("hdfs://master:9000/student/input/student.txt")
    在这里插入图片描述

三、给数据集添加元数据信息

1、定义学生样例类

  • 定义一个样例类Student,用于存放数据描述信息(Schema)
  • 执行命令:case class Student(id: Int, name: String, gender: String, age: Int)
    在这里插入图片描述

2、导入隐式转换

  • 执行命令:import spark.implicits._ (_表示implicits包里所有的类,类似于Java里的*)
    在这里插入图片描述

3、将数据集转换成学生数据集

  • 执行命令:paste进入粘贴模式,然后执行如下命令
val studentDS = ds.map(line => {
      val fields = line.split(",")
      val id = fields(0).toInt
      val name = fields(1)
      val gender = fields(2)
      val age = fields(3).toInt
      Student(id, name, gender, age)
   }
)

在这里插入图片描述

4、对学生数据集进行操作

(1)显示数据集内容
  • 执行命令:studentDS.show
    在这里插入图片描述
(2)打印数据集模式
  • 执行命令:studentDS.printSchema
    在这里插入图片描述
(3)对数据集进行投影操作
  • 显示学生的姓名和年龄字段,执行命令:studentDS.select("name", "age").show
    在这里插入图片描述
  • 对应的SQL语句:select name, age from student
(4)对数据集进行过滤操作
  • 显示女生记录,执行命令:studentDS.filter("gender == '女'").show
    在这里插入图片描述
  • 显示年龄在[19, 20]之间的记录
  • 执行命令:val ds1 = studentDS.filter("age >= 19")
    在这里插入图片描述
    在这里插入图片描述
  • 两个数据集求交集
    在这里插入图片描述
  • 可以有更简单的处理方式,执行命令:studentDS.filter("age >= 19 and age <= 20").show
    在这里插入图片描述
(5)对数据集进行统计操作
  • 求20岁以上的女生人数
    在这里插入图片描述
  • 分组统计男女生总年龄,执行命令:studentDS.groupBy("gender").sum("age").show
    在这里插入图片描述
  • 分组统计男女生平均年龄:执行命令:studentDS.groupBy("gender").sum("age").show
    在这里插入图片描述
  • 分组统计男女生最大年龄,执行命令:studentDS.groupBy("gender").max("age").show
    在这里插入图片描述
  • 分组统计男女生最小年龄,执行命令:studentDS.groupBy("gender").min("age").show
    在这里插入图片描述
(6)对数据集进行排序操作
  • 按年龄升序排列,执行命令:studentDS.sort("age").show()
    在这里插入图片描述
  • 按年龄降序排列,执行命令:studentDS.sort(studentDS("age").desc).show
    在这里插入图片描述
  • 先按性别升序排列,再按年龄降序排列,执行命令:studentDS.sort(studentDS("gender"), studentDS("age").desc).show()
    在这里插入图片描述
  • 对应的SQL语句:select * from student order by gender, age desc;
(7)重命名数据集字段
  • 执行命令:studentDS.select(studentDS("id").as("学号"), studentDS("name").as("姓名"), studentDS("gender").as("性别"), studentDS("age").as("年龄")).show
    在这里插入图片描述

四、将数据集转为数据帧

1、将数据集转为数据帧

  • 将学生数据集转为学生数据帧,执行命令:val studentDF = studentDS.toDF()
    在这里插入图片描述

2、对学生数据帧进行操作

(1)显示数据帧内容
  • 显示学生数据帧内容,执行命令:studentDF.show
    在这里插入图片描述
(2)显示数据帧模式信息
  • 打印学生数据帧模式信息,执行命令:studentDF.printSchema
    在这里插入图片描述
(3)对数据帧进行投影操作
  • 显示学生数据帧姓名与年龄字段,年龄加1,执行命令:studentDF.select(studentDF("name"), studentDF("age") + 1).show
    在这里插入图片描述
(4)对数据帧进行过滤操作
  • 查询年龄在19岁以上的记录,执行命令:studentDF.filter(studentDF("age") > 19).show
    在这里插入图片描述
  • 查询20岁以上的女生记录,执行命令:studentDF.filter("age > 20 and gender == '女'").show()
    在这里插入图片描述
(5)对数据帧进行统计操作
  • 统计学生数据帧总记录数,执行命令:studentDF.count
    在这里插入图片描述
  • 分组统计男女生总年龄,执行命令:studentDF.groupBy("gender").sum("age").show
    在这里插入图片描述
  • 分组统计男女生平均年龄,执行命令:studentDF.groupBy("gender").avg("age").show
    在这里插入图片描述
  • 分组统计男女生最大年龄,执行命令:studentDF.groupBy("gender").max("age").show
    在这里插入图片描述
  • 分组统计男女生最小年龄,执行命令:studentDF.groupBy("gender").min("age").show
    在这里插入图片描述
  • 分组统计男女生人数,执行命令:studentDF.groupBy("gender").count.show
    在这里插入图片描述
(6)对数据帧进行排序操作
  • 对年龄升序排列,执行命令:studentDF.sort("age").show
    在这里插入图片描述
  • 对年龄降序排列,执行命令:studentDF.sort(studentDF("age").desc).show
    在这里插入图片描述
  • 先按性别升序,再按年龄降序,- 执行命令:studentDF.sort(studentDF("gender"), studentDF("age").desc).show
    在这里插入图片描述
(7)重命名数据帧字段
  • 执行命令:studentDF.select(studentDF("id").as("学号"), studentDF("name").as("姓名"), studentDF("gender").as("性别"), studentDF("age").as("年龄")).show
    在这里插入图片描述

五、基于数据帧进行SQL查询

1、基于数据帧创建临时视图

  • 执行命令:studentDF.createOrReplaceTempView("student")
    在这里插入图片描述

2、使用spark对象执行SQL查询

(1)查询全部表记录
  • 执行命令:spark.sql("select * from student").show
    在这里插入图片描述
(2)显示数据表结构
  • 执行命令:spark.sql("describe student").show
    在这里插入图片描述
(3)对表进行投影操作
  • 执行命令:spark.sql("select name, age + 1 from student").show
    在这里插入图片描述
(4)对表进行选择操作
  • 查询年龄在19岁以上的记录,执行命令:spark.sql("select * from student where age > 19").show
    在这里插入图片描述
  • 查询20岁以上的女生记录,执行命令:spark.sql("select * from student where age > 20 and gender = '女'").show()
    在这里插入图片描述
(5)对表进行统计操作
  • 查询学生表总记录数,执行命令:spark.sql("select count(*) count from student").show
    在这里插入图片描述
  • 分组统计男女生总年龄,执行命令:spark.sql("select gender, sum(age) from student group by gender").show
    在这里插入图片描述
  • 分组统计男女生平均年龄,执行命令:spark.sql("select gender, avg(age) from student group by gender").show
    在这里插入图片描述
  • 分组统计男女生最大年龄,执行命令:spark.sql("select gender, max(age) from student group by gender").show

在这里插入图片描述

  • 分组统计男女生最小年龄,执行命令:spark.sql("select gender, min(age) from student group by gender").show
    在这里插入图片描述
  • 分组统计男女生人数,执行命令:spark.sql("select gender, count(*) count from student group by gender").show
    在这里插入图片描述
(6)对表进行排序操作
  • 按年龄升序排列,执行命令:spark.sql("select * from student order by age").show
    在这里插入图片描述
  • 按年龄降序排列,执行命令:spark.sql("select * from student order by age desc").show
    在这里插入图片描述
  • 先按性别升序,再按年龄降序,执行命令:spark.sql("select * from student order by gender asc, age desc").show
    在这里插入图片描述
(7)重命名数据表字段
  • 执行命令:spark.sql("select id stu_id, name stu_name, gender stu_gender, age stu_age from student").show()
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/592447.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

认识熟悉 Stable Diffusion(SD)基本参数

界面样式 界面参数 界面参数说明prompt希望生成的图片的描述negative prompt不希望在图片中出现的描述Batch size每次生成的图片个数Width图片宽度Height图片高度 这里需要注意的就是尺寸&#xff0c;尺寸并非越大越好&#xff0c;需要根据自己的配置和需求适当调整&#xff…

node.js+vue学生读书笔记共享分享系统

从上面的描述中可以基本可以实现软件的功能: 1、开发实现读书笔记共享平台的整个系统程序; 2、管理员;首页、个人中心、用户管理、笔记分享管理、个人笔记管理、管理员管理、交流互动、系统管理等。 3、用户:首页、个人中心、笔记分享管理、个人笔记管理、我的收藏管理。 4、前…

Window10配置Maven详细教程

文章目录 一、Maven概述二、Maven下载三、配置Maven环境变量四、查看Maven是否配置成功五、为Maven配置本地仓库以及指定远程仓库5.1 Maven构件搜索顺序5.2 Maven配置本地仓库5.3 Maven指定远程仓库 一、Maven概述 Maven是专门管理和构建Java项目的工具&#xff0c;Maven的主要…

Linux nohup-后台挂起运行程序神器

一. 场景描述 天黑了&#xff0c;我得离开实验室去吃饭了。为了环保&#xff0c;我必须关闭电脑&#xff0c;减少不必要的浪费&#xff01;正常情况下当我关闭终端或电脑时&#xff0c;上面运行的任务代码即会自动停止&#xff0c;但我依旧希望保持代码的正常运行&#xff0c;此…

Android 更新后跑不起来?快来适配 AGP8 和 Flamingo/JDK 17

随着 Android Studio Flamingo 正式版的发布&#xff0c;AGP 8&#xff08;Android Gradle Plugin 8&#xff09;也正式进入大家的视野&#xff0c;这次 AGP 8 相关更新属于「断代式」更新&#xff0c;同时如果想体验 AGP 8&#xff0c;就需要升级到 Android Studio Flamingo 版…

揭秘速卖通卖家成功的绝佳秘籍,助您打造畅销店铺!

在竞争激烈的速卖通市场中&#xff0c;如何让您的店铺脱颖而出并实现畅销&#xff1f;林哥今天就跟大家讲一讲一些成功速卖通卖家的绝佳秘籍&#xff0c;帮助您引导高流量和高转化率&#xff0c;成就一个畅销的店铺。 ​一、精确定位目标受众 成功的速卖通店铺离不开精确的目标…

自动生成作文的软件有哪些?盘点五种自动生成作文软件

写作是一项需要花费大量时间和精力的任务&#xff0c;而自动生成作文的软件可以帮助我们节省大量的时间。这些软件通过分析和归纳大量的素材和语言模型&#xff0c;能够快速生成高质量的文章。相比于传统的写作方式&#xff0c;使用自动生成作文软件可以更快地完成文章&#xf…

一套完整的客户管理系统应该包含哪些模块呢?

一套完整的客户管理系统应该包含哪些模块呢&#xff1f; 想要弄清楚一个完整的客户管理系统应该具备哪些功能&#xff0c;首先得清楚系统使用者、使用场景以及主要功能这三个因素。 以我们公司为例&#xff1a; 主要使用者&#xff1a;运营人员、市场人员、产品人员。主要目…

Android Settings中Preference的理解以及使用

Preference 是Android App 中重要的控件之一&#xff0c;Settings 模块大部分都是通过 Preference 实现 优点&#xff1a; Preference 可以自动显示我们上次设置的数据&#xff0c;Android提供preference这个键值对的方式来处理这种情况&#xff0c;自动保存这些数据&#xff…

链接生成二维码怎么弄?这些制作方法分享给大家

在现代社会中&#xff0c;链接生成二维码已经成为了一个非常实用的工具。通过将链接转换为二维码&#xff0c;我们可以将它们轻松地分享给朋友、家人或同事&#xff0c;而无需手动输入URL或复制粘贴。这使得信息的传播变得更加快捷和高效。例如&#xff0c;你正在计划一个聚会&…

Spring第三方bean管理

文章目录 1.第三方bean管理1.1 Bean1.2 小结 2.第三方bean依赖注入2.1 简单类型&#xff1a;成员变量2.2 引用类型&#xff1a;方法形参2.3 小结 3.总结 1.第三方bean管理 1.1 Bean 首先看一下目录结构&#xff0c;APP里面就初始化了SpringConfig文件 SpringConifg中就一句话…

【vue】8个非常实用的Vue自定义指令:

文章目录 一、批量注册指令&#xff0c;新建 directives/index.js 文件二、在 main.js 引入并调用【1】v-copy【2】v-longpress【3】v-debounce【4】v-emoji【5】v-LazyLoad【6】v-permission【7】vue-waterMarker【8】v-draggable 复制粘贴指令 v-copy 长按指令 v-longpress 输…

JUnit单元测试之旅

目录 1. 什么是单元测试和JUnit2. JUnit入门与基本注解2.1测试类的定义:2.2 生命周期注解:2.3断言注解:2.4 参数化单参数多参数通过方法获取参数 2.5 测试套件 三.用到的依赖包 1. 什么是单元测试和JUnit 单元测试(Unit Testing)是对软件中的最小可测试单元进行检查和验证。它…

PyCharm使用指南 - 如何创建密码短语生成器(上)

PyCharm是一种Python IDE&#xff0c;其带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具。此外&#xff0c;该IDE提供了一些高级功能&#xff0c;以用于Django框架下的专业Web开发。 PyCharm 最新下载 本文将展示如何使用免费的 PyCharm Community Edition 开…

Java 泛型的介绍

文章目录 1.学习目标2.什么是泛型3.引入泛型语法 4.泛型类的使用语法示例 6.泛型的上界语法示例 7.泛型的方法定义语法示例 8.通配符通配符解决什么问题通配符上界通配符下界 9.包装类基本数据类型和对应的包装类装箱和拆箱自动装箱和自动拆箱 1.学习目标 1.以能阅读 java 集合…

EventLoop事件循环

JavaScript是单线程语言 单线程执行任务队列的问题: 如果前一个任务非常耗时,则后续任务不得不等待,从而导致程序假死的问题。 同步任务和异步任务 ​ 为了防止某个耗时任务程序导致假死的问题,javascript把待执行的任务分为两类: 同步任务(synchronous) 又叫非耗时任务,指…

vue3-实战-02-管理后台项目集成

目录 1-集成element-plus 2-src别名配置 3-环境变量配置 4-svg图标配置 4.1-svg插件安装配置 4.2-svg封装为全局组件 5-集成sass 6-mock数据 7-axios二次封装 上一篇文章记录了项目初始化和项目配置&#xff0c;本章我们来进行项目集成。 1-集成element-plus 本次管…

【PWN · 总结】system返回shell(‘/bin/sh‘、‘sh‘、$(0))

pwn题中要通过system/excute等返回shell&#xff0c;进而cat flag。今天遇到一题&#xff0c;参数$(0)也可返回&#xff0c;有必要记录一下。 目录 前言 一、/bin/sh 1.strings 2.IDA 3.pwntools 4.ROPgadget 5.libc中寻找 二、sh 三、$(0) exp IDA查看机器码 …

交换机的4种网络结构方式:级联方式、堆叠方式、端口聚合方式、分层方式

交换机是计算机网络中重要的网络设备之一&#xff0c;用于实现局域网&#xff08;LAN&#xff09;内部的数据转发和通信。交换机可以采用不同的网络结构方式来满足不同的网络需求和拓扑结构。本文将详细介绍交换机的四种网络结构方式&#xff1a;级联方式、堆叠方式、端口聚合方…

c语言编程练习题:7-112 约分最简分式

#include <stdio.h> int gcd(int a,int b) {if(a<b)return gcd(b,a);if(a%b0)return b;elsegcd(b,a%b); } int main(){int a,b;if (scanf("%d/%d",&a,&b)!EOF){// 分析不敲钟的时间int gcd_value gcd(a,b);printf("%d/%d",a/gcd_value,b…