4.1 Spark SQL概述、数据帧与数据集

news2024/11/16 23:39:59

一、数据帧 - DataFrame

(一)准备工作

1、准备数据文件
在这里插入图片描述
在这里插入图片描述
2、启动Spark Shell
在这里插入图片描述

(二)加载数据为Dataset

1、读文件得数据集
在这里插入图片描述
2、显示数据集内容
在这里插入图片描述
3、显示数据集模式
在这里插入图片描述

(三)给数据集添加元数据信息

1、定义学生样例类
在这里插入图片描述
在这里插入图片描述
2、导入隐式转换
在这里插入图片描述
3、将数据集转换成学生数据集
在这里插入图片描述
4、对学生数据集进行操作
(1)显示数据集内容
在这里插入图片描述
(2)打印数据集模式
在这里插入图片描述
(3)对数据集进行投影操作
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(4)对数据集进行过滤操作
在这里插入图片描述
显示年龄在[19, 20]之间的记录
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(5)对数据集进行统计操作
求20岁以上的女生人数
在这里插入图片描述分组统计男女生总年龄
在这里插入图片描述
分组统计男女生平均年龄
在这里插入图片描述
分组统计男女生最大年龄
在这里插入图片描述
分组统计男女生最小年龄
在这里插入图片描述
(6)对数据集进行排序操作
按年龄升序排列
在这里插入图片描述
按年龄降序排列
在这里插入图片描述
在这里插入图片描述
先按性别升序排列,再按年龄降序排列
在这里插入图片描述
在这里插入图片描述
(7)重命名数据集字段
在这里插入图片描述

(四)将数据集转为数据帧

1、将数据集转为数据帧
在这里插入图片描述
2、对学生数据帧进行操作
(1)显示数据帧内容
在这里插入图片描述

(2)显示数据帧模式信息
在这里插入图片描述
(3)对数据帧进行投影操作
在这里插入图片描述
(4)对数据帧进行过滤操作
查询年龄在19岁以上的记录
在这里插入图片描述
查询20岁以上的女生记录
在这里插入图片描述
(5)对数据帧进行统计操作
统计学生数据帧总记录数
在这里插入图片描述
分组统计男女生总年龄
在这里插入图片描述
分组统计男女生平均年龄
在这里插入图片描述
分组统计男女生最大年龄
在这里插入图片描述
分组统计男女生最小年龄
在这里插入图片描述分组统计男女生人数
在这里插入图片描述

(6)对数据帧进行排序操作
对年龄升序排列
在这里插入图片描述
对年龄降序排列
在这里插入图片描述
先按性别升序,再按年龄降序
在这里插入图片描述
(7)重命名数据帧字段
在这里插入图片描述

(五)基于数据帧进行SQL查询

1、基于数据帧创建临时视图
基于学生数据帧studentDF,创建一个临时视图student,就可以对student视图进行SQL操作
在这里插入图片描述
如果临时视图存在,使用这个命令就会报错
在这里插入图片描述
2、使用spark对象执行SQL查询
(1)查询全部表记录
在这里插入图片描述
(2)显示数据表结构
在这里插入图片描述
(3)对表进行投影操作
在这里插入图片描述
(4)对表进行选择操作
查询年龄在19岁以上的记录
在这里插入图片描述
查询20岁以上的女生记录
在这里插入图片描述
(5)对表进行统计操作
查询学生表总记录数
在这里插入图片描述
分组统计男女生总年龄
在这里插入图片描述
分组统计男女生平均年龄
在这里插入图片描述
分组统计男女生最大年龄
在这里插入图片描述
(6)对表进行排序操作
按年龄升序排列
在这里插入图片描述
先按性别升序,再按年龄降序
在这里插入图片描述
(7)重命名数据表字段
在这里插入图片描述
无法解析中文别名

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/592981.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

强!PCB“金手指”从设计到生产全流程

在电脑内存条、显卡上,有一排金黄色导电触片,就是大家俗称的“金手指”。 在PCB设计制作行业中的“金手指”(Gold Finger,或称Edge Connector),是由connector连接器作为PCB板对外连接网络的出口。 关于“金手指”你知道多少呢&a…

像核战争一样,AI可能灭绝人类:Geoffrey Hinton、Sam Altman等百名专家签署了一封公开信

多位图灵奖得主、顶级 AI 公司 CEO、顶尖高校教授,与数百位在各自领域享有话语权的专家,共同签署了一份公开信,内容简单却有力: 降低 AI 灭绝人类的风险,应该与大流行病、核战争等其他社会规模的风险一样,…

AI落地:儿童节礼物指南

这个儿童节,用AI做点不一样的礼物,给孩子一个惊喜。 可行清单: 写走心的贺卡(增强表达能力,培养心思细腻)用AI让孩子的画的小人动起来(激发创造力,培养想象力)把孩子的…

Ansys Zemax | 如何模拟部分反射和散射的表面

这篇文章介绍了如何模拟一个部分反射的表面,该表面会根据指定的散射分布对一部分入射光能量进行散射。本文介绍的示例包含部分吸收以及部分镜面反射的情况。(联系我们获取文章附件) 介绍 使用 OpticStudio 非序列模式模拟散射和膜层的能力,我们可以模拟一…

MFC按钮中添加图标

目录 一、创建对话框 二、 开始添加 1、将.ico图片放进res路径下 2、添加资源 3、添加按钮 4、将按钮属性中icon修改为true 5、代码添加 一、创建对话框 首先需要创建个对话框程序,参考之前写的博客: mfc入门基础(三)创…

浅谈智能化配电室在居民小区的建设应用

安科瑞 徐浩竣 江苏安科瑞电器制造有限公司 zx acrelxhj 摘要:近年来居民小区配电室的数量增长快且设备情况较复杂,以致巡视效果不理想、缺陷和事故处理不及时,亟需建立一套智能化的配电室监控系统。按照实用性、统一性、分层和模块化设计…

RobotFramework接口测试方案

1. Robot FrameWork介绍 1.1 介绍 Robot Framework是用于验收测试和回归测试的通用测试自动化框架。它使用易于理解的表格数据语法,非常友好的实现了关键字驱动和数据驱动模式。它的测试功能可以通过使用Python或Java实现的测试库进行扩展,用户可以使用…

RCE代码及命令执行漏洞全解(30)

web应用中,有时候程序员为了考虑灵活性,简洁性,会在代码中调用代码或执行命令执行函数去处理。 比如当应用在调用一些能将字符串转化成代码的函数时,没有考虑用户是否能够控制这些字符串,将代码执行漏洞,同…

华为OD机试真题B卷 Java 实现【求最大连续bit数】,附详细解题思路

一、题目描述 求一个int类型数字对应的二进制数字中1的最大连续数,例如3的二进制为00000011,最大连续2个1。 二、输入描述 输入一个int类型数字。 三、输出描述 输出转成二进制之后连续1的个数。 四、解题思路 首先通过输入获取一个 int 类型的数…

K8s环境使用Triton实现云端模型推理

前置条件:K8集群、helm 1、以模型名作为目录名,创建目录 mkdir resnet50_pytorch 2、将模型文件、配置文件(输入、输出等)存到刚创建的目录下,resnet50_pytorch目录下文件层级结构如下 model-respository/ └── …

【C++模版】模版进阶 {非类型模版参数; 模版的特化; 模版的分离编译; 模版总结}

一、非类型模版参数 模板参数分类型形参与非类型形参。 类型形参:出现在模板参数列表中,跟在class或者typename之后的参数类型名称。非类型形参:就是用一个常量作为类(函数)模板的一个参数,在类(函数)模板中可将该参数当成常量来…

mysql中的锁浅析

前言 MySQL 锁机制是保证多个并发事务同时访问数据库时数据一致性的重要手段,也是 MySQL 的重要特性之一。在实际开发使用 MySQL 数据库时,了解并掌握 MySQL 的锁机制非常重要,因为不正确的锁机制使用很容易出现严重的性能瓶颈和数据不一致等…

尚硅谷大数据hadoop教程_mapReduce

p67 课程介绍 p68概述 p69 mapreduce核心思想 p70 wordcount源码 序列化类型 mapReduce三类进程 p71 编程规范 用户编写的程序分成三个部分:Mapper、Reducer和Driver。 P72 wordcount需求案例分析 p 73 -78 案例环境准备 (1)创建maven…

写代码?文心一言or文言文,谁更胜一筹?新工具或许可堪重任

中国版的ChatGPT“文心一言”写代码能力尚浅 被称为中国版的“ChatGPT”的“文心一言”可以说是上市几个月了,很多用户都受到了邀请码来体验,遗憾的是,小编早就申请了,但还在排队等待中。虽然没有亲自体验过百度的“文心一言”&a…

NET HELPMSG 3534 报错(以及其他一些在配置过程中遇到的问题)

使用了带管理员权限的 PowerShell(即在管理员权限下运行CMD) 然后进行安装和服务启动操作 1、清空 MySQL 下的 data 文件夹; 2、确保系统环境变量中已经配置了 mysql 的 bin 目录到Path中; 3、执行以下命令: sc delet…

基于条件风险价值CVaR的微网动态定价与调度策略(matlab代码)

目录 1 主要内容 模型示意图 电能交易流程 模型亮点 2 部分代码 3 程序结果 4 下载链接 1 主要内容 程序复现文章《A cooperative Stackelberg game based energy management considering price discrimination and risk assessment》,建立基于主从博弈的考…

【封装frame模型 Objective-C语言】

一、计算每行的高度 1.计算每行的高度,它就等于最后这个控件, 如果说,当前这行是有配图的,那么这个行高,就等于这个配图最大的Y值,加上一个margin, 如果说,这行是没有配图的 如果说,这行是没有配图的 那么就等于它正文的最大的Y值,加一个margin, 是不是很简单,…

海昌海洋公园携手盖雅工场,数字化人才管理助力企业踏浪前行

五一假期刚刚结束,但各地主题公园里的游客依然爆满。在这种客流高峰期,游客更加关注乐园的细节和服务水平,保障服务品质和顾客体验是各地主题乐园在竞争中脱颖而出的关键因素之一。为此,乐园高峰期需要大量招聘短期工、临时工、兼…

全网最详细,全链路压力测试整理,银行系统项目...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 软件测试银行业务…

k8s污点与容忍

1.前言 污点是给node节点打上污点标签,使得pod不能往该node节点上调度,污点有三种模式,分别是NoSchedule、PreferNoSchedule、NoExecute,容忍是给pod打上和node节点一样的污点标签,使pod能调度到带有该污点标签的node…