一、数据帧 - DataFrame
(一)准备工作
1、准备数据文件
2、启动Spark Shell
(二)加载数据为Dataset
1、读文件得数据集
2、显示数据集内容
3、显示数据集模式
(三)给数据集添加元数据信息
1、定义学生样例类
2、导入隐式转换
3、将数据集转换成学生数据集
4、对学生数据集进行操作
(1)显示数据集内容
(2)打印数据集模式
(3)对数据集进行投影操作
(4)对数据集进行过滤操作
显示年龄在[19, 20]之间的记录
(5)对数据集进行统计操作
求20岁以上的女生人数
分组统计男女生总年龄
分组统计男女生平均年龄
分组统计男女生最大年龄
分组统计男女生最小年龄
(6)对数据集进行排序操作
按年龄升序排列
按年龄降序排列
先按性别升序排列,再按年龄降序排列
(7)重命名数据集字段
(四)将数据集转为数据帧
1、将数据集转为数据帧
2、对学生数据帧进行操作
(1)显示数据帧内容
(2)显示数据帧模式信息
(3)对数据帧进行投影操作
(4)对数据帧进行过滤操作
查询年龄在19岁以上的记录
查询20岁以上的女生记录
(5)对数据帧进行统计操作
统计学生数据帧总记录数
分组统计男女生总年龄
分组统计男女生平均年龄
分组统计男女生最大年龄
分组统计男女生最小年龄
分组统计男女生人数
(6)对数据帧进行排序操作
对年龄升序排列
对年龄降序排列
先按性别升序,再按年龄降序
(7)重命名数据帧字段
(五)基于数据帧进行SQL查询
1、基于数据帧创建临时视图
基于学生数据帧studentDF,创建一个临时视图student,就可以对student视图进行SQL操作
如果临时视图存在,使用这个命令就会报错
2、使用spark对象执行SQL查询
(1)查询全部表记录
(2)显示数据表结构
(3)对表进行投影操作
(4)对表进行选择操作
查询年龄在19岁以上的记录
查询20岁以上的女生记录
(5)对表进行统计操作
查询学生表总记录数
分组统计男女生总年龄
分组统计男女生平均年龄
分组统计男女生最大年龄
(6)对表进行排序操作
按年龄升序排列
先按性别升序,再按年龄降序
(7)重命名数据表字段
无法解析中文别名