【大数据之Hive】十二、Hive-HQL查询之分组、join、排序

news2025/1/11 22:42:48

一、分组

1 group by 语句

  group by 通常和聚合函数一起使用,按照一个或多个列的结果进行分组,任何对每个租执行聚合操作。
  用group by时,select中只能用在group by中的字段和聚合函数。

--计算emp每个部门中每个岗位的最高薪水:
select t.deptnum,t.job,max(t.sal) max_sal from emp t group by t.deptnum,t.job;

hive sql执行过程:
在这里插入图片描述

2 having语句

having对分组聚合后的组进行过滤,针对一组数据。

having和where不同点:
(1)where后不能用分组聚合函数,having可以。
(2)having只用于group by 分组统计语句。

如:

--求每个部门的平均工资:
select deptnum,avg(sal) avg_sal from emp group by deptnum;

--求部门平均工资大于2000的部门:
select deptnum,avg(sal) avg_sal from emp group by deptnum having avg_sal > 2000;

HQL执行过程:
在这里插入图片描述

二、join语句

1 等值join

Hive支持通常的sql join语句,但是只支持等值连接,Hive2.x之前不支持非等值连接。

--根据员工表和部门表中的相等的部门号,查询员工编号、员工名称和部门名称
select e.empnum,e.ename,d.dname from emp e join dept d on d.deptnum=e.deptnum;

HQL执行过程:
在这里插入图片描述

2 表的别名

优点:别名能简化查询,可以区分字段来源。

select e.*,d.* from emp e join dept d on d.deptnum=e.deptnum;

3 内连接

只有进行连接的两个表都存在,与连接条件匹配的数据才会保留下来。

select e.empnum,e.ename,d.dname from emp e join dept d on d.deptnum=e.deptnum;

4 左外连接

返回join操作符左边表中符合where子句的所有记录。

select e.empnum,e.ename,d.deptnum from emp e left join dept d on e.deptnum=d.deptnum;

5 右外连接

返回join操作符右边表中符合where子句的所有记录。

select e.empnum,e.name,d.deptnum from emp e rigth join dept d on e.deptnum=d.deptnum;

6 满外连接

返回所有表中符合where语句条件的所有记录。如果任一表的指定字段没有符合条件的值就用null代替。

select e.empnum,e.ename,d.deptnum from emp e full join dept d on e.deptnum=d.deptnum;

7 内连接,左外、右外、满外连接的区别

  满外连接(全外连接)是左外连接和右外连接的结合。

数据集合上的区别:
(1)内连接:A join B,是A和B的公共数据集。
(2)左外连接:A left join B,是A和B的公共数据集,且连接A除公共数据集以外的所有数据。
(3)右外连接:A rigth join B,是A和B的公共数据集,且连接B除公共数据集以外的所有数据。
(4)满外连接:A full join B,是A和B的公共数据集,且连接A、B除公共数据集以外的所有数据。

计算方法上的区别:
(1)内连接:A join B = C
(2)左外连接:A left join B = C + A1
(3)右外连接:A rigth join B = C +B1
(4)满外连接:A full join B = A1 + C +B1
在这里插入图片描述

8 多表连接

连接n个表至少要n-1个条件。

在/opt/module/hive/datas/下创建一个location.txt文件

vim location.txt

#添加以下内容
1700 北京
1800 上海
1900 深圳
--创建表
create table location(
    locid int,
    locname string
)
row format delimited fields terminated by '\t';

--从本地导入数据
load data local inpath '/opt/module/hive/datas/location.txt' into table location;

--多表连接查询
select e.ename,d.dname,l.locname from emp e 
join dept d on e.deptnum=d.deptnum 
join location l on d.locid=l.locid;

  Hive会对每一个join连接对象启动一个MR任务。Hive执行顺序是从左到右的,上述例子首先启动一个MR任务对表e和表d连接,再启动一个MR任务连接第一个MR的输出和表l。
在这里插入图片描述

9 笛卡尔集

  A(n)表的所有行与B(m)表的所有行关联在一起,生成一个n*m行的表。

笛卡尔集产生条件:
(1)省略连接条件。
(2)连接条件无效。
(3)所有表中的所有行相互连接。

select empnum,dname from emp,dept;

在这里插入图片描述
HQL执行过程:
在这里插入图片描述

10 联合(union & union all)

  union和union all都是上下拼接sql的结果,而join是左右关联。union去重,union all不去重。

union和union all上下拼接要求:
(1)两个sql结果列的个数必须相同。
(2)两个sql结果上下所对应列的类型必须一致。
(3)必须连接两个select查询语句,结果的字段名以第一条select语句的字段名来显示。

--将员工表部门30的员工信息和部门40的员工信息用union拼接显示:
select * from emp where deptnum=30 union select * from emp where deptnum=40;

在这里插入图片描述

三、排序

1 全局排序(order by)

  全局排序order by只有一个reduce,且 order by 放在select句子末尾。order by常与limit连用,由于limit,在Map端进行order by时只需要传限制的部分数据给Reduce端,减小了reduce的压力。
(1)asc(默认升序)
(2)desc(降序)

--查询员工信息按工资升序排序:
select * from emp order by sal;

----查询员工信息按工资降序排序:
select * fromm emp order by sal desc;

--按列别名排序:
select ename,sal * 2 twosal from emp order by twosal;

--按部门和工资升序排序(多个列排序):
select ename,deptnum,sal from emp order by deptnum,sal;

HQL执行过程:
在这里插入图片描述
order by 缺点:对于大规模数据集效率非常低。
解决:多数情况下不需要全局排序,可以用sort by进行内部排序。

2 每个reduce内部排序(sort by)

  sort by为每一个reduce产生一个排序文件,每个reduce内部进行排序(是Map到Reduce的排序字段)。

--用参数声明方式设置reduce个数:
hive>set mapreduce.job.reduce=3;

--用参数声明方式查看reduce个数:
hive>set mapreduce.job.reduce;

--根据部门编号降序查看员工信息:
select * from emp sort by deptnum desc;

--按部门编号对员工信息降序排序,并把查询结果导入到文件中:
insert overwrite local directory '/opt/module/hive/datas/sortby-result'
select * from emp sort by deptnum desc;

HQL执行过程:
在这里插入图片描述

3 分区(distribute by)

  分区 distribute by类似于MR中的partition(自定义分区),用于控制特定行到某个reducer,结合sort by 使用,通常是为了进行后续的聚集操作。

distribute by 分区规则:
(1)分区字段的hash码与reduce的个数进行取模运算,值相同的在同一个分区。
(2)distribute by 在 sort by 语句之前。

  对于distribute by进行测试,一定要分配多reduce进行处理,否则无法看到distribute by 的效果,测试完之后将mapreduce.job.reduces置-1,否则分区或分桶load数据运行MR任务会出错。

--用参数声明方式设置reduce个数:
hive>set mapreduce.job.reduce=3;

--先按照部门编号进行分区,再按员工薪资降序排序:
insert overwrite local directory '/opt/module/hive/datas/distribute-result'
select * from emp distribute by deptnum sort by sal desc;

hive>set mapreduce.job.reduce=-1;

HQL执行过程:
在这里插入图片描述

4 分区排序(cluster by)

  当 distribute by 和 sort by 字段相同时,可以使用 cluster by 方式 cluster by 同时具有 distribute by 和 sort by 功能,但 cluster by 排序只能升序排序,不能指定排序规则为asc或desc。

--查询员工信息按部门号分区且排序:
--分区时可能将部门2030号分在一个区
select * from emp distribute by deptnum sort by deptnum;

--等价于:
select * from emp cluster by deptnum;

HQL执行过程:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/651477.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++ 设计模式----“单一职责“模式

二、“单一职责”模式 在软件组件的设计中,如果责任划分的不清晰,使用继承得到的结果往往是随着需求的变化,子类急剧膨胀,同时充斥着重复代码,这时候的关键是划清责任。  典型模式 • Decorator • Bridge 【1】D…

RabbitMQ高阶使用延时任务

目录 1 从打车开始说起1.1 需要解决的问题1.1.1 打车超时 2 延时任务2.1 什么是延时任务2.1.1 和定时任务区别 2.2 延时队列使用场景2.3 常见方案2.3.1 数据库轮询2.3.1 JDK的延迟队列2.3.3 netty时间轮算法2.3.4 使用消息队列 2.4 延时队列2.4.1 TTL(消息过期时间) 2.4.1.1 配…

第七十五天学习记录:高等数学:定积分(宋浩板书)

定积分是微积分中的一个重要概念,表示在给定区间上函数曲线下的面积或有向曲线与坐标轴围成的面积。定积分通常用符号 ∫ 来表示,具体形式为 ∫f(x) dx。 对于给定的函数 f(x) 和区间 [a, b],定积分的计算可以通过求函数 f(x) 在该区间上的原…

【C++】STL的vector容器

目录 2、vector容器 1.1模板实例化 1.2定义与初始化vector对象 2.1vector构造函数 2.2vector赋值操作 2.2vector的容量和大小 2.4vector的插入 2.5vector的删除 2.6vector数据存取 2.7vector互换容器 2.8vector预留空间 2、vector容器 vector是C最常用的容器之一&a…

深度学习(神经网络)

文章目录 神经网络历史形式神经元模型(M-P模型)感知器多层感知器 误差反向传播算法误差函数和激活函数误差函数二次代价函数交叉熵代价函数 激活函数sigmoid函数RELU函数 似然函数softmax函数 随机梯度下降法批量学习方法在线学习小批量梯度下降法 学习率…

<Linux开发>驱动开发 -之-阻塞、非阻塞IO和异步通知

<Linux开发>驱动开发 -之-阻塞、非阻塞IO和异步通知 交叉编译环境搭建: <Linux开发> linux开发工具-之-交叉编译环境搭建 uboot移植可参考以下: <Linux开发> -之-系统移植 uboot移…

easyui01(基本布局)

一.概述 1.What? jQuery EasyUI是一组基于jQuery的UI插件集合体,能帮助web开发者更轻松的打造出功能丰富并且美观的UI界面 2.Why? ①.使用easyui 不需要写很多代码,只需要编写一些简单 HTML 标记,就可以定义用户界…

Java优先级队列源码分析

先导课程:二叉堆学习 优先级队列 1. Priority Queue 优先级队列(Priority Queue)也是队列 普通队列按照FIFO原则,也就是先进先出优先级队列按照优先级高低进行出队,比如将优先级最高的元素作为队头优先出队 基本接口和…

Vue3中Composition 其他一些API

一、 Reactive判断的API 1. isProxy 检查对象是否由reactive或者readonly创建的proxy &#xff0c;返回一个布尔值 <script setup> import { reactive, readonly, isProxy } from vuelet foo readonly({ name: WFT1 }) // 其中的属性不可修改let bar reactive({ n…

DeepSpeed结合Megatron-LM训练GPT2模型笔记(上)

文章目录 0x0. 前言0x1. Megatron使用单卡训练GPT2依赖安装准备训练数据训练详细流程和踩坑 0x2. Megatron使用单卡预测训练好的GPT2模型0x3. 参数量和显存估计参数量估计训练显存占用估计 0x4. Megatron使用多卡训练GPT2模型2卡数据并行2卡模型并行 0x5. 总结 0x0. 前言 本文…

【V4L2】 v4l2框架分析之v4l2_subdev

文章目录 一、v4l2_subdev简介二、初始化v4l2_subdev三、注册/注销subdev四、异步注册子设备 一、v4l2_subdev简介 相关源码文件&#xff1a; /include/media/v4l2-subdev.h/drivers/media/v4l2-core/v4l2-subdev.c 在linux内核中&#xff0c;许多驱动程序需要与子设备通信&…

【嵌入式linux】spi驱动加载后probe函数未执行的问题

【嵌入式linux】spi驱动加载后probe函数未执行的问题 问题描述解决办法 问题描述 嵌入式linux平台下的spi分为设备、总线和驱动&#xff0c;一般半导体原厂已经实现好了spi设备和总线的相关代码&#xff0c;开发者只需根据实际使用情况修改设备树以及编写驱动部分的代码即可。…

Android进阶 四大组件的工作过程(四):ContentProvider的工作过程

Android进阶 四大组件的工作工程&#xff08;四&#xff09;&#xff1a;ContentProvider的工作过程 导语 本篇是介绍四大组件的最后一篇文章&#xff0c;前三篇文章里我们已经介绍了Activity&#xff0c;Service以及Broadcast的工作流程&#xff0c;那么这篇文章我们就来介绍…

【数据结构与算法分析】一文搞定插入排序、交换排序、简单选择排序、合并排序的代码实现并给出详细讲解

文章目录 排序相关的基本概念排序算法及其实现插入排序直接插入排序折半插入排序希尔排序 交换排序冒泡排序快速排序 合并排序归并排序简单选择排序 算法比较 排序相关的基本概念 排序&#xff1a;将数组中所有元素按照某一顺序(从小到大或从大到小)重新排列的过程。排序算法的…

DJ2-5 内容分发网络 CDN

目录 单一的大规模数据中心 内容分发网络 CDN 单一的大规模数据中心 存在三个问题&#xff1a; ① 如果客户远离数据中心&#xff0c;服务器到客户的分组将跨越许多通信链路并很可能通过许多 ISP&#xff0c;给用户带来恼人的时延。 ② 流行的视频很可能经过相同的通信链路…

[C++11] 智能指针

长路漫漫&#xff0c;唯剑作伴。 目录 长路漫漫&#xff0c;唯剑作伴。 为什么需要智能指针 RAII 使用RAII思想管理内存 重载 * 和-> 总结一下智能指针的原理&#xff1a; C的智能指针和拷贝问题 auto_ptr (C98) ​编辑 auto_ptr的实现原理…

EmGUCV中类函数 FastFeatureDetector使用详解

FastFeatureDetector Class 释义&#xff1a;FAST&#xff08;加速检测特&#xff09;关键点检测器&#xff0c;源自 E. Rosten ("Machine learning for high-speed corner detection, 2006). 继承关系&#xff1a;Emgu.CV.Features2D.FastFeatureDetector 派生&#xff…

记录好项目D5

记录好项目 你好呀&#xff0c;这里是我专门记录一下从某些地方收集起来的项目&#xff0c;对项目修改&#xff0c;进行添砖加瓦&#xff0c;变成自己的闪亮项目。修修补补也可以成为毕设哦 本次的项目是 商品信息管理系统 技术栈&#xff1a;SpringBoot Mybatis Thymelea…

MATLAB|主动噪声和振动控制算法——对较大的次级路径变化具有鲁棒性

\ &#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭…

细谈容器化技术实现原理--以Docker为例

目录 一、Docker解决了什么 二、容器的发展过程 三、容器基础 3.1. 容器实现的原理&#xff1a; ⚠️原理详解&#xff1a; 3.1.1. Namespace 3.1.2. Cgroups 3.1.3. chroot 四、Volume 4.1. Docker是如何做到把一个宿主机上的目录或者文件&#xff0c;挂载到容器里面…