Hive---排序

news2024/10/2 1:29:48

Hive语法之排序

文章目录

  • Hive语法之排序
  • 全局排序(Order By)
    • 升序降序
    • 按照别名排序
    • 多个列排序
  • 每个 Reduce 内部排序(Sort By)
    • 设置 reduce 个数
    • 查看设置 reduce 个数
  • 分区排序(Distribute By)
    • 设置 reduce 个数
  • 簇排序(Cluster By)


全局排序(Order By)

Order By:全局排序,只有一个 Reducer

ORDER BY 子句排序
ORDER BY 子句在 SELECT 语句的结尾

ASC(ascend): 升序(默认)
DESC(descend): 降序

升序降序

查询员工按消费升序排列

select * from t_window order by cost;

在这里插入图片描述

查询员工按消费升序降序

select * from t_window order by cost desc ;

在这里插入图片描述

按照别名排序

按照顾客消费金额的 2 倍排序

select name, cost*2 twocost from t_window order by twocost;

在这里插入图片描述

多个列排序

按照日期和金额升序排序

select name, orderdate, cost from t_window order by orderdate, cost;

每个 Reduce 内部排序(Sort By)

Sort By:对于大规模的数据集 order by 的效率非常低。在很多情况下,并不需要全局排序,此时可以使用 sort by。
Sort by 为每个 reducer 产生一个排序文件。每个 Reducer 内部进行排序,对全局结果集来说不是排序。

设置 reduce 个数

set mapreduce.job.reduces=3;

查看设置 reduce 个数

set mapreduce.job.reduces;

在这里插入图片描述

根据消费金额查看顾客信息

select * from t_window sort by cost;

在这里插入图片描述

分区排序(Distribute By)

Distribute By: 在有些情况下,我们需要控制某个特定行应该到哪个 reducer,通常是为了进行后续的聚集操作。distribute by 子句可以做这件事。distribute by 类似 MR 中 partition(自定义分区),进行分区,结合 sort by 使用。
对于 distribute by 进行测试,一定要分配多 reduce 进行处理,否则无法看到 distribute by 的效果。
注意:
distribute by 的分区规则是根据分区字段的 hash 码与 reduce 的个数进行模除后,余数相同的分到一个区。
Hive 要求 DISTRIBUTE BY 语句要写在 SORT BY 语句之前。

设置 reduce 个数

set mapreduce.job.reduces=3;

先按日期分区,再按金额降序

select * from t_window distribute by orderdate sort by cost desc;

在这里插入图片描述

簇排序(Cluster By)

当 distribute by 和 sorts by 字段相同时,可以使用 cluster by 方式。
cluster by 除了具有 distribute by 的功能外还兼具 sort by 的功能。但是排序只能是升序排序,不能指定排序规则为 ASC 或者 DESC。

cluster by = distribute by +sort by 。

两种写法等价

select * from t_window cluster by cost
select * from t_window distribute by orderdate sort by cost desc;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/370015.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【华为OD机试模拟题】用 C++ 实现 - 去重求和(2023.Q1)

最近更新的博客 【华为OD机试模拟题】用 C++ 实现 - 分积木(2023.Q1) 【华为OD机试模拟题】用 C++ 实现 - 吃火锅(2023.Q1) 【华为OD机试模拟题】用 C++ 实现 - RSA 加密算法(2023.Q1) 【华为OD机试模拟题】用 C++ 实现 - 构成的正方形数量(2023.Q1) 【华为OD机试模拟…

用数据讲故事:基于分析场景的17条Python使用小结

数据科学的编程需要非常灵活的语言,以最少的代码处理复杂的数据建模场景。作为一名数科小白,我对Python的第一认知是丰富的机器学习算法,但Python有超过12万个第三方库,覆盖从数据预处理、统计分析、数据挖掘及可视化等各种日常数…

linux环境下docker中搭建 jenkins 及自定义访问路径,利用nginx反向代理

前言 前两天发布了完整的 linux服务器上Docker中安装jenkins 在实际的开发中,可能我们并不能直接开放8081端口,常常是通过nginx方向代理来实现的,这里我们来配置一下。 linux环境下docker中搭建 jenkins 及自定义访问路径,nginx反…

农业科技发展所带来的好处:提高农作物产量,提高农民收入

农业科技发展所带来的好处::(1)育种技术:通过育种技术,科学家可以在农作物基因中挑选和改变一些特定的性状,例如增加产量、改善耐旱性和抗病性等等,从而提高农作物产量。&#xff08…

【华为OD机试模拟题】用 C++ 实现 - 猴子爬山(2023.Q1)

最近更新的博客 华为OD机试 - 入栈出栈(C++) | 附带编码思路 【2023】 华为OD机试 - 箱子之形摆放(C++) | 附带编码思路 【2023】 华为OD机试 - 简易内存池 2(C++) | 附带编码思路 【2023】 华为OD机试 - 第 N 个排列(C++) | 附带编码思路 【2023】 华为OD机试 - 考古…

<c++> 类的构造函数与类的析构函数

文章目录类的构造函数什么是构造函数声明和定义构造函数如何使用构造函数默认构造函数类的析构函数什么是析构函数声明和定义析构函数小练习银行账户执行效果类的构造函数 什么是构造函数 Q:什么是类的构造函数 A:构造函数是类的一种特殊成员函数,不需…

Malware Dev 00 - Rust vs C++ 初探

写在最前 如果你是信息安全爱好者,如果你想考一些证书来提升自己的能力,那么欢迎大家来我的 Discord 频道 Northern Bay。邀请链接在这里: https://discord.gg/9XvvuFq9Wb我会提供备考过程中尽可能多的帮助,并分享学习和实践过程…

Python 之 Pandas 分组操作详解和缺失数据处理

文章目录一、groupby 分组操作详解1. Groupby 的基本原理2. agg 聚合操作3. transform 转换值4. apply二、pandas 缺失数据处理1. 缺失值类型1.1 np.nan1.2 None1.3 NA 标量2. 缺失值处理2.1 查看缺失值的情形2.2 缺失值的判断2.3 删除缺失值2.4 缺失值填充在开始之前&#xff…

专题:C++常见最全类和对象中运算符的重载+完整代码

目录 一.运算符重载 1.1.“”重载 成员函数实现方法: 类外友元函数实现方法: 1.2.“-”重载 成员函数实现方法: 类外友元函数实现方法: 1.3.“*”重载 成员函数实现方法: 类外友元函数实现方法: 1.4…

回溯算法3:组合总和III

主要是我自己刷题的一些记录过程。如果有错可以指出哦,大家一起进步。 转载代码随想录 原文链接: 代码随想录 leetcode链接:216.组合总和III 题目: 找出所有相加之和为 n 的 k 个数的组合,且满足下列条件&#xff1a…

使用IDEA社区版如何创建SpringBoot项目?

Spring Boot 就是 Spring 框架的脚⼿架,它就是为了快速开发 Spring 框架⽽诞⽣的。首先谈谈SpringBoot的优点:1.快速集成框架,Spring Boot 提供了启动添加依赖的功能,⽤于秒级集成各种框架。 2.内置运⾏容器,⽆需配置 …

MySQL语法之DQL数据查询语言(数据库的查询)

Java知识点总结:想看的可以从这里进入 目录2.5.4、DQL数据查询1、简单查询2、模糊查询3、连表查询4、自连接5、UNION6、排序7、分页查询8、分组查询9、子查询in10、子查询EXISTS2.5.4、DQL数据查询 数据库的基本功能,对数据进行查询。关键字select&…

MySQL基础知识-刷题笔记

数据库刷题笔记 查漏补缺,面试八股文,以下内容未说明的均以MySQL数据库为准 where 不能和聚合函数一起使用 having可以和聚合函数一起使用 having必须与group by一起使用1、SUBSTRING_INDEX(str ,substr ,n):返回字符substr在str中第n次出现位…

udiMagic 导入 Excel to Tally ERP Crack

关于 udiMagic 软件 udiMagic 是一款可帮助您快速轻松地将数据导入 Tally ERP 的应用程序。它由 Shweta Softwares 创建和分发,于2007 年首次推出。 您可以在 USB 闪存驱动器 [旅行许可证] 中携带 udiMagic,并在具有任何 Tally 版本的任何计算机上使用…

Spring MVC 源码- LocaleResolver 组件

LocaleResolver 组件LocaleResolver 组件,本地化(国际化)解析器,提供国际化支持回顾先来回顾一下在 DispatcherServlet 中处理请求的过程中哪里使用到 LocaleResolver 组件,可以回到《一个请求的旅行过程》中的 Dispat…

【C++】json数据处理

Json是一种轻量级的数据交换格式。 文章目录1. cJson介绍2. 解析json数据3. 封装json数据4. 从文件中读取json1. cJson介绍 JSON对象是一个无序的"名称/值"键值对的集合: 以"{“开始,以”}"结束,允许嵌套使用&#xff…

相约3.8!罗姆EEPROM在线研讨会

科技的迭代更新速度不断超乎想象,人们也越来越追求数据的可追溯性和安全性,为避免意外情况导致数据丢失,在车载、工业等领域中,数据存储更经常使用安全性较好的EEPROM【带电可擦除可编程只读存储器】。与FLASH存储器的按“片”擦写…

偏向锁、轻量级所、自旋锁、重量级锁,它们都是什么?它们之间有什么关系?为什么会有这些锁?

互斥锁的本质是共享资源。 当有多个线程同时对一个资源进行操作时,为了线程安全,要对资源加锁。 更多基础内容参看上文《深入了解Java线程锁(一)》 接下来,我们来看看两个线程抢占重量级锁的情形: 上图讲述了两个线程ThreadA和…

JDBC-

文章目录JDBC1,JDBC概述1.1 JDBC概念1.2 JDBC本质1.3 JDBC好处2,JDBC快速入门2.1 编写代码步骤2.2 具体操作3,JDBC API详解3.1 DriverManager3.2 Connection (事务归我管)3.2.1 获取执行对象3.2.2 事务管理3.3 Stateme…

CSS 浮动【快速掌握知识点】

目录 前言 一、设置浮动属性 二、确定浮动元素的宽度 三、清除浮动 总结: 前言 CSS浮动是一种布局技术,它允许元素浮动到其父元素的左侧或右侧,从而腾出空间给其他元素。 一、设置浮动属性 使用CSS float属性将元素设置为浮动。例如&…