高频面试八股文用法篇(二) hive中几种排序类型区别

news2026/2/18 14:51:59

目录

排序函数

1、order by

2、sort by

3、distribute by

4、cluster by

总结

排序类型

1、order by

order by是与关系型数据库的用法是一样的。select * from emp order by empno desc;

针对全局数据进行排序，所以最终只会有1个reduce，因为一个reduce对应一个输出文件，全局排序的话只能有一个输出文件，这个是不受hive的参数控制的。如果要查询的结果集数据量比较大的话，只有一个reduce运行，那么效率会非常低，所以在实际应用中一定要谨慎使用order by。

2、sort by

对每一个reduce内部进行排序，而对全局结果集来说是没有进行排序的。
1）一般在实际使用中会比较经常使用sort by。

2）需要先设置reduce的数量；设置执行时reduce的个数： set mapreduce.job.reduces=<number> 查询语句为： select * from emp sort by empno asc;

3）每个输出结果的文件中的数据都是按empno进行排好序的。

3、distribute by

类似于MapReduce中的partition的功能，对数据进行分区排序，一般和sort by结合进行使用。以员工表为例，按照部门进行排序的查询语句写法如下： insert overwrite local directory '/opt/datas/distby-res' select * from emp distribute by deptno sort by empno asc

注意，distribute by必须要在sort by之前，原因是要先进行分区，然后才能进行排序。

例子：

第一个文件的部门编号是30，第二个文件的部门编号是10，第三个部门编号是20。然后每个部门的员工数据都是按照员工编号进行升序排列的。

4、cluster by

cluster by是sort by和distribute by的组合，当sort by和distribute by的字段相同的时候，可以使用cluster by替代。

1）参考查询语句如下： insert overwrite local directory '/opt/datas/clustby-res' select * from emp cluster by empno ;

2）注意，cluster by 后面不能指定desc或者asc，否则会报错。

总结

order by ：全局排序，一个reduce。可能性能会比较差

sort by：每个reduce内部排序，全局不排序。一般在实际使用中会比较经常使用sort by

distribute by：分区排序，需要结合sort by使用

cluster by：当sort by和distribute by的字段相同的时候使用。但是cluster by默认是升序，不能指定排序方向;

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/614639.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

开源 Golang 微服务入门一： HTTP 框架 Hertz

开源 Golang 微服务入门一： HTTP 框架 Hertz

前言从本篇笔记开始将介绍 Go 框架三件套（Web / RPC / ORM），框架的学习有助于后续课程的学习以及大项目的完成。本文主要介绍字节跳动的开源 Golang 微服务 HTTP 框架 Hertz。先了解一下三件套的相关基本知识，做一下铺垫&#x…

阅读更多...

ArgoCD(二)--部署

ArgoCD(二)--部署

3.2 ArgoCD部署 ArgoCD部署官网：https://argo-cd.readthedocs.io/en/stable/getting_started/ ArgoCD有两种部署方式：多租户部署和核心化部署： 多租户常用于多个应用程序开发团队提供服务，并由平台团队维护的场景； …

阅读更多...

BPMN模拟动画执行流程

BPMN模拟动画执行流程

目录第一步：构建BPMN图第二步：开启模拟第三步：执行模拟第四步：监听模拟第一步：构建BPMN图通过id标记，每一个流程第二步：开启模拟 BPMN官方提供了各种各样的模块，比如执行…

阅读更多...

修改linux ssh 22 端口

修改linux ssh 22 端口

1、找到 sshd 的配置文件，增加一行 Port 32586 ,默认是 22 端口，记得，先不要把 22 端口的这一行删除，或者注释，因为我们要先验证一下，我们修改后的端口是否可以使用，都ok后，再把 22 …

阅读更多...

精通Java数组的艺术：从初学者到高手的进阶之路(二)

精通Java数组的艺术：从初学者到高手的进阶之路(二)

⭐ 多维数组⭐ 数组存储表格数据⭐ Comparable 接口 ⭐ 多维数组多维数组可以看成以数组为元素的数组。可以有二维、三维、甚至更多维数组，但是实际开发中用的非常少。最多到二维数组。【eg】二维数组的声明 public class Test {public static void main(Strin…

阅读更多...

一起看 I/O | Wear OS 更新一览

一起看 I/O | Wear OS 更新一览

作者 / Android 开发者关系工程师 Kseniia Shumelchyk 随着 Wear OS 平台的不断发展，我们很高兴与您分享一些最新的功能和改进，以帮助您为用户打造富有吸引力的创新体验。 Peloton 和 Todoist 等合作伙伴一直以来都针对 Wear OS 打造卓越体验&#xff0c…

阅读更多...

Android自定义一个车牌字母选择键盘

Android自定义一个车牌字母选择键盘

在一般和车相关的应用，难免会和车牌打交道，组成车牌的要素，国内无非就是省份简称地区代码英文或者数字组成，比如京A12345，在需要输入车牌的功能上，就需要有省份简称键盘和英文数字键盘了，在上篇…

阅读更多...

深度学习（自编码器）

深度学习（自编码器）

深度学习目录自适应线性单元 (Widrow and Hoff, 1960)神经认知机 (Fukushima, 1980)GPU-加速卷积网络 (Chellapilla et al., 2006)深度玻尔兹曼机 (Salakhutdinov and Hinton, 2009a)无监督卷积网络 (Jarrett et al., 2009b)GPU-加速多层感知机 (Ciresan et al., 2010)分布…

阅读更多...

人工影响天气期末复习笔记

人工影响天气期末复习笔记

（一）什么是人工影响天气利用自然云微物理不稳定性，通过一定的技术方法改变云的微结构，从而改变云降水的发展过程，从而达到增加降水，防雹，消云雾等目的 （二）为什么要人工…

阅读更多...

【历史上的今天】6 月 6 日：世界 IPv6 启动纪念日；《俄罗斯方块》发布；小红书诞生

【历史上的今天】6 月 6 日：世界 IPv6 启动纪念日；《俄罗斯方块》发布；小红书诞生

整理 | 王启隆透过「历史上的今天」，从过去看未来，从现在亦可以改变未来。今天是 2023 年 6 月 6 日，在 2019 年的今天，工信部正式发放 5G 牌照。这一天，有四家企业被颁发了基础电信业务经营许可证，从此…

阅读更多...

社区团购系统源码后台解析

社区团购系统源码后台解析

近年来，随着购物方式的改变，社区团购可以说是越来越受关注了，大家应该对社区团购多多少少有一些认知，其实社区团购这样的商业模式拥有强大的赚钱的潜力，主要就是因为它的运营成本低，而且上手也不需要很复杂…

阅读更多...

FPGA设计的指导性原则（四）

FPGA设计的指导性原则（四）

在FPGA Express/FPGA Compiler II中，用鼠标右键单击编译后的芯片图标，在弹出的命令对话框中选择“Edit Constraints”命令编辑综合约束文件（扩展名为CTL），选择端口（Ports）选项卡，指定所需信号的全局时钟域为 “DONT USE”。图22所示为在FPGA Express综合约束编辑器中…

阅读更多...

私有化部署低代码开发工具：jvs-rules 规则引擎决策流参数说明

私有化部署低代码开发工具：jvs-rules 规则引擎决策流参数说明

JVS规则引擎决策调用通过决策流水号查询入参变量 [请求参数]决策流 GET/mgr/risk//test/parameter/flow/{no} 请求数据类型 application/x-www-form-urlencoded 响应数据类型 [ "*/*" ] 请求参数参数名称参数说明请求类型是否必须数据类型 sch…

阅读更多...

【Flutter混合开发】开发一个简单的快速启动框架

【Flutter混合开发】开发一个简单的快速启动框架

目录前言启动插件Flutter代码Android代码IOS代码启动模块使用android端ios端前言因为在移动端中启动Flutter页面会有短暂空白，虽然官方提供了引擎预热机制，但是需要提前将所有页面都进行预热，这样开发成本较高，在研究了闲鱼的…

阅读更多...

通过点引导掩码表示的弱半监督实例分割

通过点引导掩码表示的弱半监督实例分割

文章目录 The Devil is in the Points: Weakly Semi-Supervised Instance Segmentation via Point-Guided Mask Representation摘要本文方法Weakly Semi-Supervised Instance Segmentation using Point LabelsMask Refinement Network 实验结果消融实验 The Devil is in the Po…

阅读更多...

【JavaEE】HTTP状态码-HTTP数据报的构造

【JavaEE】HTTP状态码-HTTP数据报的构造

HTTP状态码HTTP数据报的构造文章目录 JavaEE & HTTP状态码 & HTTP数据报的构造1. HTTP状态码1.1 200 - OK1.2 404 - Not Found1.3 403 - Forbidden1.4 500 - Internal Server Error1.5 504 - Gateway Timeout1.6 302/301 重定向 2. 构造HTTP请求2.1 浏览器搜索栏输入u…

阅读更多...

Express应用之记账本项目总结

Express应用之记账本项目总结

前言在学完nodejs相关知识后第一个实践就是这个记账本项目，本篇文章是对项目遇到的问题的总结。先聊聊技术栈： 前端技术：h5结合bootstrap框架； 后端技术：nodejsExpress框架lowdb数据库。 gitee地址：ht…

阅读更多...

FinalShell界面左侧为什么能够监测系统指标动态变化的原理并用python实现

FinalShell界面左侧为什么能够监测系统指标动态变化的原理并用python实现

前言： 我们可以看出FinalShell是用Java写的，具体怎么看出来的，不能光看界面logo是Java的logo，还要进它的安装目录下进行查看是否真是用Java编写的！！！ 具体查看如下： 查看finalshe…

阅读更多...

软件外包开发在线监测工具

软件外包开发在线监测工具

软件系统上线后需要在线网络工具监测系统的运行，这样在系统出现故障时第一时间通知到系统维护人员，对于软件系统的稳定运行是必不可少的监测工具。今天和大家分享一些常用的在线监测工具，希望对大家有所帮助。北京木奇移动技术有限公司&#…

阅读更多...

Vue.js 中的 TypeScript 支持是什么？如何使用 TypeScript？

Vue.js 中的 TypeScript 支持是什么？如何使用 TypeScript？

Vue.js 中的 TypeScript 支持 Vue.js 是一款流行的前端框架，它提供了一种简单、灵活的方式来构建用户界面。随着 TypeScript 的普及，Vue.js 也开始支持 TypeScript，使得开发者可以使用类型检查等 TypeScript 特性来提高代码质量和可维护性。…

阅读更多...

推荐文章

最新文章