Hive---窗口函数

news2024/11/24 16:45:09

Hive窗口函数

其他函数: Hive—Hive函数


文章目录

  • Hive窗口函数
  • 开窗
  • 数据准备
  • 建表
    • 导入数据
    • 聚合函数
    • window子句
    • LAG(col,n,default_val) 往前第 n 行数据
    • LEAD(col,n, default_val) 往后第 n 行数据
    • ROW_NUMBER() 会根据顺序计算
    • RANK() 排序相同时会重复,总数不会变
    • DENSE_RANK() 排序相同时会重复,总数会减少
    • first_value取分组内排序后,截止到当前行,第一个值
    • last_value取分组内排序后,截止到当前行,最后一个值
    • NTILE(n) 数据切片函数


开窗

又称开窗函数

OVER():指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变而变化

数据准备

字段为 name,orderdata,cost

jack,2015-01-01,10
tony,2015-01-02,15
jack,2015-02-03,23
tony,2015-01-04,29
jack,2015-01-05,46
jack,2015-04-06,42
tony,2015-01-07,50
jack,2015-01-08,55
mart,2015-04-08,62
mart,2015-04-09,68
neil,2015-05-10,12
mart,2015-04-11,75
neil,2015-06-12,80
mart,2015-04-13,94

建表

----建表------
create table if not exists t_window(
    name string,
    orderdate date,
    cost int
)

导入数据

原始数据的已经上传到hdfs上

load data inpath '/order.csv' into table  t_window;

# 查看数据
select * from t_window;

在这里插入图片描述

聚合函数

常见聚合函数(count(),sum(),max(),min(),avg()……)

---全表数据cost的总和
select name,orderdate,cost,sum(cost) over () from t_window;

在这里插入图片描述

window子句

UNBOUNDED 起点
CURRENT ROW 当前行
n PRECEDING 往前 n 行数据
n FOLLOWING 往后 n 行数据
UNBOUNDED PRECEDING 表示从前面的起点
UNBOUNDED FOLLOWING 表示到后面的终点
select name,orderdate,cost,
       sum(cost) over (partition by name order by orderdate rows between unbounded preceding and unbounded following) as row1,---个人累计消费总和
       sum(cost) over(partition by name order by orderdate) as row2,--个人截止到当前时间的消费总和
       sum(cost) over(partition by name order by orderdate rows between unbounded preceding and current row ) as row3,--个人截止到当前时间的消费总和
       sum(cost) over(partition by name order by orderdate rows between 1 preceding and current row ) as row4,---当前消费额与上一次消费额的总和
       sum(cost) over(partition by name order by orderdate rows between 1 preceding and 1 following ) as row5, --前行和前边一行及后面一行
       sum(cost) over(partition by name order by orderdate rows between current row and UNBOUNDED FOLLOWING ) as row6,--当前行及后面所有行
       sum(cost) over(partition by name order by orderdate rows between current row and 3 following) as row7 --当前消费与后三次的消费总额
from t_window;

在这里插入图片描述

LAG(col,n,default_val) 往前第 n 行数据

分区内滞后当前行的参数值

select name,orderdate,cost,
       -----前一个日期
       lag(orderdate,1,'1990-01-01') over (partition by name order by orderdate) as row1
from t_window;

在这里插入图片描述

LEAD(col,n, default_val) 往后第 n 行数据

分区内当前行前导行的参数值

select name,orderdate,cost,
        ----后一个日期
       lead(orderdate,1,'1990-01-01') over (partition by name order by orderdate) as row2
from t_window;

在这里插入图片描述

ROW_NUMBER() 会根据顺序计算

row_number()从1开始,按照顺序,生成分组内记录的序列,row_number()的值不会存在重复,当排序的值相同时,按照表中记录的顺序进行排列

---根据名字分区,消费金额降序排序
select name,orderdate,cost,
       row_number() over (partition by name order by cost desc ) as row1
from t_window;

在这里插入图片描述

RANK() 排序相同时会重复,总数不会变

rank() 生成数据项在分组中的排名,排名相等会在名次中留下空位

select name,orderdate,cost,
       rank() over (partition by name order by cost desc )as row2
from t_window;

在这里插入图片描述

DENSE_RANK() 排序相同时会重复,总数会减少

dense_rank() 生成数据项在分组中的排名,排名相等会在名次中不会留下空位

select name,orderdate,cost,
       dense_rank() over (partition by name order by cost desc )as row3
from t_window;

在这里插入图片描述

first_value取分组内排序后,截止到当前行,第一个值

select name,orderdate,cost
     --------按名字分区,查询第一笔消费的时间与所有时间对比(有需求查询员工的入职时间,与此类似)
   ,first_value(orderdate)over (partition by name order by orderdate)as time1
from t_window;

在这里插入图片描述

last_value取分组内排序后,截止到当前行,最后一个值

select name,orderdate,cost
     --------按名字分区,查询当前行的最后一个时间
   ,last_value(orderdate)over (partition by name order by orderdate)as time2
from t_window;

在这里插入图片描述

NTILE(n) 数据切片函数

把有序窗口的行分发到指定数据的组中,各个组有编号,编号从 1 开始,对于每一行,NTILE 返回此行所属的组的编号
注意:n 必须为 int 类型

select name,orderdate,cost,
       ntile(3) over() as row1---把数据分成三份
from t_window;

在这里插入图片描述

select name,orderdate,cost,
       ntile(3) over(partition by name)as row2---按名字分组 切片成三份
from t_window;

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/401380.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C#要点技术(一) - List 底层源码剖析

1。 ## 常用组件底层代码解析List 底层代码剖析List是一个C#中最常见的可伸缩数组组件,我们常常用它来替代数组,因为它是可伸缩的,所以我们在写的时候不用手动去分配数组的大小。甚至有时我们也会拿它当链表使用。那么到底它的底层是怎么编写…

将Quazip编译成基于32位release版的库时报错的解决方案

开发环境:Win10 Qt5.9.9 注意:阅读本篇文章前,首先阅读Quazip的编译及使用,保姆级教程。 之前写了如何编译Quazip的库,当时是使用MSV2015-64-release来编译的, 具体编译流程可参考之前的文章Quazip的编译及…

3句代码,实现自动备份与版本管理

前言:服务器开发程序、测试版本等越来越多,需要及时做好数据的版本管理和备份,作为21世界的青年,希望这些事情都是可以自动完成,不止做了数据备份,更重要的是做好了版本管理,让我们可以追溯我们…

用Go快速搭建IM即时通讯系统

WebSocket的目标是在一个单独的持久连接上提供全双工、双向通信。在Javascript创建了Web Socket之后,会有一个HTTP请求发送到浏览器以发起连接。在取得服务器响应后,建立的连接会将HTTP升级从HTTP协议交换为WebSocket协议。由于WebSocket使用自定义的协议…

深度学习部署笔记(十): CUDA RunTime API-2.2流的学习

1. 流的定义 流(Stream)是一个基于上下文(Context)的任务管道抽象,是一组由GPU依次执行的CUDA操作序列,其中每个操作可能会使用或产生数据。在一个上下文中可以创建多个流,每个流都拥有自己的任…

Kettle体系结构及源码解析

介绍 ETL是数据抽取(Extract)、转换(Transform)、装载(Load)的过程。Kettle是一款国外开源的ETL工具,有两种脚本文件transformation和job,transformation完成针对数据的基础转换&…

全网最详细的(CentOS7)MySQL安装

一、环境介绍 操作系统:CentOS 7 MySQL:5.7 二、MySQL卸载 查看软件 rpm -qa|grep mysql 卸载MySQL yum remove -y mysql mysql-libs mysql-common rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有 MySQL 软件,有的话继续删除。 软件卸…

单线程的 javascript 如何管理任务

要怎么理解 JavaScript 是单线程这个概念呢?大概需要从浏览器来说起。 JavaScript 最初被设计为浏览器脚本语言,主要用途包括对页面的操作、与浏览器的交互、与用户的交互、页面逻辑处理等。如果将 JavaScript 设计为多线程,那当多个线程同时…

Excel职业版本(4)

图表 图表基本结构 组成元素 图表的分类 柱状图 介绍:在竖直方向比较不同类型的数据 适用场景:用于二维数据集,对于不同类型的数据进行对比,也可用于同一类型的数据在不同的时间维度的数据对比,通过柱子的高度来反…

GeniE 实用教程(五)荷载与边界

目 录一、前言二、位移边界三、工况与组合3.1 荷载工况3.2 荷载组合四、自重/设备/隔间4.1 结构自重4.2 设备荷载4.3 隔间负载五、显式荷载六、环境荷载6.1 点位信息 / Location6.2 波浪数据 / Wave6.2.1 规则波数据6.2.2 一般波数据6.3 洋流廓线 / Current Profile6.4 风轮廓线…

【物联网低功耗转接板】+机智云开发体验之遥控灯

在本文中,通过设计一个智能遥控的小灯来介绍一下使用机智云平台的开发过程和体验。一、硬件设计设计硬件电路之前,我先查阅了GE211的规格书,发现预留接口是5V电平。翻找了一下手头的板卡,发现只有一块arduino UNO是5V电平的。因此…

Linux驱动的同步阻塞和同步非阻塞

在字符设备驱动中,若要求应用与驱动同步,则在驱动程序中可以根据情况实现为阻塞或非阻塞一、同步阻塞这种操作会阻塞应用程序直到设备完成read/write操作或者返回一个错误码。在应用程序阻塞这段时间,程序所代表的进程并不消耗CPU的时间&…

buu RSA 1 (Crypto 第一页)

题目描述: 两个文件,都用记事本打开,记住用记事本打开 pub.key: -----BEGIN PUBLIC KEY----- MDwwDQYJKoZIhvcNAQEBBQADKwAwKAIhAMAzLFxkrkcYL2wch21CM2kQVFpY97 /AvKr1rzQczdAgMBAAE -----END PUBLIC KEY-----flag.enc: A柪YJ^ 柛x秥?y…

Vue中 $attrs、$listeners 详解及使用

$attrs 用于父组件隔代向孙组件传值 $ listeners用于孙组件隔代向父组件传值 这两个也可以同时使用&#xff0c;达到父组件和孙组件双向传值的目的。 A组件&#xff08;App.vue&#xff09; <template><div id"app"><!-- 此处监听了两个事件&…

前端包管理工具:npm,yarn、cnpm、npx、pnpm

包管理工具npm Node Package Manager&#xff0c;也就是Node包管理器&#xff1b; 但是目前已经不仅仅是Node包管理器了&#xff0c;在前端项目中我们也在使用它来管理依赖的包&#xff1b; 比如vue、vue-router、vuex、express、koa、react、react-dom、axios、babel、webpack…

描述性统计

参考文献 威廉 M 门登霍尔 《统计学》 文章目录定性数据的描述方法条形图饼图帕累托图定量数据点图茎叶图频数分布直方图MINITAB 工具在威廉《统计学》一书将统计学分为描述统计学和推断统计学&#xff0c;他们的定义分别如下&#xff1a;描述统计学&#xff1a;致力于数据集的…

人生又有几个四年

机缘 不知不觉&#xff0c;已经来 csdn 创作四周年啦~ 我是在刚工作不到一年的时候接触 csdn 的&#xff0c;当时在学习 node&#xff0c;对 node 的文件相关的几个 api 总是搞混&#xff0c;本来还想着在传统的纸质笔记本上记一下&#xff0c;但是想想我大学记了好久的笔记本…

1.Spring Cloud (Hoxton.SR8) 学习笔记—IDEA 创建 Spring Cloud、配置文件样例

本文目录如下&#xff1a;一、IDEA 创建 Spring Cloud 基本步骤创建父项目 (Project)创建子模块 (Module)Spring Cloud 中的依赖版本对应关系?Spring Cloud实现模块间相互调用(引入模块)&#xff1f;Maven项目命名规范&#xff08;groupID、artifactid&#xff09;Spring Clou…

如何使用码匠连接 MariaDB

MariaDB 是一个免费的、开源的关系型数据库管理系统&#xff0c;由 MariaDB 的创始人 Michael Widenius 于 2010 年创建。它基于 MariaDB&#xff0c;但在对数据存储的处理中加入了一些自己的特性。MariaDB 相对于 MariaDB 而言&#xff0c;具有更好的性能和更好的兼容性&#…

JavaWeb--案例(Axios+JSON)

JavaWeb--案例&#xff08;AxiosJSON&#xff09;1 需求2 查询所有功能2.1 环境准备2.2 后端实现2.3 前端实现2.4 测试3 添加品牌功能3.1 后端实现3.2 前端实现3.3 测试1 需求 使用Axios JSON 完成品牌列表数据查询和添加。页面效果还是下图所示&#xff1a; 2 查询所有功能 …