Hive之窗口函数lag()/lead()

news2025/1/10 17:49:46

一、函数介绍

lag()与lead函数是跟偏移量相关的两个分析函数

通过这两个函数可以在一次查询中取出同一字段的前N行的数据(lag)和后N行的数据(lead)作为独立的列,从而更方便地进行进行数据过滤,该操作可代替表的自联接,且效率更高

lag()/lead()

lag(col,n,DEFAULT)用于统计窗口内往上第n行值
 第一个参数为列名
 第二个参数为往上第n行(可选,默认为1)
 第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL)

lead()函数与lag()函数相反,用于统计窗口内往下第n行值

over()
表示lag()与lead()操作的数据都在over()的范围内,里面可以使用以下子句
 partition by 语句(用于分组)
 order by 语句()用于排序)
如:over(partition by a order by b) 表示以a字段进行分组,再以b字段进行排序,对数据进行查询

二、应用场景

1、查找前一行或前N行的数据

2、比较相邻行的数据

3、查询n天内值是否连续增长的

三、实践案例

有一张表kd_stock_history_info,里面有code(编码),date(日期),amount(销售额)三个字段,表数据如下:

img

通过hive如何获取到连续n天是增长状态的编码。例如查询2023-01-10这天的数据,也就是从2023-01-10这天往前数三天,看这三天的数据中amount是否连续增长,表中1001就不是,1002则符合。

SELECT
  code,
  `date`,
  amount,
  LAG(amount) OVER (PARTITION by code ORDER BY `date`) AS prev_sales,
  amount - LAG(amount) OVER (PARTITION by code ORDER BY `date`) AS sales_diff
FROM
  kd_stock_history_info
where 
`date` BETWEEN DATE_SUB(TO_DATE('2023-01-10'), 2) AND TO_DATE('2023-01-10');

img

 为了更美观一些,调整lag()函数默认值

SELECT
  code,
  `date`,
  amount,
  LAG(amount,1,amount) OVER (PARTITION by code ORDER BY `date`) AS prev_sales,
  amount - LAG(amount,1,amount) OVER (PARTITION by code ORDER BY `date`) AS sales_diff
FROM
  kd_stock_history_info
where 
`date` BETWEEN DATE_SUB(TO_DATE('2023-01-10'), 2) AND TO_DATE('2023-01-10');

img

最终代码:

SELECT code,min(sales_diff) min_sales_diff from (
SELECT
code,
  `date`,
  amount,
  LAG(amount,1,amount) OVER (PARTITION by code ORDER BY `date`) AS prev_sales,
  amount - LAG(amount,1,amount) OVER (PARTITION by code ORDER BY `date`) AS sales_diff
FROM
  kd_stock_history_info
where 
`date` BETWEEN DATE_SUB(TO_DATE('2023-01-10'), 2) AND TO_DATE('2023-01-10') 
) a 
group by code 
having min_sales_diff >= 0;

 更多资料:

Hive Lag函数用法介绍_笔记大全_设计学院 (python100.com)

Hive窗口函数04-LAG、LEAD、FIRST_VALUE、LAST_VALUE-腾讯云开发者社区-腾讯云 (tencent.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/795432.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

VS构建项目报错信息及解决办法05

报错信息及解决8: 报错信息详情:无法解析的外部符号“__iob_func” 原因:因VS不同版本之间对stdin,stdout,stder的定义不同,导致不同VS版本之间无法正确的调用函数。 eg: * 当libjpeg-turbo为vs2010编译时,vs2015下…

qsort的使用及模拟实现

qsort函数是C语言库中提供的一种快速排序,头文件是stdlib.h qsort的使用 qsort函数需要四个参数: 1.排序的起始位置的地址(数组名): arr 2.排序元素的个数: sizeof(arr)/sizeof(arr[0]) 3.排序元素…

使用BERT分类的可解释性探索

最近尝试了使用BERT将告警信息当成一个文本去做分类,从分类的准召率上来看,还是取得了不错的效果(非结构化数据强标签训练,BERT确实是一把大杀器)。但准召率并不是唯一追求的目标,在安全场景下,…

java中线程池、Lambda表达式、file类、递归

线程池: 在多线程的使用过程中,会存在一个问题:如果并发的线程数量很多,并且每个线程都执行一个时间很短的任务就结束,这样频繁的创建线程就会大大降低系统的效率,因为线程的创建和销毁都需要时间。 线程…

maven编译报错

参考链接:mvn打包No compiler is provided in this environment. Perhaps you are running on a JRE rather than a JDK_51CTO博客_mvn打包命令 在执行 yum install -y java-1.8.0-opensdk命令后,使用maven去编译打包,结果报错, …

体渲染光线行进算法【NeRF必读】

为了积分由于内散射而沿射线产生的入射光,我们将射线穿过的体块分解为小体块元素,并将每个小体块元素对整个体块对象的贡献结合起来,有点像我们在 2D 编辑软件(例如 Photoshop)中将带有遮罩或 Alpha 通道(通…

ClickHouse(三):ClickHouse单节点搭建

进入正文前,感谢宝子们订阅专题、点赞、评论、收藏!关注IT贫道,获取高质量博客内容! 🏡个人主页:含各种IT体系技术,IT贫道_Apache Doris,Kerberos安全认证,随笔-CSDN博客 📌订阅:拥抱…

pytorch学习——线性神经网络——1线性回归

概要:线性神经网络是一种最简单的神经网络模型,它由若干个线性变换和非线性变换组成。线性变换通常表示为矩阵乘法,非线性变换通常是一个逐元素的非线性函数。线性神经网络通常用于解决回归和分类问题。 一.线性回归 线性回归是一种常见的机…

WebGPU(八):三角形渲染

WebGPU(八):三角形渲染 三角形的渲染其实很简单,只是需要设置很详细的render pipeline以及shader。 // Select which render pipeline to use wgpuRenderPassEncoderSetPipeline(renderPass, pipeline); // Draw 1 instance of a 3-vertices shape wgp…

C# 全局响应Ctrl+Alt+鼠标右键

一、简述 某些应用,我们希望全局自定义热键。按键少了会和别的应用程序冲突,按键多了可定用户操作不变。因此我计划左手用CtrlAlt,右手用鼠标右键呼出我自定义的菜单。 我使用键盘和鼠标事件进行简单测试(Ctrl鼠标右键&#xff…

TypeScript -- 函数

文章目录 TypeScript -- 函数JS -- 函数的两种表现形式函数声明函数的表达式es6 箭头函数 TS -- 定义一个函数TS -- 函数声明使用接口(定义)ts 定义参数可选参数写法 -- ?的使用TS函数 -- 设置剩余参数函数重载 TypeScript – 函数 JS – 函数的两种表现形式 我们熟知js有两…

MySQLExplain详解

Explain使用场景 查询性能优化:EXPLAIN可以帮助开发者分析查询语句的执行计划,判断是否有效地使用了索引、是否有可能导致全表扫描等性能问题。通过EXPLAIN的输出,可以找到潜在的性能瓶颈,并优化查询语句、创建合适的索引或调整表…

Win11虚拟机安装并使用

windows11 虚拟机安装 操作如下:1.进入微软官网2.打开虚拟机应用创建新虚拟机3.选择刚下载IOS文件4 设置虚拟机磁盘空间大小,这个数字可以随便写,反正都是虚拟的,但不可以低于64GB。下面的是否拆分磁盘文件,可更具需要…

大数据课程C4——ZooKeeper结构运行机制

文章作者邮箱:yugongshiyesina.cn 地址:广东惠州 ▲ 本章节目的 ⚪ 了解Zookeeper的特点和节点信息; ⚪ 掌握Zookeeper的完全分布式安装 ⚪ 掌握Zookeeper的选举机制、ZAB协议、AVRO; 一、Zookeeper-简介 1. 特点…

【计网】什么是三次握手四次挥手

文章目录 1、什么是TCP2、什么是TCP连接2.1、连接概念2.2、如何唯一确定一个TCP连接2.3、TCP最大连接数 3、三次握手3.1、为什么需要三次握手3.2、三次握手过程3.3、为什么一定是三次3.3.1、避免历史连接3.3.2、同步双方初始序列号3.3.3、避免资源浪费3.3.4、总结 3.4、握手丢失…

vue实现卡牌数字动态翻牌效果

vue实现卡牌数字动态翻牌效果 1. 实现效果2. 实现代码 1. 实现效果 在大屏项目中&#xff0c;我们尝尝会遇到卡牌式数字显示且能动态翻牌的效果&#xff0c;效果图如下&#xff1a; 2. 实现代码 <template><div class"days-box"><div class"op…

初探PID—速度闭环控制

由于在调PID时意外把板子烧了&#xff0c;目前只完成了比例调节的调试&#xff0c;整个程序也不太完善&#xff0c;本文当前仅作记录&#xff0c;后续会完善更改。 ——2023.07.26 文章目录 一、什么是PID二、PID有什么用三、PID程序实现 一、什么是PID PID是常用的一种控制算…

windows默认编码格式修改

1.命令提示符界面输入 chcp 936 对应 GBK 65001 对应 UTF-8 2.临时更改编码格式 chcp 936(或65001) 3.永久更改编码格式 依次开控制面板->时钟和区域->区域->管理->更改系统区域设置&#xff0c;然后按下图所示&#xff0c;勾选使用UTF-8语言支持。然后重启电脑。此…

上门小程序开发|上门服务小程序|上门家政小程序开发

随着移动互联网的普及和发展&#xff0c;上门服务成为了许多人生活中的一部分。上门小程序是一种基于小程序平台的应用程序&#xff0c;它提供了上门服务的在线平台&#xff0c;为用户提供了便捷的上门服务体验。下面将介绍一些适合开发上门小程序的商家。   家政服务商家&am…

帮助中心内容需要囊括什么?(内含案例分享)

给产品制作一个帮助中心&#xff0c;让用户能够通过访问帮助中心查看产品相关内容&#xff0c;尽快了解产品&#xff0c;熟悉操作。不仅仅局限于售后&#xff0c;在售中售前都能够发挥很大的作用&#xff0c;帮助用户全面了解产品&#xff0c;减少销售的工作量&#xff0c;节约…