HiveSQL如何生成连续日期剖析

news2025/2/23 18:10:42

HiveSQL如何生成连续日期剖析

情景假设:
有一结果表,表中有start_dt和end_dt两个字段,,想要根据开始和结束时间生成连续日期的多条数据,应该怎么做?直接上结果sql。(为了便于演示和测试这里通过SELECT '2024-03-01' AS start_dt,'2024-03-06' AS end_dt模拟一个结果表数据)

SELECT  t1.start_dt
       ,t1.end_dt
       ,t2.pos
       ,date_add(t1.start_dt,t2.pos) AS conn_dt
FROM
(
    SELECT  '2024-03-01' AS start_dt
           ,'2024-03-06' AS end_dt
) t1 lateral view posexplode(split(repeat(',', DATEDIFF(end_dt, start_dt)), ',')) t2 AS pos, val;
+--------------+-------------+---------+-------------+
| t1.start_dt  |  t1.end_dt  | t2.pos  |   conn_dt   |
+--------------+-------------+---------+-------------+
| 2024-03-01   | 2024-03-06  | 0       | 2024-03-01  |
| 2024-03-01   | 2024-03-06  | 1       | 2024-03-02  |
| 2024-03-01   | 2024-03-06  | 2       | 2024-03-03  |
| 2024-03-01   | 2024-03-06  | 3       | 2024-03-04  |
| 2024-03-01   | 2024-03-06  | 4       | 2024-03-05  |
| 2024-03-01   | 2024-03-06  | 5       | 2024-03-06  |
+--------------+-------------+---------+-------------+

如果对涉及到的函数和语法不是特别了解,直接看到上述结果可能有点懵,接下来换个形式理解下,即如下sql

SELECT  t1.start_dt
       ,t1.end_dt
       ,t2.pos
       ,date_add(t1.start_dt,t2.pos) AS conn_dt
FROM
(
    SELECT  '2024-03-01' AS start_dt
           ,'2024-03-06' AS end_dt
) t1
CROSS JOIN
(
    SELECT  posexplode(split(repeat(',',DATEDIFF('2024-03-06','2024-03-01')),',')) AS(pos,val)
) t2;
-- 执行结果同上

如上sql结构比较简单,即t1表和t2表进行笛卡尔集,t1是原始表只有1行数据,但是结果是6行数据,因此关键点是t2的结果。
t2本质上其实就是先生成一组从0开始编号的6行结果,笛卡尔积之后,从而将数据从原先的一行变成6行,然后再根据生成的序号,每一行数据使用开始日期+序号得到一个新日期。最终得到的结果中新日期是连续日期。
可以看出生成连续序号结果的关键语句是lateral view posexplode(split(repeat(',', DATEDIFF(end_dt, start_dt)), ',')) t2 AS pos, val,这条语句包可以拆解为以下两部分

  • lateral view,是hive支持的语法
  • posexplode(split(repeat(',', DATEDIFF(end_dt, start_dt)), ',')),是hive提供的函数。

先看下posexplode函数以及嵌套的内部函数都干了什么,对函数依次拆解执行,直接从结果来了解每个函数作用。

select datediff('2024-03-06','2024-03-01'); -- 5
select repeat(',',datediff('2024-03-06','2024-03-01')); -- ,,,,,
select split(repeat(',',datediff('2024-03-06','2024-03-01')),','); -- ["","","","","",""]

select posexplode(split(repeat(',',datediff('2024-03-06','2024-03-01')),','));
+------+------+
| pos  | val  |
+------+------+
| 0    |      |
| 1    |      |
| 2    |      |
| 3    |      |
| 4    |      |
| 5    |      |
+------+------+

看到这里就明白posexlode函数及其嵌套函数干了什么,其他几个函数可能比较熟悉,不做过多介绍,在这里仅介绍下posexplode函数和lateral view语法。

在说明posexplode函数之前,有必要先学习下explode函数。从字面意思来看posexplode其实是pos+explode。
explode和posexplode是udtf函数。

1. explode 函数

explode函数有两种入参形式,分别支持数组和map。依次看下传入数组和map的处理结果。

格式:explode(ARRAY<T> a)
将数组分解为多行。返回一个包含单列 (col) 的行集,数组中的每个元素对应一行。

1.1. 数组作为入参

简而言之,对数组进行行转列,示例如下

select explode(array('a','b','c'));
+------+
| col  |
+------+
| a    |
| b    |
| c    |
+------+

-- 通过as对生成的结果列命名
select explode(array('a','b','c')) as c1;
+-----+
| c1  |
+-----+
| a   |
| b   |
| c   |
+-----+

1.2. map作为入参

格式:explode(MAP<Tkey,Tvalue> m)
将map分解为多行。返回具有两列(key,value)的行集,输入map中的每个键值对变成输出中的一行。从 Hive 0.8.0 开始。

在此插入根据字符串生成map的方法,方便explode方法进行测试。
格式:str_to_map(text[, delimiter1, delimiter2])
使用两个分隔符将文本拆分为键值对。Delimiter1 将文本分隔为 K-V 对,Delimiter2 拆分每个 K-V 对。
delimiter1的默认值为,
delimiter2的默认值为:

select str_to_map('a:1,b:2,c:3');
+----------------------------+
|            _c0             |
+----------------------------+
| {"a":"1","b":"2","c":"3"}  |
+----------------------------+
select explode(str_to_map('a:1,b:2,c:3'));
+------+--------+
| key  | value  |
+------+--------+
| a    | 1      |
| b    | 2      |
| c    | 3      |
+------+--------+

-- 通过as与对生成的结果列命名
select explode(str_to_map('a:1,b:2,c:3')) as (c1,c2);
+-----+-----+
| c1  | c2  |
+-----+-----+
| a   | 1   |
| b   | 2   |
| c   | 3   |
+-----+-----+

因此explode函数的作用是将数组或map中的每一个元素作为结果中的一行,如果是map从将key和value分别作为结果中的两列值。

接下来再看posexlpode函数就很好理解了。

2. posexplode 函数

格式:posexplode(ARRAY<T> a)
将数组分解为多行,并附加 int 类型的位置列(原始数组中项的位置,从 0 开始)。返回一个包含两列 (pos,val) 的行集,数组中的每个元素对应一行。

简而言之,posexplode函数就是在explode函数的结果上增加一列序号值,序号从0开始,从函数名称可以看出posexplode函数就是pos+explode.

select posexplode(array('a','b','c'));
+------+------+
| pos  | val  |
+------+------+
| 0    | a    |
| 1    | b    |
| 2    | c    |
+------+------+

-- 同样可以通过as对结果进行命名
select posexplode(array('a','b','c')) as(index,value);
+--------+--------+
| index  | value  |
+--------+--------+
| 0      | a      |
| 1      | b      |
| 2      | c      |
+--------+--------+
  • posexplode函数仅支持数组作为入参。
  • 单独使用posexplode函数时(区别于和lateral view一起使用)通过as对结果进行重命名时,必须带有括号,否则sql执行报错。

到此posexplode函数的作用已经搞清楚了,接下来学习下lateral view语法。

3. lateral view语法

语法格式如下

lateralView: LATERAL VIEW (OUTER) udtf(expression) tableAlias AS columnAlias (',' columnAlias)*
fromClause: FROM baseTable (lateralView)*

定义描述
简单说,lateral view是用来和udtf函数结合使用的,udtf函数为每个输入行生成零个或多个输出行,通过上面explode函数结果也可以说明这点。
lateral view将udtf应用于基表的每一行,然后将生成的输出行join到输入行上,以形成具有所提供表别名的虚拟表。

从 hive 0.12.0版本开始,可以省略列别名。默认使用udft函数返回的字段名。

详细示例参考官网文档。

根据描述再理解语法格式中每一部分的含义
语法描述
现在重新来看开头的结果sql就比较清晰了,t1是basicTabel的别名,t2是udtf输出结果的虚拟表别名,as pos,val则是posexplode函数生成的两列结果的别名,然后在select中分别使用t1和t2来获取两个表的字段。又因为lateral view将基表的每一行都作为udtf函数的输入,因此可以在datediff函数中直接使用end_dt和start_dt列。

SELECT  t1.start_dt
       ,t1.end_dt
       ,t2.pos
       ,t2.val
       ,date_add(t1.start_dt,t2.pos) AS conn_dt
FROM
(
    SELECT  '2024-03-01' AS start_dt
           ,'2024-03-06' AS end_dt
) t1 lateral view posexplode(split(repeat(',', DATEDIFF(end_dt, start_dt)), ',')) t2 AS pos, val;

3.1. outer 关键字

作用:当udft的结果不会生成任何行时,如果不使用outer关键字,则最终结果也不会生成任何行,可以这样理解,左表inner join右表(udtf结果),当右表是空表时,则最终结果也一定是空的,指定outer后inner join就会变成left join。示例如下

select posexplode(array());
+------+------+
| pos  | val  |
+------+------+
+------+------+

SELECT  t1.start_dt
       ,t1.end_dt
       ,t2.pos
       ,t2.val
       ,date_add(t1.start_dt,t2.pos) AS conn_dt
FROM
(
    SELECT  '2024-03-01' AS start_dt
           ,'2024-03-06' AS end_dt
) t1 lateral view posexplode(array()) t2 AS pos, val;
-- 由于posexplode函数的结果为空,最终结果为空。
+--------------+------------+---------+---------+----------+
| t1.start_dt  | t1.end_dt  | t2.pos  | t2.val  | conn_dt  |
+--------------+------------+---------+---------+----------+
+--------------+------------+---------+---------+----------+

SELECT  t1.start_dt
       ,t1.end_dt
       ,t2.pos
       ,t2.val
       ,date_add(t1.start_dt,t2.pos) AS conn_dt
FROM
(
    SELECT  '2024-03-01' AS start_dt
           ,'2024-03-06' AS end_dt
) t1 lateral view outer posexplode(array()) t2 AS pos, val;
-- 使用outer关键字后,基表数据会输出,而右表字段为null
+--------------+-------------+---------+---------+----------+
| t1.start_dt  |  t1.end_dt  | t2.pos  | t2.val  | conn_dt  |
+--------------+-------------+---------+---------+----------+
| 2024-03-01   | 2024-03-06  | NULL    | NULL    | NULL     |
+--------------+-------------+---------+---------+----------+

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1576374.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一个项目的SpringCloud微服务改造过程

SSO是公司一个已经存在了若干年的项目&#xff0c;后端采用SpringMVC、MyBatis&#xff0c;数据库使用MySQL&#xff0c;前端展示使用Freemark。今年&#xff0c;我们对该项目进行了一次革命性的改进&#xff0c;改造成SpringCloud架构&#xff0c;并且把前后端分离&#xff0c…

QT中使得界面类相关输出打印到控制台上

如下图所示&#xff0c;全部输出到了控制台上&#xff1a; 如何设置&#xff1f; 1、设置 Run in teminal 2、pro文件中设置 CONFIG console选项 3、clean -> qmake -> run&#xff0c;此时观察到已经输出到控制台上了

Day16_学点儿JavaEE_理论知识_Tomcat、JSP、Servlet

1 软件的结构 C/S (Client - Server 客户端-服务器端) 典型应用&#xff1a;QQ软件 &#xff0c;飞秋&#xff0c;印象笔记。 特点&#xff1a; 必须下载特定的客户端程序。服务器端升级&#xff0c;客户端升级。 B/S &#xff08;Broswer -Server 浏览器端- 服务器端&…

一起学习python——基础篇(7)

今天讲一下python的函数。 函数是什么&#xff1f;函数是一段独立的代码块&#xff0c;这块代码是为了实现一些功能&#xff0c;而这个代码块只有在被调用时才能运行。 在 Python 中&#xff0c;使用 def 关键字定义函数&#xff1a; 函数的固定结构就是 def(关键字)函数名字…

Day108:代码审计-PHP模型开发篇MVC层动态调试未授权脆弱鉴权未引用错误逻辑

目录 案例1-Xhcms-动态调试-脆弱的鉴权逻辑 案例2-Cwcms-动态调试-未引用鉴权逻辑 案例3-Bosscms-动态调试-不严谨的鉴权逻辑 知识点&#xff1a; 1、PHP审计-动态调试-未授权安全 2、PHP审计-文件对比-未授权安全 3、PHP审计-未授权访问-三种形态 动态调试优点: 环境配置&…

C语言 | Leetcode C语言题解之第15题三数之和

题目&#xff1a; 题解&#xff1a; int cmp(const void *x, const void *y) {return *(int*)x - *(int*)y; } //判断重复的三元组 bool TheSame(int a, int b, int c, int **ans, int returnSize) {bool ret true;for(int i 0;i < returnSize;i){if(a ans[i][0] &&…

Java智慧校园系统源码 微信小程序+电子班牌

Java智慧校园系统源码 微信小程序电子班牌 通过设备管理对百纳智慧校园的智慧班牌以及百纳智慧屏&#xff08;校牌&#xff09;进行统一集中式管理&#xff0c;支持浏览所有设备的基本信息以及在离线状态&#xff0c;支持添加设备、设备一键开关机、一键重启、设置节假日开关机…

TiDB 慢查询日志分析

导读 TiDB 中的慢查询日志是一项 关键的性能监控工具&#xff0c;其主要作用在于协助数据库管理员追踪执行时间较长的 SQL 查询语句。 通过记录那些超过设定阈值的查询&#xff0c;慢查询日志为性能优化提供了关键的线索&#xff0c;有助于发现潜在的性能瓶颈&#xff0c;优化…

YOLOV8 + 双目测距

YOLOV8 双目测距 1. 环境配置2. 测距流程和原理2.1 测距流程2.2 测距原理 3. 代码部分解析3.1 相机参数stereoconfig.py3.2 测距部分3.3 主代码yolov8-stereo.py 4. 实验结果4.1 测距4.2 测距跟踪4.3 测距跟踪分割4.4 视频展示 相关文章 1. YOLOv5双目测距&#xff08;python&…

面向低碳经济运行目标的多微网能量互联优化调度matlab程序

微❤关注“电气仔推送”获得资料&#xff08;专享优惠&#xff09; 运用平台 matlabgurobi 程序简介 该程序为多微网协同优化调度模型&#xff0c;系统在保障综合效益的基础上&#xff0c;调度时优先协调微网与微网之间的能量流动&#xff0c;将与大电网的互联交互作为备用…

免费SSL通配符证书/SSL泛域名证书获取教程

我们先基本了解什么是SSL证书以及其作用。SSL证书是一种数字证书&#xff0c;它通过为网站提供身份验证和数据加密服务&#xff0c;从而保护网站的用户信息安全。当我们在浏览器的地址栏看到“https”和绿色锁标志时&#xff0c;就表示该网站使用了SSL证书。 那么什么又是通配…

刷代码随想录有感(24)

有时候我会怀疑努力的意义&#xff0c;因为我总是花人家好几倍的时间去理解一个狗看了都觉得弱智的问题&#xff0c;思考过后我知道&#xff0c;努力本没有意义&#xff0c;是在未来可能十年内取得成就时突然回想起来之前做过一些事情&#xff0c;未来的成就赋予曾经的意义&…

SiteSpace 使用方法笔记

目录 介绍下载及安装准备工作知网 CNKI 文献分析数据准备数据转换新建项目图形处理 介绍 CiteSpace 是一个用于可视化和分析科学文献的工具。它可以从科学文献库中提取关键词、作者、机构和引用关系等信息&#xff0c;并将其可视化为图形网络。 一些使用案例 下载及安装 下载…

【运输层】传输控制协议 TCP

目录 1、传输控制协议 TCP 概述 &#xff08;1&#xff09;TCP 的特点 &#xff08;2&#xff09;TCP 连接中的套接字概念 2、可靠传输的工作原理 &#xff08;1&#xff09;停止等待协议 &#xff08;2&#xff09;连续ARQ协议 3、TCP 报文段的首部格式 &#xff08;1…

AcWing---公约数---最大公约数

4199. 公约数 - AcWing题库 思路&#xff1a; 最大整数x一定是最大公约数的因数&#xff0c;所以先用__gcd(a,b)求出a和b的最大公因数&#xff0c;再用O(log(n))的算法求出最大公因数的因数&#xff0c;放到vector中&#xff0c;并将vector排序。利用STL中的upper_bound(res.…

【功能更新】强化知识库管理与AI问答机器人性能

三月HelpLook带来了3大类功能焕新&#xff0c;主要聚焦于&#xff1a;知识库的管理功能升级和AI问答机器人的优化&#xff0c;让我们看看更新了哪些新功能&#xff01; 那么&#xff0c;接下来就让我们来详细了解一下本次升级都带来了哪些新功能吧&#xff01; 知识库使用与管理…

阿里面试总结

ThreadLocal 线程变量存放在当前线程变量中&#xff0c;线程上下文中&#xff0c;set将变量添加到threadLocals变量中 Thread类中定义了两个ThreadLocalMap类型变量threadLocals、inheritableThreadLocals用来存储当前操作的ThreadLocal的引用及变量对象&#xff0c;把当前线程…

java毕业设计基于SpringBoot + Vue 的超市商超进销存收银系统

技术栈 ide工具&#xff1a;IDEA 或者eclipse 编程语言: java 数据库: mysql5.7 框架&#xff1a; ssm/springboot 前端&#xff1a;vue.jsElementUI 详细技术&#xff1a;springboot vueMYSQLMAVEN 数据库工具&#xff1a;Navicat/SQLyog都可以 开发工具 IntelliJ IDEA: 一先…

k8s资源监控_bitnami metrics-server v0(1),2024一位Linux运维中级程序员的跳槽面经

错误3 也有可能会遇到以下错误&#xff0c;按照下面提示解决 Error from server (ServiceUnavailable): the server is currently unable to handle the request (get nodes.metrics.k8s.io) 如果metrics-server正常启动&#xff0c;没有错误&#xff0c;应该就是网络问题。修改…

使用pytorch构建有监督的条件GAN(conditional GAN)网络模型

本文为此系列的第四篇conditional GAN&#xff0c;上一篇为WGAN-GP。文中在无监督的基础上重点讲解作为有监督对比无监督的差异&#xff0c;若有不懂的无监督知识点可以看本系列第一篇。 原理 有条件与无条件 如图投进硬币随机得到一个乒乓球的例子可以看成是一个无监督的GAN&…