HiveSQL一天一个小技巧:如何精准计算非连续日期累计值【闪电快车面试题】

news2025/1/12 23:30:23

0 需 求

稀疏字段累计求和问题

1 问题分析

根据图片中数据变换的形式,可以看出是根据字段term补齐数据中缺失的日期,term为连续日期的个数,当为12时,表明由2018-12-21到2019-01-02连续日期个数为12,当补齐日期后,根据日期顺序求amount的累计值,注意的是,当日期补齐后,补齐的日期值是空的。此类问题在业务中经常出现,特别在求累计值时,如果日期不是连续的,很容易漏掉部分日期累计值,造成数据不完整。这类问题的核心点就是数据日期非连续,需要补齐连续的日期,那么如何补齐连续日期呢?看过我SQLBOY1000题专栏的同学应该明白有类似的题目,这里给出链接。

SQL重叠交叉区间问题分析--HiveSQL面试题30_莫叫石榴姐的博客-CSDN博客

HiveSql一天一个小技巧:如何构造连续日期_hive生成连续的日期_莫叫石榴姐的博客-CSDN博客

步骤1:根据数据日期,补全需要的连续日期

对于补齐连续日期,我们给出模板及核心语句

lateral view posexplode(split(space(term), '(?!$)')) temp as pos,val

其中space()函数表示取空格,目的是为了扩展数据使用,取多少空格由里面参数决定,split()中的正则(?!$)表示不是以空格结尾的就匹配,因为split()函数会多切出一个空格,我们需要去掉。

利用posexplode()函数生成索引,根据数据中的起始日期(min(value_date))+增长步长的方式可以补齐所有的日期。注意这里面是按月增长的,我们使用add_months函数,即

add_months(value_date, pos)

整体生成连续日期语句如下:

with data as
(
 select 'AAAA' as contract,'2018-12-21' as value_date,9439.30 as amount,12 as term
 union all
 select 'AAAA' as contract,'2019-03-21' as value_date,9439.30 as amount,12 as term
 union all
 select 'AAAA' as contract,'2019-06-21' as value_date,9439.30 as amount,12 as term
 union all
 select 'AAAA' as contract,'2019-09-21' as value_date,9439.30 as amount,12 as term
 union all
 select 'BBBB' as contract,'2018-12-02' as value_date,9439.30 as amount,10 as term
 union all
 select 'BBBB' as contract,'2019-02-02' as value_date,9439.30 as amount,10 as term
 union all
 select 'BBBB' as contract,'2019-06-02' as value_date,9439.30 as amount,10 as term
 union all
 select 'BBBB' as contract,'2019-09-02' as value_date,9439.30 as amount,10 as term
)
select contract
          , add_months(value_date, pos) value_date
          ,term
     from (
              select contract
                   , min(value_date) value_date
                   , max(amount)     amount
                   , max(term)       term
              from data
              group by contract
          ) t1 lateral view posexplode(split(space(term), '(?!$)')) temp as pos,val
 

步骤2:用补齐的连续日期作主表关联数据表,并计算累计值。

注意:这里一定要用生成连续日期做主表与关联数据表,这样才能做累计计算时候不重不漏,此时

sum() over(partition by order by )中sum的值一定是数据表右表中的值,partition by和order by的值是主表中的值。

在准确计算非连续日期累计值的核心点也在于此,生成补齐的日期维度表一定是主表,然后去关联数据表。

最终具体SQL如下:

with data as
(
 select 'AAAA' as contract,'2018-12-21' as value_date,9439.30 as amount,12 as term
 union all
 select 'AAAA' as contract,'2019-03-21' as value_date,9439.30 as amount,12 as term
 union all
 select 'AAAA' as contract,'2019-06-21' as value_date,9439.30 as amount,12 as term
 union all
 select 'AAAA' as contract,'2019-09-21' as value_date,9439.30 as amount,12 as term
 union all
 select 'BBBB' as contract,'2018-12-02' as value_date,9439.30 as amount,10 as term
 union all
 select 'BBBB' as contract,'2019-02-02' as value_date,9439.30 as amount,10 as term
 union all
 select 'BBBB' as contract,'2019-06-02' as value_date,9439.30 as amount,10 as term
 union all
 select 'BBBB' as contract,'2019-09-02' as value_date,9439.30 as amount,10 as term
)

select  dim.contract
       ,dim.value_date
       ,cast(sum(d.amount) over(partition by dim.contract order by dim.value_date)  as decimal(18,2)) amount
       ,dim.term
from
    (select contract
          , add_months(value_date, pos) value_date
          ,term
     from (
              select contract
                   , min(value_date) value_date
                   , max(amount)     amount
                   , max(term)       term
              from data
              group by contract
          ) t1 lateral view posexplode(split(space(term), '(?!$)')) temp as pos,val
    ) dim
left join
(
  select contract
        ,value_date
        ,amount
  from data
) d
on dim.contract = d.contract and dim.value_date = d.value_date

结果如下:

2 小结

本文给出了一种非连续日期准确求解累计值的通用方法。通过本文可以学习到:

(1)连续日期的构造方法

(2)非连续日期准确求解累计值的方法

注意此类问题又叫稀疏字段累计求和问题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/388061.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

sklearn中的逻辑回归

目录 一.名为“回归”的分类器 二.逻辑回归的优点 三.sklearn中的逻辑回归 四.linear_model.LogisticRegression 五.penalty & C(正则化) 六.逻辑回归中的特征工程 1.业务选择 2.PCA和SVD一般不用 3.统计方法可以使用,但不是非常必要 4.高效的嵌入法e…

【vulhub漏洞复现】CVE-2013-4547 Nginx 文件名逻辑漏洞

一、漏洞详情影响版本 Nginx 0.8.41 ~ 1.4.3 / 1.5.0 ~ 1.5.7通过%00截断绕过后缀名的限制,使上传的php内容文件被解析执行。当Nginx得到一个用户请求时,首先对url进行解析,进行正则匹配,如果匹配到以.php后缀结尾的文件名&#x…

2022秋-2023-中科大-数字图像分析-期末考试试卷回忆版

今天晚上刚考完,心累,在这里继续授人以渔(仅供参考,切勿对着复习不看ppt,ppt一定要过两遍)。 注意:往年的经验贴,到此为止,全部作废,一个没考。千万不要只对着复习,SIFT没考&#x…

JavaScript(JS)

一、三种引入方式&#xff1a; 1、内部js 通过script标签嵌入到html里面 <script>alert(hello);</script> 2、外部js 写成一个单独的.js文件&#xff0c;让html引入进来 <script src"app.js"></script> 3、行内js 直接写到html内部 &…

Python爬虫——使用socket模块进行图片下载

Python爬虫——使用socket模块进行图片下载什么是socket爬虫的工作流程socket爬取图片为什么能用socket能下载图片socket下载图片和request下载图片的区别使用socket下载一张图片使用socket下载多张图片方法1方法2什么是socket Socket 是一种通信机制&#xff0c;用于实现网络…

AQS为什么用双向链表?

首先&#xff0c;在AQS中&#xff0c;等待队列是通过Node类来表示的&#xff0c;每个Node节点包含了等待线程的信息以及等待状态。下面是Node类的部分源码&#xff1a;static final class Node {// 等待状态volatile int waitStatus;// 前驱节点volatile Node prev;// 后继节点…

【AI绘图学习笔记】深度学习相关数学原理总结(持续更新)

如题&#xff0c;这是一篇深度学习相关数学原理总结文&#xff0c;由于深度学习中涉及到较多的概率论知识&#xff08;包括随机过程&#xff0c;信息论&#xff0c;概率与统计啥啥啥的)&#xff0c;而笔者概率知识储备属实不行&#xff0c;因此特意开一章来总结&#xff08;大部…

Jackson CVE-2017-17485 反序列化漏洞

0x00 前言 同CVE-2017-15095一样&#xff0c;是CVE-2017-7525黑名单绕过的漏洞&#xff0c;主要还是看一下绕过的调用链利用方式。 可以先看&#xff1a; Jackson 反序列化漏洞原理 或者直接看总结也可以&#xff1a; Jackson总结 涉及版本&#xff1a;2.8.10和2.9.x至2.…

leetcode_贪心算法

贪心算法相关题简单题目455.分发饼干1005.K次取反后最大化的数组和860.柠檬水找零序列问题376.摆动序列法一&#xff1a;贪心法法二&#xff1a;动态规划单调递增的数字简化版本有点难度53.最大子序和贪心算法动态规划134.加油站968.监控二叉树两个维度权衡问题分发糖果406.根据…

MATLAB——系统环境

MATLAB概述MATLAB的发展MATLAB:MATrix LABoratory1980年前后&#xff0c;Cleve Moler教授编写的Linpack 和Eispack的接口程序。1984年&#xff0c;MATLAB第1版(DOS版)1992年&#xff0c;MATLAB4.0版1994年&#xff0c;MATLAB 4.2版1997年&#xff0c;MATLAB 5.0版1999年&#x…

12-Trie树

Trie树&#xff08;又称字典树、单词查找树&#xff09;是一种树型的数据结构&#xff0c;常用于保存和查找字符串&#xff0c;是一种十分高效率的存储和检索方式。 Trie树原理 我们先假设有六个字符串需要存储&#xff1a;abc、abcd、abef、cfgh、bc、bcd。Trie树的存储原理…

Scala04 方法与函数

Scala04 方法与函数 Scala 中的也有方法和函数的概念。 Scala中的 方法 是类的一部分。 Scala中的 函数 是一个对象&#xff0c;可以赋值给变量。 在类中定义的函数就是方法 4.1 方法 Scala 中方法 与 Java 中类似&#xff0c;是组成类的一部分 4.1.1 语法结构 格式&#x…

数据库“啃”不动?CnosDB带你轻松阅读十万行源码!

最近一直有社区的小伙伴问&#xff0c;我们很感兴趣CnosDB&#xff0c;但从何开始阅读CnosDB的代码呢&#xff0c;其实这个问题在之前的CnosDB HiTea直播时就有聊到&#xff0c;今天我们就再来回顾一下。CnosDB的源代码主要分为Query Engine和Storage Engine。Query Engine在qu…

JOSN数据转换和解析

文章目录JOSN数据转换和解析内容回顾Map 集合转成 JSON 字符串List 集合转换成 JSON 字符串Ajax 异步和同步异步概念同步概念异步和同步区别异步请求案例同步请求时间格式化旧时间 api 格式化格式化和解析的工具类JSTL 时间格式化JSTL 使用JOSN数据转换和解析 内容回顾 ajax …

指针的进阶续(笔试题强化练习)

写在前面&#xff1a;在上次我们学习了指针的相关类型的知识&#xff0c;对指针家族的成员基本有了了解&#xff0c;这次让我们跟着一些题目来练习和补充一些知识&#xff0c;这有助于我们强化理解这些知识。 话不多说&#xff0c;我们马上开始&#xff1a; 1.指针和数组的笔…

Vue基础学习 第一个Vue程序 el挂载点 v-指令(1)

Vue简介 Vue是一个Javascript框架Vue框架可以简化Dom操作响应式数据驱动 &#xff1a; 页面是由数据生成的&#xff0c;当数据出现改动&#xff0c;页面也会即时改变 第一个Vue程序 Vue中文文档官网&#xff1a;https://v2.cn.vuejs.org/v2/guide/ 根据官方文档的说法&#…

缓存与数据库的双写一致性

背景 在高并发的业务场景下&#xff0c;系统的性能瓶颈往往是出现在数据库上&#xff0c;用户并发访问过大&#xff0c;压力都打到数据库上。所以一般都会用redis做缓存层&#xff0c;起到一个缓冲作用&#xff0c;让请求先访问到缓存层&#xff0c;而不是直接去访问数据库&am…

Web3D发展趋势以及Web3D应用场景

1&#xff0c;Web3D发展趋势随着互联网的快速发展&#xff0c;Web3D技术也日渐成熟&#xff0c;未来发展趋势也值得关注。以下是Web3D未来发展趋势的七个方面&#xff1a;可视化和可交互性的增强&#xff1a;Web3D可以为三维数据提供可视化和可交互性的增强&#xff0c;将极大地…

CCNP350-401学习笔记(补充题目101-186)

101、 enable the https service 102、fabric edge node 103、 104、 105、 16113 106、filter access-group 10 107、 108、VETP 109、 110、 111、the server and the database can inititate communication 112、 113、 114、 115、 116、WAN edge&#xf…

【教程】去水印开源工具Lama Cleaner在Windows的安装和使用

一、Lama Cleaner是什么&#xff1f; Lama Cleaner是一款开源且免费的人工学习图片去水印程序&#xff08;个人主要学习用途&#xff09;&#xff0c;没有图片分辨率限制&#xff08;个人使用暂未发现&#xff09;&#xff0c;并且保存的图片质量很高&#xff08;个人觉得跟原…