【SQL经典题目】连续日期判断、同时在线人数、会话划分、间隔日期连续、日期交叉

news2025/2/4 10:31:38

【1.查询至少连续3天下单的用户】

思路1(使用lead):

  1. distinct user_id,create_date去重,确保每个用户每天只有一条访问记录
  2. lead(create_date,2,‘9999-12-31’) over(partition by user_id order by create_date)根据用户分区,订单日期排序,取后2行的订单日期(取不到则返回’9999-12-31’)
  3. 用datediff计算【订单日期】与【后2行订单日期】的差值,如果等于2则说明存在连续3天下单
    在这里插入图片描述
  4. 筛选出datediff等于2的记录,distinct user_id即可

思路2(使用row_number):

  1. distinct user_id,create_date去重,确保每个用户每天只有一条访问记录
  2. row_number() over(partition by user_id order by create_date)按用户分区,按访问日期排序,添加序号
  3. 每个日期与序号相减获得一个新的日期
    在这里插入图片描述
  4. group by user_id,diff对用户和新的日期进行分组,然后count()统计日期,判断count() >=3
    在这里插入图片描述

【2. 用户登录日志表user_id,visit_date 用sql查询出近30天连续访问7天以上的用户数量】
思路:

  1. 筛选近30天每个用户的访问记录,并去重确保同一个用户当天只有一条记录
  2. 对用户分组按访问日期排序,添加序号
  3. 每条记录的访问日期与对应的序号相减,获得一个新的日期字段
  4. group by用户,新的日期字段,统计个数,having筛选大于等于7
select user_id,diff,count(*) as cnt
from
(
	select 
	user_id,
	visit_date,
	date_sub(visit_date,row_number() over(partition by user_id order by visit_date)) as diff
	from 
	(
		select distinct user_id,visit_date 
		from table 
		where visit_date >= date_sub(current_date,30)
	) t1
) t2
group by user_id,diff
having cnt >= 7

【3. 计算某段时间内同时在线人数最大值】
核心思路:

按时间排序,逐条处理(从上到下累加),获取每个时刻在线人数,取最大值

具体实现:

  1. 筛选出每个人的登陆记录并加一个字段1(id,登陆时间,1) union all 每个人的登出记录并加一个字段-1(id,登出时间,-1)
  2. 按照登陆/登出时间升序排序
  3. sum()并开窗,窗口范围首行到当前行,即计算累加值(此时数据表示了每一个时刻的在线总人数)
  4. max()计算累加值中的最大值(即同时在线人数最大值)

【4. 同一个用户相邻两次访问记录小于60s,则认为属于一个会话。现需对同一会话的访问记录增加会话id字段 】(会话划分问题)
核心思路:

按每个用户的会话时间排序,找到每个用户会话的起点并加标签1,不是起点则加标签0,同一用户对标签进行累加,每个用户不同会话则会有不同的标签

思路:

  1. 对每个用户开窗并按访问时间排序,用lag()取上一次访问时间,取不到上一条则默认为0
    在这里插入图片描述

  2. 每条访问记录减去上一次访问时间,差值>60则赋值1,否则赋值0(用1表示每个会话的起点)
    在这里插入图片描述

  3. 对每个用户开窗,窗口范围首行到当前行,用sum()进行累加
    在这里插入图片描述

  4. 用user_id拼接上累加值,表示每个会话
    在这里插入图片描述

【5. 用户登陆记录表(user_id,login_datetime),每行表达一个用户何时登陆,求各用户最长的连续登陆天数(间断1天也算连续)】(间断连续日期判断问题)
核心思路1:

explode()将中间空1天的记录补充上,转化成连续日期的判断问题
(比如2条记录2021-12-03、2021-12-05 变成3条记录 2021-12-03、2021-12-04、2021-12-05)

思路1:

  1. 每个用户按照登陆日期去重
  2. 每个用户按登陆日期升序排列,用lead()取该用户下一次的登陆时间
    在这里插入图片描述
  3. 如果下次登陆日期和本次登陆日期相差为2,则用array()创建数组,包含本次登录日期、本次登录日期+1
    在这里插入图片描述
  4. 用explode()函数进行炸裂,此时就补充上了空缺日期
    在这里插入图片描述
  5. 按照【题目1】进行连续日期判断即可

核心思路2:

找到每次连续区间的起始日期,赋1,其它日期赋0,将问题转化为会话划分问题,取每个会话中的max日期-min日期,即为连续天数

思路2:

  1. 每个用户按照登陆日期去重
  2. 每个用户按登陆日期升序排列,用lag()取该用户上一次的登陆时间
    在这里插入图片描述
  3. 本次登录日期 减去 上次登录日期 >2的话则赋1,否则赋0
    在这里插入图片描述
  4. 对每个用户开窗,窗口范围首行到当前行,用sum()进行累加
    在这里插入图片描述
  5. 对每个用户、会话标签进行分组,取每个会话中max(login_date) - min(login_date) + 1即为最长连续天数。

【6. 品牌优惠周期表,记录每个品牌每个优惠活动的周期。需统计每个品牌的优惠总天数,如日期重合则只算1天】(日期交叉问题)
核心思路1:

修改每条活动周期的开始日期,将同一品牌日期重合的部分去除掉(保证每个活动周期时间不重合),然后按品牌分组,汇总(活动结束日期 - 活动开始日期+1)的天数(转化成日期不交叉的统计问题)

思路1:

  1. 每个品牌按活动开始日期排序,对品牌分区进行开窗,获取最大的结束日期max_end_date,窗口范围:首行到前一行
    在这里插入图片描述
  2. 修改每条记录的start_date,如果start_date大于max_end_date,则不变,否则开始日期改为max_end_date+1 在这里插入图片描述
  3. 若new_start_date为空,则取原始的start_date
    在这里插入图片描述
  4. 剔除new_start_date > end_date的记录
  5. 按品牌分组,sum(end_date - new_start_date + 1)获取每个品牌的总优惠天数

核心思路2:

将每个活动周期用explode展开成多个连续的日期,然后按品牌分组统计distinct日期(用distinct去掉日期的交叉),即可获得每个品牌总活动时长

思路2:

  1. 获取每个活动周期的时长
    在这里插入图片描述
  2. 使用suplit(repeat(‘,’,diff),‘,’)建立与活动周期对应的数组
    在这里插入图片描述
  3. 使用posexplode()进行炸裂,将其扩充为对应的行数,并添加上序号(也可以使用开窗函数添加序号)
    在这里插入图片描述
  4. 每个开始日期与pos相加获得新的日期
    在这里插入图片描述
  5. group by品牌,count(distinct event_date)获得每个品牌的总活动时长

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1337379.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Unity游戏制作】游戏模型导入之前需要注意的三个基本点

👨‍💻个人主页:元宇宙-秩沅 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 秩沅 原创 👨‍💻 收录于专栏:Uni…

使用Dependency Walker和Process Explorer排查瑞芯微工具软件RKPQTool.exe启动报错问题

目录 1、问题说明 2、使用Dependency Walker查看工具程序的库依赖关系 3、在可以运行的电脑上使用Process Explorer查看依赖的msvcr120.dll和msvcp120.dll库的路径 4、C/C运行时库介绍 5、可以下载安装VC_redist.x86.exe或VC_redist.x64.exe解决系统库缺失问题 C软件异常排…

【如何破坏单例模式(详解)】

✅如何破坏单例模式 💡典型解析✅拓展知识仓✅反射破坏单例✅反序列化破坏单例✅ObjectlnputStream ✅总结✅如何避免单例被破坏✅ 避免反射破坏单例✅ 避免反序列化破坏单例 💡典型解析 单例模式主要是通过把一个类的构造方法私有化,来避免重…

『JavaScript』全面掌握JavaScript数组的操作、方法与高级技巧

📣读完这篇文章里你能收获到 学习JavaScript中数组的基本操作掌握JavaScript数组的多种内置方法了解JavaScript中的数组扩展运算符、Array.from()和Array.of()等实用技巧熟悉如何在JavaScript中使用数组方法进行数据处理 文章目录 一、基本操作1. 创建数组2. 访问和…

Python 高级(三):多线程 threading

大家好,我是水滴~~ 在Python中,threading模块提供了一种简单而强大的方式来进行多线程编程。多线程可以同时执行多个任务,使程序能够更有效地利用计算资源。本教程将介绍threading模块的基本概念、用法和一些常见的多线程编程模式。 文章中…

HTML---利用CSS3制作网页动画

文章目录 前言一、pandas是什么?二、使用步骤 1.引入库2.读入数据总结 本章目标 会使用transfoem 2D 变形设置网页元元素会使用transition制作过渡动画会使用animation制作网页动画 一.CSS3概述 CSS3是HTML的样式语言,它用于描述和控制HTML文档的外观和…

Java AQS 核心数据结构-CLH 锁及优化

Java AQS 核心数据结构-CLH 锁 什么是CLH锁 CLH 锁是对自旋锁的一种改进,有效的解决了以上的两个缺点。 第一个是锁饥饿问题。在锁竞争激烈的情况下,可能存在一个线程一直被其他线程”插队“而一直获取不到锁的情况。第二是性能问题。在实际的多处理上…

6.1810: Operating System Engineering 2023 <Lab5: cow: Copy-on-write fork>

一、本节任务 二、要点 2.1 设备驱动(device driver) memory-mapped I/O:设备拥有一个地址范围,软件可以使用 ld/st 指令来访存从而读写设备的寄存器。平台设计者决定设备在物理内存空间中的位置。 内核如何识别设备中断&#…

K8s出现问题时,如何排查解决!

K8s问题的排查 1. POD启动异常、部分节点无法启动pod2. 审视集群状态3. 追踪事件日志4. 聚焦Pod状态5. 检查网络连通性6. 审视存储配置7. 研究容器日志8. K8S集群网络通信9. 问题:Service 是否通过 DNS 工作?10. 总结1、POD启动异常、部分节点无法启动p…

2024年度AI大模型趋势解读

文章目录 2024年度AI大模型趋势解读写在前面大模型时代大模型未来发展趋势总结 2024年度AI大模型趋势解读 写在前面 大模型指具备超大规模预训练语料、拥有超千亿规模模型参数的深度学习模型。由美国开放人工智能研究中心(OpenAI)研发、基于大模型的人工…

python 面试题第一弹

1. 如何理解Python中的深浅拷贝 浅拷贝(Shallow Copy)创建一个新的对象,该对象的内容是原始对象的引用。这意味着新对象与原始对象共享相同的内存地址,因此对于可变对象来说,如果修改了其中一个对象,另一个…

31. Ajax

简介 AJAX 是 Asynchronous JavaScript And XML 的简称。直译为,异步的JS和XML。AJAX的实际意义是,不发生页面跳转、异步载入内容并改写页面内容的技术。AJAX也可以简单的理解为通过JS向服务器发送请求。 AJAX这门技术很早就被发明,但是直到…

Python 新规范 pyproject.toml 完全解析

多谢:thank Python从PEP 518开始引入的使用pyproject.toml管理项目元数据的方案。 该规范目前已经在很多开源项目中得以支持: Django 这个 Python 生态的顶级项目在 5 个月之前开始使用 pyproject.tomlPytest 这个 Python 生态测试框架的领头羊在 4 个…

二、基于图像和结构化数据多模态融合的回归预测网络【框图讲解+源码】

整理读研期间做的项目与日常小实验 本篇未完待续…代码部分整理后补充 0. 背景 实验室有一些材料的SEM(扫描电镜)图像、也有对应的组分信息(结构化数据,包含类别特征和连续的数值特征),以及对应的力学性能…

c++学习笔记(14)-类的对象占用内存

1、类的对象占用内存大小 很多C书籍中都介绍过,一个class对象需要占用多大的内存空间。最权威的结论是: 1. 非静态成员变量总和。 2. 加上编译器为了CPU计算,作出的数据对齐处理。 3. 加上为了支持虚函数,产生的额外负担。 1.1、…

【自然语言处理】扩展命名实体识别器(NER)以使用spaCy标记新实体

自我介绍 做一个简单介绍,酒架年近48 ,有20多年IT工作经历,目前在一家500强做企业架构.因为工作需要,另外也因为兴趣涉猎比较广,为了自己学习建立了三个博客,分别是【全球IT瞭望】,【…

用C/C++实现MSML协议栈的详细介绍

一、MSML协议简介 MSML(Media Server Markup Language)是一种基于XML的标记语言,用于控制媒体服务器。它是媒体服务器控制协议的一种,允许第三方应用与媒体服务器进行交互,实现对媒体流的创建、修改和释放等操作。MSM…

Elasticsearch可视化平台Kibana [ES系列] - 第498篇

历史文章(文章累计490) 《国内最全的Spring Boot系列之一》 《国内最全的Spring Boot系列之二》 《国内最全的Spring Boot系列之三》 《国内最全的Spring Boot系列之四》 《国内最全的Spring Boot系列之五》 《国内最全的Spring Boot系列之六》 全…

W3 Total Cache Pro v2.6.0 – WordPress 插件

W3 Total Cache Pro v2.6.0:优化WordPress性能的专业解决方案 一、引言 在数字化的世界中,网站性能对于用户体验和搜索引擎排名至关重要。WordPress作为全球最受欢迎的内容管理系统之一,提供了大量的插件来帮助网站所有者优化其性能。其中&a…

数字人平台哪家好!

数字人是指利用人工智能技术,通过计算机生成或模拟人类的外貌、声音、动作和表情等特征,从而创造出具有一定个性和情感的虚拟角色。数字人可以用于于娱乐、教育、营销、服务等多个领域,为用户提供更加丰富和互动的体验。 目前,市场…