MySQL子查询、WITH AS、LAG查询统计数据实战

news2025/1/12 13:35:02

需求

给出一个比较常见的统计类业务需求:统计App(包括iOS和Android两大类)每日新注册用户数、以及累计注册用户数。

数据库采用MySQL,根据上面的需求,不难设计表如下:

create table os_day_count(
    stat_date     varchar(10) not null comment '统计日期',
    os            varchar(7) not null comment '操作系统类型',
    stat_count    int         not null comment '用户数',
    os_stat_count int         null comment 'os类型累计用户数',
    primary key (stat_date, os)
) comment '每日App新装机统计表';

由于面对的是一个日活量非常小的App,经常出现每日新增用户数为0的情况。

insert数据落库逻辑如下:

public void appOsStatisticFromUser(String time) {
	// 远程Feign接口获取新用户数
    Response<List<OsDayCountVO>> resp = remoteUserService.appOsStats(time);
    boolean check = resp != null && resp.getCode() == 0 && CollectionUtils.isNotEmpty(resp.getData());
    // 有新用户数才insert
    if (check) {
        for (OsDayCountVO item : resp.getData()) {
            OsDayCount po = BeanConvertUtils.convert(item, OsDayCount.class);
            osDayCountMapper.insert(po);
            // 前一天 osStatCount = 前一天 statCount + 前两天 osStatCount
            String twoDayAgo = DateUtils.addDay(DateUtils.parse(item.getStatDate(), DateUtils.DATE_SMALL_STR), DateUtils.DATE_SMALL_STR, -1);
            Integer count = osDayCountMapper.osMax(twoDayAgo, item.getOs());
            po.setOsStatCount(count + item.getStatCount());
            // 此处update逻辑一定要注意where条件限制否则报错:SQLIntegrityConstraintViolationException Duplicate entry
            osDayCountMapper.update(po, new LambdaUpdateWrapper<OsDayCount>().eq(OsDayCount::getStatDate, item.getStatDate()).eq(OsDayCount::getOs, item.getOs()));
        }
    }
}

问题

上面的业务逻辑没有问题,运行之后,数据库如下:
在这里插入图片描述
表里的数据不是连续的!!没有某个stat_date日期的数据则表示该天没有新增用户,os_stat_count表示的是累计用户数。

现在想要查询【连续】日期的用户数,即实现

// 没有2023-12-18数据,则取2023-12-17;没有2023-12-17数据,则取2023-12-16;以此类推
select stat_date, os_stat_count from os_day_count where stat_date in ('2023-12-16','2023-12-17','2023-12-18');

最后返回的数据应该有3行,分别是2023-12-16、2023-12-17、2023-12-18,而且因为2023-12-17和2023-12-18没有新增用户。故而查询出来的三行数据结果是一模一样的。

实现方案

全量冗余存储

想要查询某个连续时间段,如最近一个月的累计用户数。很简单,修改insert逻辑即可,每天都落数据,哪怕和前一天数据一模一样。这样查询时直接使用上面的SQL即可实现功能。

但是这样会在数据库里全量存储很多冗余数据。不建议。

应用层实现

保持insert逻辑不变,那就需要在select处花点心思,也很简单。

数据库PO实体类定义如下:

@Data
@TableName(value = "os_day_count")
public class OsDayCount {
    @TableId(value = "stat_date", type = IdType.NONE)
    private String statDate;
    private String os;
    private Integer statCount;
    private Integer osStatCount;

    public OsDayCount(String statDate, String os, Integer statCount) {
        this.statDate = statDate;
        this.os = os;
        this.statCount = statCount;
    }
}

枚举类定义:

@Getter
@AllArgsConstructor
public enum OsEnum {
    IOS("iOS", "iOS"),
    ANDROID("Android", "Android"),
    ALL("ALL", "ALL");

    private final String desc;
    private final String name;

    public static String getNameByDesc(String desc) {
        for (OsEnum osEnum : OsEnum.values()) {
            if (osEnum.desc.equals(desc)) {
                return osEnum.name;
            }
        }
        return null;
    }
}

Mapper接口类定义查询方法:

Integer osMax(@Param("time") String time, @Param("os") String os);

对应的MyBatis mapper.xml文件:

<select id="osMax" resultType="java.lang.Integer">
    SELECT ifnull(max(os_stat_count), 0)
    FROM os_day_count
    WHERE stat_date &lt;= #{time}
      AND os = #{os};
</select>

Service层通过简简单单一个for循环来执行 2 ∗ N 2*N 2N次SQL查询实现,其中2表示枚举类定义的类型个数,N表示查询日期跨度。

List<OsDayCount> osList = Lists.newArrayListWithExpectedSize(dto.getTimeList().size() * 2);
for (String item : dto.getTimeList()) {
    osList.add(new OsDayCount(item, OsEnum.ANDROID.getDesc(), osDayCountMapper.osMax(item, OsEnum.ANDROID.getDesc())));
    osList.add(new OsDayCount(item, OsEnum.IOS.getDesc(), osDayCountMapper.osMax(item, OsEnum.IOS.getDesc())));
}

不管是查询日期跨度增加,还是换一种场景,枚举类型个数增长。上面这种方式都是极不可取的。

SQL

上面这种for循环肯定不可取,因此有必要替换成一个SQL来实现查询取数逻辑。提到MySQL实现,一般都会有MySQL 8和非MySQL 8两种情况。

非MySQL 8

相当多的公司,哪怕他们的业务并不是金融或保险或交易相关等,也不会(不敢)考虑选择(或升级迁移)使用MySQL 8。哪怕MySQL 8于2018年4月份发布,距今已经五年多。原因无外乎慎重起见、因循守旧等。

事实上,这几年工作中,鄙人也仅在一家公司的一个产品中,在生产中用过MySQL 8。

不难分析出来,stat_date是一个非常关键的字段,由于数据库里并没有存储2023-12-17,2023-12-18两天的数据。

因此非常有必要做一个子查询:

SELECT '2023-12-16' AS stat_date
UNION ALL SELECT '2023-12-17'
UNION ALL SELECT '2023-12-18' AS dates

此子查询返回期望的多行日期数据。然后关联另一个子查询:

SELECT os_stat_count FROM os_day_count WHERE stat_date <= dates.stat_date ORDER BY stat_date DESC LIMIT 1;

事实上,这个子查询和上面的应用层实现方案里的查询逻辑一样:

SELECT ifnull(max(os_stat_count), 0) FROM os_day_count WHERE stat_date &lt;= #{time};

注意到一定要使用LIMIT 1来限制只返回一条数据,否则报错:Subquery returns more than 1 rowmaxmin函数只会返回一条数据,所以不用冗余追加limit 1限制。

组合之后,写出如下SQL:

SELECT
    dates.stat_date,
    (SELECT os_stat_count FROM os_day_count WHERE stat_date <= dates.stat_date ORDER BY stat_date DESC LIMIT 1) AS os_stat_count
FROM
    (SELECT '2023-12-16' AS stat_date
    UNION ALL SELECT '2023-12-17'
    UNION ALL SELECT '2023-12-18') AS dates
ORDER BY
    dates.stat_date;

达到效果。

那如何进一步区分os枚举类型信息呢?当然也是join。不过不是使用left joinleft join需要使用on条件关联一下。这里使用cross join

最终的SQL如下:

SELECT
    dates.stat_date,
    oss.os,
    (SELECT os_stat_count FROM os_day_count WHERE stat_date <= dates.stat_date and os = oss.os ORDER BY stat_date DESC limit 1) AS os_stat_count
FROM
    (
    SELECT '2023-12-16' AS stat_date
    UNION ALL SELECT '2023-12-17'
    UNION ALL SELECT '2023-12-18'
) AS dates
cross join (select distinct os from os_day_count) AS oss
ORDER BY
    dates.stat_date;

SQL没有问题,实现期望效果。那如何把SQL转写为MyBatis Mapper.xml文件支持的语法呢?

最关键的部分,还是子查询得到的dates数据。总不可能一一列出来吧,如果要查询最近半年的数据呢?

MyBatis提供的标签符合此场景的貌似只有foreach。经过尝试,MyBatis果然支持以Index方式取集合元素,即:#{timeList[0]}#{timeList[0]}foreachcollection有重复第一个元素,一开始想要改造collection标签元素,没搞定。

咱不就是想去重嘛。去重的话,使用UNION替换UNION ALL

其他就是foreach的几个元素的处理:opencloseseparator,都置为空即可。

Anyway,日期子查询转写成MyBatis语法最终如下:

SELECT #{timeList[0]} AS stat_date
<foreach close="" collection="timeList" item="item" open="" separator="">
    UNION SELECT
    #{item}
</foreach>

最终版MyBatis mapper.xml文件如下:

<select id="osSum" resultType="com.aaaaa.collect.data.dao.entity.OsDayCount">
    SELECT
    dates.stat_date AS statDate,
    oss.os,
    (SELECT os_stat_count FROM os_day_count WHERE stat_date &lt;= dates.stat_date AND os = oss.os ORDER BY stat_date
    DESC limit 1) AS statCount
    FROM
    (SELECT #{timeList[0]} AS stat_date
    <foreach close="" collection="timeList" item="item" open="" separator="">
        UNION SELECT
        #{item}
    </foreach>
    ) AS dates
    CROSS JOIN (SELECT DISTINCT os FROM os_day_count) AS oss
    ORDER BY dates.stat_date;
</select>

MySQL 8

借助于MySQL 8提供的WITH AS及LAG函数,可写出如下SQL:

WITH dates AS (
    SELECT '2023-12-16' AS stat_date
    UNION ALL SELECT '2023-12-17'
    UNION ALL SELECT '2023-12-18'
),
cte AS (
    SELECT
        dates.stat_date,
        IFNULL(os_day_count.os_stat_count, LAG(os_day_count.os_stat_count) OVER (ORDER BY dates.stat_date)) AS os_stat_count
    FROM
        dates
    LEFT JOIN
        os_day_count ON dates.stat_date = os_day_count.stat_date
)
SELECT
    stat_date,
    IFNULL(os_stat_count, (SELECT os_stat_count FROM cte WHERE os_stat_count IS NOT NULL ORDER BY stat_date DESC LIMIT 1)) AS os_stat_count
FROM
    cte
ORDER BY
    stat_date;

如果想要进一步增加OS信息,写出如下SQL:


TODO:cross join os后有重复的数据

最后

在写SQL的过程中,还是相当耗费一些心力的,各种Stackoverflow浏览帖子,各种Google搜索,没有找到解决方案。也体验过CSDN推出的C知道,呵呵。OpenAI的Chat GPT也体验过,虽然比C知道强,但是也没有拿到满意的答案。

最后在CSDN问答里发布帖子MySQL查询不存在的日期数据。不过1~2分钟,就拿到满意的答案。不得不说,GitHub与OpenAI强强联合推出的GitHub Copilot真™强大啊!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1332325.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【必读】从MII到RGMII,一文了解以太网PHY芯片不同传输接口信号时序!

1、概述 不管是使用FPGA还是ARM&#xff0c;想要实现以太网通信&#xff0c;都离不开以太网PHY芯片&#xff0c;其功能如下所示&#xff0c;FPGA或者ARM将以太网数据发送给PHY芯片&#xff0c;PHY会将接收数据转换成模拟的差分信号传输到RJ45座子&#xff0c;最后通过网线与CPU…

数据库之MySQL的介绍

操作系统&#xff1a; windows&#xff1a;win10、win11、win7、windows Server2016 Linux/Unix &#xff1a;红帽&#xff08;RedHat&#xff09;、Bebian、SUSE MacOS Linux系统&#xff1a;CantOS&#xff08;yum、dnf&#xff09;、Ubuntu&#xff08;apt、apt—get&am…

IP应用场景的规划

IP地址作为互联网通信的基石&#xff0c;在现代社会中扮演着至关重要的角色。本文将深入探讨IP地址在不同应用场景中的规划与拓展&#xff0c;探讨其在网络通信、安全、商业、医疗和智能城市等领域的关键作用与未来发展趋势。 IP地址的基本原理 IP地址是分配给网络上设备的数…

Odoo16 实用功能之Form视图详解(表单视图)

目录 1、什么是Form视图 2、Form视图的结构 3、源码示例 1、什么是Form视图 Form视图是用于查看和编辑数据库记录的界面。每个数据库模型在Odoo中都有一个Form视图&#xff0c;用于显示该模型的数据。Form视图提供了一个可编辑的界面&#xff0c;允许用户查看和修改数据库记…

TokenFlow详解

https://github.com/omerbt/TokenFlow/issues/25 https://github.com/omerbt/TokenFlow/issues/31 https://github.com/omerbt/TokenFlow/issues/32 https://github.com/eps696/SDfu register_extended_attention_pnp1. 为所有BasicTransformerBlock layer的attn1重构forward2.…

MySQL 数据库系列课程 05:MySQL命令行工具的配置

一、Windows启动命令行工具 &#xff08;1&#xff09;打开 Windows 的开始菜单&#xff0c;找到安装好的 MySQL&#xff0c;点击MySQL 8.0 Command Line Client - Unicode&#xff0c;这个带有 Unicode 的&#xff0c;是支持中文的&#xff0c;允许在命令行中敲中文。 &…

C++的一些零散小知识

不定时更新一些 文章目录 1、空指针nullptr的类型为std::nullptr_t2、函数定义中&#xff0c;如果不需要使用参数的值&#xff0c;可以省略参数名3、静态成员变量在C17之后可以直接在类内定义并初始化了 1、空指针nullptr的类型为std::nullptr_t 一个毫无意义的例子&#xff1…

Python自动化办公,又双叒增加功能了!

大家好,这里是程序员晚枫,今天给大家分享一下Python自动化办公,最近更新的功能。 以下代码,全部都可以免费使用哦~! 彩色的输出 有没有觉得python自带的无色输出看腻了?增加了彩色输出的功能,可以实现无痛替换。 上面效果的实现代码如下,👇 自动收发邮件 这个12月发…

Python字符串处理全攻略(三):常用内置方法轻松掌握

目录 引言Python字符串常用内置方法str.index()功能介绍语法注意事项总结 str.startswith()功能介绍语法示例注意事项 str.expandtabs()功能介绍语法示例注意事项总结 str.splitlines()功能介绍语法示例注意事项总结 str.swapcase()功能介绍语法示例注意事项 结束语 引言 欢迎…

【Python】面向对象

一、初识对象 二、成员方法 三、类和对象 四、构造方法 五、其它内置方法 六、封装 七、继承 八、类型注解 九、多态 面向对象概念 面向对象编程&#xff08;Object-Oriented Programming&#xff0c;OOP&#xff09;是一种编程范式&#xff0c;它将数据和操作数据的方法组织…

【机器学习】【线性回归】梯度下降

文章目录 [toc]数据集实际值估计值估计误差代价函数学习率参数更新Python实现线性拟合结果代价结果 数据集 ( x ( i ) , y ( i ) ) , i 1 , 2 , ⋯ , m \left(x^{(i)} , y^{(i)}\right) , i 1 , 2 , \cdots , m (x(i),y(i)),i1,2,⋯,m 实际值 y ( i ) y^{(i)} y(i) 估计值 h …

HTML美化网页

使用CSS3美化的原因 用css美化页面文本,使页面漂亮、美观、吸引用户 可以更好的突出页面的主题内容,使用户第一眼可以看到页面主要内容 具有良好的用户体验 <span>标签 作用 能让某几个文字或者某个词语凸显出来 有效的传递页面信息用css美化页面文本&#xff0c;使页面漂…

事务相关知识

库存问题 先扣库存–>如果订单服务崩溃了&#xff0c;但是库存服务没有崩溃&#xff0c;这个时候库存扣减成功了&#xff0c;那么就会库存不能归还,&#xff0c;无法回滚。 后扣库存–>1&#xff1a;调用库存服务失败(比如网络抖动&#xff0c;库存服务挂了)–>回滚。…

VSCode运行时弹出powershell

问题 安装好了vscode并且装上code runner插件后&#xff0c;运行代码时总是弹出powershell,而不是在vscode底部终端 显示运行结果。 解决方法 打开系统cmd ,在窗口顶部条右击打开属性&#xff0c;把最下面的旧版控制台选项取消&#xff0c;即可

python区块链简单模拟【01】

完整代码 https://gitee.com/ihan1001 https://github.com/ihan1001 重点&#xff1a;时间戳&#xff0c;MD5哈希&#xff0c;SHA256哈希&#xff0c;base64一种用64个字符表示任意二进制数据的方法&#xff0c;ECC椭圆曲线算法 import time time.time()datetime.now().strfti…

Ignite内存配置

配置内存 #1.内存架构 #1.1.概述 Ignite内存架构通过可以同时在内存和磁盘上存储和处理数据及索引&#xff0c;得到了支持磁盘持久化的内存级性能。 多层存储的运行方式类似于操作系统&#xff08;例如Linux&#xff09;的虚拟内存。但是这两种类型架构之间的主要区别是&…

懒加载图片案例

整体效果&#xff1a; HTML部分&#xff1a; <div class"lazy-box"><img class"lazy" data-original"img/1.jpg" alt"1.jpg" width"960" height"540"><img class"lazy" data-original…

MySQL 数据库系列课程 04:MySQL Workbench的安装

Workbench 是 MySQL 官方推出的免费的强大的可视化工具&#xff0c;不熟悉命令行工具的人&#xff0c;可以安装这一款软件&#xff0c;通过编写 SQL 进行数据库中数据的增删改查操作&#xff0c;接下来我们详细说明一下 Workbench 的安装。 一、Windows安装Workbench &#x…

怎么为pdf文件添加水印?

怎么为pdf文件添加水印&#xff1f;PDF是一种很好用的文件格式&#xff0c;这种格式能够很有效的保护我们的文件&#xff0c;但有时可能还会被破解&#xff0c;这种时候在PDF上添加水印就是比较好的方法。 综上所述&#xff0c;PDF是保密性很强的文件&#xff0c;但添加水印能够…

深度学习入门(python)考试速成均方误差

均方误差 表示神经网络的输出&#xff0c;表示监督数据&#xff0c;表示数据的维度。 这里神经网络的输出y是softmax函数的输出 数组元素的索引从第一个开始依次对应数组“0”&#xff0c;“1”&#xff0c;“2”&#xff0c;...... 由于softmax函数的输出可理解为概率 由此…