MySQL 分组后统计 TopN 思路优化

news2024/11/26 7:39:55

一、表信息

表结构如下:

CREATE TABLE `score` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(255) DEFAULT NULL,
  `score` int(11) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=1746687 DEFAULT CHARSET=utf8;

使用存储过程生成十万条测试数据,该脚本主要创建 100name,每个 name 生成 1000 条不重复的 score 数据:

CREATE PROCEDURE `generate_score_data`()
BEGIN
    DECLARE i INT DEFAULT 0;
    DECLARE j INT DEFAULT 0;
    DECLARE name VARCHAR(255);
    DECLARE score INT;
    DECLARE score_set VARCHAR(10000) DEFAULT '';

    WHILE i < 100 DO
        SET name = CONCAT('name', i);

        SET j = 0;
        SET score_set = '';
        WHILE j < 1000 DO
            REPEAT
                SET score = FLOOR(RAND() * 5001);
            UNTIL NOT FIND_IN_SET(score, score_set)
            END REPEAT;

            SET score_set = CONCAT(score_set, ',', score);

            INSERT INTO score (name, score) VALUES (name, score);

            SET j = j + 1;
        END WHILE;

        SET i = i + 1;
    END WHILE;
END

执行存储过程:

CALL generate_score_data();

在这里插入图片描述

需求:取出每个 namescoretop3 数据出来。

二、TopN 实现思路

2.1 子查询的方式

子查询的方式是最容易想到的也是效率最差的一种方式,也是网上普遍写方式,通过构造一个子查询,在子查询中判断相同 name 下的当前的 score 大于主 score 的数量,如果小于3 则肯定是位于 top3 的数据。

实现如下:

SELECT
	s1.*
FROM
	score s1 
WHERE
	( SELECT count(*) FROM score s2 WHERE s1.`name` = s2.`name` AND s2.score > s1.score )< 3 
ORDER BY
	s1.id ASC

运行结果:

在这里插入图片描述

从结果中可以看到花费了 22.66s ,效率着实不高。

2.2 通过 ROW_NUMBER 优化(推荐)

使用窗口函数 ROW_NUMBER() 对每个姓名进行分组,并按照成绩降序进行排序。然后,在外部包装一层选择具有行号小于等于3的记录,这样就可以得到每个组的 top 3 记录。

实现如下:

SELECT
	s.id,
	s.`name`,
	s.score 
FROM
	( SELECT id, `name`, score, ROW_NUMBER() OVER ( PARTITION BY NAME ORDER BY score DESC ) AS row_num FROM score ) AS s 
WHERE
	s.row_num <= 3
ORDER BY
	s.id ASC

运行结果:

在这里插入图片描述

可以看出使用该方式,仅 0.222s 就查出了数据。

2.3 通过 RANK() 优化

实现如下:

SELECT
	s.`name`,
	s.score 
FROM
	( SELECT id, `name`, score, RANK() OVER ( PARTITION BY NAME ORDER BY score DESC ) AS rank_num FROM score ) AS s 
WHERE
	s.rank_num <= 3
ORDER BY
	s.id ASC

在这个查询中,将 ROW_NUMBER() 函数更改为 RANK() 函数。RANK() 函数在计算排名时会跳过平级项并产生相同的排名值。例如,如果有两个人的成绩都是第一名,它们的排名值都是1

这种方式可以确保在并列排名的情况下,多个人都能被包含在 top 3 中。然而,如果有并列排名的记录超过了 top 3,它们可能会导致结果集超出预期的记录数,因此使用的时候需要注意是否合适。

运行结果:

在这里插入图片描述

从结果上可以看出比 ROW_NUMBER() 快了仅 0.002s

2.4 通过变量的方式

实现如下:

SELECT
	t.id,
	t.`name`,
	t.score 
FROM
	(
	SELECT
		s.*,
		@rn :=
	IF
		(
			@NAME = s.NAME,
			@rn + 1,
		IF
		( @NAME := NAME, 1, 1 )) AS row_num 
	FROM
		score s
		CROSS JOIN ( SELECT @rn := 0, @NAME := '' ) AS vars 
	ORDER BY
		s.NAME,
		s.score DESC 
	) AS t 
WHERE
	t.row_num <= 3
ORDER BY
	t.id ASC

在这个查询中,使用了两个 MySQL 变量 @name@rn 来跟踪当前分组和每个分组中的行号。在内部查询中,对表进行排序,并使用 CROSS JOIN 子句创建了一个包含两个变量的虚拟表。然后,使用 IF() 函数将变量与当前行的姓名进行比较,以确定分组和行号。

这种方法需要对每行都进行比较,因此在大型数据集上可能会更慢,但在分组数较少且每组记录数较多的情况下,它可以实现更快的查询速度。

运行结果:

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1167294.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Elasticsearch:使用 ES|QL

在我之前的文章 “Elasticsearch&#xff1a;ES|QL 查询语言简介”&#xff0c;我对 ES|QL 做了一个简单的介绍。在今天的文章中&#xff0c;我们来描述如何使用 ES|QL。 REST API 这个用来返回 ES|QL (Elasticsearch qyery language) 的查询结果。它具有如下的格式&#xff1…

MongoDB安全及系例全教程

一、系列文章目录 一、MongoDB安装教程—官方原版 二、MongoDB 使用教程(配置、管理、监控)_linux mongodb 监控 三、MongoDB 基于角色的访问控制 四、MongoDB用户管理 五、MongoDB基础知识详解 六、MongoDB—Indexs 七、MongoDB事务详解 八、MongoDB分片教程 九、Mo…

用扩散AI生成的合成数据的质量评估方法【4个指标】

在线工具推荐&#xff1a; Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 3D场景编辑器 为了生成有用的图像数据集&#xff0c;我们使用真实世界的照片数据集作为指南针&#xff0c;探索即时工程的艺术。 我们的稳定扩散&#xff08;…

PPT模板,免费下载!

找免费PPT模板就上这6个网站&#xff0c;各种模板、素材都能找到&#xff0c;质量还很高&#xff0c;赶紧收藏起来&#xff01; 1、菜鸟图库 https://www.sucai999.com/search/ppt/0_0_0_1.html?vNTYwNDUx 菜鸟图库网有非常丰富的免费素材&#xff0c;像设计类、办公类、自媒…

红海云签约中国煤科信息公司,数智引领科技型国企人力资源数字化变革

中煤科工集团信息技术有限公司&#xff08;以下简称“中国煤科信息公司”&#xff09;隶属于中国煤炭科工集团&#xff0c;作为中国煤科核心软件的研发中心、数据技术中心、内部信息化支撑中心&#xff0c;是中国煤科加快智能矿山建设和数字化转型的核心力量。 基于对数字化转…

软件设计模式原则(一)迪米特法则

开一个小专题——详细总结一下软件设计模式原则&#xff0c;这部分在《软计》和《java设计模式》中算是很重要的知识点&#xff0c;值得展开详细讲解一下~首先介绍的是【迪米特法则】 一.定义 迪米特法则又称为最少知识原则&#xff0c;其定义为&#xff1a;一个软件实体应当尽…

vue使用JsBarcode生成条形码

在工作中&#xff0c;有一个需求是接口返回的订单号生成条形码&#xff0c;如图&#xff1a; 1.安装依赖 yarn add jsbarcode2.引入 在script标签中引入 import JsBarcode from jsbarcode 3.使用 this.$refs.a.src的值为条形码的地址。 <template><div><img…

linux下多机器ssh免密码登录配置

20,21,22,23等4台机器配置ssh免密登陆 确认sshd配置 查看/etc/ssh/sshd_config文件&#xff0c;确认如下配置没有被注释掉&#xff1a; AuthorizedKeysFile .ssh/authorized_keys每一台机器修改hosts配置主机名&#xff08;可选&#xff09; 执行ssh命令&#xff0c;如…

积分球测试粉末反射率

积分球测试粉末主要是基于光在积分球内的反射和混合。具体来说&#xff0c;当光线进入积分球时&#xff0c;它将在球的内表面上进行反射。由于积分球的内表面是高反射材料&#xff0c;所以大部分光线将被反射&#xff0c;而不会逃逸出球体。在积分球内&#xff0c;光线经过多次…

基于51单片机的全自动洗衣机系统设计

**单片机设计介绍&#xff0c;基于51单片机的全自动洗衣机系统设计(仿真、程序、论文) 文章目录 一 概要二、功能设计设计思路 三、 软件设计原理图 五、 程序六、 文章目录 一 概要 基于51单片机的全自动洗衣机系统是一种集成控制、传感、显示等功能于一体的智能洗衣机系统&a…

Security ❀ UDP/TCP传输层常见DOS攻击详解

文章目录 1. UDP协议基础2. UDP Flood2.1. 攻击原理2.2. 防护方法 3. TCP三次握手和四次挥手3.1. 三次握手3.2. 四次挥手 4. SYN Flood4.1. 攻击原理4.2. 防护方法 5. SYN-ACK Flood5.1. 攻击原理5.2. 防护方法 6. ACK Flood6.1. 攻击原理6.2. 防护方法 7. FIN/RST Flood7.1. 攻…

来可电子基于UDS的ECU刷写方案

车辆电子控制单元&#xff08;ECU&#xff09;的刷写方式也正在发生重大变化。传统的ECU刷写方法通常使用CAN卡连接电脑进行&#xff0c;现在越来越多的汽车商家和软件开发人员开始采用基于总线UDS来进行ECU刷写。 1、通过我们LKmast上位机软件编写配置刷写步骤 2、导入到我们…

python将图片序列保存成gif

这里用到的模块是imageio。用imageio.mimsave即可将图片序列保存成gif动态图。以下是本人编写的小实验&#xff1a; import cv2 import imageiopaths ["./images/0001.png", "./images/0002.png", "./images/0003.png", ...] frames [] for i…

瑞禧生物分享纳米粉体~二硫化钼粉体 MoS2 纯度:99% 纳米二硫化钼(MoS2)

二硫化钼粉体 名称&#xff1a;二硫化钼粉体 纯度&#xff1a;99% 外观&#xff1a;粉末 纳米二硫化钼(MoS2)粉体硫化钼粉体 二硫化铝化学性质稳定、热稳定性好 、摩擦系数低 、润滑作用优 良且在较为苛 刻的工作环境下能保持 良好的摩擦性能因此二硫化铝被广泛应用于固体润…

一键报警可视对讲管理机10寸触摸屏管理机

一键报警可视对讲管理机10寸触摸屏管理机 一、管理机技术指标&#xff1a; 1、10寸LCD触摸屏&#xff0c;分辨率1024*600&#xff1b; 2、摄像头1200万像素 3、1000M/100M自适应网口&#xff1b; 4、按键设置&#xff1a;报警/呼叫按键&#xff0c;通话/挂机按键&#xff0…

count+group by

一、count()函数 1、count(*) 把所有的行数都查询出来&#xff0c;除非该行中所有的数据为null SELECTCOUNT(*) FROMemployees结果&#xff1a;107 2、count(commission_pct) 把指定列中所有的行数查出来&#xff0c;只要一行为null&#xff0c;那就不计数 SELECTCOUNT(com…

【Qt-22】Qt乱码问题解决

最近在Qt项目中遇到TCP通信接收数据乱码的问题&#xff0c;很是苦恼&#xff0c;经过多次尝试&#xff0c;终于得以解决。 感谢Qt TcpSocket 传递数据乱码显示_qt中socket接受到的客户端数据显示不出来-CSDN博客 彻底解决Qt中文乱码以及汉字编码的问题(UTF-8/GBK)_XX風的博客…

采购供应链思维导图

供应链采购&#xff0c;是指企业根据生产需要&#xff0c;通过与供应商签订合同&#xff0c;由供应商提供原材料、零部件、包装材料等&#xff0c;企业负责产品的制造&#xff0c;并将产品销售给用户的一种交易方式。 供应链管理 横向:采购把东西买进来&#xff0c;生产去加工增…

windows 使用 EasyScreenLive 和 EasyDarwin 软件实现相机 rtsp 推流

1. 下载软件 实现 rtsp 推流&#xff0c;需要运行&#xff08;1&#xff09;rtsp 服务器、&#xff08;2&#xff09;rtsp 推流客户端。 rtsp 服务器 EasyDarwin&#xff1a;https://github.com/EasyDarwin/EasyDarwin rtsp 推流客户端 EasyScreenLive&#xff1a;https://git…