MySQL 分组后统计 TopN 优化思路

news2024/11/24 9:34:10

一、表信息

表结构如下:

CREATE TABLE `score` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(255) DEFAULT NULL,
  `score` int(11) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=1746687 DEFAULT CHARSET=utf8;

使用存储过程生成十万条测试数据,该脚本主要创建 100name,每个 name 生成 1000 条不重复的 score 数据:

CREATE PROCEDURE `generate_score_data`()
BEGIN
    DECLARE i INT DEFAULT 0;
    DECLARE j INT DEFAULT 0;
    DECLARE name VARCHAR(255);
    DECLARE score INT;
    DECLARE score_set VARCHAR(10000) DEFAULT '';

    WHILE i < 100 DO
        SET name = CONCAT('name', i);

        SET j = 0;
        SET score_set = '';
        WHILE j < 1000 DO
            REPEAT
                SET score = FLOOR(RAND() * 5001);
            UNTIL NOT FIND_IN_SET(score, score_set)
            END REPEAT;

            SET score_set = CONCAT(score_set, ',', score);

            INSERT INTO score (name, score) VALUES (name, score);

            SET j = j + 1;
        END WHILE;

        SET i = i + 1;
    END WHILE;
END

执行存储过程:

CALL generate_score_data();

在这里插入图片描述

需求:取出每个 namescoretop3 数据出来。

二、TopN 实现思路

2.1 子查询的方式

子查询的方式是最容易想到的也是效率最差的一种方式,也是网上普遍写方式,通过构造一个子查询,在子查询中判断相同 name 下的当前的 score 大于主 score 的数量,如果小于3 则肯定是位于 top3 的数据。

实现如下:

SELECT
	s1.*
FROM
	score s1 
WHERE
	( SELECT count(*) FROM score s2 WHERE s1.`name` = s2.`name` AND s2.score > s1.score )< 3 
ORDER BY
	s1.id ASC

运行结果:

在这里插入图片描述

从结果中可以看到花费了 22.66s ,效率着实不高。

2.2 通过 ROW_NUMBER 优化(推荐)

使用窗口函数 ROW_NUMBER() 对每个姓名进行分组,并按照成绩降序进行排序。然后,在外部包装一层选择具有行号小于等于3的记录,这样就可以得到每个组的 top 3 记录。

实现如下:

SELECT
	s.id,
	s.`name`,
	s.score 
FROM
	( SELECT id, `name`, score, ROW_NUMBER() OVER ( PARTITION BY NAME ORDER BY score DESC ) AS row_num FROM score ) AS s 
WHERE
	s.row_num <= 3
ORDER BY
	s.id ASC

运行结果:

在这里插入图片描述

可以看出使用该方式,仅 0.222s 就查出了数据。

2.3 通过 RANK() 优化

实现如下:

SELECT
	s.`name`,
	s.score 
FROM
	( SELECT id, `name`, score, RANK() OVER ( PARTITION BY NAME ORDER BY score DESC ) AS rank_num FROM score ) AS s 
WHERE
	s.rank_num <= 3
ORDER BY
	s.id ASC

在这个查询中,将 ROW_NUMBER() 函数更改为 RANK() 函数。RANK() 函数在计算排名时会跳过平级项并产生相同的排名值。例如,如果有两个人的成绩都是第一名,它们的排名值都是1

这种方式可以确保在并列排名的情况下,多个人都能被包含在 top 3 中。然而,如果有并列排名的记录超过了 top 3,它们可能会导致结果集超出预期的记录数,因此使用的时候需要注意是否合适。

运行结果:

在这里插入图片描述

从结果上可以看出比 ROW_NUMBER() 快了仅 0.002s

2.4 通过变量的方式

实现如下:

SELECT
	t.id,
	t.`name`,
	t.score 
FROM
	(
	SELECT
		s.*,
		@rn :=
	IF
		(
			@NAME = s.NAME,
			@rn + 1,
		IF
		( @NAME := NAME, 1, 1 )) AS row_num 
	FROM
		score s
		CROSS JOIN ( SELECT @rn := 0, @NAME := '' ) AS vars 
	ORDER BY
		s.NAME,
		s.score DESC 
	) AS t 
WHERE
	t.row_num <= 3
ORDER BY
	t.id ASC

在这个查询中,使用了两个 MySQL 变量 @name@rn 来跟踪当前分组和每个分组中的行号。在内部查询中,对表进行排序,并使用 CROSS JOIN 子句创建了一个包含两个变量的虚拟表。然后,使用 IF() 函数将变量与当前行的姓名进行比较,以确定分组和行号。

这种方法需要对每行都进行比较,因此在大型数据集上可能会更慢,但在分组数较少且每组记录数较多的情况下,它可以实现更快的查询速度。

运行结果:

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1167983.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Excel文档名称批量翻译的高效方法

在处理大量文件时&#xff0c;我们常常需要借助一些工具来提高工作效率。例如&#xff0c;在需要对Excel文档名称进行批量翻译时&#xff0c;一个方便快捷的工具可以帮助我们省去很多麻烦。今天&#xff0c;我将介绍一款名为固乔文件管家的软件&#xff0c;它能够帮助我们轻松实…

【Redis】Java连接Redis及Java操作Redis常用数据类型

一&#xff0c;Java连接Redis 1.1 连接前端服务器 打开RedisDesktopManager并连接Redis 不知道可看我上一篇文章&#xff1a; 【Redis】安装(Linux&window)及Redis的常用命令-CSDN博客 1.2 后端依赖 导入相关的jedis依赖 注意&#xff1a;要在dependencies标签中导入…

react使用react-sortable-hoc实现拖拽

react-sortable-hoc拖拽 安装 npm install react-sortable-hoc --save 代码如下&#xff08;示例&#xff09;&#xff1a; import React, { useImperativeHandle, forwardRef, memo, useState } from react;import { DrawerForm } from ant-design/pro-form;import { messag…

从零开始的JSON库教程(一)

本文是学习github大佬miloyip而做的读书笔记&#xff0c;项目点此进入 目录 1、JSON是什么 2、搭建编译环境 3、头文件与API设计 4、JSON的语法子集 5、单元测试 6、宏的编写技巧 7、实现解析器 8、关于断言 1、JSON是什么 JSON&#xff08;JavaScript Object Notati…

构建mono-repo风格的脚手架库

前段时间阅读了 https://juejin.cn/post/7260144602471776311#heading-25 这篇文章&#xff1b;本文做一个梳理和笔记&#xff1b; 主要聚焦的知识点如下&#xff1a; 如何搭建脚手架工程如何开发调试如何处理命令行参数如何实现用户交互如何拷贝文件夹或文件如何动态生成文件…

TSINGSEE渔业水产养殖智能视频监管系统方案

一、背景需求 我国作为海洋资源丰富的国家之一&#xff0c;渔场养殖基地众多&#xff0c;但是养殖场也存在着开放度高、覆盖面积广&#xff0c;不易实时管理等监管难题&#xff0c;加上偷捕盗捕现象严重&#xff0c;这不仅给我们养殖户带来巨大的损失&#xff0c;一定程度上还…

阿里巴巴矢量图标转化为字体图标教程

第一步&#xff1a;打开阿里巴巴矢量图标网站&#xff0c;搜索想要的icon https://www.iconfont.cn/?spma313x.search_index.i3.2.19f33a81gfo5r0 第二步&#xff1a;添加购物车&#xff0c;并且下载代码。如下图&#xff1a; 下载代码解压后得到一下文件&#xff1a; 第三步…

LeetCode题:21合并两个有序链表

21合并两个有序链表 题目描述 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例 1&#xff1a; 输入&#xff1a;l1 [1,2,4], l2 [1,3,4] 输出&#xff1a;[1,1,2,3,4,4]示例 2&#xff1a; 输入&#xff1a;l1 [], …

【Java 进阶篇】Java ServletContext功能:获取文件服务器路径

Java ServletContext是Java EE中的一个核心接口&#xff0c;用于与Servlet容器进行通信&#xff0c;提供了许多有用的功能&#xff0c;包括获取文件服务器路径。在本文中&#xff0c;我们将详细介绍如何使用ServletContext来获取文件服务器路径&#xff0c;并提供示例代码以帮助…

如何提高项目团队资源利用率?5大注意事项

项目团队的资源是有限的&#xff0c;这包括人力、时间、资金、设备等。如果这些资源利用率低下或者浪费&#xff0c;这直接会导致项目成本的增加&#xff0c;不利于产品在竞争激烈的商业环境中保持优势。 因此我们需要提高团队资源利用率&#xff0c;降低项目成本&#xff0c;避…

ArmSom------摄像头开发指南(二)

一. 简介 RK3588从入门到精通 开发板&#xff1a;ArmSoM-W3 Kernel&#xff1a;5.10.160 OS&#xff1a;Debian11 上篇文档介绍了rockchip平台怎么配置MIPI-CSI的通路&#xff0c;本⽂主要介绍在Rockchip平台下Camera相关测试命令 二. 摄像头连接 ArmSoM-W3开发板与imx41…

STM32-高级定时器

以STM32F407为例。 高级定时器 高级定时器比通用定时器增加了可编程死区互补输出、重复计数器、带刹车&#xff08;断路&#xff09;功能&#xff0c;这些功能都是针对工业电机控制方面。 功能框图 16位向上、向下、向上/向下自动重装载计数器。 16位可编程预分频器&#xff0c…

精品基于Python的气象预报系统-爬虫

《[含文档PPT源码等]精品基于Python的气象预报系统-爬虫》该项目含有源码、文档、PPT、配套开发软件、软件安装教程、项目发布教程、包运行成功&#xff01; 软件开发环境及开发工具&#xff1a; 开发语言&#xff1a;python 使用框架&#xff1a;Django 前端技术&#xff…

第六讲:VBA与ACCESS的ADO连接中,所涉及的对象

《VBA数据库解决方案》教程&#xff08;10090845&#xff09;是我推出的第二套教程&#xff0c;目前已经是第二版修订了。这套教程定位于中级&#xff0c;是学完字典后的另一个专题讲解。数据库是数据处理的利器&#xff0c;教程中详细介绍了利用ADO连接ACCDB和EXCEL的方法和实…

安装anaconda时控制台conda-version报错

今天根据站内的一篇博客教程博客在此安装anaconda时&#xff0c;检查conda版本时报错如下&#xff1a; >>>>>>>>>>>> ERROR REPORT <<<<<<<<<<<< Traceback (most recent call last): File “D:\An…

众佰诚:新手如何在抖音电商中脱颖而出

在这个信息爆炸的时代&#xff0c;短视频平台抖音已经成为了人们获取信息、娱乐和购物的重要渠道。越来越多的商家开始在抖音上开设店铺&#xff0c;希望通过这个平台实现销售增长。然而&#xff0c;对于新手来说&#xff0c;如何在众多的竞争对手中脱颖而出&#xff0c;成为了…

ardupilot开发 --- 避障方案、SLAM方案探索 篇

0. 无意间发现一张好看的图 1. 无人机避障技术 目前&#xff0c;无人机的避障技术中最为常见的是红外线传感器、超声波传感器、激光传感器以及视觉传感器。那为什么大疆的前视避障首先选择了双目视觉呢&#xff1f; 红外线传感器超声波传感器激光传感器视觉传感器。 参考&am…

unity工程

1首先我们来熟悉一下Unity每个文件夹的作用 1.assets&#xff1a;工程资源文件夹 2.library&#xff1a;库文件夹 3.logs&#xff1a;日志文件夹 4.obj&#xff1a;编译产生中间文件 5.packages&#xff1a;包配置信息 6&#xff1a;projectsettings&#xff1a;工程设置…

【小白福音】手把手教学搭建Vue+SpringBoot开发环境完整教程

前言:在很多新手小白在准备开发一个属于自己的前后端分离项目的时候需要准备一些例如Java环境配置、Node.Js配置、Maven配置以及软件安装等等,于本次博主亲自录制了一套完整的安装配置教程,提供到最后给大家进行下载。 注:本教程仅适用于小白,每一节课都是博主原创录制的,…

selenium元素定位 —— 提高篇 xpath定位元素

XPath 最初是用来在 XML 文档中定位 DOM 节点的语言&#xff0c;由于 HTML 也可以算作 XML 的一种实现&#xff0c;所以 Selenium 也可以利用 XPath 这一强大的语言来定位 Web 元素。xpath的强大在于它可以通过父节点或者兄弟节点&#xff0c;根据html元素的前后关联性定位到元…