Python和MySQL对比(5):用Pandas实现MySQL窗口函数的效果

news2024/11/15 20:29:44

文章目录

  • 一、前言
  • 二、语法对比
    • 数据表
    • row_number()
    • lead()/lag()
    • rank()/dense_rank()
    • first_value()
    • count()/sum()
  • 三、小结

一、前言

环境:
windows11 64位
Python3.9
MySQL8
pandas1.4.2

本文主要介绍 MySQL 中的窗口函数row_number()lead()/lag()rank()/dense_rank()first_value()count()sum()如何使用pandas实现,同时二者又有什么区别。

注:Python是很灵活的语言,达成同一个目标或有多种途径,我提供的只是其中一种解决方法,大家有其他的方法也欢迎留言讨论。

二、语法对比

数据表

本次使用的数据如下。
使用 Python 构建该数据集的语法如下:

import pandas as pd
import numpy as np

df1 = pd.DataFrame({ 'col1' : list(range(1,7))
                    ,'col2' : ['AA','AA','AA','BB','BB','BB']#list('AABCA')
                    ,'col3' : ['X',np.nan,'Da','Xi','Xa','xa']
                    ,'col4' : [10,5,3,5,2,None]
                    ,'col5' : [90,60,60,80,50,50]
                    ,'col6' : ['Abc','Abc','bbb','Cac','Abc','bbb']
                   })
df2 = pd.DataFrame({'col2':['AA','BB','CC'],'col7':[1,2,3],'col4':[5,6,7]})
df3 = pd.DataFrame({'col2':['AA','DD','CC'],'col8':[5,7,9],'col9':['abc,bcd,fgh','rst,xyy,ijk','nml,opq,wer']})

注:直接将代码放 jupyter 的 cell 跑即可。后文都直接使用df1df2df3调用对应的数据。

使用 MySQL 构建该数据集的语法如下:

with t1 as(
  select  1 as col1, 'AA' as col2, 'X' as col3, 10.0 as col4, 90 as col5, 'Abc' as col6 union all
  select  2 as col1, 'AA' as col2, null as col3, 5.0 as col4, 60 as col5, 'Abc' as col6 union all
  select  3 as col1, 'AA' as col2, 'Da' as col3, 3.0 as col4, 60 as col5, 'bbb' as col6 union all
  select  4 as col1, 'BB' as col2, 'Xi' as col3, 5.0 as col4, 80 as col5, 'Cac' as col6 union all
  select  5 as col1, 'BB' as col2, 'Xa' as col3, 2.0 as col4, 50 as col5, 'Abc' as col6 union all
  select  6 as col1, 'BB' as col2, 'xa' as col3, null as col4, 50 as col5, 'bbb' as col6 
)
,t2 as(
  select  'AA' as col2, 1 as col7, 5 as col4 union all
  select  'BB' as col2, 2 as col7, 6 as col4 union all
  select  'CC' as col2, 3 as col7, 7 as col4 
)
,t3 as(
  select  'AA' as col2, 5 as col8, 'abc,bcd,fgh' as col9 union all
  select  'DD' as col2, 7 as col8, 'rst,xyy,ijk' as col9 union all
  select  'CC' as col2, 9 as col8, 'nml,opq,wer' as col9 
)
select * from t1;

注:直接将代码放 MySQL 代码运行框跑即可。后文跑 SQL 代码时,默认带上数据集(代码的1~18行),仅展示查询语句,如第19行。

对应关系如下:

Python 数据集MySQL 数据集
df1t1
df2t2
df3t3

row_number()

row_number()是对检索的数据计算行号,从1开始递增。一般涉及分组字段和排序字段,每一个分组里的行号都唯一。
MySQL 的row_number()函数在 Python 中可以使用groupby()+rank()实现类似的效果。

  • groupby()单列聚合时,直接将列名传递进去即可,如groupby('col2');如果是多列,则传一个列表,如groupby(['col2','col6'])
  • rank()只能对一列进行排序,如df.col2.rank();当有多列排序的时候,可以使用sort_values(['col6','col5']先排好序,再聚合,然后使用累加函数cumcount()或排序函数rank()

另外,需要注意一点,排序字段如果有重复值,在 MySQL 中会随机返回,而 Python 中会默认使用index列进一步排序。
具体例子如下:

1、单列分组,单列排序
当分组和排序都只有一列的时候,在 Python 中使用groupby()单列聚合加上rank()对单列进行排序即可。

语言PythonMySQL
代码df1_1 = df1.copy()
df1_1[‘label’] = df1_1.groupby(‘col2’)[‘col5’].rank(ascending=False,method=‘first’)
df1_1[[‘col2’,‘col5’,‘label’]]
select col2,col5,row_number()over(partition by col2 order by col5 desc) label from t1;
结果image.pngimage.png

2、多列分组,单列排序
当有多列分组,则传一个列表给groupby()函数。

语言PythonMySQL
代码df1_1 = df1.copy()
df1_1[‘label’] = df1_1.groupby([‘col2’,‘col6’])[‘col5’].rank(ascending=True,method=‘first’)
df1_1[[‘col2’,‘col6’,‘col5’,‘label’]]
select col2,col6,col5,row_number()over(partition by col2,col5 order by col5) label from t1;
结果image.pngimage.png

3、单列分组,多列排序
如果是多列排序,相对复杂一些,如下【Python1】先用sort_values()排好序,然后再用groupby()聚合,然后使用rank()将排序序号加上;而【Python2】和【Python1】前2步相同,在最后一步使用了cumcount()实现编号。

语言PythonMySQL
代码【Python1】
df1_1 = df1.copy()
df1_1[‘label’] = df1_1.sort_values([‘col6’,‘col5’],ascending=[False,True]).groupby([‘col2’])[‘col2’].rank(ascending=False,method=‘first’)
df1_1[[‘col2’,‘col6’,‘col5’,‘label’]]
【Python2】
df1_1 = df1.copy()
df1_1[‘label’] = df1_1.sort_values([‘col6’,‘col5’],ascending=[False,True]).groupby([‘col2’]).cumcount()+1
df1_1[[‘col2’,‘col6’,‘col5’,‘label’]]
select col2,col6,col5,row_number()over(partition by col2 order by col6 desc,col5) label from t1;
结果image.pngimage.png

3、多列分组,多列排序
多列分组和多列排序,直接在【3、单列分组,多列排序】的基础上,将多个分组字段添加到groupby([])中的列表即可。不再赘述。

lead()/lag()

lead()是从当前行向后取列值,也可以理解为将指定的列向上移动;而lag()则相反,是从当前行向前取列值,也可以理解为将指定的列向下移动。
配合排序,二者可以进行互换,即:

  • 正序的lead()==倒序的lag()
  • 倒序的lead()==正序的lag()

在 Python 中,可以通过shift()函数实现列值的上下移动,当传入一个正数时,列值向下移动,当传入一个负数时,列值向上移动
注:关于单列/多列分组和单列/多列排序的情况,参考row_number(),不再赘述。

1、移动1行
移动1行时,MySQL 中直接使用lead(col1)/lag(col1)即可,使用lead(col1,1)/lag(col1,1)也没问题,再结合升降序实现列值的上下移动。
在 Python 中,则使用shift(-1)shift(1)实现相同的效果。以下例子是将col1下移,所以使用shift(-1)

语言PythonMySQL
代码df1_1 = df1.copy()
df1_1[‘col1_2’] = df1_1.groupby([‘col2’]).col1.shift(-1)
df1_1[[‘col2’,‘col1’,‘col1_2’]].sort_values([‘col2’,‘col1’],ascending=[True,True])
【MySQL1】
select col2,col1,lead(col1)over(partition by col2 order by col1) col1_2 from t1;
【MySQL2】
select col2,col1,lag(col1)over(partition by col2 order by col1 desc) col1_2 from t1;
结果image.pngimage.png

2、移动多行
移动多行的时候,MySQL 中需要指定移动行数,如下例子,移动2行,使用lead(col1,2)lag(col1,2),再结合升降序实现列值的上下移动。
在 Python 中,则修改传递给shift()函数的参数值即可,如下例子,使用shift(2)向上移动2行。

语言PythonMySQL
代码df1_1 = df1.copy()
df1_1[‘col1_2’] = df1_1.groupby([‘col2’]).col1.shift(2) # 通过shift控制
df1_1[[‘col2’,‘col1’,‘col1_2’]].sort_values([‘col2’,‘col1’],ascending=[True,True])
【MySQL1】
select col2,col1,lead(col1,2)over(partition by col2 order by col1 desc) col1_2 from t1;
【MySQL2】
select col2,col1,lag(col1,2)over(partition by col2 order by col1) col1_2 from t1;
结果image.pngimage.png

rank()/dense_rank()

rank()dense_rank()用于计算排名。rank()排名可能不连续,就是当有重复值的时候,会并列使用小的排名,而重复值之后的排名则按照重复个数叠加往后排,如一组数(10,20,20,30),按升序排列是(1,2,2,4);而dense_rank()的排名是连续的,还是上面的例子,按升序排列是(1,2,2,3)。
而在 Python 中,排序同样是通过rank()函数实现,只是methodrow_number()使用的不一样。实现rank()的效果,使method='min',而实现dense_rank()的效果,使用method='dense'。除了这两种和在row_number()中使用的method='first',还有averagemaxaverage的逻辑是所有值进行不重复连续排序之后,将分组内的重复值的排名进行平均,还是上面的例子,按升序排列是(1,2.5,2.5,4),maxmin相反,使用的是分组内重复值取大的排名进行排序,还是上面的例子,按升序排列是(1,3,3,4)。
同样地,排序字段如果有重复值,在 MySQL 中会随机返回,而 Python 中会默认使用index列进一步排序。

注:关于单列/多列分组和单列/多列排序的情况,参考row_number(),不再赘述。
1、rank()
Python 中使用rank(method='min')实现 MySQL 中的rank()窗口函数。

语言PythonMySQL
代码df1_1 = df1.copy()
df1_1[‘label’] = df1_1.groupby([‘col2’])[‘col5’].rank(ascending=True,method=‘min’)
df1_1[[‘col2’,‘col5’,‘label’]]
select col2,col5,rank()over(partition by col2 order by col5) col1_2 from t1;
结果image.pngimage.png

2、dense_rank()
Python 中使用rank(method='dense')实现 MySQL 中的rank()窗口函数。

语言PythonMySQL
代码df1_1 = df1.copy()
df1_1[‘label’] = df1_1.groupby([‘col2’])[‘col5’].rank(ascending=True,method=‘dense’)
df1_1[[‘col2’,‘col5’,‘label’]]
select col2,col5,dense_rank()over(partition by col2 order by col5) col1_2 from t1;
结果image.pngimage.png

first_value()

MySQL 中的窗口函数first_value()是取第一个值,可用于取数据默认顺序的第一个值,也可以通过排序,取某一列的最大值或最小值。
在 Pandas 中,也有相同功能的函数first()
不过,first_value()是窗口函数,不会影响表单内的其他字段,但first()时一个普通函数,只返回表单中的第一个值对应的行,所以在 Python 中要实现first_value()窗口函数相同的结果,需要将first()函数返回的结果,再通过表联结关联回原表(具体例子如下)。在 Python 中,还有一个last()函数,和first()相反,结合排序,也可以实现相同效果,和first()可互换,读者可自行测试,不再赘述。

注:关于单列/多列分组和单列/多列排序的情况,参考row_number(),不再赘述。
1、取最大值
MySQL 中,对col5降序,便可通过first_value()取得最大值。同样,在 Python 中,使用sort_values()col5进行降序,便可通过first()取得最大值,然后再merge()回原表。

语言PythonMySQL
代码df1_1 = df1.copy()
df1_2 = df1_1.sort_values([‘col5’],ascending=[False]).groupby([‘col2’]).first().reset_index()[[‘col2’,‘col5’]] # 最好加个排序
df1[[‘col2’,‘col5’]].merge(df1_2,on = ‘col2’,how = ‘left’,suffixes=(‘’,‘_2’))
select col2,col5,first_value(col5)over(partition by col2 order by col5 desc) col5_2 from t1;
结果image.pngimage.png

2、取最小值
取最小值,则是在取最大值的基础上,改变col5的排序即可,由降序改为升序。

语言PythonMySQL
代码df1_1 = df1.copy()
df1_2 = df1_1.sort_values([‘col5’],ascending=[True]).groupby([‘col2’]).first().reset_index()[[‘col2’,‘col5’]]
df1[[‘col2’,‘col5’]].merge(df1_2,on = ‘col2’,how = ‘left’,suffixes=(‘’,‘_2’))
select col2,col5,first_value(col5)over(partition by col2 order by col5) col5_2 from t1;
结果image.pngimage.png

count()/sum()

MySQL 的聚合函数count()sum()等,也可以加上over()实现窗口函数的效果。

  • count()可以用于求各个分组内的个数,也可以对分组内某个列的值进行累计。
  • sum()可以用于对各个分组内某个列的值求和,也可以对分组某个列的值进行累加。

在 Python 中,针对累计和累加的功能,可以使用groupby()+cumcount()groupby()+cumsum()实现(如下例子1和2),而针对分组内的计数和求和,可以通过groupby()+count()groupby()+sum()实现(如下例子3和4)。

注:关于单列/多列分组和单列/多列排序的情况,参考row_number(),不再赘述。
1、升序累计
Python 中使用sort_values()+groupby()+cumcount()实现 MySQL count(<col_name>)over(partition by <col_name> order by <col_name>)效果。

语言PythonMySQL
代码df1_1 = df1.copy()
df1_1[‘col5_2’] = df1_1.sort_values([‘col5’,‘col1’],ascending=[True,False]).groupby(‘col2’).col5.cumcount()+1
df1_1[[‘col2’,‘col5’,‘col5_2’]]
select col2,col5,count(col5)over(partition by col2 order by col5,col1) col5_2 from t1;
结果image.pngimage.png

2、升序累加
Python 中使用sort_values()+groupby()+cumsum()实现 MySQL sum(<col_name>)over(partition by <col_name> order by <col_name>)效果。

语言PythonMySQL
代码df1_1 = df1.copy()
df1_1[‘col5_2’] = df1_1.sort_values([‘col5’,‘col1’],ascending=[True,False]).groupby(‘col2’).col5.cumsum()
df1_1[[‘col2’,‘col5’,‘col5_2’]]
select col2,col5,sum(col5)over(partition by col2 order by col5,col1) col5_2 from t1;
结果image.pngimage.png

3、分组计数
Python 中使用sort_values()+groupby()+count()实现 MySQL count(<col_name>)over(partition by <col_name>)效果。

语言PythonMySQL
代码df1_1 = df1.copy()
df1_2 = df1_1.sort_values([‘col5’,‘col1’],ascending=[True,False]).groupby(‘col2’).col5.count().reset_index()
df1_1[[‘col2’,‘col5’]].merge(df1_2,how=‘left’,on=‘col2’,suffixes=(‘’,‘_2’))
select col2,col5,count(col5)over(partition by col2) col5_2 from t1;
结果image.pngimage.png

4、分组求和
Python 中使用sort_values()+groupby()+sum()实现 MySQL sum(<col_name>)over(partition by <col_name>)效果。

语言PythonMySQL
代码df1_1 = df1.copy()
df1_2 = df1_1.sort_values([‘col5’,‘col1’],ascending=[True,False]).groupby(‘col2’).col5.sum().reset_index()
df1_1[[‘col2’,‘col5’]].merge(df1_2,how=‘left’,on=‘col2’,suffixes=(‘’,‘_2’))
select col2,col5,sum(col5)over(partition by col2) col5_2 from t1;
结果image.pngimage.png

三、小结

MySQL 的窗口函数效果,在 Python 中,基本都需要经过多个步骤,使用多个函数进行组合处理。窗口函数涉及到分组字段和排序字段,在 Python 中对应使用groupby()sort_values(),所以基本上在 Python 中实现窗口函数的效果都需要使用到这两个函数辅助处理数据。剩下的聚合形式就根据聚合窗口函数的特性做修改,对应关系如下:

MySQL 窗口函数Python 对应函数
row_number()rank()
lead()/lag()shift()
rank()/dense_rank()rank()
first_value()first()
count()count()、cumcount()
sum()sum()、cumsum()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/171066.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

工业互联网蓬勃发展,出奇才能制胜

近年来&#xff0c;随着我国工业数字化转型的快速推进&#xff0c;我国工业发展进入产业新阶段&#xff0c;工业互联网迎来更加强劲的发展动能和更加广阔的发展空间&#xff0c;我国希望把握住新一轮的科技革命和产业革命&#xff0c;推进工业领域实体经济数字化、网络化、智能…

Cassandra入门教程

文章目录一、数据存储方式和NoSQL1.1 数据存储方式1.2 NoSQL概述1.3 NoSQL的分类二、Cassandra的介绍2.1、Cassandra概述2.1.1 来自百科的介绍2.1.2 Cassandra的Logo2.2、Cassandra特点2.3、Cassandra使用场景2.3.1 特征2.3.2 场景举例三、Cassandra下载、安装、访问3.1 Cassan…

Datawhale 吃瓜教程组队学习 task01

Datawhale 吃瓜教程组队学习task01 还没写完&#xff0c;会持续更新~~ 上个月看了周志华老师的机器学习视频课的前三章&#xff0c;但是后面中断了没看…(主要是懒&#x1f910;) 于是打算这个月继续来学习西瓜书和南瓜书&#x1f92f; Task01&#xff1a;概览西瓜书南瓜书第1、…

【Kubernetes 企业项目实战】04、基于 K8s 构建 EFK+logstash+kafka 日志平台(上)

目录 一、日志对我们来说到底重不重要&#xff1f; 日志打印的常见级别 二、常见的日志收集方案 2.1 EFK 2.2 ELK Stack 2.3 ELKfilebeat 2.4 其他方案 三、EFK 组件详细介绍 3.1 Elasticsearch 组件介绍 3.2 Filebeat 组件介绍 1&#xff09;Flebeat 和 Beat 关系…

贪心策略(五)主持人调度(一、二)

主持人调度&#xff08;一&#xff09;_牛客题霸_牛客网 有 n 个活动即将举办&#xff0c;每个活动都有开始时间与活动的结束时间&#xff0c;第 i 个活动的开始时间是 starti ,第 i 个活动的结束时间是 endi ,举办某个活动就需要为该活动准备一个活动主持人。 一位活动主持人在…

InnoDB与MyISAM引擎的区别

1. InnoDB与MyISAM引擎的区别 常用引擎&#xff1a; – InnoDB&#xff1a;支持事务&#xff0c;行级锁&#xff0c;外键&#xff0c;崩溃修复&#xff0c;多版本并发控制&#xff1b;读写效率相对较差&#xff0c;内存使用相对较高&#xff0c;占用数据空间相对较大。 – MyI…

学习IBDP中文A课程需要提前准备吗?

俗话说“宜未雨而绸缪&#xff0c;毋临渴而掘井”&#xff0c;也就说凡事都应该要预先做好充分的准备&#xff0c;防患于未然。而学习DP的中文课程也是如此。那么我们一起来看看&#xff0c;在正式进入中文A课程的学习之前&#xff0c;我们可以做哪些准备&#xff0c;令我们的学…

Qml开发之环境搭建

进入官网下载相应版本的qtcreator &#xff1a;https://download.qt.io/archive/qt/5.12/5.12.6/ 1.1 安装的时候注意如下对话框&#xff0c;需要选择下图所示的必须选项&#xff0c;因为我是mac 所以选择的macOS下载完之后进行点击安装&#xff0c;安装后运行软件图片如下&…

C#使用Spire.OCR框架识别图片中的字母,数字,文字等

OCR OCR&#xff08;optical character recognition&#xff09;&#xff0c;光学字符识别。 OCR文字识别是指电子设备&#xff08;例如扫描仪或数码相机&#xff09;检查纸上打印的字符&#xff0c;然后用字符识别方法将形状翻译成计算机文字的过程&#xff1b;即&#xff0c…

AWS实战:S3 Cloud Watch Event 触发Lambda

架构 既然是S3 Cloud Watch Event 触发Lambda&#xff0c;首先就需要三个AWS的service: S3Event BridgeLambda S3有event产生时向Event Bridge发送event&#xff0c;Event Bridge通过event rule的配置过滤event&#xff0c;将符合规则的event发送给lambda进行处理。 S3如何向…

科研论文写作

科研论文写作 文章目录科研论文写作一、论文写作的重要性二、论文写作的总原则二、论文写作的注意事项数学符号上下文要保持一致英文表达存在天然的顺承关系比较级和最高级不可以轻易使用需要有甄别的使用其他论文中的句子数学符号需要有明确定义特定的缩写第一次出现需要指明全…

vue本地案例之记事本

新增 生成列表结构(v-for 数组)获取用户输入(v-model 双向数据绑定)回车&#xff0c;新增数据(v-on .enter添加数据&#xff1a;事件绑定v-on&#xff08;可缩写为后面加事件名&#xff09;&#xff0c;限定回车.enter)删除 点击删除指定内容(v-on splice索引&#xff09;数据…

posix API与网络协议栈

posix API与网络协议栈 scoket socket包含两部分&#xff1a;fd、tcb&#xff08;tcp control block&#xff09; 其中&#xff0c;fd属于文件系统&#xff0c;可在用户态进行操控&#xff1b;而tcb属于内核协议栈 三次握手 服务端API socekt()&#xff1a;创建一个tcb和f…

Linux常用命令——tput命令

在线Linux命令查询工具(http://www.lzltool.com/LinuxCommand) tput 通过terminfo数据库对终端会话进行初始化和操作 补充说明 tput命令将通过 terminfo 数据库对您的终端会话进行初始化和操作。通过使用 tput&#xff0c;您可以更改几项终端功能&#xff0c;如移动或更改光…

关系数据库-2-[mysql8]python3操作mysql

参考文档Python-PyMysql详解 参考文档使用pandas操作MySQL数据库 1 pymysql操作mysql PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库。 PyMySQL 遵循 Python 数据库 API v2.0 规范&#xff0c;并包含了 pure-Python MySQL 客户端库。 pip install PyMySQL1.…

在线教育-谷粒学院学习笔记(八)

文章目录1 内容介绍2 微服务3 微服务实现删除nacos4 删除课程-删除视频5 Hystrix1 内容介绍 Spring Colud 删除小节-删除视频删除课程-删除视频 2 微服务 service 三个服务 service_edu 8001service_oss 8002service_vod 8003 微服务 微服务是架构风格把一个项目拆分成多个…

NUMA介绍

早期CPU访问内存结构 UMA1&#xff08;Uniform Memory Access, 一致性内存访问 &#xff09; 早期的计算机&#xff0c;内存控制器还没有整合进 CPU&#xff0c;所有的内存访问都需要经过北桥芯片来完成。 在 UMA 架构下&#xff0c;CPU 和内存之间的通信全部都要通过前端总线…

【Java|golang】2293. 极大极小游戏

给你一个下标从 0 开始的整数数组 nums &#xff0c;其长度是 2 的幂。 对 nums 执行下述算法&#xff1a; 设 n 等于 nums 的长度&#xff0c;如果 n 1 &#xff0c;终止 算法过程。否则&#xff0c;创建 一个新的整数数组 newNums &#xff0c;新数组长度为 n / 2 &#x…

go语言初识——数据类型

目录 go go与C语言区别 helloworld 数据类型 变量 定义 类型推导 简短声明 : 匿名变量 常量 iota 基本类型 指针 数组 结构体 go Go是2009年开源的编程语言&#xff0c;Go语言具有以下特性&#xff1a;语法简洁、并发编程、编译迅速、数组安全、丰富的内置类型…

如何在 Antd Pro 框架上实现样式自定义?

文章目录一、前言二、实操过程一、前言 Ant Design Pro 是一个企业级中后台前端/设计解决方案&#xff0c;已经有完善的 UI 组件及设计风格&#xff0c;在一些特定项目中&#xff0c;往往涉及到对其调整&#xff0c;来实现独特的 UI 设计&#xff0c;如不同的主题色、布局、卡…