【python数据分析11】——Pandas统计分析(分组聚合进行组内计算)

news2024/11/29 10:39:45

分组聚合进行组内计算

  • 前言
  • 1、groupby方法拆分数据
  • 2、agg方法聚合数据
  • 3、apply方法聚合数据
  • 4、transform方法聚合数据
  • 5 小案例
    • 5.1 按照时间对菜品订单详情表进行拆分
    • 5.2 使用agg方法计算
    • 5.3 使用apply方法统计单日菜品销售数目

前言

依据某个或者几个字段对数据集进行分组,并对各组应用一个函数,无论是聚合还是转换,都是数据分析的常用操作。pandas提供了一个灵活高效的groupby方法,配合agg或apply方法,能够实现分组聚合的操作。
原理图如下:
在这里插入图片描述

1、groupby方法拆分数据

groupby方法提供的是分组聚合步骤中的拆分功能,能够根据索引或者字段对数据进行分组。方法格式如下:

DataFrame.groupby(by=None,axis=0,level=None,as_index=True,sort=True,group_key=True,squeeze=False,**kwargs)

参数说明:

  • by: 接收list、string、mapping或 generator。用于确定进行分组的依据。如果传人的是一个函数,则对索引进行计算并分组;如果传入的是一个字典或者Series,则字典或者Series的值用来作为分组依据;如果传入一个NumPy数组,则数据的元素作为分组依据;如果传人的是字符串或者字符串列表,则使用这些字符串所代表的字段作为分组依据。无默认 。
  • axis:表示操作的轴向,默认对列进行操作。默认为0。
  • level:接收int或者索引名。代表标签所在级别。默认为None。
  • as_index:表示聚合后的聚合标签是否以DataFrame 索引形式输出。默认为 True。
  • sort:接收boolean。表示是否对分组依据、分组标签进行排序。默认为True。
  • group_keys:接收boolean。表示是否显示分组标签的名称。默认为 True。
  • squeeze:接收boolean。表示是否在允许的情况下对返回数据进行降维。默认为False。

以餐饮企业的菜品订单详情表为例,依据订单编号对数据进行分组。

import pandas as pd
import numpy as np
from sqlalchemy import create_engine
username = 'root'  # 替换为你的数据库用户名
password = '1234'  # 替换为你的数据库密码
host = 'localhost'          # 数据库地址
database = 'testdb'  # 数据库名称
 
# 创建数据库连接
engine = create_engine(f'mysql+pymysql://{username}:{password}@{host}/{database}')
detail = pd.read_sql_table('meal_order_detail1',con = engine)
detailGroup = detail[['order_id','counts',
      'amounts']].groupby(by = 'order_id')
print('分组后的订单详情表为:',detailGroup)

输出:
在这里插入图片描述
由输出可知,分组后的结果并不能直接看,而是被存在内存中,输出的是内存地址。实际上,分组后的数据对象Groupby类似于Series与DataFrame,是pandas提供的一种对象。常用的描述性统计方法如下表:

方法名称说明
count计算分组的数目,包括缺失值
head返回每组的前n个值
max返回每组最大值
mean返回每组的均值
median返回每组的中位数
cumcount对每个分组中的组员进行标记,0~n-1
size返回每组的大小
min返回每组最小值
std返回每组的标准差
sum返回每组的和

对餐饮企业的菜品订单表经过分组操作后的每一组的均值、标准差、中位数

print('订单详情表分组后前5组每组的均值为:\n', 
      detailGroup.mean().head())
print('订单详情表分组后前5组每组的标准差为:\n', 
      detailGroup.std().head())
print('订单详情表分组后前5组每组的大小为:','\n', 
      detailGroup.size().head())

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2、agg方法聚合数据

agg、aggregate方法支持对每个分组应用某函数,包括python内置函数或自定义函数。同时这两个方法也能直接对DataFrame进行函数应用操作。
注意:agg函数能够对DataFrame对象进行操作师从pandas0.20版本开始的,在之前版本中,没有此功能。针对DataFrame的aggyuaggregate函数使用格式如下:
DataFrame.agg(func,axis=0,*args,**kwargs)
DataFrame.aggregate(func,axis=0,*args,**kwargs)
参数说明如下:

  • func:接收list、dict、function。表示应用于每行或者每列的函数。无默认
  • axis:接收0或1。代表操作的轴向。默认为0

agg、aggregate几乎完全相同,以T餐饮企业的菜品订单信息表为例,使用agg方法一次求出当前数据中所有菜品销量和售价的总和与均值,如下:

print('订单详情表的菜品销量与售价的和与均值为:\n',
      detail[['counts','amounts']].agg([np.sum,np.mean]))

输出:在这里插入图片描述
一个字段求和,另一个求均值

print('订单详情表的菜品销量总和与售价的均值为:\n',
      detail.agg({'counts':np.sum,'amounts':np.mean}))

输出:
在这里插入图片描述

求某个字段多个统计量

print('菜品订单详情表的菜品销量总和与售价的总和与均值为:\n',
      detail.agg({'counts':np.sum,'amounts':[np.mean,np.sum]}))

输出:
在这里插入图片描述
上述都是numpy库的统计函数,也可以传入自定义的函数。例如:

##自定义函数求两倍的和
def DoubleSum(data):
    s = data.sum()*2
    return s
print('菜品订单详情表的菜品销量两倍总和为:','\n',
      detail.agg({'counts':DoubleSum},axis = 0))

输出:
在这里插入图片描述
在自定义函数中,使用numpy库中的这些函数时,如果计算的时候是单个序列,则无法得出想要的结果,如果是多列数据同时计算,就不会出现这个问题。例如:

##自定义函数求两倍的和
def DoubleSum1(data):
    s = np.sum(data)*2
    return s
print('订单详情表的菜品销量两倍总和为:\n',
      detail.agg({'counts':DoubleSum1},axis = 0).head())

print('订单详情表的菜品销量与售价的和的两倍为:\n',
      detail[['counts','amounts']].agg(DoubleSum1))

输出:
在这里插入图片描述
使用agg方法也能够实现对每一个字段的每一组使用相同的函数,如下:

print('订单详情表分组后前3组每组的均值为:\n', 
      detailGroup.agg(np.mean).head(3))

print('订单详情表分组后前3组每组的标准差为:\n', 
      detailGroup.agg(np.std).head(3))

输出:
在这里插入图片描述
如果需要对不同的字段应用不同的函数,则与DataFrame中使用agg方法的操作相同。使用agg方法对分组后的菜品订单表求取每组菜品总数和售价均值。

print('订单详情分组前3组每组菜品总数和售价均值为:\n', 
      detailGroup.agg({'counts':np.sum,
            'amounts':np.mean}).head(3))

在这里插入图片描述

3、apply方法聚合数据

apply方法类似于agg方法,能够将函数应用于每一列。不同之处在与,与agg方法相比,apply方法传入的函数只能够作用于整个DataFrame或者Series,而无法像agg一样能够对不同字段应用不同函数来获取不同结果。
apply方法的形式如下:
DataFrame.apply(func,axis=0,broadcast=False,raw=False,reduce=None,args(),**kwds)

参数说明:

  • func:接收functions,表示应用于每行或每列的函数,无默认
  • axis:接收0或1,代表操作的轴向。默认为0
  • broadcast:接收boolean,表示是否进行广播。默认为False
  • raw:接收boolean,表示是否直接将ndarray对象传递给函数。默认为False
  • reduce:接收boolean或者None,表示返回值的格式。默认None

apply方法的使用方式和agg方法相同,如下:

print('订单详情表的菜品销量与售价的均值为:\n',
      detail[['counts','amounts']].apply(np.mean))

在这里插入图片描述
使用apply方法对groupby对象进行聚合操作的方法和agg方法也相同,只是使用agg方法能够实现对不同的字段应用不同的函数,而apply不行。

4、transform方法聚合数据

transform方法能够对整个DataFrame的所有元素进行操作。transform方法只有一个参数“func”,表示对DataFrame操作的函数,如下:

print('订单详情表的菜品销量与售价的两倍为:\n',
      detail[['counts','amounts']].transform(
            lambda x:x*2).head(4))

输出:
在这里插入图片描述
同时,transform方法还能够对DataFrame分组后的对象groupby进行操作,可以实现组内离差标准化等操作。

print('订单详情表分组后实现组内离差标准化后前五行为:\n', 
      detailGroup.transform(lambda x:(x.mean()
            -x.min())/(x.max()-x.min())).head())

输出:
在这里插入图片描述
输出中部分为NaN,这是由于销量中的许多订单的最大值和最小值是相同的,根据离差标准化公式,最大值和最小值相同的情况下分母是0,而分母为0的数在python中表示为NaN

5 小案例

5.1 按照时间对菜品订单详情表进行拆分

通过分组聚合的方式能够将每天的数据放在一个组内,从而可以方便地对每一个组的内容进行分析。

import pandas as pd
import numpy as np
from sqlalchemy import create_engine
engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:\
3306/testdb?charset=utf8')
detail = pd.read_sql_table('meal_order_detail1',con = engine)
detail['place_order_time'] = pd.to_datetime(
       detail['place_order_time'])
detail['date'] = [i.date() for i in detail['place_order_time']]
detailGroup = detail[['date','counts','amounts']].groupby(by='date')
print('订单详情表前5组每组的数目为:\n',detailGroup.size().head())

在这里插入图片描述

5.2 使用agg方法计算

对已经拆分完成的订单详情表进行聚合,得出每组的销售均价和售价中位数等信息

dayMean = detailGroup.agg({'amounts':np.mean})
print('订单详情表前五组每日菜品均价为:\n',dayMean.head())

dayMedian = detailGroup.agg({'amounts':np.median})
print('订单详情表前五组每日菜品售价中位数为:\n',dayMedian.head())

输出:
在这里插入图片描述

5.3 使用apply方法统计单日菜品销售数目

除了可以对售价进行计算外,还可以计算单日总共销售的菜品数目,如下

daySaleSum = detailGroup.apply(np.sum)['counts']
print('订单详情表前五组每日菜品售出数目为:\n',daySaleSum.head())

输出:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2059687.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux驱动开发基础(匹配详解)

所学来自百问网 目录 1. 简介 2. 函数路径 3. driver_override 4. 设备树匹配 5. id_table 6. name 7. 比较顺序 1. 简介 platform_device 与 platform_driver是挂载在platform_bus_type总线下的两条链表,通过分离的思想负责不同的功能实现,两者…

AMD巨资收购ZT Systems,加速AI芯片市场竞争

AMD大手笔收购,剑指AI芯片市场 AMD近期宣布了一项重大收购计划,将以49亿美元的价格收购服务器制造商ZT Systems。这是AMD自2022年收购Xilinx以来最大规模的一笔交易,旨在通过扩大AI芯片和硬件产品组合,进一步增强与英伟达在AI领域…

KEIL微库MicroLIB与程序大小

不使用微库MicroLIB Program Size: Code23010 RO-data16190 RW-data1076 ZI-data21412 使用微库 Program Size: Code17356 RO-data15636 RW-data1076 ZI-data20804 Code: -5654 字节RO-data :-554 字节RW-data :0 字节(没有变化&…

【案例51】内存溢出分析实战

一、问题现象 在使用 NC 过程中发现,系统时不时就不可用,一直在转圈。 通过浏览器访问系统时,页面长时间无法加载。 二、环境信息 系统为 NC 单点环境,在线人数为 30 人左右。 JDK版本如图也是正常的。 三、问题分析 在发现…

【系统架构设计师-2018年】案例分析-答案及详解

试题一(25分) 阅读以下关于软件系统设计的叙述,在答题纸上回答问题1至问题3。 【说明】 某文化产业集团委托软件公司开发一套文化用品商城系统,业务涉及文化用品销售、定制、竞拍和点评等板块,以提升商城的信息化建设…

pycharm汉化与插件下载无效解决

下载语言插件 装载语言插件 重启后界面转为中文

QT中鼠标事件示例(包含点击,点击之后移动,释放的坐标获取)

QT中的鼠标事件 简介:结果展示:实例代码: 简介: 在Qt中,处理鼠标事件是图形用户界面(GUI)编程中的一个重要方面。Qt通过一系列的事件处理函数来支持鼠标事件的响应。这些事件包括鼠标点击&…

鹤岗房全国蔓延,现在要不要买房?

文|琥珀食酒社 作者 | 积溪 房子卖白菜价、人人都能买得起的时代 真的要来了 以前啊你花2万块钱 在大城市买不到一个厕所 可现在只要几万块你就能买一整套房 还带装修和家电 而且这样的房子还很多 “鹤岗”房已经在全国快速蔓延 那对咱普通人来说到底是好…

Linux入门——02文件与权限

1.文件 文件的创建,是在磁盘上创建(外存与内存:内存掉电已失性)空文件要占外盘内存(文件的属性是数据 ,文件 文件内容数据 文件属性数据)操作文件的方法(1.操作文件内容 2.操作文…

50etf期权应该如何交易?怎么才能参与期权?

今天带你了解50etf期权应该如何交易?怎么才能参与期权?不少投资者不理解期权的交易方式,其实期权也就是多了一个多卖方的操作方式。期权的种类虽然分为好几种,但是交易的方式都是差不多的。 50ETF期权是指在中国金融市场上交易的…

FreeRTOS 快速入门(四)之队列

目录 一、队列的特性1、数据存储2、传输数据的两种方法3、队列的阻塞访问 二、多任务访问2.1 阻塞队列读取2.2 阻塞队列写入2.3 阻塞多个队列 三、队列函数1、创建2、删除3、写队列4、读队列5、查询6、覆盖/偷看 四、示例1、例一:从队列接收时阻塞1.1 写入队列1.2 从…

EchoMimic原文翻译+代码调试+不同模型对比

文章目录 EchoMimic原文翻译EchoMimic:逼真的音频驱动肖像动画通过可编辑的landmark条件Abstract1. Introduction2. Related Works2.1. 扩散模型2.2.肖像动画:从视频到基于图像的方法 3. Method3.1. Preliminaries3.2. Model Architecture3.3. Training Details3.4. Inference …

acwing走迷宫

迷宫题目 给定一个 nm 的二维整数数组,用来表示一个迷宫,数组中只包含 0 或 1,其中 0 表示可以走的路,1 表示不可通过的墙壁。最初,有 一个人位于左上角 (1,1)处,已知该人每次可以向上、下、左、右任意一…

20:【stm32】定时器一:时基单元

时基单元 1、什么是定时器2、时基单元的基本结构2.1:脉冲的来源2.2:预分频器PSC2.3:计数器CNT2.4:update事件与预加载 3、标准库编程3.1:通过定时器中断来设置延迟函数 1、什么是定时器 定时器是一种专门负责定时功能…

5个自动化面试题,助你过关斩将!

一、python深拷贝与浅拷贝的区别 Python中的深拷贝(deep copy)和浅拷贝(shallow copy)是两种不同的对象复制方式,它们之间的主要区别在于复制的内容和范围。 浅拷贝(Shallow Copy) 浅拷贝会创…

最新官方破解版FL Studio24.1.1安装包下载

大家好!👋今天我要和大家分享一款让我彻底着迷的音乐制作神器——FL Studio 24.1.1中文版本。作为一个热爱音乐的创作者,我一直在寻找能让我更高效、更有创意地完成作品的软件。直到我遇到了它,我的世界彻底改变了! 【…

操作系统(Ubuntu安装配置)

1.1.什么是操作系统 操作系统(Operating System,简称OS)是一种系统软件,它是计算机硬件和应用软件之间的桥梁。它管理计算机的硬件和软件资源,为应用程序提供接口和服务,并协调应用程序的运行。操作系统是…

超声波清洗机是智商税吗?专业博主分享四大必买超声波清洗机款式

有些人觉得超声波清洗机不过是个“智商税”,花几百块买个小盒子不值当,毕竟自己用手也能清洗。但这种看法过于片面。事实上,超声波清洗已经有几十年的历史,随着科技的发展,现代超声波清洗机不仅能够批量、自动清洁&…

C#学习之路day2

一、变量 用来在存储计算机当中存储数据 1、常见的数据类型, 2、声明变量的方式 *声明:变量类型 变量名 ; *赋值:变量名 值 ; 先声明 ,再赋值 ,再使用 int num ; //声明num 10; //赋值i…

无人系统特刊合集(一)丨MDPI特刊推荐

特刊征稿 01 特刊名称: Civil and Public Domain Applications of Unmanned Aviation 参与期刊: 截止时间: 摘要提交截止日期 2024年10月31日 投稿截止日期 2024年12月31日 目标及范围: 在过去十年中,无人系统经历…