pandas分组与聚合groupby()函数详解

news2024/11/16 15:44:38

一、groupby分组与聚合

分组与聚合通常是分析数据的一种方式,通常与一些统计函数一起使用,查看数据的分组情况

  • DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=_NoDefault.no_default, squeeze=_NoDefault.no_default, observed=False, dropna=True):使用映射器或按一Series列对 DataFrame 进行分组。 groupby 操作涉及拆分对象、应用函数和组合结果的某种组合。可用于对大量数据进行分组并对这些组进行计算操作
    • by:映射、函数、标签或标签列表,用于确定分组依据的组。如果 by 是一个函数,则对对象索引的每个值调用它。如果传递了字典或序列,则序列或字典值将用于确定组(序列的值首先对齐。如果传递了长度等于所选轴的列表或 ndarray,则按原样使用这些值来确定组。标签或标签列表可以按列自身传递到组。请注意,元组被解释为(单个)键
    • axis:{0 or ‘index’, 1 or ‘columns’}, 默认0 沿行(0)或列(1)分割。对于系列,此参数未使用,默认为 0
    • level:int,级别名称,或此类的序列,默认 None 如果轴是 MultiIndex(分层),则按特定级别或级别分组。不要同时指定 by 和 level
    • as_index:bool,默认值为 True,是否进行索引,对于聚合输出,返回以组标签作为索引的对象。仅与 DataFrame 输入相关。as_index=False 实际上是“SQL 样式”分组输出
    • sort:bool,默认True 排序组键。通过关闭它获得更好的性能。请注意,这不会影响每个组内的观察顺序。 Groupby 保留每个组中行的顺序
    • group_keys:bool,可选,当调用 apply 并且 by 参数生成类似索引(即转换)结果时,将组键添加到索引以标识片段。默认情况下,当结果的索引(和列)标签与输入匹配时,不包括组键,否则将包含组键。如果生成的结果相对于输入没有相似索引,则此参数无效
    • squeeze:bool,默认值 False,如果可能,请减小返回类型的维数,否则返回一致的类型
    • observed:bool,默认为 False,这仅适用于任何 groupers 是 Categoricals 的情况。若为True:仅显示categorical groupers的观察值。若为False:显示categorical groupers的所有值
    • dropna:bool,默认为True,若为True,且组键包含 NA 值,则将删除 NA 值以及行/列。若为 False,则 NA 值也将被视为组中的键
    • 返回:DataFrameGroupBy,返回包含有关组信息的 groupby 对象

代码示例如下 

import pandas as pd
import numpy as np
df = pd.DataFrame({'颜色': ['蓝色', '灰色', '蓝色', '灰色', '黑色'], '商品': ['钢笔', '钢笔', '铅笔', '铅笔', '文具盒'],'售价':[2.5, 2.3, 1.5, 1.3, 5.2],'会员价':[2.2, 2, 1.3, 1.2, 5.0]})
df

df.groupby([ '商品']).mean(numeric_only=True)

二、分层索引

可以使用 level 参数按分层索引的不同级别进行分组

arrays = [['Falcon', 'Falcon', 'Parrot', 'Parrot'],
          ['Captive', 'Wild', 'Captive', 'Wild']]
index = pd.MultiIndex.from_arrays(arrays, names=('Animal', 'Type'))  # from_arrays用于将数组arrays转为多索引multiIndex,多维数组作为参数,高维指定高层索引,低维指定低层索引
index
--------------------------------------------------------------
df = pd.DataFrame({'Max Speed': [390., 350., 30., 20.]}, index=index)   # index为行标签索引
df

df.groupby(level=1).mean()   # 层次索引:可以使用级别参数按层次索引的不同级别分组

df.groupby(level='Type').mean()   # 层次索引:可以使用级别参数按层次索引的不同级别分组

df.groupby(level=0).mean()

三、设置是否包含NaN

可以通过设置 dropna 参数来选择是否在组键中包含 NA,默认设置为 True,即不包含NaN值

l = [[1, 2, 3], [1, None, 4], [2, 1, 3], [1, 2, 2]]
df = pd.DataFrame(l, columns=["a", "b", "c"])
df

df.groupby(by=["b"]).sum()   # 还可以通过设置 dropna 参数来选择是否在组键中包含 NA,默认设置为 True

df.groupby(by=["b"], dropna=False).sum()  # dropna=False,即包含NaN

l = [["a", 12, 12], [None, 12.3, 33.], ["b", 12.3, 123], ["a", 1, 1]]
l

df = pd.DataFrame(l, columns=["a", "b", "c"])   # columns为列标签索引
df

df.groupby(by="a").sum()  # 按a列分组,对其他列进行求和,默认dropna=True,即不包含NaN值

df.groupby(by="a", dropna=False).sum()  # 为False时包含NaN值

四、排除组键

df = pd.DataFrame({'Animal': ['Falcon', 'Falcon', 'Parrot', 'Parrot'], 'Max Speed': [380., 370., 24., 26.]})
df

df.groupby("Animal", group_keys=True).apply(lambda x: x)  # 使用 group_keys 包含或排除组键,默认为 True(包含)

df.groupby("Animal", group_keys=False).apply(lambda x: x)   # group_keys=False,即排除组键

五、星巴克零售店铺数据

星巴克directory.csv数据获取下载:https://pan.baidu.com/s/1LG7YlezfSvPC6I7IvfUk4Q?pwd=fsp8

# 读取星巴克店的数据
starbucks = pd.read_csv("../data/directory.csv")
starbucks.head()   # head()表示取前五
---------------------------------------------------
# 按照国家分组,求出星巴克零售店数量前10个国家
count = starbucks.groupby(['Country'])["Store Number"].count().sort_values(ascending=False)   # count()即为聚合,sort_values表示进行排序,ascending=False即降序排序
count.head(10)
---------------------------------------------------
# 按照国家分组,求出星巴克零售店数量前10个国家,并作柱状图
count = starbucks.groupby(['Country'])["Store Number"].count().sort_values(ascending=False)
count.head(10).plot(kind='bar')
plt.show()
---------------------------------------------------
# 设置多个索引,将国家省市作为分组
starbucks.groupby(['Country', 'State/Province']).count().head()

 操作如下

以下结构与MultiIndex结构 类似

 学习导航:http://xqnav.top/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/55731.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于docker部署实现接口自动化持续集成

01 jenkins介绍及docker部署 Jenkins是一个开源软件项目,是基于Java开发的一种持续集成工具,用于监控持续重复的工作,旨在提供一个开放易用的软件平台,使软件项目可以进行持续集成 1、创建网络 2、下载并运行 docker:dind镜像…

思科路由器地址转换配置

思科路由器地址转换1.端口复用(PAT)2.配置PAT1.端口复用(PAT) 复用地址转换也称为端口地址转换(Port Address Translation,PAT),首先是一种动态地址转换。路由器将通过记录地址、应用程序端口等唯一标识一个转换。通过这种转换&am…

Linux 负载均衡介绍

Linux 负载均衡介绍 LB LB:Load Balancing,负载均衡(增加处理能力),有高可用能力,但不是高可用集群负载均衡集群,是以提高服务的并发处理能力为根本着眼点 负载均衡设备分类 1.软件负载均衡设备 (1)LVS&…

肝病患者关爱与病例管理

国内的肝病患者人数多达3亿人,并且还在逐年增多。 为慢性肝炎患者提供患者教育、病情自我管理、病友交流、医患交流等一系列的关怀行动,为医生提供病例数据管理系统平台推出了“肝病患者关爱与病例管理系统" 用户需求 平台覆盖用户群 中国肝病患者…

Thumbs.db文件取消自动生成及删除方法

一、背景 公司有一台centos服务器作为某个部门内部资料共享用,部署了samba服务。 每个用户具有自己的账户(账户不共用); 用户基本都是通过windows电脑访问samba共享文件; 最近有用户需要删除个别文件夹,发现不能删除Thumbs.db,导致文件夹也不能删除! 二、Thumbs.db是…

Java数据类型详细介绍

Java程序中要求参与的计算的数据,必须要保证数据类型的一致性,如果数据类型不一致将发生类型的转换。本文将通过示例详细说说Java中数据类型的转换,感兴趣的可以了解一下 1. Java数据类型 前面说到,程序运行时产生的临时数据我们…

继北极星项目后,又一款低成本AR眼镜开源方案:OpenAR

2018年的时候,Leap Motion(Ultraleap前身)曾开源了一款低成本、简易的AR头显方案:Project North Star(北极星项目)。该方案主要用来帮助爱好者、开发者们快速上手AR开发,而无需购买HoloLens等昂…

Python_文件操作

目录 一、文件编码 二、什么是文件 三、文件操作 1、打开文件 open()打开函数 2、读取文件 3、写入文件 f.write() 使用w模式 4、文件追加 类比文件写入,只是将‘w’-->‘a’ 5、文件操作综合案例 一、文件编码 Thinking: 计算机只能识别 0和1,那么文本文件 如何…

Delaunay三角网之逐点插入法(优化版本三)

文章目录 一、简介二、实现代码三、实现效果参考文献一、简介 继续对三角网的研究,这一个版本的三角网构网思路很是巧妙,虽然仍是基于点的插入算法,但已经有些分治算法的影子,构网速度相较于前面两个版本要快很多,12万个点可以在1s内完成构网。具体的构网过程如下所述: 1…

查询运行在顶部的app包名及类名

android的ActivityManager会在logcat中打印出当前正在显示的app的包名以及类名,注,这是由ActivityManager打印,使用的日志TAG就是ActivityManager,所以我们在过虑信息时不能以自己程序的进程进行过滤,使用ActivityMana…

GBase 8s 产品功能-高可用和ER

GBase 8s 提供了业界领先的高可用集群技术 HAC, SSC, ER, 提供秒级故障 自动切换功能, 使数据库的可用性达到 99.999%, 具备如下特点: 通过不同方案组合, GBase 8s 具有搭建两地三中心、 同城双…

行业内口碑好值得信赖的短网址,让你不再选择恐惧

转眼一年又过去了,最近发现网络上有各种各样的短网址平台,让人眼花缭乱,都声称免费并且功能强大,但是据我的了解,很多免费的短网址都是有使用上的限制的,比如生成条数、访问次数、有广告等等、还有各种各样…

项目中的奇葩需求你都怎么应对?

XX群聊:“项目中的奇葩需求怎么应对?”(项目三兄弟加入了群聊) 小赵:“无论是啥需求,我都是甲方爸爸至上,尽力满足需求、让客户满意。但每个项目初期我都跟客户处得特别好,项目中期…

音视频同步原理

音视频同步 更多精彩内容 音频系统概述 音频时延payload_delay_ms jitter_delay(neteq)。 在WebRTC中有neteq,所以,音频的卡顿以及卡顿时长都是放在neteq内部进行计算的。 时间戳 时间戳的概念主要有以下几个: ntp时间戳: NTP时间戳是绝…

SPI协议讲解与总结

1.SPI通讯协议 SPI是串行外设接口(Serial Peripheral Interface)的缩写,是一种高速的,全双工,同步的通信总线 1.1 SPI引脚与工作过程 SPI的通信原理很简单,它以主从方式工作,这种模式通常有一…

GitHub推送代码时弹出验证框总是登录失败

最近同事准备用GitHub布置个人博客,但是提交代码时总是弹出登录框然后输入我GitHub的账号密码后一直提示报错Logon failed, use ctrlc to cancel basic credential prompt,然后我才知道还有人不知道这个问题 2021年8月13日, github不再支持用密码提交代码…

【Mysql】内外连接

文章目录**1.内连接****2.外连接****3.小结**1.内连接 内连接实际上就是利用where子句对两种表形成的笛卡儿积进行筛选,我们前面学习的查询都是内连接,也是在开发过程中使用的最多的连接查询 select 字段 from 表1 inner join 表2 on 连接条件 and 其他条件;案例:…

IPWorks MQ C++ Edition

IPWorks MQ C Edition 在应用程序中轻松实现消息队列(MQ)通信协议。 IPWorks MQ旨在帮助您轻松实现流行的消息传递协议,以便在网络设备之间进行通信。支持许多常见的协议和服务,包括Azure Relay、AMQP、MQTT、STOMP等。 IPWorks MQ功能 完全符合MQTT版本…

普通物理光学:光栅

透射光栅 光栅常数 a:不透光部分的宽度b:透光部分的宽度dab:光栅常数N:缝数k:光谱的级数衍射图像:单缝衍射多缝干涉 光栅的每条狭缝,都将在接收屏幕上的同一位置,产生同样的单缝夫琅禾费衍射图样各条狭缝的衍射光再在接收屏幕上相…

【Vue脚手架项目的结构】

目录 1. 关于VUE Cli 2. 修改VUE Cli项目的端口号 3. Vue脚手架项目的结构 4. 关于标签 5. 关于路由配置 6. 关于视图组件 7. 应用Element UI 1. 关于VUE Cli VUE Cli:Vue脚手架 在Vue脚手架项目中,使用的是“单页面”的设计模式,也就…