分组统计--Pandas

news2026/3/31 19:59:39

1.groupby

1.1 函数功能

先对数据进行分组，然后在每个分组上运用聚合函数、转换函数

1.2 函数语法

DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, observed=False, dropna=True)

1.3 函数参数

参数	含义
by	分组依据
axis	沿着行还是列分隔DataFrame,默认按照行分隔；行：0或“index”;列：1或“columns”
level	用于多层级索引
as_index	布尔值，默认True：是否将分组列名作为输出内容的索引，默认是
sort	布尔值，默认为True：不清楚
group_keys	布尔值，默认为True；不清楚
observed	布尔值，默认为False:针对Categoricals，不清楚
dropna	布尔值，默认值为True：聚合键中包含的空值会被删除掉，否则保留

1.3.1 默认情况分组统计

order = pd.read_excel('C:\\Users\\changyanhua\\Desktop\\order.xlsx')
print(order)
print(order.groupby('学历要求').count())

在这里插入图片描述

可以看到默认情况下，分组依据并不统计依据【学历要求】为缺失值的部分。

1.3.2 分组统计包含缺失值部分

print(order.groupby('学历要求',dropna=False).count())

在这里插入图片描述

1.3.3 将分组依据作为新的略而不是索引

print(order.groupby('学历要求',dropna=False,as_index=False).count())

在这里插入图片描述

1.3.4 多列作为分组依据

print(order.groupby(['学历要求','公司规模'],dropna=False).count())

在这里插入图片描述

print(order.groupby(['学历要求','公司规模'],dropna=False,as_index=False).count())

在这里插入图片描述

1.3.5 理解辅助

单个分组依据

# 我们可以输出groupby中的内容，分别是分组依据值和对应的内容
for a, b in gb:
    print(a)
    print('*******')
    print(b)
    print('__________')

在这里插入图片描述

多个分组依据
可以看到此时的索引是一个元组，我们要获取某个索引对应的内容也需要传入一个元组

gb = order.groupby(['学历要求','公司规模'],dropna=False,as_index=False)
# 我们可以输出groupby中的内容，分别是分组依据值和对应的内容
for a, b in gb:
    print(a)
    print('*******')
    print(b)
    print('__________')

在这里插入图片描述

print(gb.get_group(('本科', '150-500人')))

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/734693.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

分组统计--Pandas

1.groupby

1.1 函数功能

1.2 函数语法

1.3 函数参数

1.3.1 默认情况分组统计

1.3.2 分组统计包含缺失值部分

1.3.3 将分组依据作为新的略而不是索引

1.3.4 多列作为分组依据

1.3.5 理解辅助

相关文章

【电子学会】2023年05月图形化一级 -- 找食物

打家劫舍（力扣）动态规划 JAVA

从C语言到C++_25(树的十道OJ题)力扣:606+102+107+236+426+105+106+144+94+145

倪海厦针灸大成学习笔记

VSCode控制台乱码解决

虚幻引擎程序化资源生成框架PCG 之 UPCGBlueprintElement源码笔记（二）数据流

以太网数据链路层相关技术（六）

Springcloud基础(4)-Ribbon负载均衡

MySQL第四天作业单表查询和多表查询

【电子学会】2023年05月图形化一级 -- 舞蹈演出

STC89C52---定时器,中断

【电子学会】2023年05月图形化四级 -- 还原轨迹

利用Python实现网站内容监控及邮件提醒

【机器学习核心总结】什么是梯度下降

IDEA+spring+spring mvc+mybatis+bootstrap+jquery+Mysql运动会管理系统

LVS + keepalived

Hcip第四次作业

运维开发面试题第一期

【通览一百个大模型】CodeX（OpenAI）

01 |「沟通技巧」