分组统计--Pandas

news2024/11/16 21:45:22

1.groupby

1.1 函数功能

先对数据进行分组,然后在每个分组上运用聚合函数、转换函数

1.2 函数语法

DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, observed=False, dropna=True)

1.3 函数参数

参数含义
by分组依据
axis沿着行还是列分隔DataFrame,默认按照行分隔;行:0或“index”;列:1或“columns”
level用于多层级索引
as_index布尔值,默认True:是否将分组列名作为输出内容的索引,默认是
sort布尔值,默认为True:不清楚
group_keys布尔值,默认为True;不清楚
observed布尔值,默认为False:针对Categoricals,不清楚
dropna布尔值,默认值为True:聚合键中包含的空值会被删除掉,否则保留

1.3.1 默认情况分组统计

order = pd.read_excel('C:\\Users\\changyanhua\\Desktop\\order.xlsx')
print(order)
print(order.groupby('学历要求').count())

在这里插入图片描述

可以看到默认情况下,分组依据并不统计依据【学历要求】为缺失值的部分。

1.3.2 分组统计包含缺失值部分

print(order.groupby('学历要求',dropna=False).count())

在这里插入图片描述

1.3.3 将分组依据作为新的略而不是索引

print(order.groupby('学历要求',dropna=False,as_index=False).count())

在这里插入图片描述

1.3.4 多列作为分组依据

print(order.groupby(['学历要求','公司规模'],dropna=False).count())

在这里插入图片描述

print(order.groupby(['学历要求','公司规模'],dropna=False,as_index=False).count())

在这里插入图片描述

1.3.5 理解辅助

单个分组依据

# 我们可以输出groupby中的内容,分别是分组依据值和对应的内容
for a, b in gb:
    print(a)
    print('*******')
    print(b)
    print('__________')

在这里插入图片描述
在这里插入图片描述
多个分组依据
可以看到此时的索引是一个元组,我们要获取某个索引对应的内容也需要传入一个元组

gb = order.groupby(['学历要求','公司规模'],dropna=False,as_index=False)
# 我们可以输出groupby中的内容,分别是分组依据值和对应的内容
for a, b in gb:
    print(a)
    print('*******')
    print(b)
    print('__________')

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

print(gb.get_group(('本科', '150-500人')))

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/734693.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【电子学会】2023年05月图形化一级 -- 找食物

找食物 1. 准备工作 (1)添加背景:Jungle; (2)删除小猫角色,添加角色:Dog2、Donut; 2. 功能实现 (1)点击绿旗,小狗的初始位置在舞…

打家劫舍(力扣)动态规划 JAVA

你是一个专业的小偷,计划偷窃沿街的房屋。每间房内都藏有一定的现金,影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统,如果两间相邻的房屋在同一晚上被小偷闯入,系统会自动报警。 给定一个代表每个房屋存放金额的非…

从C语言到C++_25(树的十道OJ题)力扣:606+102+107+236+426+105+106+144+94+145

目录 606. 根据二叉树创建字符串 - 力扣(LeetCode) 解析代码: 102. 二叉树的层序遍历 - 力扣(LeetCode) 解析代码: 107. 二叉树的层序遍历 II - 力扣(LeetCode) 解析代码&…

倪海厦针灸大成学习笔记

学习倪海厦老师人纪针灸课程的学习笔记,比较粗糙,不一定准确,分享给大家,大家发现笔记中的错误,欢迎反馈! Word文档链接 有需要的欢迎私信

VSCode控制台乱码解决

如果你试过很多方法依然解决不了乱码问题,不妨试试这个 设置完成后重启电脑 开机后查看一下当前的编码 打开VSCode试一下 不得不吐槽一下MS。。。。。。

虚幻引擎程序化资源生成框架PCG 之 UPCGBlueprintElement源码笔记(二)数据流

PCG节点处理的是数据流,也就是点云,点云到底是啥?笼统地说就是一个个携带着信息的点组成的集合。但是在具体是使用过程中,我们还得了解这些”携带着信息的点“是如何被层层包装起来的。本文中老王就和大家一边拆解源代码一边做实验…

以太网数据链路层相关技术(六)

目录 一、概述 二、MAC地址 2.1 概述 2.2 MAC地址的意义 三、共享介质型网络与非共享介质网络 四、VLAN技术 一、概述 在各设备之间的数据传输时,物理层和数据链路层是必不可少的。其中,物理层的通信媒介包括双绞线电缆、同轴电缆、光纤、电波以及…

Springcloud基础(4)-Ribbon负载均衡

负载均衡 1. Ribbon简单描述2. 在SpringCloud中查看相关处理源码3. ribbon的默认策略,懒加载3. 实操中的相关问题 1. Ribbon简单描述 Spring Cloud Ribbon 是一套基于 Netflix Ribbon 实现的客户端负载均衡和服务调用工具。Ribbon是Netflix发布的开源项目&#xff0…

MySQL第四天作业 单表查询和多表查询

单表查询 创建表 CREATE TABLE emp (empno int(4) NOT NULL,ename varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,job varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,mgr int(4) NULL DEFAULT NULL,hiredate d…

【电子学会】2023年05月图形化一级 -- 舞蹈演出

舞蹈演出 1. 准备工作 (1)删除小猫角色; (2)添加角色Ballerina,为角色添加声音Bossa Nova; (3)添加背景Theater和Concert。 2. 功能实现 (1&#xff09…

STC89C52---定时器,中断

目录 一:定时器 1:简历 2:定时器/计数器0/1和相关寄存器 A:介绍 B: 相关寄存器 C:基本原理 3:定时器/计数器控制寄存器TCON 4:定时器/计数器工作模式寄存器TMOD (1)门控制 (2):使用STC-iSP软件生成配置 (2):使用STC-iSP软件定时器 二:中断 1:简历 B:中断寄存器 2…

【电子学会】2023年05月图形化四级 -- 还原轨迹

还原轨迹 1. 准备工作 (1)删除小猫; (2)从角色库添加“Butterfly 1”角色; (3)保留白色背景。 2. 功能实现 (1)点击绿旗,清除舞台&#xff…

利用Python实现网站内容监控及邮件提醒

目录 一、开启POP3/SMTP服务 二、利用SMTP库实现邮件发送 三、利用requests库监控网页关键字 四、常见问题 一、开启POP3/SMTP服务 以QQ邮箱为例:进入邮箱->设置->账户->开启POP3/SMTP等服务->获取授权码 ①首先进入QQ邮箱后点击设置 ② 点击邮箱…

【机器学习核心总结】什么是梯度下降

什么是梯度下降 根据已有数据的分布来预测可能的新数据,这是回归 希望有一条线将数据分割成不同类别,这是分类 无论回归还是分类,我们的目的都是让搭建好的模型尽可能的模拟已有的数据 除了模型的结构,决定模型能否模拟成功的关键…

IDEA+spring+spring mvc+mybatis+bootstrap+jquery+Mysql运动会管理系统

IDEAspringspring mvcmybatisbootstrapjqueryMysql运动会管理系统 一、系统介绍1.环境配置 二、系统展示1. 管理员登录2.修改密码3.运动会开幕信息4.运动会广播信息5. 比赛项目信息6.比赛成绩信息7.运动器材信息8.学生信息9.教师信息10.班级信息11. 院系信息12.开幕管理13.广播…

LVS + keepalived

一、keepalived概述1.1 keepalived 服务重要功能1.1.1 管理LVS负载均衡器软件1.1.2 支持故障自动切换(failover)1.1.3 实现LVS集中节点的健康检查(health checking)1.1.4 实现 LVS 负载调度器、节点服务器的高可用性(H…

Hcip第四次作业

要求: 1.如图连接,合理规划IP地址,所有路由器各自创建一个loopback接口 2.R1再创建三个接口IP地址为201.1.1.1/24、201.1.2.1/24、201.1.3.1/24 R5再创建三个接口IP地址为202.1.1.1/24、202.1.2.1/24、202.1.3.1/24 R7再创建三个接口IP地址为…

运维开发面试题第一期

1.tail -f和tail -F的区别是什么? tail -f 根据文件描述符进行追踪,当文件改名或被删除,追踪停止。 tail -F 根据文件名进行追踪,并保持重试,即该文件被删除或改名后,如果再次创建相同的文件名,会继续…

【通览一百个大模型】CodeX(OpenAI)

【通览一百个大模型】CodeX(OpenAI) 作者:王嘉宁,本文章内容为原创,仓库链接:https://github.com/wjn1996/LLMs-NLP-Algo 订阅专栏【大模型&NLP&算法】可获得博主多年积累的全部NLP、大模型和算法干…

01 |「沟通技巧」

前言 沟通是一个程序员需要具备的技能。 文章目录 前言一、学会沟通1. 为什么需要具备沟通能力2. 如何具备良好的沟通能力 二、沟通实践 一、学会沟通 1. 为什么需要具备沟通能力 程序员的工作能力一部分是需求的开发,另一部分是调试解决 Bug 的能力;快…