数据的分组聚合

news2025/3/12 0:15:56

1：分组 t.groupby

#coding:utf-8
import pandas as pd
import numpy as np
file_path='./starbucks_store_worldwide.csv'
df=pd.read_csv(file_path)
#print(df.head(1))
#print(df.info())
grouped=df.groupby(by='Country')
print(grouped)
#DataFrameGroupBy
#可以遍历，也可以使用聚合方法

2:DataFrameGroupBy可以进行遍历

grouped=df.groupby(by='Country')
print(grouped)
#DataFrameGroupBy
#可以遍历

for i, j in grouped:
    print(i)
    print('_'*100)
    print(j,type(j))
    print('*'*100)

3:DateFrameGroupBy可以聚合

print(grouped.count())，可以对grouped进行统计操作

country_count=grouped['Brand'].count()
print(country_count['CN'])
print(country_count['US'])

4:统计中国每个省份店铺的数量

#coding:utf-8
import pandas as pd
import numpy as np
file_path='./starbucks_store_worldwide.csv'
df=pd.read_csv(file_path)
china_date=df[df['Country']=='CN']
#print(china_date)
grouped=china_date.groupby(by='City').count()['Brand']
print(grouped)

5:按照多条件进行分组

#coding:utf-8
import pandas as pd
import numpy as np
file_path='./starbucks_store_worldwide.csv'
df=pd.read_csv(file_path)
china_date=df[df['Country']=='CN']
#print(china_date)
#grouped=china_date.groupby(by='City').count()['Brand']
grouped=df['Brand'].groupby(by=[df['Country'],df['State/Province']]).count()
print(grouped)
print(type(grouped))

6:df['Brand']和df[['Brand']]一个代表Series格式，一个代表DateFrame格式

#coding:utf-8
import pandas as pd
import numpy as np
file_path='./starbucks_store_worldwide.csv'
df=pd.read_csv(file_path)
china_date=df[df['Country']=='CN']
#print(china_date)
#grouped=china_date.groupby(by='City').count()['Brand']
grouped=df['Brand'].groupby(by=[df['Country'],df['State/Province']]).count()
print(grouped)
print(type(grouped))

7：索引和复合索引

#把某一列作为索引df.set_index

#重置索引 df.index=['x','y']

df1=pd.DataFrame(np.ones(8).reshape(2,4))
df1.index=['a','b']
# df1.reindex['a','f']
# print(df1)
df1.columns=['c','d','e','f']
#print(df1)
df2=df1.set_index('c')
print(df2)

df2=df1.set_index('c',drop=False)
#c不止是索引，仍然是列
print(df2)

#index.unique

df2=df1.set_index('c',drop=False).index.unique()

print(df2)

#index是可迭代的对象，可以len( ),也可以list()

df2=len(df1.set_index('c',drop=False))
#c不止是索引，仍然是列
print(df2)
df2=list(df1.set_index('c',drop=False))
print(df2)

#设置2个列作为索引

 #设置两个列作为索引
df3=df1.set_index(['c','d'],drop='false')
print(df3)

#简单的索引操作

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/346211.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

数据的分组聚合

相关文章

1.2配置OSPF包文分析和验证

Redis 集群搭建及集群管理工具

【JavaWeb】网络编程概念 + Socket套接字 + UDP/TCP编程

2.5｜物联网应用系统设计｜复习提纲｜提问背诵

零基础学习Python的一点建议

亿级高并发电商项目-- 实战篇 --万达商城项目六（编写角色管理、用户权限(Spring Security认证授权)、管理员管理等模块）

使用nvm管理node

node 拉取github开源漏洞

B树和B+树,红黑树作为索引的区别

如何在Qt中设置背景图片，且不覆盖其它控件

使用 Three.js 后处理的粗略铅笔画效果

1.9 实践项目——爬取学生信息

【Junit5】就这篇，带你从入门到进阶

Firefox 110, Chrome 110, Chromium 110 官网离线下载 (macOS, Linux, Windows)

feign技巧 - form方式传值

leaflet 上传KMZ文件，并在map上显示（062）

又发现一个ChatGPT体验站，辅助写代码真方便

【刷题笔记】--两数之和Ⅳ，从二叉树中找出两数之和

C++请求SpringBoot的接口问题记录

C++：提高篇：栈-寄存器和函数状态：栈指针帧指针详解