用来计算两个(或更多)因子的交叉表(即频率表、列联表或透视表)。这个功能特别适用于统计分析和数据探索阶段,帮助理解不同变量之间的关系
1 基本用法
pd.crosstab(index,
columns,
values=None,
rownames=None,
colnames=None,
aggfunc=None,
margins=False,
margins_name='All',
dropna=True,
normalize=False)
2 参数说明
index | 用作表的行标签的数组、序列或数组列表 |
columns | 用作表的列标签的数组、序列或数组列表 |
values | 可选,数组或序列,当使用 aggfunc 不为空时,这个参数用来计算聚合值 |
rownames | 用于结果DataFrame的行标签的名称列表 |
colnames | 用于结果DataFrame的列标签的名称列表 |
aggfunc | 可选,用于聚合的函数或函数列表。如果提供了 values ,则需要这个参数 |
margins | 布尔值,是否添加行/列边际小计或总计 |
margins_name | 边际的名称,默认是 'All |
dropna | 布尔值,是否删除所有条目都为NaN的列 |
normalize | 布尔值或 {'all', 'index', 'columns'},用于规范化频率表的总和 |
3 举例
3.1 基本例子
假设有一个关于人口的数据集,我们有性别和职业两个列
import pandas as pd
data = {
'Sport': ['Soccer', 'Soccer', 'Tennis', 'Soccer', 'Tennis', 'Basketball', 'Basketball'],
'Age Group': ['Youth', 'Adult', 'Adult', 'Youth', 'Youth', 'Adult', 'Youth']
}
df = pd.DataFrame(data)
df
现在我们想要查看不同职业中性别的分布情况:
ct = pd.crosstab(index=df['Age Group'], columns=df['Sport'])
ct
3.2 聚合函数 values,aggfunc
如果你有一个包含多个相同记录的数据集,并且你想要计算某些数值的总和或平均值,你可以使用 values
和 aggfunc
参数
data = pd.DataFrame({
'Gender': ['Male', 'Female', 'Female', 'Male', 'Female', 'Male', 'Male'],
'Occupation': ['Engineer', 'Doctor', 'Engineer', 'Artist', 'Doctor', 'Artist', 'Engineer'],
'Salary': [1000, 1500, 900, 1100, 1700, 1200, 1300]
})
data
不用聚合函数的情况:
pd.crosstab(data['Gender'], data['Occupation'])
使用聚合函数的情况
pd.crosstab(data['Gender'], data['Occupation'], values=data['Salary'], aggfunc='mean')
3.3 margins
使用 margins=True
可以快速获得每一行和每一列的总计,以及整个表的总计。
pd.crosstab(data['Gender'],
data['Occupation'],
values=data['Salary'],
aggfunc='mean',
margins=True)