pandas数据处理高级系列003---什么是交叉表(Cross Tabulation)以及pandas如何生成

news2026/2/13 22:34:12

做ab测试的时候遇到了一个新的知识点，交叉表以及如何用pandas生成交叉表

交叉表（Cross Tabulation），也称为列联表（Contingency Table），是一种用于统计分析的表格，用于显示两个或多个分类变量之间的频率分布。交叉表可以帮助我们理解变量之间的关系，并进行进一步的统计分析，如卡方检验（Chi-Square Test）、相关性分析等。

交叉表的基本结构

交叉表通常由行和列组成，行表示一个分类变量，列表示另一个分类变量。表格中的每个单元格显示两个变量组合的频率或百分比。

示例
假设我们有两个分类变量：性别（Gender）和购买意愿（Purchase Intention）。性别有两个类别：男（Male）和女（Female），购买意愿有两个类别：是（Yes）和否（No）。我们可以创建一个交叉表来显示这两个变量之间的关系。

数据

| Gender | Purchase Intention |
|--------|--------------------|
| Male   | Yes                |
| Female | No                 |
| Male   | Yes                |
| Female | Yes                |
| Male   | No                 |
| Female | No                 |
| Male   | Yes                |
| Female | Yes                |
| Male   | No                 |
| Female | No                 |

交叉表：

| Gender | Yes | No | Total |
|--------|-----|----|-------|
| Male   | 3   | 2  | 5     |
| Female | 2   | 3  | 5     |
| Total  | 5   | 5  | 10    |

解释
行：表示性别（Gender），有两个类别：男（Male）和女（Female）。

列：表示购买意愿（Purchase Intention），有两个类别：是（Yes）和否（No）。

单元格：显示性别和购买意愿组合的频率。例如，“Male” 和 “Yes” 组合的频率是 3。

总计：行总计和列总计分别显示每个类别的总频率。

交叉表的应用描述性统计：交叉表可以帮助我们直观地理解两个分类变量之间的关系。

卡方检验：用于检验两个分类变量之间的独立性。如果卡方检验的 p 值小于显著性水平（如
0.05），则可以拒绝原假设，认为两个变量之间存在显著关系。

相关性分析：交叉表可以用于计算分类变量之间的相关性系数，如 Cramer’s V 或 Phi 系数。

示例代码

以下是一个使用 pandas 创建交叉表的示例：

import pandas as pd

# 示例数据
data = {
    'Gender': ['Male', 'Female', 'Male', 'Female', 'Male', 'Female', 'Male', 'Female', 'Male', 'Female'],
    'Purchase Intention': ['Yes', 'No', 'Yes', 'Yes', 'No', 'No', 'Yes', 'Yes', 'No', 'No']
}

df = pd.DataFrame(data)

# 创建交叉表
cross_tab = pd.crosstab(df['Gender'], df['Purchase Intention'])

print(cross_tab)