典型相关分析(Canonical Correlation Analysis, CCA)是一种多变量统计分析方法,用于研究两组变量之间的整体相关性。它的基本原理是在两组变量中分别提取有代表性的两个综合变量(即两组变量的线性组合),通过这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。
在进行典型相关分析时,首先需要准备两组相关的多变量数据,每组变量内部可以是相关的。接着,计算两组变量的线性组合,目的是使它们之间的相关性(典型相关系数)最大化。典型相关系数是衡量两组变量之间关系的指标,该值越大表示两组变量的相关性越强。在找到第一对典型变量之后,可以继续寻找第二对、第三对等,每一对典型变量都与前面的变量不相关,以此来提取两组变量间的全部信息 。
典型相关分析的应用领域相当广泛,包括生物医学、经济学、市场研究等。在生物医学中,它可以探索不同生物特征之间的关联,例如基因与表型之间的关系;在经济学中,可以分析不同经济指标之间的关联和影响;在市场研究中,可以研究消费者行为和市场趋势之间的关系 ,在金融市场数据分析中,可以使用CCA来探索经济指标与宏观经济变量之间的关系,从而为投资决策或宏观经济政策制定提供依据 。
此外,典型相关分析的显著性检验也是进行该分析时的一个重要环节,可以帮助研究者判断所发现的相关性是否具有统计学意义 。
为了展示典型相关分析的应用,我们可以创建一个假设性的案例。假设我们有一组关于学生学业表现的数据,包括他们的课程成绩(数学、科学、历史)和他们的学习习惯(每日学习时间、作业完成质量、课堂参与度)。我们的目标是探索这两组变量之间的相关性。
Step1:计算典型变量
导入必要的库
import numpy as np
import pandas as pd
from sklearn.cross_decomposition import CCA
numpy
:用于数值计算,特别是大型多维数组。pandas
:提供数据结构和数据分析工具,特别是DataFrame对象。sklearn.cross_decomposition.CCA
:来自scikit-learn库,用于执行典型相关分析。
创建模拟数据
np.random.seed(0)
n_students = 100
academic_performance = np.random.normal(size=(n_students, 3))
study_habits = np.random.normal(size=(n_students, 3))
np.random.seed(0)
:设置随机数生成器的种子,以确保结果的可重复性。n_students
:定义学生的数量,这里设置为100。academic_performance
:创建一个形状为(100, 3)
的数组,代表100名学生在数学、科学和历史的学业成绩,数据从标准正态分布中随机生成。study_habits
:创建一个形状为(100, 3)
的数组,代表100名学生的学习习惯,包括每日学习时间、作业完成质量和课堂参与度,数据同样从标准正态分布中随机生成。
将数据转换为DataFrame
df = pd.DataFrame(np.hstack((academic_performance, study_habits)),
columns=['Math', 'Science', 'History', 'Study_Time', 'Homework_Quality', 'Class_Participation'])
np.hstack((academic_performance, study_habits))
:将学业成绩和学习习惯两个数组水平(按列)堆叠在一起。pd.DataFrame(...)
:创建一个DataFrame,将堆叠后的数组作为数据,并定义列名为学业成绩和学习习惯的各个方面。
堆叠后的数据如下:
执行典型相关分析
cca = CCA(n_components=3)
cca.fit(academic_performance, study_habits)
CCA(n_components=3)
:创建一个CCA对象,指定要提取的典型变量的数量为3。cca.fit(academic_performance, study_habits)
:用学业成绩和学习习惯的数据来拟合CCA模型。
获取典型变量
canonical_vars = cca.transform(academic_performance, study_habits)
cca.transform(academic_performance, study_habits)
:使用拟合好的CCA模型转换原始数据,得到对应的典型变量。
将典型变量添加到DataFrame中
df['Canonical_Var_1_Academic'], df['Canonical_Var_1_Habits'] = canonical_vars[0][:, 0], canonical_vars[1][:, 0]
df['Canonical_Var_2_Academic'], df['Canonical_Var_2_Habits'] = canonical_vars[0][:, 1], canonical_vars[1][:, 1]
df['Canonical_Var_3_Academic'], df['Canonical_Var_3_Habits'] = canonical_vars[0][:, 2], canonical_vars[1][:, 2]
- 这段代码将得到的典型变量添加到原始DataFrame中。每一对典型变量(一个来自学业成绩,一个来自学习习惯)都与同一个典型相关系数相关联,这里分别添加了三个典型变量对。
显示DataFrame的前5行
df.head(5)
结果如下:
在这个案例中,我们通过Python生成了模拟数据,代表学生的学业成绩和学习习惯。然后,我们使用典型相关分析(CCA)来探索这两组变量之间的关系。结果显示,我们得到了三对典型变量。
Step2:计算典型变量间的相关系数以及假设检验
# 计算典型变量间的相关系数
correlations = df[['Canonical_Var_1_Academic', 'Canonical_Var_2_Academic', 'Canonical_Var_3_Academic',
'Canonical_Var_1_Habits', 'Canonical_Var_2_Habits', 'Canonical_Var_3_Habits']].corr()
# 进行假设检验(相关系数的显著性检验)
p_values = correlations.copy()
for i in correlations.columns:
for j in correlations.columns:
if i != j:
p_values[i][j] = stats.pearsonr(df[i], df[j])[1]
else:
p_values[i][j] = 1
correlations, p_values
结果分析:
- 第一组典型变量(学业成绩 vs 学习习惯)的相关系数为 0.1829,p值为 0.0686,表明它们之间有轻微的正相关性,但这种相关性可能不具有统计学意义。
- 第二组典型变量的相关系数为 0.0000(几乎为零),p值为 0.9998,表明它们之间几乎没有相关性。
- 第三组典型变量的相关系数为 -0.0460,p值为 0.6535,表明它们之间有轻微的负相关性,但这种相关性可能不具有统计学意义。
所以得出结论,他们的课程成绩(数学、科学、历史)和他们的学习习惯(每日学习时间、作业完成质量、课堂参与度)的相关性不大。
Step3:结果可视化
为了可视化这些典型变量之间的关系,我们可以使用散点图。散点图是一种直观展示两个变量之间关系的图表,通过观察点的分布,我们可以判断变量之间的相关性。在这个案例中,我们将为每组典型变量创建一个散点图,展示学业成绩和学习习惯之间的关系。
import matplotlib.pyplot as plt
# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
# 创建散点图
fig, axes = plt.subplots(1, 3, figsize=(18, 5))
# 第一组典型变量
axes[0].scatter(df['Canonical_Var_1_Academic'], df['Canonical_Var_1_Habits'])
axes[0].set_title('第一组典型变量')
axes[0].set_xlabel('学业成绩')
axes[0].set_ylabel('学习习惯')
# 第二组典型变量
axes[1].scatter(df['Canonical_Var_2_Academic'], df['Canonical_Var_2_Habits'])
axes[1].set_title('第二组典型变量')
axes[1].set_xlabel('学业成绩')
axes[1].set_ylabel('学习习惯')
# 第三组典型变量
axes[2].scatter(df['Canonical_Var_3_Academic'], df['Canonical_Var_3_Habits'])
axes[2].set_title('第三组典型变量')
axes[2].set_xlabel('学业成绩')
axes[2].set_ylabel('学习习惯')
# 调整布局
plt.tight_layout()
# 显示图表
plt.show()
散点图如下:
我们为每组典型变量创建了一个散点图,展示了学业成绩和学习习惯之间的关系:
-
第一组典型变量:从图中可以看出,这组变量之间存在轻微的正相关性,但相关性不强。
-
第二组典型变量:这组变量之间几乎没有可见的相关性。
-
第三组典型变量:这组变量之间有轻微的负相关性,但同样不强。
以上介绍了典型相关分析的步骤:计算典型变量,计算典型变量间的相关系数以及假设检验,结果可视化。
点下关注,分享更多有关AI,数据分析和量化金融相关的实用教程和案例解析。