用Python探究两组变量的相关性_典型相关分析(CCA)模板

news2024/12/23 13:17:10

典型相关分析(Canonical Correlation Analysis, CCA)是一种多变量统计分析方法,用于研究两组变量之间的整体相关性。它的基本原理是在两组变量中分别提取有代表性的两个综合变量(即两组变量的线性组合),通过这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。

在进行典型相关分析时,首先需要准备两组相关的多变量数据,每组变量内部可以是相关的。接着,计算两组变量的线性组合,目的是使它们之间的相关性(典型相关系数)最大化。典型相关系数是衡量两组变量之间关系的指标,该值越大表示两组变量的相关性越强。在找到第一对典型变量之后,可以继续寻找第二对、第三对等,每一对典型变量都与前面的变量不相关,以此来提取两组变量间的全部信息 。

典型相关分析的应用领域相当广泛,包括生物医学、经济学、市场研究等。在生物医学中,它可以探索不同生物特征之间的关联,例如基因与表型之间的关系;在经济学中,可以分析不同经济指标之间的关联和影响;在市场研究中,可以研究消费者行为和市场趋势之间的关系 ,在金融市场数据分析中,可以使用CCA来探索经济指标与宏观经济变量之间的关系,从而为投资决策或宏观经济政策制定提供依据 。

此外,典型相关分析的显著性检验也是进行该分析时的一个重要环节,可以帮助研究者判断所发现的相关性是否具有统计学意义 。

为了展示典型相关分析的应用,我们可以创建一个假设性的案例。假设我们有一组关于学生学业表现的数据,包括他们的课程成绩(数学、科学、历史)和他们的学习习惯(每日学习时间、作业完成质量、课堂参与度)。我们的目标是探索这两组变量之间的相关性。

Step1:计算典型变量

导入必要的库

import numpy as np
import pandas as pd
from sklearn.cross_decomposition import CCA
  • numpy:用于数值计算,特别是大型多维数组。
  • pandas:提供数据结构和数据分析工具,特别是DataFrame对象。
  • sklearn.cross_decomposition.CCA:来自scikit-learn库,用于执行典型相关分析。

创建模拟数据

np.random.seed(0)
n_students = 100
academic_performance = np.random.normal(size=(n_students, 3))
study_habits = np.random.normal(size=(n_students, 3))
  • np.random.seed(0):设置随机数生成器的种子,以确保结果的可重复性。
  • n_students:定义学生的数量,这里设置为100。
  • academic_performance:创建一个形状为(100, 3)的数组,代表100名学生在数学、科学和历史的学业成绩,数据从标准正态分布中随机生成。
  • study_habits:创建一个形状为(100, 3)的数组,代表100名学生的学习习惯,包括每日学习时间、作业完成质量和课堂参与度,数据同样从标准正态分布中随机生成。

将数据转换为DataFrame

df = pd.DataFrame(np.hstack((academic_performance, study_habits)),
                  columns=['Math', 'Science', 'History', 'Study_Time', 'Homework_Quality', 'Class_Participation'])
  • np.hstack((academic_performance, study_habits)):将学业成绩和学习习惯两个数组水平(按列)堆叠在一起。
  • pd.DataFrame(...):创建一个DataFrame,将堆叠后的数组作为数据,并定义列名为学业成绩和学习习惯的各个方面。

堆叠后的数据如下:

执行典型相关分析

cca = CCA(n_components=3)
cca.fit(academic_performance, study_habits)
  • CCA(n_components=3):创建一个CCA对象,指定要提取的典型变量的数量为3。
  • cca.fit(academic_performance, study_habits):用学业成绩和学习习惯的数据来拟合CCA模型。

获取典型变量

canonical_vars = cca.transform(academic_performance, study_habits)
  • cca.transform(academic_performance, study_habits):使用拟合好的CCA模型转换原始数据,得到对应的典型变量。

将典型变量添加到DataFrame中

df['Canonical_Var_1_Academic'], df['Canonical_Var_1_Habits'] = canonical_vars[0][:, 0], canonical_vars[1][:, 0]
df['Canonical_Var_2_Academic'], df['Canonical_Var_2_Habits'] = canonical_vars[0][:, 1], canonical_vars[1][:, 1]
df['Canonical_Var_3_Academic'], df['Canonical_Var_3_Habits'] = canonical_vars[0][:, 2], canonical_vars[1][:, 2]
  • 这段代码将得到的典型变量添加到原始DataFrame中。每一对典型变量(一个来自学业成绩,一个来自学习习惯)都与同一个典型相关系数相关联,这里分别添加了三个典型变量对。

显示DataFrame的前5行

df.head(5)

结果如下:

在这个案例中,我们通过Python生成了模拟数据,代表学生的学业成绩和学习习惯。然后,我们使用典型相关分析(CCA)来探索这两组变量之间的关系。结果显示,我们得到了三对典型变量。

Step2:计算典型变量间的相关系数以及假设检验

# 计算典型变量间的相关系数
correlations = df[['Canonical_Var_1_Academic', 'Canonical_Var_2_Academic', 'Canonical_Var_3_Academic',
                   'Canonical_Var_1_Habits', 'Canonical_Var_2_Habits', 'Canonical_Var_3_Habits']].corr()

# 进行假设检验(相关系数的显著性检验)
p_values = correlations.copy()
for i in correlations.columns:
    for j in correlations.columns:
        if i != j:
            p_values[i][j] = stats.pearsonr(df[i], df[j])[1]
        else:
            p_values[i][j] = 1

correlations, p_values

结果分析:

  • 第一组典型变量(学业成绩 vs 学习习惯)的相关系数为 0.1829,p值为 0.0686,表明它们之间有轻微的正相关性,但这种相关性可能不具有统计学意义。
  • 第二组典型变量的相关系数为 0.0000(几乎为零),p值为 0.9998,表明它们之间几乎没有相关性。
  • 第三组典型变量的相关系数为 -0.0460,p值为 0.6535,表明它们之间有轻微的负相关性,但这种相关性可能不具有统计学意义。

所以得出结论,他们的课程成绩(数学、科学、历史)和他们的学习习惯(每日学习时间、作业完成质量、课堂参与度)的相关性不大。

Step3:结果可视化

为了可视化这些典型变量之间的关系,我们可以使用散点图。散点图是一种直观展示两个变量之间关系的图表,通过观察点的分布,我们可以判断变量之间的相关性。在这个案例中,我们将为每组典型变量创建一个散点图,展示学业成绩和学习习惯之间的关系。

import matplotlib.pyplot as plt

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 创建散点图
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

# 第一组典型变量
axes[0].scatter(df['Canonical_Var_1_Academic'], df['Canonical_Var_1_Habits'])
axes[0].set_title('第一组典型变量')
axes[0].set_xlabel('学业成绩')
axes[0].set_ylabel('学习习惯')

# 第二组典型变量
axes[1].scatter(df['Canonical_Var_2_Academic'], df['Canonical_Var_2_Habits'])
axes[1].set_title('第二组典型变量')
axes[1].set_xlabel('学业成绩')
axes[1].set_ylabel('学习习惯')

# 第三组典型变量
axes[2].scatter(df['Canonical_Var_3_Academic'], df['Canonical_Var_3_Habits'])
axes[2].set_title('第三组典型变量')
axes[2].set_xlabel('学业成绩')
axes[2].set_ylabel('学习习惯')

# 调整布局
plt.tight_layout()

# 显示图表
plt.show()

散点图如下:

我们为每组典型变量创建了一个散点图,展示了学业成绩和学习习惯之间的关系:

  1. 第一组典型变量:从图中可以看出,这组变量之间存在轻微的正相关性,但相关性不强。

  2. 第二组典型变量:这组变量之间几乎没有可见的相关性。

  3. 第三组典型变量:这组变量之间有轻微的负相关性,但同样不强。

以上介绍了典型相关分析的步骤:计算典型变量,计算典型变量间的相关系数以及假设检验,结果可视化。

点下关注,分享更多有关AI,数据分析和量化金融相关的实用教程和案例解析。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2080781.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java设计模式之工厂模式详细讲解和案例示范

在Java的设计模式中,工厂模式(Factory Pattern)是最常见和最有用的一种创建型模式。工厂模式的核心思想是将对象的创建与使用分离,从而提供了一种灵活的方式来创建不同类型的对象。这种模式尤其适用于复杂对象的创建过程&#xff…

HTTrack镜像网站实践

目录 前言 Windows下使用HTTrack HTTrack安装 HTTrack使用 Kali linux下使用HTTrack HTTrack安装 HTTrack使用 前言 在特殊时期,不想把真实的网站页面展示给用户,但又不能关停。此刻,可以用镜像网站替换真实网站,降低安全风…

Golang | Leetcode Golang题解之第378题有序矩阵中第K小的元素

题目&#xff1a; 题解&#xff1a; func kthSmallest(matrix [][]int, k int) int {n : len(matrix)left, right : matrix[0][0], matrix[n-1][n-1]for left < right {mid : left (right - left) / 2if check(matrix, mid, k, n) {right mid} else {left mid 1}}retur…

52.给定一个整数 n,实现一个算法返回 n 皇后不同的解决方案的数量

52. N-Queens II 题目 n皇后问题是指将n个皇后放置在一个nn的棋盘上,使得任意两个皇后不在同一行、同一列或同一对角线上。 给定一个整数 n,返回 n 皇后问题不同的解法数量。 示例: 输入: 4 输出: 2 解释: 4皇后问题有如下两个不同的解法: [ [“.Q…”, // 解法 1 “……

LabVIEW反编译与源程序加密破解

最近&#xff0c;不少粉丝咨询如何将生成的 LabVIEW 可执行程序反编译&#xff0c;所以写了这篇文章来详细探讨这个话题。反编译问题引起了广泛的关注&#xff0c;许多开发者希望能够从现有的可执行文件中提取源代码&#xff0c;以便进行修改或重新利用。然而&#xff0c;反编译…

Java基础:什么是多态

什么是多态 多态是面向对象的三大特性之一&#xff08;另外两个是封装和继承&#xff09;&#xff0c;指的是同一个方法能执行不同的行为&#xff0c;在代码上的体现是&#xff1a;声明为父类的对象&#xff0c;可以被不同的实现类赋值&#xff0c;其中实现类必须继承或者实现…

OpenCV图像拼接多频段融合源码重构

OpenCV图像拼接多频段融合源码重构 图像拼接是计算机视觉中的一个常见问题&#xff0c;OpenCV提供了十分完善的算法类库。作者使用OpenCV4.6.0进行图像拼接&#xff0c;其提供了包括曝光补偿、最佳缝合线检测以及多频段融合等图像拼接常用算法&#xff0c;测试发现多频段融合算…

uni-app - - - - - 自定义tabbar

uni-app - - - - - 自定义tabbar 1. 创建页面2. pages.json3. 自定义tabbar4. 隐藏原生tabbar5. 全局注册组件6. 页面使用7. 效果图展示 1. 创建页面 2. pages.json 配置tabbar {"tabBar": {"list": [{"pagePath": "pages/ballroom/ballr…

认知杂谈25

今天分享 有人说的一段争议性的话 I I 《拖延症&#xff0c;谁都有过》 嘿&#xff0c;朋友们&#xff01;咱都来说说&#xff0c;拖延症这玩意儿&#xff0c;好多人都被它给缠上啦。你看哈&#xff0c;本来计划得好好的&#xff0c;今天要把房间收拾得干干净净&#xff0c;可…

SSH弱口令爆破服务器

一、实验背景 1、概述 使用kali的hydra进行ssh弱口令爆破&#xff0c;获得服务器的用户名和口令&#xff0c;通过 ssh远程登录服务器。 2、实验环境 kali攻击机&#xff1a;192.168.1.107 centos服务器&#xff1a;192.168.1.105 二、前置知识 1、centos设置用户并设置弱…

软件设计原则之接口隔离原则

接口隔离原则&#xff08;Interface Segregation Principle, ISP&#xff09;是面向对象设计中的一个重要原则&#xff0c;它属于SOLID原则之一。这个原则强调客户端&#xff08;即接口的调用者&#xff09;不应该被迫依赖于它们不使用的方法。换句话说&#xff0c;一个类对另一…

【区块链 + 司法存证】数据存证区块链服务开放平台 | FISCO BCOS应用案例

大数据时代&#xff0c;数据参与社会生产过程&#xff0c;实现价值增值&#xff0c;是一种新型生产要素。数据产品具有易复制、易修改等特点&#xff0c; 因而数据产品在使用、流通过程中面临被非法复制、非法传播、非法篡改和知识产权窃取等安全风险。在存证数 据上链过程中&a…

PDF转化为机器可读格式的工具

MinerU PDF转化为机器可读格式的工具 项目简介 MinerU是一款将PDF转化为机器可读格式的工具&#xff08;如markdown、json&#xff09;&#xff0c;可以很方便地抽取为任意格式。 项目地址&#xff1a; https://github.com/opendatalab/MinerU/tree/master主要功能 删除页…

微信开发者工具 自定义字体大小

常用编程软件自定义字体大全首页 文章目录 前言具体操作1. 打开文件设置对话框2. 在Font Family里面输入字体 前言 微信开发者工具 自定义字体大小&#xff0c;统一设置为 Cascadia Code SemiBold &#xff0c;大小为 14 具体操作 【文件】>【首选项】>【设置】>【文…

登录校验组件 Spring Security OAuth2 详解

什么是OAuth? OAuth&#xff08;全称Open Authorization&#xff0c;开放授权&#xff09;是一种基于令牌的身份验证和授权协议&#xff0c;它允许用户授权第三方应用访问其在服务提供者&#xff08;如社交媒体、邮箱服务等&#xff09;上存储的特定信息&#xff0c;而无需直…

安防监控/软硬一体/视频汇聚网关EasyCVR硬件启动崩溃是什么原因?

安防视频监控EasyCVR安防监控视频系统采用先进的网络传输技术&#xff0c;支持高清视频的接入和传输&#xff0c;能够满足大规模、高并发的远程监控需求。EasyCVR平台支持多种视频流的外部分发&#xff0c;如RTMP、RTSP、HTTP-FLV、WebSocket-FLV、HLS、WebRTC、WS-FMP4、HTTP-…

PyTorch深度学习网络(二:CNN)

卷积神经网络&#xff08;CNN&#xff09;是一种专门用于处理具有类似网格结构数据的深度学习模型&#xff0c;例如图像&#xff08;2D网格的像素&#xff09;和时间序列数据&#xff08;1D网格的信号强度&#xff09;。CNN在图像识别、图像分类、物体检测、语音识别等领域有着…

API网关之Kong

Kong 是一个高性能的开源 API 网关和微服务管理平台&#xff0c;用于管理、保护和扩展 API 和微服务。它最初由 Mashape 公司开发&#xff0c;并于 2015 年作为开源项目发布。Kong 能够处理 API 的路由、认证、负载均衡、缓存、监控、限流等多种功能&#xff0c;是微服务架构中…

Mysql中count(*) over 用法讲解

Mysql中count&#xff08;*&#xff09; over &#xff08;&#xff09;用法讲解 一、原理1、原理介绍 二、下面是一个使用COUNT(*) OVER()的代码示例&#xff1a;1、代码示例2、结果详解3、COUNT(*) OVER() 分区用法 三 、总结 一、原理 1、原理介绍 在MySQL中&#xff0c;C…

MySQL集群的基础部署及主从复制详解

一、Msql在服务器中的部署方法 官网&#xff1a;http://www.mysql.com 在企业中90%的服务器操作系统均为Linux 在企业中对于Mysql的安装通常用源码编译的方式来进行 1.1 在Linux下部署MySQL 1.1.1 部署环境 主机IP角色MySQL-node1172.25.254.13masterMySQL-node2172.25.…