【数学建模】典型相关分析

news2024/11/25 22:35:46

典型相关分析(Canonical Correlation Analysis, CCA)是一种统计方法,用于寻找两个多变量数据集之间的线性关系。这种分析方法可以用来衡量两个数据集之间的相关性,并找出能够最好地解释这种相关性的变量组合。

典型相关分析的基本概念

  1. 定义:CCA旨在寻找两个多元数据集之间的线性组合,使得这两个组合之间的相关性最大化。
  2. 应用场景
    • 生物学:研究基因表达水平与临床指标之间的关系。
    • 心理学:探究不同心理测试结果与行为表现之间的联系。
    • 经济学:分析宏观经济指标与股票市场变动的相关性。

典型相关分析的步骤

  1. 数据准备:收集两个多元数据集 (X) 和 (Y),其中 (X) 包含 (p) 个变量,(Y) 包含 (q) 个变量。
  2. 标准化:通常会对数据进行标准化处理,以便消除量纲的影响。
  3. 计算典型相关系数:找到最优的线性组合 (u = a'X) 和 (v = b'Y),使得 (u) 和 (v) 之间的相关系数最大化。这一过程涉及求解特征值问题。
  4. 解释结果:分析得到的典型变量 (u) 和 (v),以及它们之间的相关系数,从而理解数据集中变量之间的关系。

典型相关分析的输出

  • 典型相关系数:表示两个线性组合之间的相关性。
  • 典型变量:由原始变量的线性组合构成的新变量。
  • 载荷:原始变量与典型变量之间的关系强度,类似于主成分分析中的载荷。

典型相关分析的应用实例

假设我们有两个数据集,一个是学生体测数据,包括身高、体重、肺活量、50米跑成绩、立定跳远距离和坐位体前屈长度;另一个是学生的其他特征数据,比如年龄、性别、班级等。我们可以使用典型相关分析来探索这两组数据之间的相关性。

典型相关分析的假设

  • 线性关系:CCA假设变量之间的关系是线性的。
  • 正态性:CCA假设数据集中的变量服从正态分布。
  • 无多重共线性:每个数据集中变量间应避免高度相关。

典型相关分析的局限性

  • 如果变量间的关系是非线性的,CCA可能无法捕捉到这种关系。
  • 如果数据集中的变量数量很多,可能会出现多重共线性问题,影响结果的可靠性。

实现典型相关分析

在实际应用中,可以使用各种统计软件包来执行典型相关分析,如R、Python的scikit-learn库等。例如,在Python中,可以使用sklearn.cross_decomposition.CCA来执行典型相关分析。

示例代码

以下是一个使用Python和scikit-learn进行典型相关分析的简单示例:

from sklearn.cross_decomposition import CCA
import numpy as np

# 创建示例数据
X = np.random.rand(100, 6)  # 100个样本,每个样本有6个特征
Y = np.random.rand(100, 4)  # 100个样本,每个样本有4个特征

# 创建CCA对象
cca = CCA(n_components=2)

# 对数据进行拟合
cca.fit(X, Y)

# 获取典型变量
X_c, Y_c = cca.transform(X, Y)

# 输出典型相关系数
print("Typical correlations:", cca.correlation_)

以上代码展示了如何使用scikit-learn库中的CCA类来执行典型相关分析,并输出典型相关系数。根据您上传的文件内容,下面是针对典型相关分析(Canonical Correlation Analysis, CCA)的详细解析:

典型相关分析概述

典型相关分析是一种多元统计方法,用于研究两组变量(每组变量中可能包含多个指标)之间的相关关系。这种方法可以揭示两组变量之间的内在联系。

解析每一部分内容

1. 典型相关分析定义
  • 定义:典型相关分析由Hotelling提出,其基本思想类似于主成分分析。
  • 过程:在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。然后选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对。这个过程会持续进行,直到两组变量之间的相关性被提取完毕。
  • 结果:被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数,度量了这两组变量之间联系的强度。
2. 典型相关分析的关键步骤
  • 数据分布假设:两组数据服从联合正态分布。
  • 相关性检验:构造似然比统计量,检验两组变量的相关性。p值小于0.05(0.1)表示在95%(90%)的置信水平下拒绝原假设,即认为两组变量有关。
  • 确定典型相关变量的个数:直接看典型相关系数对应的p值。
  • 利用标准化后的典型相关变量分析问题
  • 进行典型载荷分析
  • 计算前r个典型变量对样本总方差的贡献
3. SPSS操作步骤
  • 导入数据:将数据导入SPSS。
  • 检验数据类型:确保所有变量都设置为标度类型。
  • 点击菜单功能:选择相应的菜单进行典型相关分析。
  • 将数据移动到对应的集合:将变量分配到两个集合中。
  • 导出分析结果:执行分析并导出结果。
  • 对结果进行分析
    • 查看p值:确定显著的典型相关系数个数。
    • 标准化典型相关系数:写出标准化后的典型变量。
    • 典型载荷分析:分析典型变量每个分量前面的系数代表的重要性。
    • 方差解释程度:分析前r个典型变量对样本总方差的贡献。

示例分析

假设我们要探究观众和业内人士对于一些电视节目的观点之间的关系。观众评分来自低学历(led)、高学历(hed)和网络(net)调查三种,形成第一组变量;而业内人士评分来自包括演员和导演在内的艺术家(arti)、发行(com)与业内各部门主管(man)三种,形成第二组变量。

SPSS结果分析
  • 典型相关性
    • 第一对典型相关系数为0.796,特征值1.725,威尔克统计0.350,F值2.048,分子自由度9.000,分母自由度34.223,显著性0.064。
    • 第二对典型相关系数为0.201,特征值0.042,威尔克统计0.955,F值0.176,分子自由度4.000,分母自由度30.000,显著性0.949。
    • 第三对典型相关系数为0.073,特征值0.005,威尔克统计0.995,F值0.085,分子自由度1.000,分母自由度16.000,显著性0.775。
  • 标准化典型相关系数
    • 第一组变量(观众评分):
      • 体重x1: 0.775
      • 腰围x2: -1.579
      • 脉搏x3: 0.059
    • 第二组变量(业内人士评分):
      • 引体向上次数y1: 0.349
      • 起坐次数y2: 1.054
      • 跳跃次数y3: -0.716
  • 典型载荷分析
    • 第一组变量(观众评分):
      • 体重x1: -0.621
      • 腰围x2: -0.925
      • 脉搏x3: 0.333
    • 已解释的方差比例
      • 第一对典型变量解释的方差比例为0.451。
      • 第二对典型变量解释的方差比例为0.247。
      • 第三对典型变量解释的方差比例为0.302。

结论

根据上述分析,我们可以得出以下结论:

  • 第一对典型相关系数接近显著水平(p=0.064),表明可能存在一定程度的相关性。
  • 从标准化典型相关系数来看,体重x1和起坐次数y2对第一对典型变量的贡献较大。
  • 从已解释的方差比例来看,第一对典型变量对样本总方差的贡献最大,其次是第二对,第三对的贡献较小。
  • 因此,我们可以关注第一对典型变量来进一步分析观众和业内人士的观点之间的关系。

课后作业

根据以上内容,课后作业要求利用典型相关分析完成一道题目,探究观众和业内人士对于一些电视节目的观点之间的关系,并写一篇小论文。同时,还需要阅读一篇关于葡萄酒评价的文章,以加深对典型相关分析的理解。

IBM SPSS Statistics 的临时使用期将在 6011 天内到期。

GET DATA

/TYPE=XLSX

/FILE='C:\Users\hc_lzp\Desktop\数学建模视频录制\第6讲.典型相关分析\代码和例题数据\health.xlsx'

/SHEET=name 'Sheet2'

/CELLRANGE=FULL

/READNAMES=ON

/DATATYPEMIN PERCENTAGE=95.0

/HIDDEN IGNORE=YES.

EXECUTE.

DATASET NAME 数据集1 WINDOW=FRONT.

STATS CANCORR SET1=体重x1 腰围x2 脉搏x3 SET2=引体向上次数y1 起坐次数y2 跳跃次数y3

/OPTIONS COMPUTECVARS=NO

/PRINT PAIRWISECORR=NO LOADINGS=YES VARPROP=YES COEFFICIENTS=YES.

Canonical Correlations

备注

已创建输出

17-JUL-2019 22:18:53

注释

输入

活动数据集

数据集1

过滤器

<无>

权重

<无>

拆分文件

<无>

语法

BEGIN PROGRAM '#

'.

资源

处理程序时间

00:00:00.02

耗用时间

00:00:00.07

[数据集1]

典型相关性设置

生理指标变量

体重x1 腰围x2 脉搏x3

训练指标变量

引体向上次数y1 起坐次数y2 跳跃次数y3

集中的数据集

评分语法

用于评分的相关性

3

典型相关系数

相关系数

特征值

威尔克统计

F

分子自由度

分母自由度

p值

1

.796

1.725

.350

2.048

9.000

34.223

.064

2

.201

.042

.955

.176

4.000

30.000

.949

3

.073

.005

.995

.085

1.000

16.000

.775

置信水平 90% 95 99

显著性水平 0.1 0.05 0.01

H0 for Wilks 检验是指当前行和后续行中的相关性均为零


 

集合1 标准化典型相关变量对应的线性组合系数

变量

1

2

3

体重x1

.775

-1.884

-.191

腰围x2

-1.579

1.181

.506

脉搏x3

.059

-.231

1.051

集合2 标准化典型相关变量对应的线性组合系数

变量

1

2

3

引体向上次数y1

.349

-.376

-1.297

起坐次数y2

1.054

.123

1.237

跳跃次数y3

-.716

1.062

-.419

集合1 非标准化典型相关变量对应的线性组合系数

变量

1

2

3

体重x1

.031

-.076

-.008

腰围x2

-.493

.369

.158

脉搏x3

.008

-.032

.146

集合2 非标准化典型相关变量对应的线性组合系数

变量

1

2

3

引体向上次数y1

.066

-.071

-.245

起坐次数y2

.017

.002

.020

跳跃次数y3

-.014

.021

-.008

1

集合1的典型相关变量 典型载荷

变量

1

2

3

体重x1

-.621

-.772

-.135

腰围x2

-.925

-.378

-.031

脉搏x3

.333

.041

.942

集合2 典型载荷

变量

1

2

3

引体向上次数y1

.728

.237

-.644

起坐次数y2

.818

.573

.054

跳跃次数y3

.162

.959

-.234

集合1 交叉载荷

变量

1

2

3

体重x1

-.494

-.155

-.010

腰围x2

-.736

-.076

-.002

脉搏x3

.265

.008

.068

集合2 交叉载荷

变量

1

2

3

引体向上次数y1

.579

.048

-.047

起坐次数y2

.651

.115

.004

跳跃次数y3

.129

.192

-.017

已解释的方差比例

典型变量

集合1 * 自身

集合1 * 集合 2

集合2 * 自身

集合2 * 集合 1

1

.451

.285

.408

.258

2

.247

.010

.434

.017

3

.302

.002

.157

.001

根据您提供的IBM SPSS Statistics输出结果,我们可以详细分析典型相关分析的各项输出:

典型相关性设置

  • 生理指标变量:包括体重x1、腰围x2、脉搏x3。
  • 训练指标变量:包括引体向上次数y1、起坐次数y2、跳跃次数y3。
  • 集中的数据集:未使用任何特定的数据集。
  • 评分语法:未使用评分语法。
  • 用于评分的相关性:共3个典型相关系数。

典型相关系数

  • 第一对典型相关系数:0.796,特征值1.725,威尔克统计0.350,F值2.048,分子自由度9.000,分母自由度34.223,显著性0.064。
  • 第二对典型相关系数:0.201,特征值0.042,威尔克统计0.955,F值0.176,分子自由度4.000,分母自由度30.000,显著性0.949。
  • 第三对典型相关系数:0.073,特征值0.005,威尔克统计0.995,F值0.085,分子自由度1.000,分母自由度16.000,显著性0.775。

置信水平和显著性水平

  • 置信水平:90%、95%、99%
  • 显著性水平:0.1、0.05、0.01
  • H0 for Wilks 检验:当前行和后续行中的相关性均为零。

标准化典型相关变量对应的线性组合系数

  • 集合 1(生理指标变量):
    • 体重x1: 0.775, -1.884, -0.191
    • 腰围x2: -1.579, 1.181, 0.506
    • 脉搏x3: 0.059, -0.231, 1.051
  • 集合 2(训练指标变量):
    • 引体向上次数y1: 0.349, -0.376, -1.297
    • 起坐次数y2: 1.054, 0.123, 1.237
    • 跳跃次数y3: -0.716, 1.062, -0.419

非标准化典型相关变量对应的线性组合系数

  • 集合 1(生理指标变量):
    • 体重x1: 0.031, -0.076, -0.008
    • 腰围x2: -0.493, 0.369, 0.158
    • 脉搏x3: 0.008, -0.032, 0.146
  • 集合 2(训练指标变量):
    • 引体向上次数y1: 0.066, -0.071, -0.245
    • 起坐次数y2: 0.017, 0.002, 0.020
    • 跳跃次数y3: -0.014, 0.021, -0.008

典型载荷

  • 集合 1(生理指标变量):
    • 体重x1: -0.621, -0.772, -0.135
    • 腰围x2: -0.925, -0.378, -0.031
    • 脉搏x3: 0.333, 0.041, 0.942
  • 集合 2(训练指标变量):
    • 引体向上次数y1: 0.728, 0.237, -0.644
    • 起坐次数y2: 0.818, 0.573, 0.054
    • 跳跃次数y3: 0.162, 0.959, -0.234

交叉载荷

  • 集合 1(生理指标变量):
    • 体重x1: -0.494, -0.155, -0.010
    • 腰围x2: -0.736, -0.076, -0.002
    • 脉搏x3: 0.265, 0.008, 0.068
  • 集合 2(训练指标变量):
    • 引体向上次数y1: 0.579, 0.048, -0.047
    • 起坐次数y2: 0.651, 0.115, 0.004
    • 跳跃次数y3: 0.129, 0.192, -0.017

已解释的方差比例

  • 第一对典型变量
    • 集合 1 * 自身: 0.451
    • 集合 1 * 集合 2: 0.285
    • 集合 2 * 自身: 0.408
    • 集合 2 * 集合 1: 0.258
  • 第二对典型变量
    • 集合 1 * 自身: 0.247
    • 集合 1 * 集合 2: 0.010
    • 集合 2 * 自身: 0.434
    • 集合 2 * 集合 1: 0.017
  • 第三对典型变量
    • 集合 1 * 自身: 0.302
    • 集合 1 * 集合 2: 0.002
    • 集合 2 * 自身: 0.157
    • 集合 2 * 集合 1: 0.001

结果分析

  • 第一对典型相关系数接近显著水平(p=0.064),这表明可能存在一定程度的相关性。
  • 第二对典型相关系数的p值较高(0.949),表明该对典型相关性不显著。
  • 第三对典型相关系数同样不显著(p=0.775)。
  • 标准化典型相关变量对应的线性组合系数显示了原始变量在典型变量中的权重。
  • 典型载荷反映了原始变量与典型变量之间的关系强度,可以用来理解哪些原始变量对典型变量贡献较大。
  • 已解释的方差比例表明第一对典型变量对样本总方差的解释能力最强,而其他典型变量的解释能力较弱。

结论

  • 第一对典型变量对观众和业内人士对于电视节目观点之间的关系解释能力较强,而其他典型变量的解释能力较弱。
  • 体重x1起坐次数y2对第一对典型变量的贡献较大。
  • 腰围x2对第一对典型变量的贡献最大。
  • 第一对典型变量解释的方差比例为0.451,表明这对典型变量对样本总方差的解释能力最强。

课后作业

  • 任务:探究观众和业内人士对于一些电视节目的观点之间的关系,并写一篇小论文。
  • 参考资料:阅读一篇关于葡萄酒评价的文章(2012年数学建模A题一等奖论文)作为参考。

以上是对典型相关分析及其应用的深度分析。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2128957.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android系列基础知识总结

四大组件 Activity Activity生命周期 不同场景下Activity生命周期的变化过程 启动Activity&#xff1a; onCreate()—>onStart()—>onResume()&#xff0c;Activity进入运行状态。Activity退居后台&#xff1a; 当前Activity转到新的Activity界面或按Home键回到主屏&a…

WebGL系列教程二(环境搭建及着色器初始化)

目录 1 前言2 新建html页面3 着色器介绍3.1 顶点着色器、片元着色器与光栅化的概念3.2 声明顶点着色器3.3 声明片元着色器 4 坐标系(右手系)介绍5 着色器初始化5.1 给一个画布canvas5.2 获取WebGL对象5.3 创建着色器对象5.4 获取着色器对象的源5.5 绑定着色器的源5.6 编译着色器…

好看好听的小猪包扩音器,轻巧便携更好用,得胜E10上手

我们以前在学校、景区等地方&#xff0c;都见过教师、讲解员所使用的扩音器&#xff0c;这类设备大多做得笨重粗糙&#xff0c;而且音质一般&#xff0c;声音特别粗糙刺耳&#xff0c;对使用者和旁观者影响都不好。最近我发现了一款得胜E10扩音器&#xff0c;大大提升了这种便携…

HTTPX 与 AIOHTTP 与 Requests:选择哪个?

Python 有三个众所周知的库用于发送 HTTP&#xff08;超文本传输协议&#xff09;请求&#xff1a; HTTPX、AIOHTTP 和 Requests。 所有这些都有其独特的优点和缺点。 通常&#xff0c;您需要对同步 HTTP 请求使用 Requests&#xff0c;在需要同步和异步混合时使用 HTTPX&#…

场景解决方案丨突破成本限制,中小企业如何快速搭建后台管理系统

信息化时代下业务数据量激增&#xff0c;云计算、物联网、人工智能等技术的成本大幅度降低及普及&#xff0c;这些变化推动着市场需求发生改变&#xff0c;使数字化转型成为各行业的共同趋势。在这一背景下&#xff0c;大型企业利用其经济和技术优势巩固市场领导地位&#xff0…

养宠浮毛严重怎么清理?希喂、范罗士、IAM宠物空气净化器真实测评

宠物毛发不等于宠物浮毛&#xff1f;这可真是问到我的知识盲区了。养猫来我已经接受了目光所及之处都是猫毛&#xff0c;可以心平气和的打扫被猫毛占据的屋子。自认为是很勤快的人&#xff0c;家里也一直保持着干净整洁&#xff0c;结果上星期鼻子不舒服去看医生&#xff0c;告…

发现一个有趣的滑动组件样式,并给它实现了

最近在浏览网站的时候看到一个有趣的滑动组件的样式&#xff0c;觉得很有趣。一时有兴趣就去用代码实现了一下&#xff1a; 这里我就不从零开始实现了&#xff0c;借用 Material UI Slider 快速实现&#xff0c;基本上就是重新写样式覆盖。 Material UI 上的 Slider 组件默认样…

面试产品经理,怎样描述过往经历,才能让面试官印象深刻?

金三银四求职季&#xff0c;你是不是也有面试的冲动&#xff01;但面试并不是头脑一热就能取得好结果&#xff0c;在此之前&#xff0c;必须得有周全的准备&#xff0c;才能应对好面试官的“连环问”&#xff01; 所以&#xff0c;给大家分享这篇产品经理面试干货文章&#xf…

【数学建模】相关系数

第一部分&#xff1a;相关系数简介 总体与样本&#xff1a; 总体&#xff1a;指研究对象的全体&#xff0c;比如全国人口普查数据。样本&#xff1a;从总体中抽取的一部分个体&#xff0c;如通过问卷调查收集的学生数据。 皮尔逊相关系数&#xff1a; 总体皮尔逊相关系数&…

GPIO(General Purpose Input/Output)输入/输出

GPIO最简单的功能是输出高低电平&#xff1b;GPIO还可以被设置为输入功能&#xff0c;用于读取按键等输入信号&#xff1b;也可以将GPIO复用成芯片上的其他外设的控制引脚。 STM32F407ZGT6有8组IO。分别为GPIOA~GPIOH&#xff0c;除了GPIOH只有两个IO&#xff0c;其余每组IO有…

cesium.js 入门到精通(5)

现在我们看这个地图是 属于一个平面的 如果我们想把这个弄成 那种真实的高低起伏的 山脉 或者 其他的建筑显示 我们可以使用 添加地形 terrainProvider: new Cesium.CesiumTerrainProvider({url: "./terrains/gz",}), 这是一个参数 配置 地形 整体代码 <templa…

vba发邮件:如何设置自动化发送电子邮件?

vba发邮件的技巧有哪些&#xff1f;VBA如何调用outlook发邮件&#xff1f; VBA发邮件功能是一个非常实用的工具&#xff0c;能够帮助用户自动发送电子邮件&#xff0c;减少手动操作的时间和错误。AokSend将详细介绍如何通过VBA发邮件来实现自动化发送电子邮件的设置。 VBA发邮…

macOS上谷歌浏览器的十大隐藏功能

谷歌浏览器&#xff08;Google Chrome&#xff09;在macOS上拥有一系列强大而隐蔽的特性&#xff0c;这些功能能显著提高您的浏览体验。从多设备同步到提升安全性和效率&#xff0c;这些被低估的功能等待着被发掘。我们将逐步探索这些功能&#xff0c;帮助您最大化利用谷歌浏览…

让人眼前一亮的软件测试简历,收不到面试邀请算我输

不知道大家的简历是不是都写成下面这样 根据需求文档进行需求分析 熟悉业务流程&#xff0c;明确测试点 根据测试点设计测试用例 参与评审测试用例 提交和回归跟踪缺陷&#xff0c;确认修复完成之后关闭Bug 通过使用Fiddler进行抓包分析并定位前后端Bug 使用简单的SQL语…

【北京迅为】《STM32MP157开发板使用手册》- 第二十五章Cortex-M4 GPIO_LED实验

iTOP-STM32MP157开发板采用ST推出的双核cortex-A7单核cortex-M4异构处理器&#xff0c;既可用Linux、又可以用于STM32单片机开发。开发板采用核心板底板结构&#xff0c;主频650M、1G内存、8G存储&#xff0c;核心板采用工业级板对板连接器&#xff0c;高可靠&#xff0c;牢固耐…

什么是线程池?从底层源码入手,深度解析线程池的工作原理

导航&#xff1a; 【Java笔记踩坑汇总】Java基础JavaWebSSMSpringBootSpringCloud瑞吉外卖/谷粒商城/学成在线设计模式面试题汇总性能调优/架构设计源码解析 目录 一、什么是线程池&#xff1f; 1.1 基本介绍 1.2 创建线程的两种方式 1.2.1 方式1&#xff1a;自定义线程池…

山峰个数【python实现】

思路见此处 def get_mountain_peaks(height):peak_count 0n len(height)if n 0:#如果一个山高都没有&#xff0c;return 0return 0for i in range(1,n-1):if height[i] > height[i-1] and height[i] > height[i1]:peak_count 1if height[0] > height[1] and n &g…

TimedRotatingFileHandler 修改 suffix 后 backupCount 设置失效无法自动删除文件

本文主要分析 TimedRotatingFileHandler 在实际使用中 backupCount 设置未生效的问题。源码分析显示&#xff0c;文件删除依赖于后缀 suffix 的正则匹配&#xff0c;如果自定义了 suffix 格式&#xff0c;必须同步更新 extMatch 的正则表达式&#xff08;保证正则表达式可以正常…

国庆出游季,南卡Runner Pro5骨传导耳机让旅途更完美!

国庆长假将至&#xff0c;无论是计划一场远行还是近郊的户外活动&#xff0c;一款适合的耳机都能让旅途更加愉快。南卡Runner Pro5骨传导耳机以其独特的设计和功能&#xff0c;成为了国庆出行的理想伴侣。 首先&#xff0c;骨传导耳机通过颅骨传递声音&#xff0c;避免了传统耳…

从理论到实战:人才培养基地如何缩短职场适应期?

在当今竞争激烈的职场环境中&#xff0c;从校园到职场的过渡对于许多新人来说充满挑战。而人才培养基地正以其独特的方式&#xff0c;努力缩短这一职场适应期。 人才培养基地首先注重理论与实践的结合。不再是单纯的知识灌输&#xff0c;而是将理论教学与实际操作紧密相连。 实…