相关分析方法

news2025/1/18 11:52:30

目录

1.什么是相关分析方法

2.相关系数 

3.常见的相关分析方法

3.1.皮尔逊相关系数

3.2.斯皮尔曼等级相关

​​​​​​​3.3.肯德尔等级相关

​​​​​​​3.4.其它

4.应用

5.注意事项

6.结语


1.什么是相关分析方法

        相关分析是数据分析中的一种统计方法,用于衡量两个或多个变量间的线性关系程度。可以帮助研究人员理解变量如何相互关联,以及它们之间的强度如何。

2.相关系数 

        相关性的核心是相关系数,它是一个介于-1和1之间的值,可以解释成以下几种方式:

  • 相关系数为0表示没有线性关系。
  • 相关系数大于0表示正相关,即一个变量增加时,另一个变量也倾向于增加。
  • 相关系数小于0表示负相关,即一个变量增加时,另一个变量倾向于减少。

        如果相关系数接近1或-1,表示一个强烈的线性关系。

3.常见的相关分析方法

        常见的相关分析方法包括皮尔逊相关系数、斯皮尔曼等级相关和肯德尔等级相关。

3.1.皮尔逊相关系数

        皮尔逊相关系数(Pearson correlation coefficient)也称作皮尔逊积差相关系数(Pearson product-moment correlation coefficient),是最常用的相关性度量方法之一,量化了两个连续变量之间的线性关系强度和方向。是最常用的相关系数,常用字母“r”表示。计算公式如下:

r=(Σ(Xi-X̄)(Yi-Ȳ))/(√Σ(Xi-X̄)²√Σ(Yi-Ȳ)²)

        其中Xi和Yi是数据点,X̄和Ȳ是变量X和Y的均值。

        这个公式可以解释为,两个变量的协方差除以两个变量的标准差的乘积。皮尔逊相关系数是描述线性关系的强度和方向的量度,但它不描述变量之间的非线性关系,也不意味着变量之间存在因果关系。

​​​​​​​3.2.斯皮尔曼等级相关

        斯皮尔曼等级相关(Spearman's rank correlation)也被称为斯皮尔曼相关系数或斯皮尔曼的ρ(rho),是一种非参数统计方法,用来衡量两个变量的依赖性,适用于评估两个变量之间的单调关系,无论它们是否线性。当数据不满足正态分布,或者是序数数据时,该方法特别有用。斯皮尔曼等级相关系数通过排序每个变量的值并对这些排名进行比较来计算。

        它的计算公式为:

ρ=1-6∑di2n(n2-1)

        其中:ρ :斯皮尔曼等级相关系数 di:两组排序型变量的第i对数据的排序差异 n:两组变量的样本量。

​​​​​​​3.3.肯德尔等级相关

        肯德尔等级相关(Kendall rank correlation),也被称作肯德尔秩相关系数或肯德尔的tau系数(Kendall's tau coefficient),是一种用于测量两个随机变量之间序数关联程度的非参数统计方法。其核心思想是通过计数数据中的一致对(concordant pairs)与不一致对(discordant pairs)来评估两个变量间的相关性。

        肯德尔等级相关的计算步骤如下:

步骤一:

        对每一对数据点,观察两个变量中一个在另一个之前增加还是减少。如果两个变量都增加或都减少,那么这对数据被视为一致对(concordant)。如果一个变量增加而另一个减少,则视为不一致对(discordant)。

步骤二:

        对所有的数据点对,计算一致对的数量(记为C)和不一致对的数量(记为D)。

步骤三:

        肯德尔秩相关系数τ可以通过以下公式来计算:

τ = (C - D) / sqrt((C + D + T) * (C + D + U))

        其中,T和U分别是为两个变量计算得到的与每个数据点值绑定的平级点数量(ties)。当所有数据都有唯一的秩时,T和U等于0,此时上述公式可以简化为:

τ = (C - D) / (n * (n - 1) / 2)

        这里的n是数据点的数量。

        肯德尔等级相关的值范围从-1到1。如果τ为1,表示存在完全的一致性(即所有的对都是一致对),说明两个变量之间有完全的正相关;如果τ为-1,表明所有的对都不一致,即完全的负相关。若τ接近0,则表明两个变量之间没有显著的等级相关。

        肯德尔等级相关由于其对异常值的鲁棒性以及对非正态数据的适用性,在许多领域都有广泛应用。

​​​​​​​3.4.其它

        除了上述方法,部分研究人员可能还会使用点二列相关(point-biserial correlation)和典型相关(canonical correlation)等其他形式的相关分析方法。

4.应用

        相关分析在许多领域都非常实用,例如在市场研究中可以用来了解消费者行为模式;在医学研究中可以用来探索不同健康指标之间的关联;在金融中可以用来分析不同资产之间的价格移动关联性。

5.注意事项

        相关分析有一些重要的注意事项:

  • 相关性不等于因果关系。即使两个变量之间有很强的相关性,也不能认定一个变量导致了另一个变量的变化。
  • 异常值的影响。异常值可以极大地影响相关系数的大小。
  • 样本大小。样本量太小可能会导致相关性分析不稳定,而大样本可能使得即使微弱的相关性也显得统计上显著。
  • 曲线关系。皮尔逊相关系数只能揭示线性关系,对于曲线关系可能会失真。

6.结语

        相关分析是一种强大的工具,可以揭示变量之间的相互关系。但是,使用此技术时应当审慎,确保适当解释其结果,并记住相关性不等于因果关系。通过结合领域知识和其他统计工具,研究人员可以更全面地理解他们正在研究的现象。

        相关分析广泛应用于各种领域,包括经济学、心理学、生物学等,以帮助研究者理解变量之间的相互作用。优缺点如下:

优点

  • 简单易行:相关分析的计算方法简单,容易理解,即使是不具备高级统计知识的人也能轻松应用,如皮尔逊相关系数、斯皮尔曼等级相关等。
  • 揭示关联性:能有效揭示两个变量之间的线性关系或非线性关系的存在与强度,为进一步的因果分析和预测提供基础。
  • 应用范围广泛:相关分析不仅可以用于量化数据,还可用于等级数据,使其应用范围更广,涵盖更多类型的数据分析需求。
  • 辅助决策:通过分析变量之间的相关性,相关分析帮助决策者理解变量间的相互依赖性,从而更好地进行预测和制定策略。
  • 预处理数据:在复杂的模型建立前,相关分析可以用作预处理步骤,帮助识别哪些变量是重要的,哪些可能是冗余的。

缺点

  • 不能证明因果关系:相关分析只能说明变量之间的关联程度,不能确定其中一个变量是如何影响另一个变量的,即“相关不等于因果”。
  • 受异常值影响:相关分析的结果可能会因为异常值的存在而产生偏差,特别是在使用皮尔逊相关系数时,异常值的影响尤为明显。
  • 忽视变量间复杂关系:当变量间的关系非线性或由多种因素综合作用时,简单的相关分析可能无法准确反映变量间的真实关系。
  • 数据要求:进行相关分析需要足够的数据量以及较为均衡的数据分布,数据的质量和量直接影响分析结果的准确性。
  • 过度解读:相关分析的结果可能被过度解读或误解。例如,较高的相关系数并不意味着两个变量间存在强烈的直接联系,可能是受第三变量的影响。

        相关分析是一个强有力的工具,可以帮助研究者快速了解数据集中变量间的关系。然而,它的应用需要谨慎,并应结合其他统计方法和实际情况来综合评估结果。正确使用相关分析能够为科研、商业分析等领域提供重要的初步见解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1628057.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[C++基础学习]----02-C++运算符详解

前言 C中的运算符用于执行各种数学或逻辑运算。下面是一些常见的C运算符及其详细说明:下面详细解释一些常见的C运算符类型,包括其原理和使用方法。 正文 01-运算符简介 算术运算符: a、加法运算符():对两个…

RabbitMQ(高级)笔记

一、生产者可靠性 (1)生产者重连(不建议使用) logging:pattern:dateformat: MM-dd HH:mm:ss:SSSspring:rabbitmq:virtual-host: /hamllport: 5672host: 192.168.92.136username: hmallpassword: 123listener:simple:prefetch: 1c…

AWTK 开源串口屏开发(17) - 通过 MODBUS 访问数组数据

在 AWTK 串口屏中,内置了 MODBUS Client Channel 的模型,不用编写代码即可实现在 ListView 中显示数组数据。 MODBUS 协议一次只能读取 125 个 WORD,AWTK-MODBUS Client Channel 支持长数据,自动分成多个请求访问。 1. 功能 不用…

浏览器的同源策略与解决跨域

同源策略(协议、域名、端口) 同源策略(Same-Origin Policy)是一个在浏览器安全模型中被实施的重要安全机制。它是基于域名、协议和端口号的限制,用于防止不同源的网页间的恶意行为和信息泄露。 根据同源策略&#xf…

【Diffusion实战】训练一个diffusion模型生成蝴蝶图像(Pytorch代码详解)

上一篇Diffusion实战是确确实实一步一步走的公式,这回采用一个更方便的库:diffusers,来实现Diffusion模型训练。 Diffusion实战篇:   【Diffusion实战】训练一个diffusion模型生成S曲线(Pytorch代码详解)…

【Linux学习】​​学习Linux的准备工作和Linux的基本指令

˃͈꒵˂͈꒱ write in front ꒰˃͈꒵˂͈꒱ ʕ̯•͡˔•̯᷅ʔ大家好,我是xiaoxie.希望你看完之后,有不足之处请多多谅解,让我们一起共同进步૮₍❀ᴗ͈ . ᴗ͈ აxiaoxieʕ̯•͡˔•̯᷅ʔ—CSDN博客 本文由xiaoxieʕ̯•͡˔•̯᷅ʔ 原创 CSDN 如…

并并并并·病查坤

P1、什么是并查集 引用自百度百科: 并查集,在一些有N个元素的集合应用问题中,我们通常是在开始时让每个元素构成一个单元素的集合,然后按一定顺序将属于同一组的元素所在的集合合并,其间要反复查找一个元素在哪个集合…

【数据标注】使用LabelImg标注YOLO格式的数据(案例演示)

文章目录 LabelImg介绍LabelImg安装LabelImg界面标注常用的快捷键标注前的一些设置案例演示检查YOLO标签中的标注信息是否正确参考文章 LabelImg介绍 LabelImg是目标检测数据标注工具,可以标注两种格式: VOC标签格式,标注的标签存储在xml文…

insightface 环境配置

首先创建续集环境: conda create -n insightface3 python3.8 然后打开此虚拟环境:conda activate insightface3 然后安装: pip install insightface 再安装:pip install onnxruntime-gpu 就可以了

零基础俄语培训哪家好,柯桥俄语培训

1、Мощный дух спасает расслабленное тело. 强大的精神可以拯救孱弱的肉体。 2、Единственное правило в жизни, по которому нужно жить — оставаться человеком в лю…

物联网的基本功能及五大核心技术——青创智通

工业物联网解决方案-工业IOT-青创智通 物联网基本功能 物联网的最基本功能特征是提供“无处不在的连接和在线服务”,其具备十大基本功能。 (1)在线监测:这是物联网最基本的功能,物联网业务一般以集中监测为主、控制为…

qml和c++结合使用

目录 文章简介1. 创建qml工程2. 创建一个类和qml文件,修改main函数3. 函数说明:4. qml 文件间的调用5. 界面布局6. 代码举例 文章简介 初学qml用来记录qml的学习过程,方便后面归纳总结整理。 1. 创建qml工程 如下图,我使用的是…

本地Mysql开启远程访问(图文)

目录 1. 问题所示2. 原理分析3. 解决方法 1. 问题所示 事因是访问同事的数据库时,出现无法访问 出现1130 - Host ‘IT07’ is not allowed to connect to this MySQL server截图如下: 2. 原理分析 如果账号密码地址都正常的情况下,这是没开…

SQLite尽如此轻量

众所周知,SQLite是个轻量级数据库,适用于中小型服务应用等,在我真正使用的时候才发现,它虽然轻量,但不知道它却如此轻量。 下载 官网: SQLite Download Page 安装 1、将下载好的两个压缩包同时解压到一个…

基于springboot的高校宣讲会管理系统

文章目录 项目介绍主要功能截图:部分代码展示设计总结项目获取方式 🍅 作者主页:超级无敌暴龙战士塔塔开 🍅 简介:Java领域优质创作者🏆、 简历模板、学习资料、面试题库【关注我,都给你】 &…

前端工程化Vue使用Node.js永久设置国内高速npm镜像源

前端工程化Vue使用Node.js永久设置国内高速npm镜像源 接续上篇错误收录,此篇通过简单配置永久设置国内高速npm镜像源方法 1.更换新版镜像 清空npm缓存 npm cache clean --force修改回原版镜像源或直接删除配置过的镜像源 npm config set registry https://registr…

pve(Proxmox VE)安装i225v网卡驱动

配置pve源 备份原来的源 mv /etc/apt/sources.list /etc/apt/sources.list.bak打开文件 vi /etc/apt/sources.list将以下内容粘贴进去 deb https://mirrors.tuna.tsinghua.edu.cn/debian/ bookworm main contrib non-free non-free-firmwaredeb https://mirrors.tuna.tsing…

2024景区五一游园会活动策划方案

2024景区营地五一发酵面包市集主题游园会(面包狂想曲主题)活动策划方案-59P 方案页码:59页 文件格式:pptx 方案简介: 面包派对 如约而至 你有见过面包发酵的过程吗? 看着面团从手掌大小 不断膨胀到一倍、两倍、…

CLIP论文笔记:Learning Transferable Visual Models From Natural Language Supervision

导语 会议:ICML 2021链接:https://proceedings.mlr.press/v139/radford21a/radford21a.pdf 当前的计算机视觉系统通常只能识别预先设定的对象类别,这限制了它们的广泛应用。为了突破这一局限,本文探索了一种新的学习方法&#x…