相关系数(皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数)

news2024/11/22 19:31:05

目录

总体皮尔逊Person相关系数:

样本皮尔逊Person相关系数:

两点总结:

假设检验:(可结合概率论课本假设检验部分)

皮尔逊相关系数假设检验:

更好的方法:p值判断方法

皮尔逊相关系数假设检验的条件:

正态分布JB检验(大样本 n>30)

小样本3≤n≤50:Shapiro-wilk检验:

斯皮尔曼spearman相关系数:

MATLAB中计算斯皮尔曼相关系数:

斯皮尔曼相关系数的假设检验:

两个相关系数的比较:


相关系数:皮尔逊pearson相关系数斯皮尔曼spearman等级相关系数,可用来衡量两个变量之间的相关性的大小

总体皮尔逊Person相关系数:

皮尔逊相关系数也可以看成是剔除了两个变量量纲影响,即将X和Y标准化后的协方差。

样本皮尔逊Person相关系数:

关于皮尔逊相关系数的一些理解误区:

这里的相关系数只是用来衡量两个变量线性相关程度的指标;
也就是说,你必须先确认这两个变量是线性相关的,然后这个相关系数才能
告诉你他俩相关程度如何。

容易忽视和犯错的点:

(1)非线性相关也会导致线性相关系数很大,例如图2。
(2)离群点对相关系数的影响很大,例如图3,去掉离群点后,相关系数为0.98。
(3)如果两个变量的相关系数很大也不能说明两者相关,例如图4,可能是受到
了异常值的影响。
(4)相关系数计算结果为0,只能说不是线性相关,但说不定会有更复杂的相关
关系(非线性相关),例如图5。

两点总结:

(1)如果两个变量本身就是线性的关系(前提),那么皮尔逊相关系数绝对值大的就是相关性强,小的就是相关性弱;
(2)在不确定两个变量是什么关系的情况下,即使算出皮尔逊相关系数,发现很大,也不能说明那两个变量线性相关,甚至不能说他们相关,我们一定要画出散点图来看才行

对相关系数大小的解释:(图中仅为参考)

上表所定的标准从某种意义上说是武断的和不严格的。对相关系数的解释是依赖于具体的应用背景和目的的。

事实上,比起相关系数的大小,我们往往更关注的是显著性。(假设检验)

描述性统计:

MATLAB中基本统计量的函数:

代码:

MIN = min(Test); % 每一列的最小值
MAX = max(Test); % 每一列的最大值
MEAN = mean(Test); % 每一列的均值
MEDIAN = median(Test); %每一列的中位数
SKEWNESS = skewness(Test); %每一列的偏度
KURTOSIS = kurtosis(Test); %每一列的峰度
STD = std(Test); % 每一列的标准差
RESULT = [MIN;MAX;MEAN;MEDIAN;SKEWNESS;KURTOSIS;STD]
%将这些统计量放到一个矩阵中表示

将计算结果复制到EXCEL表格中,进行描述性统计,最后可将表加到论文中

描述性统计结果和矩阵散点图都可以用spss来实现

如果散点图存在一定线性关系 ,下面我们来计算皮尔逊相关系数:R=corrcoef(Test) (可将美化后的相关系数表放到论文中)

假设检验:(可结合概率论课本假设检验部分)

皮尔逊相关系数假设检验:

更好的方法:p值判断方法

计算各列之间的相关系数以及p值:
一行代码:[R,P] = corrcoef(Test) 

R返回的是相关系数表,P返回的是对应于每个相关系数的p值

%% 计算各列之间的相关系数以及p值
[R,P] = corrcoef(Test)
% 在EXCEL表格中给数据右上角标上显著性符号吧
P < 0.01 % 标记3颗星的位置 (P < 0.05) .* (P > 0.01) % 标记2颗星的位置
(P < 0.1) .* (P > 0.05) % 标记1颗星的位置

可以用spss构造标记显著性的相关系数表加到论文中

皮尔逊相关系数假设检验的条件:

第一, 实验数据通常假设是成对的来自于正态分布的总体。因为我们在求皮尔
逊相关性系数以后,通常还会用t检验之类的方法来进行皮尔逊相关性系数检验,
而t检验是基于数据呈正态分布的假设的。
第二, 实验数据之间的差距不能太大。皮尔逊相关性系数受异常值的影响比较
大。
第三:每组样本之间是独立抽样的。构造t统计量时需要用到。

偏度和峰度:

x = normrnd(2,3,100,1);
% 生成100*1的随机向量,每个元素是均值为2,标准差为3的正态分布
skewness(x) %偏度
kurtosis(x) %峰度

正态分布JB检验(大样本 n>30)

MATLAB中进行JB检验的语法:[h,p] = jbtest(x,alpha)
当输出h等于1时,表示拒绝原假设;h等于0则代表不能拒绝原假设。
alpha就是显著性水平,一般取0.05,此时置信水平为1‐0.05=0.95
x就是我们要检验的随机变量,注意这里的x只能是向量。

MATLAB代码:

%% 正态分布检验
% 检验第一列数据是否为正态分布
[h,p] = jbtest(Test(:,1),0.05)
% 用循环检验所有列的数据
n_c = size(Test,2); % number of column 数据的列数
H = zeros(1,6);
P = zeros(1,6);
for i = 1:n_c
[h,p] = jbtest(Test(:,i),0.05);
H(i)=h;
P(i)=p;
end
disp(H)
disp(P)

小样本3≤n≤50:Shapiro-wilk检验:

Q-Q图法:

要利用Q‐Q图鉴别样本数据是否近似于正态分布,只需看Q‐Q图上的点
是否近似地在一条直线附近。(要求数据量非常大)

斯皮尔曼spearman相关系数:

注:如果有的数值相同,则将它们所在的位置取算术平均

MATLAB中计算斯皮尔曼相关系数:

两种用法
(1)corr(X , Y , ‘type’ , ‘Spearman’)
这里的X和Y必须是列向量哦~
(2)corr(X , ‘type’ , ‘Spearman’)
这时计算X矩阵各列之间的斯皮尔曼相关系数

斯皮尔曼相关系数的假设检验:

分为小样本和大样本两种情况:
小样本情况,即𝒏 < 𝟑𝟎时,直接查临界值表即可。

% 直接给出相关系数和p值 [R,P]=corr(Test, ‘type’ , ‘Spearman’)

两个相关系数的比较:

1.连续数据,正态分布,线性关系,用pearson相关系数是最恰当,当然用
spearman相关系数也可以, 就是效率没有pearson相关系数高。
2.上述任一条件不满足,就用spearman相关系数,不能用pearson相关系数。
3.两个定序数据之间也用spearman相关系数,不能用pearson相关系数。
定序数据是指仅仅反映观测对象等级、顺序关系的数据,是由定序尺度计量
形成的,表现为类别,可以进行排序,属于品质数据。
例如:优、良、差;
我们可以用1表示差、2表示良、3表示优,但请注意,用2除以1得出的2并不
代表任何含义。定序数据最重要的意义代表了一组数据中的某种逻辑顺序。
注:斯皮尔曼相关系数的适用条件比皮尔逊相关系数要广,只要数据满足单调关系
(例如线性函数、指数函数、对数函数等)就能够使用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/126950.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

lua调用c动态库实例

简介 Lua 是一种轻量小巧的脚本语言&#xff0c;用标准C语言编写并以源代码形式开放&#xff0c; 其设计目的是为了嵌入应用程序中&#xff0c;从而为应用程序提供灵活的扩展和定制功能。 特点 轻量级: 它用标准C语言编写并以源代码形式开放&#xff0c;编译后仅仅一百余K&a…

STM32/51单片机实训day4——RFID数据读取|RC522|串口数据收发、可模拟RFID (三) 仿真

目录 1 任务指导 2 实验步骤 3 串口调试 4 USART配置 5 fputs函数重写 内 容&#xff1a;能够读取RFID卡S50的ID——编程实现串口数据收发 学 时&#xff1a;3学时 知识点&#xff1a;电路图设计、USART配置 重点&#xff1a; USART配置 难点&#xff1a;USART配置 时…

赶快升级吧!PHP8比PHP5快41倍,比PHP7快3倍

本文得出的结论&#xff0c;归结于仅运行纯CPU任务的脚本的基准测试结果&#xff0c;不需要I/O操作的任务&#xff0c;例如访问文件、网络或数据库连接。 这些是纯 CPU 基准测试。它们并未涵盖 PHP 性能的所有方面&#xff0c;并且它们可能无法代表实际情况。然而&#xff0c;结…

用Python标准库统计CSDN阅读量

urllib基础 一般做爬虫其实很少有推荐urllib的&#xff0c;但urllib乃是Python标准库成员&#xff0c;在要求比较简单的情况下&#xff0c;采用urllib还是比较方便的。 作为爬虫入门必学包&#xff0c;urllib最常用的函数一定是urllib.request中的urlopen。其返回对象是HTTPR…

ES学习路程(二)

关于ES第一篇是在Linux安装&#xff0c;为了方便我在windows搭建一套ES和kibana版本&#xff08;7.15.0&#xff09; 第一步&#xff1a;下载安装ES在windows 官网下载相应版本的es和kibana&#xff1a; https://www.elastic.co/cn/downloads/past-releases/elasticsearch-7…

《图解TCP/IP》阅读笔记(第八章 8.6、8.7)—— 网络管理与其他应用层协议

前言 本篇是第八章的最后一篇 8.6 网络管理 从前&#xff0c;网络管理凭借管理员的记忆和直觉进行&#xff0c;但是网络规模越大&#xff0c;人的力量就越不足&#xff0c;所以需要一个严密的管理工具或方法。 在TCP/IP的网络管理中&#xff0c;可以使用SNMP&#xff08;Si…

uni-app——小程序实现本地图片的上传以及身份证的智能识别

文章目录 前言一、示例图二、实现过程 1.完成提交图片的api地址2.获取本地图片3.将本地图片上传至开发者服务器三、具体实现代码四、身份证的智能识别总结前言 上传本地图片的功能很常见&#xff0c;那么具体该如何实现呢&#xff1f; 一、示例图 二、实现过程 1.完成提交图…

操作系统接口系统调用的实现

接口 连接两个东西&#xff0c;信号转换&#xff0c;屏蔽细节… 操作系统接口 连接上层用户和操作系统软件&#xff0c;方便了使用&#xff0c;屏蔽了细节。 操作系统接口的形式 为应用层提供一些重要的函数&#xff0c;如printf&#xff0c;write&#xff0c;read等。接口…

Windows Active Directory —— 常见的远程控制对比

在windows环境中,需要远程访问的时候很多,使用的工具和命令也各式各样,我把自己常用的命令和工具总结一下 远程访问方式: 1)对服务器而言,RDP这个绝对是最常见的方式,mstsc /v:remoteserver 即可打开 2)winrs和winrm,这个可以允许我们通过命令行来远程访问,远程服务…

TypeScript基础类型

目录 数字 number 字符串 string 布尔 boolean 数组 Array 元组 枚举 enum 任意值 any void Null 和 Undefined null undefined Never 数字 number let age: number 24; 虽然爆红&#xff0c;但是依然能改 字符串 string let name:string"张三" 布尔 bo…

ef参数设置说明(faiss)

1、模型参数&#xff1a;1000代表聚类中心个数 随着聚类个数的增加&#xff0c;模型索引的构建时间近似指数增加但搜索精度也线性增加&#xff0c;不影响内存占用&#xff0c;几乎不影响搜索耗时 结论&#xff1a;在 Faiss 引擎的聚类情况下&#xff0c;对于百万级别的数据大概…

B/S结构和C/S结构详细介绍

什么是c/s结构、b/s结构 1、C/S结构&#xff0c;即Client/Server(客户机/服务器)结构&#xff0c;是大家熟知的软件系统体系结构&#xff0c;通过将任务合理分配到Client端和Server端&#xff0c;降低了系统的通讯开销&#xff0c;充分利用两端硬件环境的优势。早期的软件系统…

Haploview做单倍型教程1--软件安装

大家好&#xff0c;我是邓飞&#xff0c;这里介绍一下如何使用Haploview进行单倍型的分析。 计划分为三篇文章&#xff1a; 第一篇&#xff1a;Haploview做单倍型教程1–软件安装第二篇&#xff1a;Haploview做单倍型教程2-分析教程第三篇&#xff1a;Haploview做单倍型教程3…

HCIA(1)

一. 计算机网络的诞生及发展 1946年2.14日&#xff0c;美国宾夕法尼亚大学为了美国军方用于导弹计算&#xff0c;发明了世界上第一台计算机&#xff0c;而计算机改变并且引领了世界的发展。 计算机是现代一种用于高速计算的电子计算机器&#xff0c;可以进行数值计算&#x…

『C语言』字符串的输入gets()和输出puts()

&#x1f6a9;write in front&#x1f6a9; &#x1f50e;大家好&#xff0c;我是謓泽&#xff0c;希望你看完之后&#xff0c;能对你有所帮助&#xff0c;不足请指正&#xff01;共同学习交流&#x1f50e; &#x1f3c5;2021年度博客之星物联网与嵌入式开发TOP5&#xff5…

MATLAB-fplot绘图函数

前面介绍的plot函数是将外部输人或者通过函数数值计算得到的数据矩阵转化为二维图形。在实际的应用中&#xff0c;用户可能并不知道所要绘制的二维图形中函数随着变量变化的趋势,假如此时用plot函数来绘制图形&#xff0c;则可能会由于变量的取值间隔不合理而导致所绘制的二维图…

2022年广西最新建筑施工焊工(建筑特种作业)模拟试题及答案

百分百题库提供特种工&#xff08;焊工&#xff09;考试试题、特种工&#xff08;焊工&#xff09;考试预测题、特种工&#xff08;焊工&#xff09;考试真题、特种工&#xff08;焊工&#xff09;证考试题库等,提供在线做题刷题&#xff0c;在线模拟考试&#xff0c;助你考试轻…

C++【跳表】

文章目录一、什么是跳表二、跳表的实现三、跳表性能分析一、什么是跳表 skiplist本质上也是一种查找结构&#xff0c;用于解决算法中的查找问题&#xff0c;跟平衡搜索树和哈希表的价值是一样的&#xff0c;可以作为key或者key/value的查找模型。 skiplist是由William Pugh发…

rabbitmq镜像模式

rabbitmq集群模式分为两种&#xff1a;普通模式和镜像模式 如果不设置集群模式则为普通模式&#xff0c;下面是将集群修改为镜像模式 镜像集群 RabbitMQ镜像功能&#xff0c;需要基于RabbitMQ策略来实现&#xff0c;策略policy是用来控制和修改群集范围的某个vhost的队列行为…

STM32/51单片机实训day8——基于Keil5+Proteus8使用DHT11温度传感器实现温湿度采集并在LM016L液晶屏上显示

目录 任务指导 1 DHT11产品概述 2 应用领域 3 传感器性能说明 4 接口说明 5 电源引脚 6 串行接口(单线双向) 通讯过程如图3所示&#xff1a; 任务实现​​​​​​​ 内 容&#xff1a;本任务使用DHT11温度传感器实现基本的端口配置、初始化时序。 学 时&#xff1a;3…