统计学中两组数据如何进行差异性(相关性)分析?

news2024/12/23 14:43:20

变量说明:

在确定分析方法前,我们需要了解手中的数据类型,这是最基础也是有必要的,在所有的数据类型中,我们将数据类型分为分类变量也为定类变量和连续变量也称为定量变量,那么什么是定类变量?什么是定量变量?

定类变量通俗的讲数字大小不具有比较意义,比如性别中1代表男,2代表女,仅仅代表类别,在比如下图中,1代表底妆2代表唇妆等等,仅是类别关系。

定量变量通俗的讲数字大小具有比较意义,比如调查青少年身高,1.4m比1.3m高,数字本身具有比较意义,在比如如下图片沙发的价格,数字越大说明越贵,数字越小说明越便宜,数字之间是可以比较的。通过数据类型的说明,本次探讨我们以数据类型的不同进行分类说明,分别是分类和连续变量、连续和连续变量、分类和分类变量。

一、分类×连续

如果数据的类型是分类变量和连续变量,那么他的相关性分析或者差异性分析有哪些方法呢?接下来进行说明。

1、分析方法

如果数据是分类变量和连续变量,那么进行分析时,分析方法大体可以分为三类,参数检验、非参数检验以及可视化图形,其中参数检验又包括t检验、方差分析,非参数检验包括MannWhitney统计量、Kruskal-Wallis统计量。以及还可以使用可视化图形进行查看。

01、参数检验

  • T检验
    T检验说明
    T检验(独立样本t检验)一般是研究定类变量和定类变量之间的差异性,并且定类变量为二分类变量,比如研究性别和薪资之间是否有显著性差异,性别包括男和女。
    T检验数据格式
    在进行数据分析之前都需要将数据整理成正确的数据格式然后在进行分析,那么t检验(严格讲为独立样本t检验)的数据格式是什么样的呢?如下说明:


T检验的数据一般有两列,第一列是组别(二分类),第二列是对应的分析项,比如说想要研究不同性别的身高是否有显著性差异,其正确的数据格式如下:


T检验操作
整理成正确的数据格式之后,接下来进行准备利用T检验进行分析,分析操作是怎样的呢?以SPSSAU举例进行说明:
【通用方法:t检验】→【拖拽分析项】→点击开始分析;


T检验结果一般形式


一般结果中会提供均值标准差以及t统计量和p值等。

  • 方差分析
    方差分析说明
    方差分析(单因素方差分析)一般是研究定类变量和定类变量之间的差异性,并且定类变量为多分类变量,比如研究学历和薪资之间是否有显著性差异,学历包括本科以下、本科以及本科以上。
    方差分析数据格式
    方差分析(严格来讲是单因素方差分析)的数据格式,如下说明:


方差分析的数据一般有两列,第一列是组别(多分类),第二列是对应的分析项,比如说上表格中1=本科以下、2=本科、3=本科以上。
方差分析操作
【通用方法:方差分析】→【拖拽分析项】→点击开始分析;


方差分析结果一般形式

一般结果中会提供均值标准差以及F统计量和p值等。

02、非参数检验

  • MannWhitney统计量
    MannWhitney说明
    MannWhitney非参数检验一般是研究定类变量和定类变量之间的差异性,并且定类变量为二分类变量,比如研究性别和薪资之间是否有显著性差异,性别包括男和女。其数据格式与独立样本t检验类似,组别为一列,对应的定量变量为一列。
    MannWhitney操作
    【通用方法:非参数检验】→【拖拽分析项】→点击开始分析;


MannWhitney结果一般形式


一般结果中会提供中位数以及统计量和p值等。

  • Kruskal-Wallis统计量
    Kruskal-Wallis说明
    Kruskal-Wallis非参数检验一般是研究定类变量和定类变量之间的差异性,并且定类变量为多分类变量,比如研究学历和薪资之间是否有显著性差异,学历包括本科以下、本科以及本科以上。其数据格式与单因素方差类似。操作与MannWhitney一致(SPSSAU会自动判断分类变量的分类数进而判断使用MannWhitney还是Kruskal-Wallis),其一般形式如下:


一般结果中会提供中位数以及统计量和p值等。
03、可视化图形

  • 可视化图形

除了可以利用假设检验进行分析外,还可以使用图形进行简单判断分析,由于数据是定类和定量,所以可以使用折线图、条形图、柱形图、雷达图、箱形图、小提琴图、核密度图等。其中折线图、条形图、柱形图、雷达图可以统称为簇状图,簇状图和箱形图、小提琴图、核密度图的数据格式定类为一列,定量为一列,可以在SPSSAU的可视化板块进行选择分析。示例类似如下:

2、方法PK

分类变量和连续变量可以进行参数检验、非参数检验以及可视化图形,那么这些方法应该如何去选择呢?接下来进行说明:

01、参数检验PK非参数检验

按假设检验类别进行分类,分为参数检验和非参数检验,如果数据为二分类变量,比如分类变量为性别包括男和女,或者为两组分为第一组,第二组。一般考虑使用t检验(参数检验)或者mannwhitney(非参数检验),如果分类变量是多分类变量,比如分类变量是专业包括理学、农学、医学或者分类变量是学历包括专科、本科、硕士、博士。一般考虑使用方差分析(参数检验)或者Kruskal-Wallis(非参数检验),那么参数检验和非参数检验有什么区别呢?

参数检验和非参数检验的区别:参数检验是假定数据服从某分布(一般为正态分布),通过样本参数的估计量(x±s)对总体参数进行检验,比如t检验、u检验、方差分析等。非参数检验则不需要假定总体分布形式,直接对数据的分布进行检验。但是参数检验的效能比非参数检验效能高,以及对于t检验和方差分析,其在实证研究中具有一定的耐性,如果不是严重不满足正态分布都是可以使用t检验或者方差分析进行分析的。

02、可视化图形PK

对于分类数据和连续数据之间的可视化图形,从应用角度可以分为三类,第一类是主要用于不同数据的对比,可以考虑使用柱形图、条形图、雷达图比如不同性别的薪资水平对比。第二类主要用于查看不同组数据的变化趋势,一般可以考虑使用折线图,比如不同专业的成绩变化。第三类主要用于不同组别数据的分布,可以考虑使用箱线图、小提琴图或者核密度图,比如南方北方的身高分布。一般在分析时建议可以结合检验和可视化图形进行分析然后得到相应结论。

3、举例分析

比如想要分析如下数据:

第一组:44、55、67、45、46、56、69、34、59、78、99;

第二组:49、59、62、56、68、45、77、89、99、102、45;

分析不同组别之间的相关性(差异性)。

分析:由于是分析不同组别之间的相关性(差异性),由于组别是二分类变量,所以考虑使用t检验或者非参数检验,由于数据基本服从正态分布,所以采用t检验和可视化图形进行结合分析。

直方图(正态检验)的结果如下:

从结果中看到直方图呈现类似“倒扣的钟形”,所以认为数据基本服从正态分布。

01、分析流程

T检验的分析流程,大体可以分为四步:

  1. 整理成正确的数据格式;
  2. 验证t检验的前提条件;(前提条件:正态分布、)
  3. 进行操作;
  4. T检验的结果分析;

Step1:

整理数据格式,组别为一列,数据为一列,所以整理的结果如下:

Step2:

T检验的前提条件:

  • 样本独立
  • 正态分布
  • 方差齐性

Step3:t检验操作

上传数据后,点击通用方法的t检验,然后将分析项拖拽到对应分析框内,点击开始分析。

Step4:T检验的结果分析;

02、解读分析结果

从t检验分析结果可以看出,第一组的均值为59.27、第二组的均值为68.27,从均值中可以看出来第二组数据平均水平上大于第一组数据,然后t统计量为-1.077,p值为0.294大于显著性水平,说明模型不显著,也即说明第一组数据与第二组数据之间没有差异性。与此同时我们还可以使用柱形图或者条形图进行可视化分析:

从可视化图形中可以看出第二组数据均值大于第一组数据,但是柱形图中只能看处=出,两组数据的简单对比,对于模型的分析或者显著性的判断,还是需要进行假设检验。

03、指标解读

对于t检验中的t值如何计算得到呢?

  1. 样本1的均值,本例子中为59.27;
  2. 样本2的均值,本例子中为68.27;
  3. 样本1的方差,本例子中为(18.34)^2=336.3556;
  4. 样本2的方差, 本例子中为(20.78)^2=431.8084;
  5. 样本1的样本量, 本例子中为11;
  6. 样本2的样本量, 本例子中为11,

计算t值为:-1.077;其它指标的计算可以登录SPSSAU官网进行查看。

二、连续×连续

如果数据的类型是连续变量和连续变量,那么他的相关性分析或者差异性分析有哪些方法呢?接下来进行说明。

1、分析方法

如果数据是连续数据和连续变量,那么进行分析时,分析方法大体可以分为四类,相关分析、参数检验、非参数检验以及可视化图形,其中相关分析一般包括皮尔逊(pearson)相关系数以及斯皮尔曼(spearman)相关系数。如果连续变量和连续变量的样本量是相同的,可以考虑使用参数检验中的配对t检验,非参数检验包括配对wilcoxon,可视化图形可以考虑使用散点图。

01、相关分析

相关分析说明

相关分析一般是研究定量数据和定量数据的相关性,以及变量之间存在相关性,相关程度是如何的,比如研究身高和体重之间是否有关联等等。

相关分析数据格式

在进行数据分析之前都需要将数据整理成正确的数据格式然后在进行分析,那么相关分析的数据格式是什么样的呢?如下说明:

相关分析的数据格式为一个分析项为一列,比如上图中研究身高和体重,则身高为一列、体重为一列。

相关分析操作

整理成正确的数据格式之后,接下来准备进行相关分析,分析操作是怎样的呢?以SPSSAU举例进行说明:

【通用方法:相关分析】→【拖拽分析项】→点击开始分析;

相关分析结果一般形式

分析结果一般包括相关系数以及p值和样本量,一般分析时查看p值就好了。

相关系数判断标准

不同的文献相关系数的判断标准不同,如果在分析中,建议以及所参考的文献等进行参考,比如上面的文献就来自于贾俊平, 何晓群, 金勇进. 统计学.第7版[M]. 中国人民大学出版社, 2018.

02、参数检验

配对t检验说明

配对t检验一般是研究配对的定量数据和定量数据之间的差异关系,比如研究某班级补习前后两次的语文成绩是否有差异。

配对t检验的数据格式

配对t检验的数据格式比较特殊,因为不仅需要为定量变量,还需要数据为配对数据,也就是两组数据的样本量是需要相同的,一般如下:

配对t检验操作

【通用方法:配对t检验】→【拖拽分析项】→点击开始分析;

配对t检验的一般形式

分析结果一般包括配对的均值和标准差、统计量t值以及p值。

03、非参数检验

  • 配对wilcoxon
    配对wilcoxon说明
    配对wilcoxon一般是研究配对的定量数据和定量数据之间的差异关系,比如研究某班级补习前后两次的语文成绩是否有差异。
    配对wilcoxon的数据格式
    其数据格式与配对t检验一致。
    配对wilcoxon操作
    【实验/医学研究:配对样本wilcoxon】→【拖拽分析项】→点击开始分析;


配对wilcoxon的一般形式


分析结果一般包括配对的中位数、统计量z值以及p值。
04、可视化图形

  • 散点图

散点图说明

散点图一般用于绘制定量数据和定量数据关系研究时,比如想要观察身高和体重的关系,就可以使用散点图进行研究。

散点图的数据格式

散点图的数据格式与相关分析一致。

散点图操作

【可视化:散点图】→【拖拽分析项】→点击开始分析;

散点图的一般形式

2、方法PK

连续变量和连续变量可以进行相关分析、参数检验、非参数检验以及可视化图形,那么这些方法应该如何去选择呢?接下来进行说明:

01、相关系数PK

Pearson相关系数也叫皮尔逊积矩相关系数,通常用r表示,使用pearson相关系数,数据需要满足:

  • 线性
  • 正态分布
  • 没有异常值

如果不满足条件可以考虑使用spearman相关系数,以及pearson相关系数的计算如下:

Speaman计算公式如下:

针对pearson相关系数不能识别非线性关系以及并且对一个或者几个异常值比较敏感,此时可以使用spearman相关系数进行替代,spearman相关系数有时也被称为级别相关系数或者秩相关系数,该相关系数是根据两个变量的秩进行相关分析,spearman相关系可以用来衡量两个变量之间是否存在单调相关关系。当值为1时说明一个变量随着一个变量单调递增,当值为-1时,说明一个变量随着另一个变量单调递减。

02、参数检验PK非参数检验

按假设检验类别进行分类,分为参数检验和非参数检验,如果服从正态分布可以使用配对t检验,如果不满足正态分布可以使用配对wilcoxon检验,对于参数检验和非参数检验的区别可以查看上一个模块。对于散点图,一般和相关分析一起联用,在相关分析前,探索数据之间的关系。

3、举例分析

想要了解高中生的母亲受教育年数和学生的科学素养是否有关联,测得19名学生的母亲受教育年数和学生的科学素养数据如下。

分析:由于是分析不同组别之间的相关性(差异性),由于组别是二分类变量,所以考虑使用t检验或者非参数检验,由于数据基本服从正态分布,所以采用t检验和可视化图形进行结合分析。

正态检验的结果如下:

从结果中可以看到,模型不显著,接受原假设说明数据服从正态分布。

01、分析流程

此案例的相关分析分析流程,大体可以分为五步:

  1. 整理成正确的数据格式;
  2. 进行散点图查看;
  3. 验证相关分析的前提条件;(前提条件:正态分布、)
  4. 进行操作;
  5. 相关的结果分析;

Step1:

整理数据格式,一个分析项为一列,所以整理的结果如下:

Step2:

pearson相关分析的前提条件:

  • 两变量为连续变量
  • 两变量存在线性关系
  • 两变量呈现正态分布

Step3:进行绘制散点图

简单查看下数据的关系。

Step4:相关分析操作

上传数据后,点击通用方法的相关分析,然后将分析项拖拽到对应分析框内,点击开始分析。

Step5:相关的结果分析;

02、解读分析结果

1)散点图

从散点图可以看出,散点是杂乱无章的,从图中看起来学生科学素养与母亲受教育年限大概没有关系,可以进一步查看相关分析。

从相关分析的结果中可以看出,相关系数为0.08,说明二者之间的关系极弱,以及p值大于0.1说明整体模型不显著,拒绝原假设,二者没有相关关系。

03、指标解读

对于pearson相关系数具体如何计算呢?

计算过程如下:

三、分类×分类

1、分析方法

如果数据是分类变量和分类变量,那么进行分析时,分析方法大体可以分为三类,卡方检验、可视化图形,其中卡方检验又包括pearson卡方、fisher卡方、yates校正卡方、cochran-armitage检验、线性趋势卡方,以及还可以使用可视化图形(堆积柱形图、条形图)进行查看。

01、卡方检验

  • 卡方检验

卡方检验说明

卡方检验一般是研究定类数据和定类数据之间的差异性,比如研究性别和是否吸烟之间的显著性差异。

卡方检验数据格式

卡方检验的数据格式为一个分析项为一列,如果有加权格式,则加权格式单独为一列,如下说明:

(1)普通格式

(2)加权格式

卡方检验操作

整理成正确的数据格式之后,接下来进行卡方检验,分析操作是怎样的呢?以SPSSAU举例进行说明:

【实验/医学研究:卡方检验】→【拖拽分析项】→点击开始分析;

卡方检验结果一般形式

一般结果中会提供均值标准差以及卡方值和p值等。

02、可视化图形

为了更清楚的表示各个类别占比可以使用渡记柱形图或者条形图进行表示。

2、方法PK

(1)不同类卡方检验pk

(2)其它方法说明

除了可以使用卡方检验外,还可以使用可视化图形进行描述分类变量和分类变量之间的关系,比如可以使用堆积柱形图和堆积条形图进行描述,更加直观,分析时可以结合自己的分析方法进行绘制研究。

03、举例分析

(1)分析流程

想要调查不用性别(男、女)的饮食习惯(米食、面食),针对卡方检验的分类应该使用pearson卡方检验。

(2)解读分析结果

从分析结果中看出男性更偏爱吃面食占比为60%,女性更偏爱吃米食约占调查中的80%。从数据来看,不同性别的饮食习惯有差异,模型中的卡方值为16.667,其中p值小于0.05,拒绝原假设,说明模型显著,不同性别的饮食习惯有差别。并且从堆积柱形图中也可以直观查看到男性更爱吃面食,女性更爱吃米食。

(3)指标解读

其中Ai为i水平的观察频数,Ei为i水平的期望频数,k为单元格数。

比如:

计算如下:

参考文献:

[1]朱玉祥,江剑民,赵亮,等.不同计算形式的相关分析在气象中的应用综述[J].热带气象学报, 2021, 37(1):1-13.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1262951.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023年国赛试题:配置inux1 为 CA 服务器

试题内容:配置 linux1 为 CA 服务器,为 linux 主机颁发证书。证书颁发机构有 效期 10 年,公用名为 linux1.skills.lan。申请并颁发一张供 linux 服务器使用的证书,证书信息:有效期 =5 年,公用名=skills.lan, 国家=CN,省=Beijing,城市=Beijing,组织=skills,组织单位…

立即修复计算机显示msvcp110.dll丢失问题!4个快速解决方法大揭秘

在计算机使用过程中,我们可能会遇到一些错误提示,其中之一就是“msvcp110.dll丢失”。这个错误通常会导致某些程序无法正常运行,给用户带来诸多不便。那么,当我们遇到这个问题时,应该如何进行修复呢?本文将…

Kafka生产者发送消息的流程

Kafka 生产者发送消息的流程涉及多个步骤,从消息的创建到成功存储在 Kafka 集群中。以下是 Kafka 生产者发送消息的主要步骤: 1. 创建消息 生产者首先创建一个消息,消息通常包含一个键(可选)和一个值,以及…

3D打印报价系统

一款3d打印报价系统不仅可以展示三维模型,还能自动计算模型的相关信息,如面积、体积和尺寸信息。 用户上传三维模型后,系统会自动为其生成一个报价页面。在这个页面上,用户可以看到他们模型的所有相关信息,包括面积、体…

1.Spring源码解析-ClassPathXmlApplicationContext

此类是读取spring的xml配置文件并解析。也是源码入口之一。 我们调试即将开始。 传递给父类设置值 经调试我们得到是给AbstractApplicationContext设置默认的应用上下文父级的值,很明显是空 给父类AbstractRefreshableConfigApplicationContext设置属性 刷新容器…

51单片机项目(16)——基于51单片机的水箱冷却系统

1.项目背景 汽车水箱又称散热器,是汽车冷却系统中主要机件;其功用是散发热量,冷却水在水套中吸收热量,流到散热器后将热量散去,再回到水套内而循环不断。从而达到散热调温的效果。它还是汽车发动机的重要组成部分。 汽…

和鲸社区 × 浙大地科学院:DDE 深时数字地球国际大科学计划系列工作坊圆满收官!

AI for Good,AI for Science,11 月 23 日,由和鲸社区联合浙江大学地球科学学院师生共同发起的 DDE 深时数字地球国际大科学计划系列工作坊正式落下帷幕。 深时数字地球(Deep-time Digital Earth,DDE)是由我…

误导消费的“生鲜灯”即将禁用

总的来说,吃喝拉撒睡这五件事,都是人类生活中不可缺少的基本生理需求,所以均与国民的健康和生存密切相关——民生无小事。本“人民体验官”今天推广人民日报官方微博文化产品《周知!12月1日起生鲜灯禁用》。 图:来源“…

关于easy-es的聚合问题-已解决

es实体类&#xff1a; public class ChemicalES {IndexId(type IdType.CUSTOMIZE)private Long id;HighLightIndexField(fieldType FieldType.TEXT, analyzer "ik_max_word")private String name;IndexField(fieldType FieldType.KEYWORD)private List<Stri…

re:Invent 2023 开发者指南来了!@开发者们,Let‘s 构!

开发者们看过来! 云计算领域的风向标、科技界的年度重磅盛会 2023 亚马逊云科技 re:Invent 将于 11 月 27 日在美国拉斯维加斯盛大启幕! 学习、互动、交流、比拼…… 作为世界开发者的年度技术狂欢盛宴 美国现场或国内互动将有哪些精彩环节? 开发者们&#xff0c;Lets …

汽车电子 -- 车载ADAS之LCA(变道辅助系统)

相关法规文件: LCA: ISO 17387-2008 Intelligent transport systems — Lane change decision aid systems 一、变道辅助系统 LCA &#xff08;Lane Change Assist&#xff09; LCA 系统&#xff08;变道辅助系统&#xff09;监测后方相邻车道区域&#xff0c;如果有车辆在后…

latex中$$中的字母不显示斜体【已解决】

最近在用latex写论文&#xff0c;其中一篇论文的方法名带有平方&#xff0c;但是当我写方法名的时候发现字母名称是斜体的&#xff0c;如下图所示 引用的论文中FedME这几个字显然不是斜体&#xff0c;最后修改完的图片如下图所示 代码如下所示 /非斜体代码 $\text{FedME}^{2}$…

2023-11-28 C语言if语句多个||或 与的时时候,会顺序执行,不满足条件则退出,不会再比较后面的内容,实例测试

一、if(i > 0 || image(0) > 5)或者if(i > 0 && image(0) > 5)&#xff0c;C语言if语句多个||或 与&&的时时候&#xff0c;会顺序执行&#xff0c;不满足条件则退出&#xff0c;不会再比较后面的内容。 二、测试代码 #include <stdio.h> #i…

java.sql.SQLException: No suitable driver 问题解决

问题出现 自己在写一个连接C3P0数据库连接池库的测试类&#xff0c;运行该类后出现了下图这个问题 这是我写的测试类 package demo;import com.mchange.v2.c3p0.ComboPooledDataSource;import javax.sql.DataSource; import java.sql.Connection; import java.sql.SQLExcept…

春安航运 App Tech Support

春安航运app是一款客户可以实时查看合同进度和自助开票&#xff0c;并且提供航运实用小工具的手机软件。软件的主要功能包括合同查询功能(合同详细&#xff0c;操作船代&#xff0c;分享&#xff0c;合同执行状态&#xff0c;合同执行航线)&#xff0c; 费用结算功能(应付明细&…

Notion for Mac:打造您的专属多功能办公笔记软件

在如今这个信息爆炸的时代&#xff0c;一款高效、便捷的笔记软件对于办公人士来说已经成为必不可少的工具。Notion for Mac&#xff0c;作为一款多功能办公笔记软件&#xff0c;凭借其简洁优雅的界面、强大的功能以及无缝的云端同步&#xff0c;成为了众多用户的首选。 一、多…

【Linux】探索进程的父与子

目录 1.获取进程PID1.1进程PPID 2.通过系统调用创建进程-fork初识2.1为什么fork函数要给子进程返回0&#xff0c;给父进程返回pid&#xff1f;fork函数如何做到返回两次的&#xff1f;fork干了什么事情&#xff1f;怎么理解一个变量为什么有两个不同的值&#xff1f;如果父子进…

msng病毒分析

这是一个非常古老的文件夹病毒&#xff0c;使用XP系统的文件夹图标&#xff0c;采用VB语言开发&#xff0c;使用了一种自定义的壳来保护&#xff0c;会打开网址http://www.OpenClose.ir,通过软盘、U盘和共享目录进行传播&#xff0c;会在U盘所有的目录下生成自身的副本&#xf…

Docker 中OpenResty下载与使用

1Panel安装OpenResty 查看到就说明安装成功 部署项目 在http中添加&#xff1a; server { listen 8001; //端口号 server_name localhost; location / { root /admin; //项目路径 index index.html index.htm; …

附录12-time.h的常用方法

目录 1 数据类型 1.1 time_t 1.2 tm 1.3 clock_t 2 相关知识 3 获取从1970年1月1日以来的UTC秒数 time() 4 获取本时区时间字符串 ctime() 5 获取GMT时间的tm gmttime() 6 获取本地时间的tm localtime() 7 记录当前毫秒数 clock() 8 将表示本地时间的tm转…