基于spss的多元统计分析 之 聚类分析+判别分析(3/8)

news2024/11/16 7:40:25

实验目的:

1. 掌握多元数据的相关性、正态性、可视化表征的基本原理;

2.熟悉掌握SPSS软件/R软件的基本用法和基本操作;

3.利用实验指导中及软件中内置的实例数据,上机熟悉相关性检验+正态性检验+可视化数据方法。

实验内容:

1.实验数据为女性汗液+ 32名学生核心课程成绩+R中iris数据+USairpolution;

2.分析变量之间的相关性,数据的正态性检验方法,解释结果;

3.利用SPSS或者R软件绘制均值条图、线图(带误差线)、箱式图(带误差线)、星象图、脸谱图等。

实验前预习:

1.变量之间的相关性基本原理为,软件操作步骤;

2.数据正态性检验基本方法,操作步骤;

3.数据可视化方法操作步骤或者操作函数等。

程序测试、运行结果及分析:

相关性

  1. 两个变量的相关性:

操作步骤:

打开spss软件,输入相关数据 à 在“变量视图”更改名称 à 点击“分析”à 点击“相关”à 选择“双变量” à 拖动算法和数分3至变量框 à 勾选“皮尔逊”和“双尾”(双尾表示两边进行显著性检验) à 点击确定

运行结果:

相关性

算法

数分3

算法

皮尔逊相关性

1

.453**

Sig.(双尾)

.009

个案数

32

32

数分3

皮尔逊相关性

.453**

1

Sig.(双尾)

.009

个案数

32

32

结果分析:

由结果显示算法和数分3的皮尔逊相关系数为0.453介于0.4和0.6之间,所以相关程度为中等,sig(双尾)为0.009,也就是在0.01级别p值为0.009小于0.05,所以显著相关性。

  1. 偏相关:

操作步骤:

打开spss软件,输入相关数据 à 在“变量视图”更改名称 à 点击“分析”à 点击“相关” à 选择“偏相关” à 拖动高代1和数分1至变量框 à 拖动数分1至控制框 à 点击“选项”勾选“零阶相关性” à 勾选 “双尾”(双尾表示两边进行显著性检验) à 点击”继续”和“确定”

运行结果:

相关性

控制变量

高代1

高代2

数分1

- 无

高代1

相关性

1.000

.576

.743

显著性(双尾)

.

.001

.000

自由度

0

30

30

高代2

相关性

.576

1.000

.731

显著性(双尾)

.001

.

.000

自由度

30

0

30

数分1

相关性

.743

.731

1.000

显著性(双尾)

.000

.000

.

自由度

30

30

0

数分1

高代1

相关性

1.000

.072

显著性(双尾)

.

.699

自由度

0

29

高代2

相关性

.072

1.000

显著性(双尾)

.699

.

自由度

29

0

结果分析:

在没有控制变量(数分1)的影响下,高代1和高代2的相关系数为0.576,相关程度为中等,p值为0.001小于0.05具有显著相关性。在有控制变量(数分1)的影响下高代1和高代2相关系数为0.072,相关程度极低,p值为0.669大于0.05说明没有显著相关性。

数据正态性检验基本方法

      方法一:Q-Q图和P-P图检验:

操作步骤:

打开spss软件,输入相关数据 à 在“变量视图”更改名称 à 点击“分析”à 点击“描述统计” à 选择“Q-Q图”或者“p-p图” à 拖动c语言至变量框 à 检验分布选择“正态” à 点击“确定”


运行结果及分析:

Q-Q图就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图其斜率为标准差,截距为均值,由图形可知,在60到70之间的数据绝大多数都偏离正态分布,所以c语言不符合正态分布。

p-p图就是由标准正态分布的累积比例为横坐标,样本值的累积比例为纵坐标的散点图,同Q-Q图的分析,60到70的样本数据偏离正态分布的标准值,所以我们认为c语言不服从正态分布。

 

c语言的去趋势正态Q-Q图用于表示各个数据的残差,由上图可知,在70到80之间的数据残差的绝对值均比其他数据小,如果将70到80的数据拿出检验其正态性,一定比剩余数据好。但此样本的残差绝对值绝大数大于0.05,所以我们认为c语言不符合正态分布。

由图可知0.2到0.4之间的数据与标准线的距离较大并且大于0.05,表明样本数据的离散程度在累计比例0.2到0.4的区间最大,也就成绩在60到70之间的数据离散程度最大,所以我们认为c语言不服从正态分布

  1. 方法二: 峰度和偏度:

操作步骤:

打开spss软件,输入相关数据 à 在“变量视图”更改名称 à 点击“分析”à 点击“描述统计” à 选择“描述” à 拖动c语言至变量框 à 点击“选项”à 勾选“峰度”和“偏度”à 点击“确定”

运行结果:

描述统计

N

最小值

最大值

均值

标准偏差

偏度

峰度

统计

统计

统计

统计

统计

统计

标准 错误

统计

标准 错误

c语言

32

60

90

71.19

8.731

.500

.414

-.470

.809

有效个案数

32

结果分析:

c语言的偏度为0.500,说明该数据为正偏态,表示数据左端有较多的极端值,数据均值左侧的离散程度强。也就时上面所分析的60到70之间的数据离散程度大。峰度为-0.470,而完全服从正态分布的数据的峰度值时3。无论偏度和峰度都偏离标准的正态分布过多,所以c语言不符合正态分布。

  1. 方法三: 正态曲线直方图

操作步骤:

打开spss软件,输入相关数据 à 在“变量视图”更改名称 à 点击“分析”à 点击“描述统计” à 选择“频率” à 拖动c语言至变量框 à 点击“选项”à 点击“图表”à 勾选“直在直方图中显示正态曲线” à 点击“继续”和“确定”

运行结果:

结果分析:

由图可知,直方图的左边由许多极端值,所以c语言数据不符合正态分布。

  1. 方法四:K-S正态检验:。

操作步骤:

打开spss软件,输入相关数据 à 在“变量视图”更改名称 à 点击“分析”à 点击“非参数检验” à 选择“旧对话框” à 点击“单样本K-S” à 拖动数分1至变量框 à 点击“选项” à 勾选“描述”和“四分位数” à 点击“继续”和“确定”

运行结果:

单样本柯尔莫戈洛夫-斯米诺夫检验

数分1

个案数

32

正态参数a,b

平均值

70.0000

标准 偏差

9.94825

最极端差值

绝对

.219

.219

-.157

检验统计

.219

渐近显著性(双尾)

.000c

结果分析:

表格中渐进显著性(双尾)为0小于0.05,则拒绝原假设(服从正态分布),认为数分1的数据不服从正态分布。

  1. 利用SPSS绘制均值条图、线图(带误差线)、箱式图(带误差线)、星象图、脸谱图等。(均值条图在正态检验部分已经画出,这里省略)
  1. 线图(带误差线)

操作步骤:

打开spss软件,输入相关数据 à 在“变量视图”更改名称 à 点击“图形”à 点击“图表构建器” à 在图库栏点击“折线图”à 双击第一个简单线图à 拖动花瓣长至y轴,不同种类的分类拖动至x轴à 在元素属性框点击“折线图” à 在统计框选择“平均值”à勾选下方“显示误差条形图”à在插值框类型选择为“样条”à点击“确定”

运行结果:

结果分析:

由图形可知第3类品种的花瓣普遍比其他两类的长,花瓣最短的是第1类花的花瓣。

  1. 箱式图

操作步骤:

打开spss软件,输入相关数据 à 在“变量视图”更改名称 à 点击“图形”à 点击“图表构建器” à 在图库栏点击“箱图” à 双击最后一个1-D框图形式的箱图à 拖动c语言至右侧x轴 à 点击“确定”

运行结果:

结果分析:

为了方便分析,我把c语言的第一个数据改成了1,由图形显示可以看出出现了一个下标为1的星形点,说明了这个第一个数据偏离总数据,视为异常值,分析的时候可以剔除。

  1. 星象图

操作步骤:

打开r软件,在输入框输入install.packages("caret"),按回车出现对话框,选择china(beijing 2)[https],点击确定,等待加载。分别录入加载包library(caret),library(ggplot2),library(lattice),install.packages("aplpack"),library(aplpack)在最后一行输入 data <- read.table("clipboard",header=T),不能按回车,在excel复制核心课程数据,再按回车,然后在r输入框内输入data点击回车,出现数据,输入stars(data),出现星象图

运行结果:

  1. 脸谱图

R语言实现

操作步骤:

打开r软件,在输入框输入install.packages("caret"),按回车出现对话框,选择china(beijing 2)[https],点击确定,等待加载。分别录入加载包library(caret),library(ggplot2),library(lattice),install.packages("aplpack"),library(aplpack)在最后一行输入 data <- read.table("clipboard",header=T),不能按回车,在excel复制32名学生核心课程成绩数据,再按回车,然后在r输入框内输入data点击回车,出现数据,输入faces(data),出现脸谱图。

结果分析:

1到32的序号分别代表2018级32名学生核心课程成绩的脸谱图,脸谱图是用来比较数据的,用于发现不同年级学生学习成绩数据的共性并进行分类。

讨论:

1.变量之间的相关性基本原理

变量之间的相关性基本原理:研究两个变量之间的相关性原理,也就是研究当一个变量发生变化时,另外一个变量如何变化,所以只需要通过计算相关系数来做定量考察,相关系数R值越大说明两个变量越相关,反之相关程度越低,算出的p值如果大于0.05那么就接受原假设,反之拒绝原假设 有显著相关性。对于偏相关则指的是两变量同时与第三个变量相关时,把第三个变量的影响剔除,分析另外两个变量的相关过程,其基本原理与两变量相关性分析类似

2.数据正态性检验基本方法

方法一:正态曲线直方图。在分析选项卡下,选择描述--频率,在频率页面,在绘图选项选择带正态曲线的直方图。绘制带正态曲线的直方图通过对比直方图与正态曲线的拟合程度,判定数据序列的分布形态是否接近正态分布。

方法二:Q-Q图和P-P图。在分析选项卡下,选择“分析”-“描述统计”-“P-P图或Q-Q图”。P-P图与Q-Q图的判断原理相同,区别在于横纵坐标的单位不同,P是累积比例,Q是分位数。散点能够与斜线很好的吻合,则说明该数据序列符合正态分布,明显点分散在两侧,没有集中在一条直线上,不成正态分布。
    方法三:K-S正态检验。这是在不确定数据分布是否成正态性分布经常用的检验方法,在分析选项卡下,选择:分析-非参数检验-旧对话框-样本K-S。用K-S作正态性检验则是通过对比数据序列与标准正态分布有没有显著性差异来判断序列是否满足正态分布。通过比较检测Р值,P>0.05,说明与正态性没有显著差异,成正态分布。

方法四:峰度和偏度检验。偏度大于0表示正偏态,表示数据左端有较多的极端值,数据均值左侧的离散程度强。同理偏度小于0表示负偏态,表示数据右端有较多的极端值,数据均值右侧的离散程度强。偏度绝对值越大表示数据分布偏斜程度越大,所以偏度越接近于0其正态性越好,在用峰度和偏度对数据进行正态性检验时,除了要观察偏度是否在0附近,峰度是否在3附近之外,还需要满足以下要求:可以分别计算偏度和峰度的Z评分(Z-score),偏度Z-score = 偏度值/偏度标准差,以c语言的数据为例,其偏度Z-score=0.5/0.414=1.207,峰度Z-score = 峰度值/峰度值的标准差,同样以c语言的数据为例,峰度Z-score=-0.47/0.809=-0.58。

  1. 数据可视化各种图图形的含义

对于脸谱图:按照切尔诺夫于1973年提出的画法,脸谱图采用15个指标,各指标代表的面部特征为:1表示脸的范围,2表示脸的形状,3表示鼻子的长度,4表示嘴的位置,5表示笑容曲线,6表示嘴的宽度,7~11分别表示眼睛的位置、分开程度、角度、形状和宽度;12表示瞳孔的位置;,13~15分别表示眼眉的位置、角度和宽度。

对于箱线图:如果在箱图的上方或者下方出现点,说明该点为异常值,研究数据的时候可以剔除。(其他图较简单,在结果分析里已经详细说明,这里省略)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/672978.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Kafka如何实现精确一次语义

精确一次交付保证是关于消息传递最具争议性的话题之一&#xff0c;因此也是最复杂的任务之一。然而&#xff0c;几年前&#xff0c;Kafka团队宣布他们实现了这一目标&#xff0c;让我们深入研究一下他们的实现方式以及存在的限制。 首先&#xff0c;值得定义一下这些交付语义是…

CMake在Linux服务器上进行编译与安装

CMake在Linux服务器上进行编译与安装 文章目录 CMake在Linux服务器上进行编译与安装[TOC](文章目录) 一、VScode 远程服务器连接1.服务器容器实例创建2.vscode 远程扩展部分下载&#xff08;SSH端&#xff09; 二、编译安装(时间较长&#xff09;1.克隆项目到本地仓库2.进入CMa…

软考A计划-系统集成项目管理工程师-面向对象系统分析与设计-上

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例点击跳转>软考全系列 &#x1f449;关于作者 专注于Android/Unity和各种游戏开发技巧&#xff…

spring cloud 5大组件

Spring Cloud 5大组件 服务发现——Netflix Eureka 客服端负载均衡——Netflix Ribbon 断路器——Netflix Hystrix 服务网关——Netflix Zuul 分布式配置——Spring Cloud Config 一、业务场景介绍 先来给大家说一个业务场景&#xff0c;假设咱们现在开发一个电商网站&…

看 AI 如何抢救破烂文档

一、什么是非结构化数据二、非结构化数据分析三、 文档图像分析与预处理 修正图形偏移消除摩尔纹四、消除反光 反光原理Python 消除图片反光方法五、 版面分析与文档还原 5.1 物理版面 & 逻辑版面5.2 版面元素检查5.3 文档还原5.4 文档还原的应用六、整体小结 一、什么是非…

chatgpt赋能python:Python查询网站的SEO技巧及注意事项

Python查询网站的SEO技巧及注意事项 搜索引擎优化&#xff08;SEO&#xff09;是所有网站的头等大事&#xff0c;而对于Python查询网站来说&#xff0c;它更是必不可少的。在这篇文章中&#xff0c;我们将介绍一些Python查询网站的SEO技巧及注意事项&#xff0c;以帮助您提高网…

Elasticsearch分词器

前奏 es的chinese、english、standard等分词器对中文分词十分不友好&#xff0c;几乎都是逐字分词&#xff0c;对英文分词比较友好。 在kibana的dev tools中测试分词&#xff1a; POST /_analyze {"analyzer": "standard","text": "你太…

vue源码分析

1、获取vue源码 项目地址&#xff1a;https://github.com/vuejs/vue 2、文件结构 源码目录 3、调试环境搭建 安装依赖&#xff1a; npm i 安装rollup&#xff1a;npm i -g rollup 修改dev脚本&#xff0c;添加sourcemap&#xff0c;package.json "dev": "ro…

C语言建立并查集

一.树的存储方式 在知道并查集之前&#xff0c;我们得知道树的三种存储方式&#xff1a; 1.双亲表示法 双亲表示法 &#xff1a;双亲表示法是最简单的一种存储方式&#xff0c;它使用一个大小为n的一维数组来表示树中的n个节点。在数组中&#xff0c;每个元素存储该节点的父…

Linux内核态内存泄露检测工具——Kmemleak

我的圈子&#xff1a; 高级工程师聚集地 我是董哥&#xff0c;高级嵌入式软件开发工程师&#xff0c;从事嵌入式Linux驱动开发和系统开发&#xff0c;曾就职于世界500强企业&#xff01; 创作理念&#xff1a;专注分享高质量嵌入式文章&#xff0c;让大家读有所得&#xff01; …

Windows开始菜单栏处无法直接搜索软件

文章目录 1. 打开cmd&#xff0c;输入start powershell打开PowerShell&#xff0c;然后在PowerShell中输入下面的命令&#xff0c;之后重启电脑2. 修改注册表3. 开启Windows Search服务4. 可能是搜索进程被禁用了5. 开启Cortana5.1. 打开gpedit.msc 6. 使用疑难解答6.1. 选择其…

chatgpt赋能python:Python如何查找特定名称文件

Python如何查找特定名称文件 在计算机文件管理和互联网网络应用程序中&#xff0c;查找特定文件往往是一项必要的任务。在使用Python编程时&#xff0c;我们可以使用Python内置的os模块来查找特定名称的文件。本文将介绍如何使用Python查找特定名称的文件&#xff0c;并提供实…

一个例子带你了解MapReduce

写在前面&#xff1a;博主是一只经过实战开发历练后投身培训事业的“小山猪”&#xff0c;昵称取自动画片《狮子王》中的“彭彭”&#xff0c;总是以乐观、积极的心态对待周边的事物。本人的技术路线从Java全栈工程师一路奔向大数据开发、数据挖掘领域&#xff0c;如今终有小成…

LTV-6314-ASEMI代理台湾光宝高速光耦LTV-6314

编辑&#xff1a;ll LTV-6314-ASEMI代理台湾光宝高速光耦LTV-6314 型号&#xff1a;LTV-6314 品牌&#xff1a;台湾光宝 封装&#xff1a;LSOP-6 引脚数量&#xff1a;6 类型&#xff1a;光耦 特性&#xff1a;台湾光宝、IGBT驱动器、储能专用光耦&#xff3c;高速光耦 …

如何看一块intel主板的配置的好坏

为什么写这篇文章 最近在挑13900k的主板&#xff0c;挑的眼花缭乱&#xff0c;发现主板市场不像CPU市场有那么清晰的产品线。 单拿微星一家的Z790来说&#xff0c;就包括但不限于以下型号 Z790 GAMINGZ790-PZ790-AZ790暗黑Z790刀锋 每一种的价格都不一样&#xff0c;更别弹还…

Golang每日一练(leetDay0104) 买卖股票最佳时机之含冷冻期、手续费

目录 309. 最佳买卖股票时机含冷冻期 Best-time-to-buy-and-sell-stock-with-cooldown &#x1f31f;&#x1f31f; 714. 买卖股票的最佳时机含手续费 Best-time-to-buy-and-sell-stock-with-transaction-fee &#x1f31f;&#x1f31f; &#x1f31f; 每日一练刷题专栏 …

读发布!设计与部署稳定的分布式系统(第2版)笔记08_自黑与放大

1. 自黑式攻击 1.1. 自黑只会偶尔成为人类的美德 1.2. 对系统来说&#xff0c;绝对不会推崇自黑 1.3. “自黑式攻击”是指系统或有人类参与的扩展系统联合外部对自身发起攻击 1.4. 好的营销可以随时杀死你 1.4.1. 并不是每个自黑的“伤口”&#xff0c;都可以归咎于营销部…

<C++> C++11新的类功能

C11新的类功能 1.默认成员函数 原来C类中&#xff0c;有6个默认成员函数&#xff1a; 构造函数析构函数拷贝构造函数拷贝赋值重载取地址重载const取地址重载 最后重要的是前4个&#xff0c;后两个用处不大。默认成员函数就是我们不写编译器会生成一个默认的。 C11 新增了两个…

Uniapp 开发 ①(快速上手)

作者 : SYFStrive 博客首页 : HomePage &#x1f4dc;&#xff1a; 微信小程序 &#x1f4cc;&#xff1a;个人社区&#xff08;欢迎大佬们加入&#xff09; &#x1f449;&#xff1a;社区链接&#x1f517; &#x1f4cc;&#xff1a;觉得文章不错可以点点关注 &#x1f4…

Vue3在工作中使用的一些经验总结

1、隐藏el-tab-pane 设置隐藏 2、Vue中ref的使用 3、Vue中的api 4、component: () &#xff1e; import(‘/views/order/orderDetail‘), 5、ids selections.map((i) > i.ruleId); 6、路由配置的三种方式 项目中使用到的 7、Vue3新特性 8、template在Vue中的作用 9、…