【SPSS】回归分析详细操作教程(附案例实战)

news2024/10/7 12:26:35

🤵‍♂️ 个人主页:@艾派森的个人主页

✍🏻作者简介:Python学习者
🐋 希望大家多多支持,我们一起进步!😄
如果文章对你有帮助的话,
欢迎评论 💬点赞👍🏻 收藏 📂加关注+


目录

回归分析概述

线性回归

曲线估计

二元logistic回归分析

多元logistic回归分析


回归分析概述

 相关分析与回归分析

  • 相关分析只表明变量间相关关系的性质和程度,回归分析是要确定变量间相关的具体数学形式
  • 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量之间的关系

 回归分析的一般步骤

  • 1 确定回归分析中的解释变量和被解释变量
  • 2 确定回归模型
  • 3 建立回归方程
  • 4 对回归方程进行各种检验
  • 5 利用回归方程进行预测

线性回归

 线性回归介绍

        线性回归(linear regression)是分析变量间数量依存关系的统计分析方法。如果某一个变量随着另一个变量的变化而变化,并且它们的变化关系呈直线趋势,就可以用直线回归方程来定量地描述它们之间的数量依存关系,这就是线性回归分析。

一元线性回归的数学模型为:

 上式表明,被解释变量y的变化可由两个部分解释:

第一,由解释变量x的变化引起的y的线性变化部分,即y=β0+β1x;

第二,由其他随机因素引起的y的变化部分,即ε。

【案例】:碘含量与患病率的分析

操作步骤:

①导入数据

②【分析】-->【回归】-->【线性】

③选择自变量和应变量,点击统计

④ 勾选如下图选项,点击继续,点击图

⑤ 勾选直方图和概率图

⑥选项按钮中直接使用默认参数即可。

⑦点击“确定”按钮,查看统计结果:

 从描述统计中可以看到患病率和碘含量的平均值、标准偏差和个案数。

从相关性中可以看到,患病率和碘含量相关系数0.971,显著性为0。说明碘含量和患病率显著相关。

 由表可见,只有一个自变量,变量选择的方法为强行输入法,也就是将所有的自变量都放入模型中。

 上表可看到,是对回归方程拟合情况的描述,可知相关系数的取值(R),相关系数的平方即决定系数,决定系数值为0.943, 初步判断模型拟合效果良好。

 对回归方程的显著性检验,一元线性回归方程的显著性检验 的原假设H0是β1=0,即回归系数与零无显著性差异。F=115.136,P=0.000,概率P值小于α,应该拒绝原假设,认为 回归系数与零存在显著差异,被解释变量(患病率)与解释变量(碘含量)的线性关系显著,可以用线性模型描述和反映它们之间的关系。

 在一元线性回归分析中,回归方程的显著性检验和回归系数的显著性检验的作用是相同的,同时,回归方程的显著性检验中的F统计量等于回归系数的显著性检验中的t统计量的平方,即F=t2。

        上面已经得出回归公式,接下来我们需要检验数据是否可以做回归分析,它对数据的要求是苛刻的,有必要就残差进行分析,下面是残差的正态性图形结果。

 

         从标准化残差直方图来看,左右两侧不完全对称;从标准化残差的P-P图来看,散点并没有全部靠近斜线,并不完美。 综合而言,残差正态性结果不是最好的,当然在现实分析当中, 理想状态的正态并不多见,接近或近似即可考虑接受。

曲线估计

 曲线估计介绍

        变量间相关关系的分析中,变量之间的关系并不总表现为线性关系,非线性关系也是极为常见的,可通过绘制散点图的方式粗略考察这种非线性关系。

        变量之间的非线性关系可以划分为本质线性关系和本质非线性关系。

  • 本质线性关系:变量关系形式上虽然呈非线性关系(如二次曲线),但可通过变量变换转化为线性关系,最终可进行线性回归分析,建立线性模型
  • 本质非线性关系:变量关系不仅形式上呈非线性关系,而且无法通过变量变换转化为线性关系,最终无法进行线性回归分析和建立线性模型

 注意: 曲线估计是解决本质线性关系问题的!

 【案例】——年人均可支配收入与教育支出的关系分析

操作步骤:

①导入数据

②【分析】-->【回归】-->【曲线估计】

 ③选择因变量、个案标签等

 ④点击“确定”按钮,结果如下:

        在模型描述中可以看到,因变量:教育支出,自变量为:年人均可支配收入。方程有4个,一个线性方程,一个二次方程,一个 三次方程,一个复合方程。包括常量。 

 从“个案处理摘要”可以看出,排除的个案为12,说明变量中所有 的个案带有“缺失值”,个案总数为28个。

 从变量处理摘要中可以看到,教育支出16个,有12个缺失值。 年人均可支配收入28个,没有缺失值。

 一元线性回归方程,拟合优度判定系数为0.901,显著性小于0.05。

 二次曲线回归方程,拟合优度判定系数为0.983。回归方程和各回归系数显著性大于0.05,表明模型不显著,二次曲线模型不合理。

 三次曲线回归方程,拟合优度判定系数为0.987(高于一元线性回归方程拟合度)。回归方程和各回归系数显著性小于0.05,表明三次曲线模型更为合理。

         复合回归方程,拟合优度决定系数0.971(小于三次曲线回归方 程),各回归系数显著性小于0.05,表明模型显著。但拟合优度小于三次曲线回归方程。因此三次曲线更好反映随年人均可支配 收入增加,教育支出的变量情况。

 二元logistic回归分析

         在实际资料分析中,有一些因变量是分类变量,那么这样的资料就不能使用前面介绍的线性回归模型进行分析。遇到这种情况,我 们一般采取logistic回归模型对数据进行分析。

        二元logistic回归是指因变量为二分类变量时的回归分析。如在采用了某种治疗方案后,病人的治疗结局是有效或无效、生存或死亡;人们对自己的生存质量是否满意;想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌, 即“是”或“否”,为两分类变量。

【案例】: 为了评价某新疗法的疗效,某研究者随机抽查了40名某病患 者,治疗后一定时间内观察其康复状况。其中变量Y为康复状况 (Y=0表示未康复,Y=1表示康复),X1表示病情严重程度(1表示 严重,0表示不严重),X2表示疗法(0表示新疗法,1表示传统疗 法)。目的研究评价不同疗法对康复状况的作用有无差别?

操作步骤:

①导入数据

②【分析】-->【回归】-->【二元Logistic】

③选择因变量和协变量

 ④点击“分类”按钮

 当选择了分类协变量后,就可以选择参考类别,以及对比方式。

⑤点击“保存”按钮

 如果勾选了“概率”和“组成员”后就会将这两个值保存到原始数据中。

⑥点击“选项”按钮

⑦点击“确定”,查看输出结果

 

 从个案处理摘要中可以看到,个案数选定40,总计也是40,未选定个案数0。

 从因变量编码中可以看到,0表示未康复,1表示康复。

 从分类变量编码中可以看到疗法有两类,新疗法和传统疗法。病情严重程度也是两类不严重和严重。

查看最终迭代分析结果:

 从模型系数检验中可以看到,显著性都小于0.05,表示模型总体有意义。

 在模型系数检验中得到模型是有意义的,接下来看模型摘要,有两种R方决定因数,分别是0.156和0.210,R方值比较小,总体来说模型拟合优度比较小。

最终预测结果:

 对未康复预测正确率达到65.2%,康复预测正确率达到70.6%。 总体预测正确率67.5%。

         从最终模型中的变量可以看到:从常量显著性0.021小于0.05说 明常量对模型是有意义的,从病情严重程度显著性0.209大于 0.05。说明病情严重程度对模型是没有意义的,即病情严重程度 对康复和未康复没有影响。

         治疗方法显著性0.022小于0.05,说明治疗方法对模型是有意义的。而且是和治疗方法值为1进行比较。治疗方法值为1表示传统疗法。得出结论,相对于传统疗法,新疗法更有易于病人康复, 换句话说,就是新疗法比传统疗法的疗效更好。

多元logistic回归分析

         前面讲解的二元logistic回归分析仅适合因变量Y只有两种取值(二元logistic)的情况,如:有或无,是或否的情况。 当因变量Y具有两种以上的取值时,就要用多元logistic回归分析。

【案例】关于早餐喜好的民意调查,该调查记录了参与者的年龄、性别、婚姻状况以及生活方式是否积极,每个个案代表一个单独的响应者。调查机构想搞清楚是什么影响着受访人每天吃什么早餐。因变量“早餐选择”包括(1=早餐吧、2=燕麦类、3=谷物类),自变量暂定年龄、婚姻状况以及生活方式。      

操作步骤:

①导入数据

②【分析】-->【回归】-->【多元Logistic】

 ③在打开的多元Logistic回归窗口,选择首选的早餐到“因变量” 中。点击“参考类别”,默认勾选的是最后一个类别,指以最后一 个类别为参照类别,用其他分类依次与之对比,考察不同水平间 的倾向。

 ④选择年龄、婚姻状况以及生活方式选入“因子”

 ⑤主面板中,点击【模型】按钮,打开【多元logistic回归:模 型】对话框,勾选【主效应】,本例主要考察自变量年龄、生活方式、婚姻状况的主效应,暂不考察它们之间的交互作用,然后点击【继续】。

⑥ 主面板中,点击【统计】按钮,设置模型的统计量。主要【伪R方】【模型拟合信息】【分类表】【拟合优度】这几项必选,其他可以默认不勾选。这些参数主要用于说明建模的质量。

 

 ⑦主面板中,点击【统计】按钮

⑧ 点击“确定”查看输出结果:

         个案处理摘要表,列出因变量和自变量的分类水平及对应的个案百分比。建议在此表主要读取变量分类水平的顺序,比如自变量“年龄段”,第一个分类是“低于31岁”,第二个分类是“31- 45”,第三个分类是“45-60”,第四个分类是“60岁以上”,尤其是看清楚最后一个分类,因为我们前面参数设置时要求是以最后一 个分类为对比参照组的。

 模型拟合信息表,读取最后一列,显著性值小于0.05,说明模型有统计意义,模型通过检验。

 拟合优度表,原假设模型能很好地拟合原始数据,最后一列皮尔逊卡方显著性值0.952,概率较大,原假设成立,说明模型对原始数据的拟合通过检验。

 伪R方表,依次列出的3个伪R方值(类似于决定系数)均偏低, 最高0.4,说明模型对原始变量变异的解释程度一般,还有一部分信息无法解释,拟合程度并不是很优秀。

 模型似然比检验表,我们能看到最终进入模型的效应包括截距、 年龄、婚姻状况、生活方式,而且最后一列显著性值表明,三个自变量(影响因素)对模型构成均有显著贡献,研究它们是有意 义的。

 参数估计表,列出自变量不同分类水平对早餐选择的影响检验, 是多元logistic回归非常重要的结果。 第二列B值,即各自变量不同分类水平在模型中的系数,正负符号表明它们与早餐选择是正比还是反比关系。第六列是检验显著性值,此值小于0.05说明对应自变量的系数具有统计意义,对因 变量不同分类水平的变化有显著影响。

 模型在预测燕麦类早餐选择倾向上准确率最高,达到77.1%,其他两个早餐选择的预测略低,模型总体预测准确率为57.4%,表现一般。前面伪R方数据显示,模型对总体变异的解释能力不足,这和总体预测准确率结论也一致。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/499428.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据结构入门-顺序表链表

线性表 线性表(linear list)是n个具有相同特性的数据元素的有限序列。线性表是一种实际中广泛使用多个数据结构,常见的线性表:顺序表、链表、栈、队列、字符串... 线性表在逻辑上是线性结构,也就说是连续的一条直线。…

前后端图片交互的简易方式

前后端图片交互的简易方式 一、交互方式说明二、前后端具体代码实现前端具体代码实现后端具体代码实现效果 测试结果 一、交互方式说明 在项目的实际开发中,难免会遇到前端需要渲染数据库中保存的图片,那咱知道图片也属于一种文件,不好保存到…

maven依赖jar包时版本冲突的解决

1、第一声明优先原则 在pom.xml配置文件中,如果有两个名称相同版本不同的依赖声明,那么先写的会生效。 所以,先声明自己要用的版本的jar包即可。 所以,添加新依赖时要放在最后边,以防止新依赖替换原有依赖造成版本冲…

Mybatis基础操作XML映射文件

Mybatis基本操作 一、环境准备 数据库表和springboot工程在课程资料中都有提供 注意,entrydate是用的jdk1.8中的LocalDate类型,createTime用的是jdk1.8中的LocalDateTime类型 二、删除 Mybatis中提供了一种参数占位符 #{id} empMapper.java package…

Leetcode461. 汉明距离

Every day a leetcode 题目来源:461. 汉明距离 解法1:模拟 先将x和y转为为对应二进制的字符串,再遍历两个字符串进行比较。 代码: /** lc appleetcode.cn id461 langcpp** [461] 汉明距离*/// lc codestart class Solution {…

HTML的两个实战项目

文章目录 HTML的两个实战项目1. 个人简历1. 1 快速生成模板1.2 根据简历格式进行预设计1.3 开始创作吧1.3.1 基本信息1.3.2 教育背景1.3.3 专业技能1.3.4 我的项目1.3.5 自我评价 2. 输入简历信息页面设计2.1 设计大概框架2.2 开始创作吧2.2.1 输入姓名2.2.2 上传照片2.2.3 输入…

Axure教程——用中继器制作动态柱状图

今天作者就教大家在Axure里面如何用中继器做一个可以动态的柱状图。 制作完成之应具备以下交互效果: 1.在中继器表格中填写具体数据和坐标轴后,自动生成对应的柱状图 2.鼠标移动到每项,显示其数据 预览地址:https://tj4v11.axshar…

node笔记_读文件(异步读取、流式读取)

文章目录 ⭐前言⭐ 读取文件异步读 readFile读取txt 流式读 createReadStream读取视频 ⭐ 结束 ⭐前言 大家好,我是yma16,本期分享node读取文件。 往期文章 node_windows环境变量配置 node_npm发布包 linux_配置node node_nvm安装配置 node笔记_http服务…

2023/05/02~07 刷题记录

A - AABCC 题义: 题解: 读完题目可以想到直接暴力,但是肯定超时别想了。 因为 a b c 都是素数,所以我们可以先求出所有的素数 进行减少循环的次数,然后遍历。在遍历过程中,我们也要去进行剪枝 ,…

10_Uboot启动流程_2

目录 _main函数详解 board_init_f函数详解 relocate_code函数详解 relocate_vectors函数详解 board_init_r 函数详解 _main函数详解 在上一章得知会执行_main函数_main函数定义在文件arch/arm/lib/crt0.S 中,函数内容如下: 第76行,设置sp指针为CONFIG_SYS_INIT_SP_ADDR,也…

美团外卖红包优惠券:美团外卖节红包或美团外卖天天神券怎么领取使用?

什么是美团外卖节红包或美团外卖天天神券? 美团外卖节红包、美团外卖天天神券都可以称为美团外卖红包优惠券。使用美团外卖节红包、美团外卖天天神券,点餐可以享受优惠。且美团外卖节红包、美团外卖天天神券每天都可以免费领取。美团会员红包不能与美团…

nginx相关知识

目录 一. Nginx目录结构 二. Nginx配置文件结构 三. Nginx具体应用 1. 部署静态资源 2. 反向代理 3. 负载均衡 一. Nginx目录结构 重点目录/文件: conf/nginx.conf nginx配置文件html 存放静态文件(html、CSS、Js等)logs 日志目…

【Redis】数据结构底层结构

我们知道Redis的很快,一个原因是因为在内存上操作,另一个原因是本身的数据结构。而具体的五大类型就是如下: 键和值如何组织的 通过key找到value的过程,Redis使用了哈希表结构进行查找。具体就是根据key的hash值计算出对应的下…

三子棋(C语言重做版)

🤩本文作者:大家好,我是paperjie,感谢你阅读本文,欢迎一建三连哦。 🥰内容专栏:这里是《C语言》专栏,笔者用重金(时间和精力)打造,基础知识一网打尽,希望可以…

对标ChatGPT3.5,支持手机电脑网页使用,无需魔法

说到 Claude 是什么,大家可能没听说过。 但是说到 OpenAI,说到 ChatGPT,相信大家一定听说过,玩过。 PS:关于 Claude 网页版的注册教程,我之前已经写过文章了,现在额外介绍如何使用手机App和电脑…

centos搭建code-server及配置HTTPS、登录页自定义

文章目录 一、Code-Server二、安装及运行三、系统配置四、HTTPS配置五、登录页面自定义 注:本版本基于4.11.0,在此之前版本,在centos上会出现CPU占用一直100%的情况,当前版本已经搭建两个月,综合下来比较稳定 通过搭建…

【高数+复变函数】傅里叶级数

文章目录 1. 傅里叶级数1.1 和差化积积化和差1.2 三角函数系的正交性1.3 系数公式求解1.4 展开条件1.5 变形下的傅里叶 在课程学习中,感觉这一部分的东西频繁会被用到,因此写下来做个总结。 1. 傅里叶级数 在科学技术中,常常会遇到各种各样的…

【matplotlib】4-完善统计图形

文章目录 完善统计图形1 添加图例和标题1.1 图例和标题的设置方法1.2 案例1--图例的展示样式的调整1.3 案例2--标题的展示样式的调整1.4 案例3--带图例的饼图 2 调整刻度范围和刻度标签2.1 调整刻度范围和刻度标签的方法2.2 子区函数--subplot()2.3 案例--逆序设置坐标轴刻度标…

密码学:公钥密码.(非对称密码)

密码学:公钥密码. 公钥密码 (Public Key Cryptography),又称为非对称密码,其最大特征是加密和解密不再使用相同的密钥,而使用不同的密钥。使用者会将一个密钥公开,而将另一个密钥私人持有,这时这两个密钥被…

【WebGIS初学到入职】第二阶段的小结

一、前言 2021年12月,我进行了【WebGIS初学到入职】第一阶段的小结,如今,一年半过去了。我完成了毕业设计,平缓得通过了岗位的试用期,而且作为我所在部门唯一的前端开发,参与了越来越多的工作项目。 同时…