医学案例|线性回归

news2025/1/18 19:08:32

一、案例介绍

某医师预研究糖尿病患者的总胆固醇和甘油三酯对空腹血糖的影响,某研究者调查40名糖尿病患者的总胆固醇、甘油三酯和空腹血糖的测量值如下,试根据上述研究问题作统计分析。

二、问题分析

本案例想要研究一些变量(总胆固醇和甘油三酯)对另一变量(空腹血糖)的影响,可以使用多元线性回归分析进行研究。多元线性回归分析比较重要的假设有以下5个:

假设1:线性——因变量与自变量之间存在线性关系

假设2:独立性——各观测值之间相互独立,即残差之间不存在自相关。

假设3:正态性——残差接近正态分布。

假设4:方差齐——残差的方差齐。

假设5:多重共线性——自变量间不存在多重共线性。

如果违反了这些假设中的一个或多个,那么可能导致线性回归分析结果不可靠。因此我们需要对假设1-5使用软件进行检验。

三、前提假设检验

(1)检验假设1:线性

多元线性回归分析要求因变量Y与自变量X之间存在线性关系。针对连续型自变量,可以通过绘制自变量与因变量的散点图,直观判断是否存在线性关系。而对于分类自变量(如学历),可以忽略与因变量之间的线性关系。

使用SPSSAU分别绘制Y空腹血糖和X1总胆固醇、X2甘油三酯的散点图,在【可视化】模块选择【散点图】,将数据拖拽到右侧相应分析框中,点击开始分析,操作如下图:

SPSSAU输出散点图如下:

①总胆固醇和空腹血糖散点图

以“空腹血糖”作Y轴,“总胆固醇”作X轴绘制散点图,可以看出,空腹血糖与总胆固醇之间存在线性关系。

②甘油三酯和空腹血糖散点图

同理查看甘油三酯与空腹血糖绘制的散点图,二者之间存在近似线性关系。

综上,可以认为本案例数据满足假设1:,即因变量与自变量之间存在线性关系。

(2)检验假设2:独立性

线性回归分析假设各个观测值之间是相互独立的,即残差之间不存在自相关。可以使用Durbin-Watson检验残差是否存在自相关

SPSSAU线性回归分析结果会输出D-W检验结果,如下图:

一般来说,D-W检验其值在0到4之间。如果D-W检验值接近0,说明存在正自相关,如果接近4,说明存在负自相关。一般认为,如果D-W检验值在1.5到2.5之间,就说明不存在自相关问题。从上表可知,本案例D-W值为2.0437,因此认为不存在自相关,所以数据满足假设2,即各观测值之间相关独立。

(3)检验假设3:正态性

线性回归假设中的正态性是指残差(即随机扰动项)近似服从正态分布。首先得到残差值,在使用SPSSAU进行线性回归时,勾选“保存残差和预测值”,操作如下图:

正态分布检验的方法有很多种,例如直方图、P-P图/Q-Q图、统计检验等。本案例使用P-P图进行正态性检验,得到残差P-P图如下:

P-P图近似呈现为一条对角直线,说明数据接近正态分布。从上图可以看到,残差的P-P图近似为一条对角直线,故认为残差基本满足正态分布,满足假设3。

(4)检验假设4:方差齐

多元线性回归方差齐指的是残差项在不同自变量取值下具有相同的方差,即各组残差具有相同的离散程度。可以通过绘制标准化预测值与标准化残差的散点图来检验多元线性回归的方差齐性。以标准化预测值为横坐标,以标准化残差为纵坐标,绘制散点图。

①数据标准化处理

首先将保存的残差值和预测值进行标准化处理,在SPSSAU【数据处理】模块,选择【生成变量】,选中残差值和预测值,在“量纲处理”选择标准化处理,点击“确认处理”,操作如下图:

②散点图绘制

以标准化预测值为X轴,以标准化残差为Y轴,绘制散点图,得到散点图如下:

如果方差齐性假设成立,则散点图中的点应该大致均匀分布在坐标系中,散点的分布情况不会因为标准化预测值的变化而改变。从上图可以看出,散点基本均匀分布在坐标系中,无明显趋势,所以可以认为满足假设4,即残差近似满足方差齐性。

(5)检验假设5:多重共线性

自变量之间不存在多重共线性,如果存在多重共线性,那么自变量之间的线性关系会导致回归系数的估计变得不稳定,增加标准误差,从而影响预测的准确性。同时,多重共线性还会导致t检验和P值失去意义,无法准确判断自变量对因变量的影响。在多元线性回归分析中,我们通常使用方差膨胀因子(VIF值)来检测多重共线性。

SPSSAU线性回归分析结果输出共线性诊断结果如下:

SPSSAU同时输出VIF值和容忍度值(容忍度=1/VIF,二者选其一即可,通常描述VIF值)。一般认为,当VIF值大于5时(或容忍度小于0.2),存在严重的多重共线性问题。分析上表知,VIF值均小于5,所以认为本案例自变量之间不存在多重共线性问题,满足假设5。

如果存在共线性问题,可以通过移除共线性变量、使用逐步回归、岭回归或者增加样本量等方式进行处理。

综上所述,本案例数据满足使用多元线性回归分析的假设,可以进行分析。

四、线性回归分析

本案例线性回归分析结果如下:

对于多元线性回归模型的检验可以分为两部分:①多个自变量与因变量这个整体的显著性检验(F检验);②每个自变量对因变量影响的显著性检验(t检验),二者检验目的不同。

(1)模型检验

\begin{aligned}H_0&:\beta_1=\beta_2=\cdots=\beta_m=0\\H_1&:\beta_1,\beta_2,\cdots,\beta_m\text{ 不全为 0}\end{aligned}

检验统计量

F=\frac{MS_\text{回归 }}{ M S _\text{残差 }}

当H0为真时,统计量F服从自由度为m和n-m-1的F分布,其中,n为样本量,m为回归模型中的自变量个数,加入自变量回归系数全为0,则Y与各个自变量没有任何关系,这就失去了建立回归方程的意义,故当检验结果为拒绝H0时,称该回归模型是有统计学意义的。

SPSSAU多元线性回归分析F检验输出结果如下:

从上表回归模型方程分析结果可知,F=9.2572,p=0.0005<0.05,所以拒绝原假设H0,即回归模型有统计学意义。

(2)单个回归系数检验

回归系数显著性检验是指每个自变量对因变量影响的显著性检验,使用t检验进行。SPSSAU输出每个自变量对因变量影响的t检验结果如下:

分析上表可知,总胆固醇与甘油三酯对应t检验的p值均小于0.05,说明两变量均对空腹血糖具有显著影响。

(3)影响大小比较

自变量对因变量影响大小的比较是通过标准化回归系数进行比较的。标准化回归系数的绝对值越大,说明该自变量对因变量的影响越大。

标准化回归系数,是对自变量和因变量同时进行标准化处理后所得到的回归系数,数据经过标准化处理后消除了量纲、数量级等差异的影响,是的不同变量之间具有可比性,因此使用标准化回归系数比较不同自变量对因变量的影响大小。

分析结果可知,总胆固醇和甘油三酯的标准化回归系数分别为0.4788和0.2944,说明二者均对空腹血糖有显著正态性影响,且相对来讲总胆固醇的影响更大一些。

(4)模型公式

从分析结果可以看出,模型公式为:空腹血糖=4.985 + 0.212*总胆固醇 + 0.351*甘油三酯,模型R方值为0.334,意味着总胆固醇、甘油三酯可以解释空腹血糖的33.4%变化原因。

特别提示:构建回归模型使用非标准化回归系数,它是方程中不同自变量对应的原始回归系数,反映了在其他自变量不变的情况下,该自变量每变化一个单位对因变量作用的大小。通过非标准化回归系数构建的回归方程,才可以对因变量进行预测。

更多分析结果可登录SPSSAU查看,在此不再进行赘述。

五、结论

本案例使用多元线性回归分析研究总胆固醇和甘油三酯对空腹血糖的影响,研究发现,总胆固醇和甘油三酯均会对空腹血糖产生显著正向影响,其中总胆固醇的影响更大一点。

六、知识小贴士

(1)R方值多少合适?

R平方值表示模型拟合能力的大小,比如0.3表示自变量X对于因变量Y有30%的解释能力。这个值介于0~1之间,越大越好。但实际研究中并没有固定的标准,有的专业0.1甚至0.05这样都可以,但有的专业却常常出现0.8以上。一般情况下只需要报告此值即可,不用过多关注其大小,原因在于多数时候我们更在乎X对于Y是否有影响关系即可。

(2)回归系数非常非常小或者非常非常大?

如果说数据的单位很大,不论是自变量X还是因变量Y;此种数据会导致结果里面的回归系数出现非常非常小,也或者非常非常大。此种情况是正常现象,但一般需要对数据进行统一取对数处理,以减少单位问题带来的‘特别大或特别小的回归系数’问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/951625.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PocketMiner:基于深度学习发现蛋白的隐式口袋

文章目录 1. 文章简介2. 前言3. 方法3.1 模型框架 4. 结果4.1 已知隐式口袋在分子动力学模拟分析迅速打开4.2 图神经网络模型能够准确预测模拟中口袋的动态变化4.3 隐式口袋数据集数据集揭示了新的隐式口袋形成的模式4.4 PocketMiner能够从无配体的蛋白结构中精准预测预测口袋4…

2007-2022年上市公司污染排放数据/2007-2022年上市公司污染排放水平、污染排放量数据

2007-2022年上市公司污染排放数据/2007-2022年上市公司污染排放水平、污染排放量数据 1、时间&#xff1a;2007-2022年 2、指标&#xff1a;证券代码、year、化学需氧量、氨氮排放量、总氮、总磷、水体综合污染当量对数、二氧化硫、氮氧化物、烟尘、空气综合污染当量对数、总…

小游戏分发平台如何以技术拓流?

2023年&#xff0c;小游戏的发展将受到多方面的影响&#xff0c;例如新技术的引入、参与小游戏的新玩家以及游戏市场的激烈竞争等。首先&#xff0c;新技术如虚拟现实&#xff08;VR&#xff09;、增强现实&#xff08;AR&#xff09;和机器人技术都可以带来新颖的游戏体验。其…

滑动窗口实例1(长度最小的子数组)

题目&#xff1a; 给定一个含有 n 个正整数的数组和一个正整数 target 。 找出该数组中满足其和 ≥ target 的长度最小的 连续子数组 [numsl, numsl1, ..., numsr-1, numsr] &#xff0c;并返回其长度。如果不存在符合条件的子数组&#xff0c;返回 0 。 示例 1&#xff1a; …

VC++使用Microsoft Speech SDK进行文字TTS朗读

Microsoft Speech SDK下载地址 https://www.microsoft.com/en-us/download/details.aspx?id=10121 需要msttss22L.exe、SpeechSDK51.exe、SpeechSDK51LangPack.exe三个,下载后全部安装 使用VS2005建立一个win32控制台项目 朗读"hello word"、中文“你好”的程序 …

百科有不需要的信息怎么删除?

百科词条的权威性众所周知&#xff0c;所以百度百科的内容审核也非常严格&#xff0c;百科营销成为目前网络营销工作中一个难点&#xff0c;很多企业无法得到自己完全满意的百度百科词条 &#xff0c;这其实也是合理的。小马识途营销顾问分析&#xff0c;百科词条内容是提供给广…

10、【WebGIS实战】图层篇——通用服务图层加载全流程(适用于全部图层)

大家好,我是X北辰北。本文是「WebGIS实战」系列,关注这个标签,阅读所有文章,成为WebGIS开发高手。 图层可以理解为添加到地图上面的数据,比如我们要在地图上展示成都市所有大型公园的位置,那么当前地图中除了初始化地图时添加的底图之外,在底图的上面我们还叠加了一份关…

HuggingFace中的 Files and versions 如何优雅下载到本地?(Python requests,tqdm)

前言 在使用huggingface把玩各种大模型时&#xff0c;如果选择从远程加载模型&#xff0c;这个过程可能因为网络问题而非常耗时甚至直接失败&#xff0c;所以把模型、分词器等相关文件下载到本地&#xff0c;再直接从本地加载就成了不可回避的流程。 在进入具体版本的模型后&…

新版Mongodb(6.0以上)找不到mongo.exe

安装目录下/bin目录中&#xff0c;没有mongo.exe文件&#xff0c;只有mongod和mongos&#xff0c;以及一个powershell命令脚本。 原因在于&#xff0c;mongodb6.0以后做出了重大改变&#xff0c;mongodb已经不再默认为你安装shell工具&#xff0c;因此需要安装一个额外的shell…

二十二、迭代器模式

一、什么是迭代器模式 迭代器&#xff08;Iterator&#xff09;模式的定义&#xff1a;迭代器模式是一种对象行为型模式&#xff0c;它提供一个对象来顺序访问聚合对象中的一系列数据&#xff0c;而不暴露聚合对象的内部表示。   迭代器模式包含以下主要角色: 抽象聚合&…

字符串匹配的Rabin–Karp算法

leetcode-28 实现strStr() 更熟悉的字符串匹配算法可能是KMP算法, 但在Golang中,使用的是Rabin–Karp算法 一般中文译作 拉宾-卡普算法,由迈克尔拉宾与理查德卡普于1987年提出 “ 要在一段文本中找出单个模式串的一个匹配&#xff0c;此算法具有线性时间的平均复杂度&#xff0…

【XAMPP】启动数据库Error: MySQL shutdown unexpectedly.

问题&#xff1a; 启动MySQL时报错如下&#xff1a; Error: MySQL shutdown unexpectedly. This may be due to a blocked port, missing dependencies, improper privileges, a crash, or a shutdown by another method. Press the Logs button to view error logs and check…

SQL-子查询

SQL 子查询 是指将一个SELECT查询&#xff08;子查询&#xff09;的结果用括号括起来作为另一个SQL语句的数据来源或者判断条件

RK3399平台开发系列讲解(入门篇)内核模块详细加载/卸载过程

🚀返回专栏总目录 文章目录 一、 ko文件的文件格式二、内核模块加载过程三、内核模块卸载过程沉淀、分享、成长,让自己和他人都能有所收获!😄 📢 本篇将介绍内核模块详细加载/卸载过程。 一、 ko文件的文件格式 “KO” 文件通常是指 Linux 内核模块文件,这些文件包含…

现货黄金走势图中的止盈点

对平仓时机的把握能力&#xff0c;是衡量现货黄金投资者水平的重要标志&#xff0c;止盈点设置得是否合理&#xff0c;在行情兑现的时候能否及时地离场&#xff0c;是事关投资者账户浮盈最终能否落袋为安的“头等大事”&#xff0c;要在现货黄金走势图中把握止盈点&#xff0c;…

【LeetCode-中等题】230. 二叉搜索树中第K小的元素

文章目录 题目方法一&#xff1a;层序遍历 集合排序方法二&#xff1a;中序遍历&#xff08;栈 或者 递归 &#xff09;方法三&#xff08;方法二改进&#xff09;&#xff1a;中序遍历&#xff08;栈 &#xff09; 题目 该题最大的特点就是这个树是二叉树&#xff1a; 所以…

自然语言处理(六):词的相似性和类比任务

词的相似性和类比任务 在前面的章节中&#xff0c;我们在一个小的数据集上训练了一个word2vec模型&#xff0c;并使用它为一个输入词寻找语义相似的词。实际上&#xff0c;在大型语料库上预先训练的词向量可以应用于下游的自然语言处理任务&#xff0c;为了直观地演示大型语料…

C语言:递归思想及实例详解

简介&#xff1a;在计算机科学中是指一种通过重复将问题分解为同类的子问题而解决问题的方法。通过函数的自调用化繁为简。 递归可以说是编程中最神奇的一种算法。因为我们有时候可能不能完全明晰代码的运行过程&#xff0c;但是我们却知道代码可以跑出正确的结果。而当我们使…

docker打包vue vite前端项目

打包vue vite 前端项目 1.打包时将测试删除 2.修改配置 3.打包项目 npm run build 显示成功&#xff08;黄的也不知道是啥&#xff09; 打包好的前端文件放入 4.配置 default.conf upstream wms-app {server 你自己的ip加端口 ;server 192.168.xx.xx:8080 ; } server { …

Vulnhub: Ragnar Lothbrok: 1靶机

kali&#xff1a;192.168.111.111 靶机&#xff1a;192.168.111.226 信息收集 端口扫描 nmap -A -sC -v -sV -T5 -p- --scripthttp-enum 192.168.111.226 作者提示修改hosts文件 目录爆破 gobuster dir -u http://armbjorn -w /usr/share/wordlists/dirbuster/directory-l…