R语言分析糖尿病数据:多元线性模型、MANOVA、决策树、典型判别分析、HE图、Box's M检验可视化...

news2024/12/24 0:14:53

全文链接:https://tecdat.cn/?p=33609

Reaven和Miller(1979)研究了145名非肥胖成年人的葡萄糖耐量和胰岛素血液化学指标之间的关系。他们使用斯坦福线性加速器中心的PRIM9系统将数据可视化为3D,并发现了一个奇特的图案,看起来像是一个有两个翼的大斑点点击文末“阅读原文”获取完整代码数据)。

相关视频

背景

本文帮助客户使用这些数据来说明多元线性模型的各种图形方法。

设置

读取数据

str(Diabetes)

outside_default.png

这些变量是:

  • relwt:相对体重,表示实际体重与人的身高相比的期望体重的比率

  • glufast:空腹血浆葡萄糖水平

  • glutest:测试血浆葡萄糖水平,测量葡萄糖不耐受的程度,

  • instest:测试中的血浆胰岛素,测量口服葡萄糖的胰岛素反应,

  • sspg:稳态血浆葡萄糖,测量胰岛素抵抗性

  • group:诊断组

数据的椭圆和方差齐性

我们首先绘制数据集中三个变量的协方差椭圆。

从这个结果中可以清楚地看出,这里存在方差-协方差矩阵的异质性问题。正常组显示了最小的方差,而明显糖尿病组则显示了最大的方差。

covEllipses(Diabetes

outside_default.png

然而,在其他面板中并非如此,在那里化学糖尿病群体与正常人在一个方向上不同,而明显糖尿病群体在另一个方向上有所不同,并且其内部群体相关性与其他群体呈相反的符号。这在单独的散点图中更容易看到,例如以下示例。

outside_default.png

另外,我们注意到可以使用scatter3d``car包中的三维散点图更容易地看到组之间的差异。

scatter3d

outside_default.png

带有50%数据椭圆体的糖尿病数据的三维散点图


点击标题查阅往期内容

outside_default.png

数据分享|PYTHON用决策树分类预测糖尿病和可视化实例

outside_default.png

左右滑动查看更多

outside_default.png

01

outside_default.png

02

outside_default.png

03

outside_default.png

04

outside_default.png

Box's M检验

Box's M检验确认协方差矩阵存在显著的异质性。

diab.boxm <- box

outside_default.png

outside_default.png

对数行列式按照我们在协方差椭圆图中看到的数据椭圆体的大小进行排序。

拟合MLM模型

对组间均值差异拟合MANOVA模型。

MANOVA显示group对响应变量集合有高度显著影响。

Anova(diab.mlm)

outside_default.png

在 QQ 图中检查残差

MANOVA 的另一个假设是残差服从多元正态分布。可以通过卡方 QQ 图进行视觉评估。从下图可以看出,数据点与红色的等值线明显不同。有太多具有较大 D2 值的数据点。

qplot(da.ml)

outside_default.png

HE 图

HE 图显示了各均值之间的 H 椭圆以及误差的 E 椭圆。

默认情况下,将绘制前两个响应变量。结果显示出在 Normal 和 Chemical 变量上的均值排序较为明显。

hplot(diab.

outside_default.png

对于 MLM 的方法会给出一个散点图矩阵,其中包含所有响应变量之间的 HE 图。从结果中可以看出,Diabetes 变量的模式与其他变量不同。

pairs(diblm, fill=TRUE, fill.alpha=0.1)

outside_default.png

典型判别分析

典型判别分析将数据有效地投影到响应的线性组合空间,这个空间解释了组间方差相对于组内方差的最大比例。

diab.an

outside_default.png

典型判别图

plot(dib.an, fill=TRUE, fill.alpha=0.1)

通过一个对象的方法,将典型维度上的分数绘制出来,并在每个组上叠加 60% 的数据椭圆。组均值的位置显示了它们在典型维度上的表现。

响应变量与典型维度的关系通过矢量(类似于双标图)显示出来。每个矢量由其与典型维度的相关系数(结构系数)定义。

plot(diab.can, ellipse=TRUE, var.lwd=2)

outside_default.png 在这个图中可以看到:

  • 第一维与glufastglutest高度相关,而且组别按照Normal < Chemical < Overt的顺序排列。

  • 第二维将Diabetic组与其他两个组区分开来。这个维度与检测过程中的血浆胰岛素水平密切相关。这验证了我们在HE矩阵图中对所有响应变量的观察结果。

  • 规范化的得分数据椭圆的相对大小是方差异质性缺乏的另一个视觉指标。

规范化的HE图

使用规范判别分析的HE图可以概括展示出规范判别分析的结果。变量向量与规范结构图中的变量向量相同。plot(dbcn, fill=c(TRU=0.1, var.lwd=2)

outside_default.png

## 矢量比例因子设置为12.06

线性判别分析和二次判别分析

线性判别分析(LDA)与多元方差分析(MANOVA)类似,但重点是分类而不是测试均值之间的差异。此外,LDA允许指定组成员身份的先验概率,以使分类错误率与所关注人群中获得的结果可比较。二次判别分析允许组之间的协方差矩阵存在差异,并给出二次而不是线性的分类边界。

从LDA的角度来看,可视化结果的一个目标是通过LD1和LD2的得分来查看分类的边界。

outside_default.png

递归分区决策树

递归分区是一种创建决策树的方法,旨在对人群的成员进行分类。它使用预测因子的二分间隔将数据递归地分割成子群体。对于糖尿病数据,结果非常简单:当glutest < 420时,将正常组与两个临床组区分开来。对于后者,glufast < 117将个体分类为化学性糖尿病而不是明显性糖尿病。

diabart <- rpart(

outside_default.png

使用rpart.plot包可以绘制分区树的漂亮图形。节点中的数字给出了每个组中分类的比例。

rpart.plot(, box.pal

outside_default.png

这样做效果如何?我们可以查看预测的组成员资格与实际结果之间的表格,并计算错误率。效果还不错!

(class.pred <- table(predicted

# 错误率
1 - sum(diag(class.pred))/sum(class.pred)
## [1] 0.013

outside_default.png

参考资料

Friendly, M. & Sigal, M. (2017) Visualizing Tests of Equality of Covariance Matrices. Submitted for publication.

Reaven, G. M. & Miller, R. G. (1979). An Attempt to Define the Nature of Chemical Diabetes Using a Multidimensional Analysis Diabetologia, 16, 17-24.


outside_default.png

点击文末“阅读原文”

获取全文完整代码数据资料。

本文选自《R语言分析糖尿病数据:多元线性模型、MANOVA、决策树、典型判别分析、HE图、Box's M检验》。

outside_default.png

outside_default.png

点击标题查阅往期内容

样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化

SAS分类决策树预测贷款申请评分剪枝和结果可视化

分类回归决策树交互式修剪和更美观地可视化分析细胞图像分割数据集

PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像

PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化

R语言集成模型:提升树boosting、随机森林、约束最小二乘法加权平均模型融合分析时间序列数据

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

R语言基于树的方法:决策树,随机森林,Bagging,增强树

R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

spss modeler用决策树神经网络预测ST的股票

R语言中使用线性模型、回归决策树自动组合特征因子水平

R语言中自编基尼系数的CART回归决策树的实现

R语言用rle,svm和rpart决策树进行时间序列预测

python在Scikit-learn中用决策树和随机森林预测NBA获胜者

python中使用scikit-learn和pandas决策树进行iris鸢尾花数据分类建模和交叉验证

R语言里的非线性模型:多项式回归、局部样条、平滑样条、 广义相加模型GAM分析

R语言用标准最小二乘OLS,广义相加模型GAM ,样条函数进行逻辑回归LOGISTIC分类

R语言ISLR工资数据进行多项式回归和样条回归分析

R语言中的多项式回归、局部回归、核平滑和平滑样条回归模型

R语言用泊松Poisson回归、GAM样条曲线模型预测骑自行车者的数量

R语言分位数回归、GAM样条曲线、指数平滑和SARIMA对电力负荷时间序列预测

R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化

如何用R语言在机器学习中建立集成模型?

R语言ARMA-EGARCH模型、集成预测算法对SPX实际波动率进行预测

在python 深度学习Keras中计算神经网络集成模型

R语言ARIMA集成模型预测时间序列分析

R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林分析心脏病患者

R语言基于树的方法:决策树,随机森林,Bagging,增强树

R语言基于Bootstrap的线性回归预测置信区间估计方法

R语言使用bootstrap和增量法计算广义线性模型(GLM)预测置信区间

R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析

R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

Matlab建立SVM,KNN和朴素贝叶斯模型分类绘制ROC曲线

matlab使用分位数随机森林(QRF)回归树检测异常值

outside_default.png

outside_default.png

outside_default.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1003743.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Golang教程与Gin教程合集,入门到实战

GolangGin框架GormRbac微服务仿小米商城项目实战视频教程Docker Swarm K8s云原生分布式部署 介绍&#xff1a; Go即Golang&#xff0c;是Google公司2009年11月正式对外公开的一门编程语言&#xff0c;它不仅拥有静态编译语言的安全和高性能&#xff0c;而 且又达到了动态语言开…

将linux上的文件/文件夹下载到本地

要进行此操作 你的电脑需要有 ssh 如果没有安装 可以参考我的文章 windows系统安装SSH 其实非常简单 但您需要知道自己的文件在哪个路径下 如果不知道 例如 我知道我想下的文件叫 dist 可我不知道他在那个目录 我们可以在服务器中输入 find / -name "dist"这样 所有…

treeview形式的checkbox(wpf、c#)

如何实现treeview形式的checkbox&#xff0c;并且父节点和子节点的选中状态可相互影响。示例图&#xff1a; 代码如下&#xff1a; wpf代码&#xff1a;treeview绑定的数据是PermissionDataCollection。 <TreeView ItemsSource"{Binding PermissionDataCollection}…

只需3步,用华为云CodeArts快速搭建一个网上商城

华为云软件开发生产线CodeArts是面向开发者提供的一站式云端DevSecOps平台&#xff0c;其提供的10多个子服务覆盖了需求下发、代码提交、代码检查、代码编译、验证、部署、发布等软件交付全生命周期环节&#xff0c;提供软件研发流程的端到端支持。 华为端到端&#xff08;HE2…

ANIMALS FULL PACK (总共三十个动物)

资源包的动物包含&#xff1a;熊、野猪、鸡、牛、乌鸦、鸭子、大象、狐狸、金鹰、大雕鸮、山羊、猪、鸽子、兔子、海鸥、绵羊、麻雀、雄鹿、母鹿、狼、大象、犀牛、斑马、雄狮和母狮。此外还有一些水里的动物鲸、海豚、鲨鱼、海龟 资源链接在底部 Unity 资源商店链接 资源下载…

LLM - 批量加载 dataset 并合并

目录 一.引言 二.Dataset 生成 1.数据样式 2.批量加载 ◆ 主函数调用 ◆ 基础变量定义 ◆ 多数据集加载 3.数据集合并 ◆ Concat ◆ interleave ◆ stopping_strategy ◆ interleave_probs 三.总结 一.引言 LLM 模型基于 transformer 进行训练&#xff0c;需要先…

双token实现无感刷新

accessToken:用户获取数据权限refreshToken:用来获取新的accessToken 双 token 验证机制&#xff0c;其中 accessToken 过期时间较短&#xff0c;refreshToken 过期时间较长。当 accessToken 过期后&#xff0c;使用 refreshToken 去请求新的 token。 引入依赖 <!-- …

多版本CUDA安装切换

系统中默认的安装CUDA为12.0&#xff0c;现在需要在个人用户下安装CUDA11.7。 CUDA 下载 CUDA官网下载 安装 Log file not open.Segmentation fault (core dumped)错误 将/tmp/cuda-installer.log删除即可。重新安装&#xff0c;去掉驱动的安装&#xff0c;设置Toolkit的安装…

ST-LINK 下载器的使用

这两天我也是被这个ST-LINK搞的非常头疼&#xff0c;第一个是固件不兼容&#xff08;也就是keil5的魔法棒中显示ST-LINK connection error&#xff09;&#xff0c;第二个就是STM32 ST-LINK Utility的使用显示dll文件损坏 ST-LINK connection error 先来解决这个问题&#xff…

【附安装包】2023最新版Python安装详细教程!一键安装,永久使用

一、python官网 Python官网主要有python的About (简介)、Downloads (下载)、Documentation(文档)、Community (团体)、Success Stories (成功案例)、News (新闻)、Events (事件动态)等栏目。 Python官网地址&#xff1a;https://www.python.org/ 【领取方式见文末】 二、在…

如何选择感测型离子风机

离子风机在生产车间使用越来越广&#xff0c;对产品的要求也越来越高&#xff0c;而感测型离子风机正好满足。 感测型离子风机:内置感测和反馈功能&#xff1b;2.能快速静电中和及消除&#xff1b;高要求控制离子平衡&#xff1b;3.集感测&#xff0c;联网&#xff0c;通讯数据…

2023年数维杯数学建模C题宫内节育器的生产求解全过程文档及程序

2023年数维杯数学建模 C题 宫内节育器的生产 原题再现&#xff1a; 宫内节育器&#xff08;IUD&#xff09;是一种相对安全、有效、经济、可逆、简便&#xff0c;广大妇女易接受的节育器具&#xff0c;目前已成为我国育龄妇女的主要避孕措施。据悉&#xff0c;我国约70%妇女选…

设定excel导出时单元格的格式

一、需求 要求excel导出时&#xff0c;对应列里面的内容格式为日期&#xff0c;数值格式并有精度要求 &#xff0c;如下图&#xff1a; 使用alibaba&#xff0c;easyexcel&#xff0c;默认的导出数据格式为文本&#xff0c;excel显示为常规&#xff0c;使用数据规范注解Number…

玩转 gpgpu sim 01记 —— try it

1. 短介绍 gpgpu-sim 是一个gpu模拟器&#xff0c;可以让cuda/openCL程序运行在一个软件模拟器上&#xff0c;而不需要硬件GPU&#xff1b; 2. 目标 用最简单省事的方式跑通一个gpgpu-sim的仿真 3. gpgpu-sim 一点项目特性 开发比较早&#xff0c;没有持续的维护&#xff0…

vscode搭建Django自带后台管理系统

文章目录 一、django自带的后台管理系统1. 建表2. 后台管理系统2.1 创建账号2.2 运行后台2.3 登录 二、模版渲染1. 直接将数据渲染到页面2. 数据传递给js 三、数据库1. 查看当前数据库2. 创建UserInfo数据表3. Django rest framework配置 四、vue前端搭建1. 在Django项目的根目…

vue 使用canvas 详细教程

Vue.js 中使用 Canvas Vue.js 是一个流行的 JavaScript 框架&#xff0c;用于构建用户界面。它提供了一种简洁的方式来管理和渲染数据&#xff0c;同时也支持与其他库和工具的集成。要在 Vue.js 中使用 Canvas&#xff0c;您可以按照以下步骤进行操作&#xff1a; 在 Vue.js …

Visual Studio 2022安装SVN插件教程

1. 第一步&#xff1a;避免踩坑&#xff0c;超级重要&#xff01;&#xff01;&#xff01;关闭Visual Studio 2022应用程序&#xff1b;&#xff08;不然插件装不上&#xff0c;一直转圈&#xff01;&#xff09; 2.第二步&#xff1a;下载Visual Studio 2022版本对应的SVN插件…

最新IDE流行度最新排名(每月更新)

2023年09月IDE流行度最新排名 顶级IDE排名是通过分析在谷歌上搜索IDE下载页面的频率而创建的 一个IDE被搜索的次数越多&#xff0c;这个IDE就被认为越受欢迎。原始数据来自谷歌Trends 如果您相信集体智慧&#xff0c;Top IDE索引可以帮助您决定在软件开发项目中使用哪个IDE …

Excel显示列号

默认表格打开列以字母显示 设置方法 文件 -> 工具 -> 选项 -> 常规与保存 设置后效果如下图

2023年在线教育行业研究报告

第一章 行业概况 1.1 定义 随着技术的飞速发展和互联网的普及&#xff0c;我们的学习方式正在经历一场革命。在线教育&#xff0c;作为这场变革的核心&#xff0c;已经成为全球教育领域的热门话题。但究竟什么是在线教育行业呢&#xff1f; 在线教育行业是指通过互联网平台提…