什么是LASSO回归,怎么看懂LASSO回归的结果

news2024/11/28 8:28:24

随着机器学习的发展,越来越多SCI文章都使用了更多有趣、高效的统计方法来进行分析,LASSO回归就是其中之一。很多小伙伴听说过LASSO,但是对于LASSO是什么,有什么用,怎么才能实现,大家可能一头雾水。今天的文章就带大家认识“神秘的LASSO”。

1.什么是LASSO?

LASSO,全称Least absolute shrinkage and selection operator,是一种数据挖掘方法,即在常用的多元线性回归中,添加惩罚函数,不断压缩系数,从而达到精简模型的目的,以避免共线性和过拟合。当系数为0时,同时达到筛选变量的效果。(以下是一个不严谨的示意图)

所以,LASSO回归高效解决了筛选变量的难题:区别于传统的逐步回归stepwise前进、后退变量筛选方法,LASSO回归可以利用较少样本量,高效筛选较多变量。比如在基因组学、影像学、以及其他小样本分析中,LASSO回归都可以派上大用场。

2.LASSO在SCI文章中的应用

‍说了这么多,下面我们通过一篇4.6分的SCI文章,了解LASSO回归的实际应用吧。

文章标题:A prognostic nomogram based on LASSO Cox regression in patients with alpha-fetoprotein-negative hepatocellular carcinoma (AFP-NHCC) following non-surgical therapy

图片

翻译成中文:基于LASSO cox回归的非手术治疗后甲胎蛋白阴性肝癌患者的预测列线图。

本研究的目的是应用一种新的方法来建立和验证一种新的预测AFP-NHCC患者预测的模型。下面我们用PICOS原则来拆解文章:

558例AFP阴性的肝癌患者。

I &C 患者基线或治疗相关的指标。

从诊断为肝癌到最后一次随访或死亡的时间。

S 队列研究,生存分析类型文章。

文章的主要结论是:基于LASSO Cox回归的nomogram对于非手术治疗肝癌患者的预后预测更加准确和有用。该模型可以帮助肝癌患者在非手术治疗后进行个性化的预后评估。

接下来看文章相关图表,下面就是LASSO模型会输出的两张图,这两张图展示了LASSO是如何工作的。

图片

图A:23个危险因素的LASSO系数路径图。图B:交叉验证曲线。

3.LASSO回归结果的解读

先看A图:回归系数路径图。该文章中纳入了23个变量,便有23条不同颜色的线。每条线上都有变量编号。即每一条曲线代表了每一个自变量系数的变化轨迹,纵坐标是系数的值,下横坐标是log(λ),上横坐标是此时模型中非零系数的个数。

图片

我们可以看到,随着参数log λ增大,回归系数(即纵坐标值)不断收敛,最终收敛成0。例如,最上面那条代表的自变量12在λ值很大时就有非零的系数,然后随着λ值变大不断变小。

图B是LASSO回归的交叉验证曲线。

图片

X轴是惩罚系数的对数 log λ,Y轴是似然偏差,Y轴越小说明方程的拟合效果越好。最上面的数字则为不同λ时,方程剩下的变量数。图上打了黄色和绿色标签的两条虚线,代表两个特殊的lambda(λ)值。

左边虚线为λ min,意思是偏差最小时的λ ,代表在该lambda取值下,模型拟合效果最高。变量数是16,相比λ-se,保留下来的变量更多。

右边虚线为λ-se,意思是最小λ右侧的1个标准误。在该λ取值下,构建模型的拟合效果也很好,同时纳入方程的个数更少,模型更简单。因此,临床上一般会选择右侧的λ1-se作为最终方程筛选标准。

从上图可以看到,本方程λ-se对应的变量数量是5,所以最终纳入了5个变量进入方程。至于是哪5个,在用软件具体分析的时候会有展示,系数不为0的就是最终纳入的变量:(下图为示意图,不是本文结果)

图片

使用这5个变量,就可以正常纳入回归方程进行数据分析了,比如本文的预测模型nomogram,就是使用筛选出来的5个变量进行的分析。

图片

除此之外,文章作者还使用传统变量筛选法,也做了一个COX分析,同时比较传统模式和LASSO回归挑选出来变量的AUC的区别,证明了在验证模型中,LASSO回归的效果确实要优于传统方法,从侧面也验证了LASSO回归的高效之处。

4.总结

好了,以上就是关于LASSO回归的定义、作用,以及结果解读,希望能够让大家对LASSO还有一个宏观的认识。关于怎么使用R软件快速做出一个LASSO回归,如果大家感兴趣,可以动动小手分享本文,本文阅读量超过3000,我们就再开一期教程,手把手带大家做出LASSO回归!

易侕科研是一个专注于临床研究设计、统计分析、数据库搭建的团队,关注我们,查看更多科研干货文章。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1254375.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

每日一题2023.11.26——个位数统计【PTA】

题目要求: 输入格式: 每个输入包含 1 个测试用例,即一个不超过 1000 位的正整数 N。 输出格式: 对 N 中每一种不同的个位数字,以 D:M 的格式在一行中输出该位数字 D 及其在 N 中出现的次数 M。要求按 D 的升序输出。…

【华为数通HCIP | 网络工程师】821-IGP高频题、易错题之OSPF(7)

个人名片: 🐼作者简介:一名大三在校生,喜欢AI编程🎋 🐻‍❄️个人主页🥇:落798. 🐼个人WeChat:hmmwx53 🕊️系列专栏:🖼️…

blender 3D眼球结构

角膜(Cornea):眼球的前部,透明的曲面,负责折射光线。虹膜(Iris):眼睛的颜色部分,控制瞳孔大小以调整进入眼睛的光量。瞳孔(Pupil):虹膜…

S25FL系列FLASH读写的FPGA实现

文章目录 实现思路具体实现子模块实现top模块 测试Something 实现思路 建议读者先对 S25FL-S 系列 FLASH 进行了解,我之前的博文中有详细介绍。 笔者的芯片具体型号为 S25FL256SAGNFI00,存储容量 256Mb,增强高性能 EHPLC,4KB 与 6…

快速幂算法详解(C++实现)

文章目录 1. 什么是快速幂2. 暴力求解代码实现缺陷分析 3. 优化一:取模运算的性质4. 优化二:快速幂算法的核心思想5. 终极优化:位运算优化6. 源码 这篇文章我们来一起学习一个算法——快速幂算法。 1. 什么是快速幂 顾名思义,快速…

中海油“海安杯”一站到底知识竞赛真的很有特色

中海油“海安杯”一站到底知识竞赛规格高,赛制复杂,天纵知识竞赛系统为此次知识竞赛提供了软件支持。本次竞赛设置选手区和擂台区两个区域。比赛共分为五个轮次,五个轮次选手区所有参赛选手均需答题。 第一轮:“脱颖而出” 所有参…

叠加原理(superposition principle)

叠加原理(superposition principle)指对线性系统而言,两个或多个输入产生的输出,等于这几个输入单独引起的输出的和,即输入的叠加等于各输入单独引起的输出的叠加。 例如,如果输入产生的输出是,…

B树与B+树的对比

B树: m阶B树的核心特性: 树中每个节点至多有m棵子树,即至多含有m-1个关键字根节点的子树数属于[2, m],关键字数属于[1, m-1],其他节点的子树数属于 [ ⌈ m 2 ⌉ , m ] [\lceil \frac{m}{2}\rceil, m] [⌈2m​⌉,m]&am…

Spring的依赖注入,依赖注入的基本原则,依赖注入的优势

文章目录 Spring的依赖注入依赖注入的基本原则依赖注入有什么优势查找定位操作与应用代码完全无关。有哪些不同类型的依赖注入实现方式?构造器依赖注入和 Setter方法注入的区别 Spring的依赖注入 控制反转IoC是一个很大的概念,可以用不同的方式来实现。…

电子学会C/C++编程等级考试2022年09月(二级)真题解析

C/C++等级考试(1~8级)全部真题・点这里 第1题:统计误差范围内的数 统计一个整数序列中与指定数字m误差范围小于等于X的数的个数。 时间限制:5000 内存限制:65536输入 输入包含三行: 第一行为N,表示整数序列的长度(N <= 100); 第二行为N个整数,整数之间以一个空格分…

【教学类-06-12】20231126 (一)如何让加减乘除题目从小到大排序(以1-20之间加法为例,做正序排列用)

结果展示 优化后 优化前 背景需求&#xff1a; 生成列表 单独抽取显示题目排序方法 存在问题: 我希望 00 01 02……这样排序&#xff0c;但是实际上&#xff0c;除了第一个加数会从小到大排序&#xff0c;第二个被加数的第十位数和个位数都会从小到大排序&#xff0c;也就是…

定长子网划分和变长子网划分问题_二叉树解法_通俗易懂_配考研真题

引入:定长子网划分和变长子网划分的基本概念 定长子网划分和变长子网划分的基本概念 目前常用的子网划分&#xff0c;是基于CIDR的子网划分&#xff0c;也就是将给定的CIDR地址块划分为若干个较小的CIDR地址块。 定长子网划分: 使用同一个子网掩码来划分子网&#xff0c;因…

使用VC++设计程序对一幅256级灰度图像进行全局固定阈值分割、自适应阈值分割

图像分割–全局固定阈值分割、自适应阈值分割 获取源工程可访问gitee可在此工程的基础上进行学习。 该工程的其他文章&#xff1a; 01- 一元熵值、二维熵值 02- 图像平移变换&#xff0c;图像缩放、图像裁剪、图像对角线镜像以及图像的旋转 03-邻域平均平滑算法、中值滤波算法、…

线性表,也是Java中数组的知识点!

线性表定义&#xff1a; 由n (n≥0)个数据特性相同的元素构成的有限序列称为线性表&#xff0c;(n0)的时候被称为空表。 线性表的顺序表示 线性表的顺序存储又被称为顺序表 优点 无需为表示表中元素之间的逻辑关系而增加额外的存储空间可以随意读取任意位置的元素 缺点 插入…

Autosar MCAL-RH850P1HC-MCAL配置环境搭建

文章目录 前言下载安装包软件安装安装SIP包安装MCAL文件配置工程配置生成代码测试静态代码路径总结前言 对于RH850P1HC,官网有免费的MCAL,但官网的MCAL没有CAN模块(原厂反馈为Bosch IP,CAN Driver他们没有),也没有FEE模块。如果需要,可以找第三方软件公司,如ETAS.虽然M…

机器学习:攻击方法FGSM系列

任务 FGSM I-FGSM MI-FGSM Ensemble Attack 攻击评价指标 准确率越低表明攻击越好 数据 预训练模型 BaseLine 实践

SpringBoot——LiteFlow引擎框架

优质博文&#xff1a;IT-BLOG-CN 一、LiteFlow 简介 LiteFlow是一个轻量且强大的国产规则引擎框架&#xff0c;可用于复杂的组件化业务的编排领域。帮助系统变得更加丝滑且灵活。利用LiteFlow&#xff0c;你可以将瀑布流式的代码&#xff0c;转变成以组件为核心概念的代码结构…

计算机组成原理-Cache的基本概念和原理

文章目录 存储系统存在的问题Cache的工作原理局部性原理性能分析例题界定何为局部部分问题总结 存储系统存在的问题 增加Cache层来缓和CPU和主存的工作速度矛盾 Cache的工作原理 启动某个程序后&#xff0c;将程序的代码从辅存中取出放入内存中&#xff0c;再从内存中将代码…

nginx反向代理解决跨域前端实践

需求实现 本地请求百度的一个搜索接口&#xff0c;用nginx代理解决跨域思路&#xff1a;前端和后端都用nginx代理到同一个地址8080&#xff0c;这样访问接口就不存在跨域限制 本地页面 查询一个百度搜索接口&#xff0c;运行在http://localhost:8035 index.js const path …

Kanna库代码示例

编写一个使用Kanna库的网络爬虫程序。以下是代码的详细解释&#xff1a; swift import Kanna // 创建一个对象 let proxy Proxy(host: ") // 创建一个Kanna对象 let kanna Kanna(proxy: proxy) // 创建一个请求对象 let request Request(url: "") // 使用…