【机器学习300问】110、什么是Lasso回归模型?

news2025/1/21 12:02:57

        LASSO回归的全称是Least Absolute Shrinkage and Selection Operator,中文叫“最小绝对收缩和选择算子”,用一个比喻来初步感受一下它的作用:

        想象你在整理一个杂乱无章的房间,里面堆满了各种物品(代表众多的预测变量),有些物品对你来说很有价值(真正影响结果的变量),而有些则是可有可无的杂物(与结果关系不大或无关的变量)。Lasso回归就像是一个高效的空间整理师,它不仅帮你整理出最重要的几样物品,还会把那些不重要的杂物直接扔出门外,让你的房间变得干净整洁,同时也更容易找到你需要的东西。

Lasso回归可以有效应对多重共线性问题,即使在预测变量高度相关的情况下也能表现良好。

一、Lasso回归的原理

(1)数学表达

J = \frac{1}{2n} [\sum_{i=1}^n (y_i - \sum_{j=1}^p \beta_j x_{ij})^2 + \alpha \sum_{j=1}^p |\beta_j|]

在这个表达式中:

第一部分:\frac{1}{2n} \sum_{i=1}^n (y_i - \sum_{j=1}^p \beta_j x_{ij})^2是回归模型的均方误差(MSE)

第二部分:\alpha \sum_{j=1}^p |\beta_j|是参数向量的L1范数乘以一个调节参数α

n代表样本的数量,p 代表自变量的数量,y_i代表因变量的第i个观测值,\beta_j代表第j个回归系数,x_{ij}代表第i个观测的第j个自变量的值。α是正则化参数,它控制着L1惩罚的强度。

(2)文字说明

        LASSO的目标函数包括数据拟合项和惩罚项,其中惩罚项是系数的L1范数,这使得部分系数严格收缩到零,从而实现自动的特征选择。

        Lasso回归的目标是最小化误差平方和,同时施加所有系数的绝对值之和的惩罚。这种类型的正则化(L1正则化)可以导致系数的某些估计值精确地等于0。这意味着,Lasso回归可以有效地进行变量选择,并确定最重要的变量。L1正则化有助于处理特征数量可能多于样本数量的问题,防止模型过拟合,并且可以增强模型的预测能力。

        这个过程就好比是用一根神奇的橡皮筋绑在所有物品上,然后逐渐拉紧。对于那些不那么重要的物品(即对预测结果贡献小的变量),橡皮筋会直接把它们的“价值”(系数)拉到零,仿佛它们从未存在过,从而实现了变量的选择性剔除;而对于关键物品(重要变量),即便橡皮筋拉得很紧,它们依然能保持一定的“体积”(非零系数),因为它们对房间的布局(模型结果)至关重要。

        Lasso的L1惩罚项尤其在变量的数量很大时有用,当中只有少数几个因素实际影响响应变量,因此该方法能够自动进行特征选择并输出一个简洁模型。一个合适的α值可以通过交叉验证获得,α的最佳值应平衡误差平方和的减少和模型复杂度的降低(即系数的稀疏性)。

二、Lasso回归的局限性

        Lasso回归非常强大,拥有特征选择、处理多重共线性等优点,但也存在局限性:

(1)计算成本与速度

        Lasso回归没有显式解,这意味着不能像求解普通线性回归那样直接得到参数估计。相反,需要依赖迭代算法,如坐标下降法或最小角回归等。这些算法虽然有效,但相比有显式解的方法,计算成本较高,尤其是在处理大规模数据集时,可能会显得较慢。

(2)连续型变量的处理

        Lasso回归采用的L1范数惩罚可能导致对连续型变量的变化非常敏感。即使变量的小幅变动也可能引起系数的大幅度变化,有时甚至将重要变量的系数“挤压”至零,这可能不是我们期望的结果。相比之下,岭回归使用L2范数惩罚,对连续变量的处理更为温和。

(3)变量选择的不稳定性

        Lasso回归在变量选择上的结果可能不稳定,特别是当存在多个高度相关的预测变量时。数据的微小变化或正则化参数λ的轻微调整都可能导致选入或排除的变量发生变化,这种现象被称为“阈值效应”。

(4)系数的非唯一性

        在某些情况下,Lasso回归得到的系数解可能不是唯一的,特别是当存在多个变量高度相关时。这增加了结果解释的难度。虽然Lasso可以减少模型的复杂度,避免过拟合,但过度的正则化(即选择较大的λ值)可能会引入偏差,导致模型欠拟合,即无法充分捕捉数据的真实结构。尽管稀疏性是Lasso的一个吸引人的特性,它意味着模型只保留少数重要的特征,但在某些场景下,如果所有的特征都对预测有贡献,过于追求稀疏性可能会牺牲模型的预测性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1801387.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python数据可视化:断续水平条形图 matplotlib.pyplot.broken_barh()

【小白从小学Python、C、Java】 【考研初试复试毕业设计】 【Python基础AI数据分析】 python数据可视化: 断续水平条形图 matplotlib.pyplot.broken_barh() [太阳]选择题 关于以下代码下列说法正确的是? import matplotlib.pyplot as plt x [(10, 5),(…

[职场] 美术学就业方向和前景 #经验分享#学习方法

美术学就业方向和前景 2011年国务院学位委员会、教育部颁布了新的《学位授予和人才培养学科目录》,艺术学首次从文学门类中独立出来,成为新的第13个学科门类,即艺术学门类。其中,美术学又是艺术学门类下的五个一级学科之一。但是…

立创·天空星开发板-GD32F407VE-USART

本文以 立创天空星开发板-GD32F407VET6-青春版 作为学习的板子,记录学习笔记。 立创天空星开发板-GD32F407VE-USART 基础通信概念同步通信 & 异步通信串行通信 & 并行通信双工 & 单工通讯速率码元 串口通信数据帧 串口封装 基础通信概念 通信协议是网络…

美颜相机「BeautyCam」v12.0.80 祛广告解索会员版(美妆相机功能,展现女神魅力)

软件介绍 美颜相机,一款由知名移动互联网企业Meitu Inc.开发的移动设备照片编辑与美化应用,起初主要针对娱乐消费市场,随后集成了商业营销功能。目前,它已跻身全球最受欢迎的手机摄影应用程序之列。在中国,美颜相机和…

Web前端指南

前言 前端开发员主要负责网站的设计、外观和感觉。他们设计引人入胜的在线用户体验,激发用户兴趣,鼓励用户重复访问。他们与设计师密切合作,使网站美观、实用、快捷。 如果您喜欢创造性思维、打造更好的体验并对视觉设计感兴趣,这将是您的理想职业道路。 探讨前端、后端以…

Llama模型家族之拒绝抽样(Rejection Sampling)(五)蒙特卡罗算法在拒绝抽样中:均匀分布与样本接受标准

LlaMA 3 系列博客 基于 LlaMA 3 LangGraph 在windows本地部署大模型 (一) 基于 LlaMA 3 LangGraph 在windows本地部署大模型 (二) 基于 LlaMA 3 LangGraph 在windows本地部署大模型 (三) 基于 LlaMA…

gulimall-search P125 springboot整合elasticsearch版本冲突

一、问题 spring-boot.version 2.2.4.RELEASE,在gulimall-search pom.xml中添加elasticsearch.version 7.4.2后,发现出现如下问题:elasticsearch版本是springboot引入的6.8.6,没有变为7.4.2。 二、原因 在gulimall-search 的pom文件中&#…

HTML,CSS,JavaScript实例——3D骰子,跨纬度蠕虫,动态登录表单。

文章目录 一、3D筛子1.HTML2.CSS 二、跨纬度蠕虫1.HTML2.CSS3.JS 三、动态登录表单1.HTML2.CSS 一、3D筛子 1.HTML <!--ring div starts here--> <div class"ring"><i style"--clr:#00ff0a;"></i><i style"--clr:#ff0057…

UI学习笔记(一)

UI学习 一&#xff1a;UIView基础frame属性隐藏视图对象&#xff1a;UIView的层级关系 二&#xff1a;UIWindow对象三&#xff1a;UIViewController基础UIViewController使用 四&#xff1a;定时器与视图移动五&#xff1a;UISwitch控件六&#xff1a;滑动条和进度条七&#xf…

前端三大主流框架

目录 1.概述 2.React 2.1.作用 2.2.诞生背景 2.3.版本历史 2.4.优缺点 2.5.应用场景 2.6.示例 2.7.未来展望 3.Vue 3.1.作用 3.2.诞生背景 3.3.版本历史 3.4.优缺点 3.5.应用场景 3.7.示例 3.8.未来展望 4.Angular 4.1.作用 4.2.诞生背景 4.3.版本历史 4…

从诺曼底登陆八十周年说起

昨天&#xff08;2024年6月6日&#xff09;是诺曼底登陆&#xff08;Normandy Campaign&#xff09;八十周年纪念日。媒体上有很多对相关纪念活动的报道。 诺曼底登陆战役&#xff0c;是第二次世界大战也是世界战争史上规模最大的登陆战役。敦刻尔克大撤退后&#xff0c;西欧大…

2. pytorch环境安装

概述 ​ 本文提供基于Anaconda环境Windows11操作系统的Pytorch深度学习环境的配置。深度学习环境分为GPU和CPU两大部分。使用GPU进行环境配置&#xff0c;需要保证电脑配有独立显卡&#xff0c;并且显卡驱动安装正常&#xff0c;详情见前文。 1. 创建新的虚拟环境用来配置Pyt…

Suse Linux ssh配置免密后仍需要输入密码

【问题描述】 Suse Linux已经配置了ssh免密&#xff0c;但无法ssh到目标服务器。 对自身的ssh登陆也需要输入密码。 系统–Suse 15 SP5 【重现步骤】 1.使用ssh-keygen -t rsa生产key文件 2.使用ssh-copy-id拷贝public key到目标机器(或者自身) 3.配置成功后ssh 目标时仍需要输…

const详解

关键字const用来定义常量&#xff0c;如果一个变量被const修饰&#xff0c;那么它的值就不能再被改变。 但是&#xff0c;可以通过取地址进行修改。 将const 在指针前进行修饰&#xff0c;那么就修饰指针所指向的变量。 但是指针变量可以被修改。 将const 在指针后进行修饰&am…

外挂知识库的基本知识与内容

外挂知识库 1.什么是rag&#xff1f; RAG,即LLM在回答问题或生成文本时&#xff0c;会先从大量文档中检索出相关的信息&#xff0c;然后基于这些信息生成回答或文本&#xff0c;从而提高预测质量。 2.外挂知识库的实现思路 只用几十万量级的数据对大模型进行微调并不能很好…

使用Python创建Word文档

使用Python创建Word文档 安装python-docx库创建Word文档代码效果 在这篇文章中&#xff0c;我们将介绍如何使用 Python创建一个Word文档。首先&#xff0c;我们需要安装python-docx库&#xff0c;然后通过一段简单的代码示例展示如何创建和编辑Word文档。 安装python-docx库 …

2024 年适用于 Mac 的 5 大免费录屏软件

要成为Mac的优秀屏幕录像机&#xff0c;捕获视频的高清质量和易于操作的界面是两个主要重要因素。此外&#xff0c;Mac上的付费屏幕录像机不仅可以输出高质量的屏幕捕获视频。您也可以在免费的视频捕获软件中获得类似的桌面录制服务。因此&#xff0c;如果您不需要以专业的方式…

企业应如何选择安全合规的内外网文件摆渡系统?

网络隔离是一种安全措施&#xff0c;旨在将网络划分为不同的部分&#xff0c;以减少安全风险并保护敏感信息。常见的隔离方式像物理隔离、逻辑隔离、防火墙隔离、虚拟隔离、DMZ区隔离等&#xff0c;将网络隔离成内网和外网。内外网文件摆渡通常指在内部网络&#xff08;内网&am…

yarn保姆级安装和使用

目录 前言 一、yarn简介 主要特性 使用场景 二、yarn的安装 yarn的下载 配置环境变量 三、yarn的常用命令 四、yarn的常用配置项 五、npm与yarn的区别 前言 本文旨在介绍如何安装和使用Yarn&#xff0c;以及它的一些常见用法。我们将从Yarn的基本概念开始&#xff0c;…

[C#]使用OpenCvSharp图像滤波中值滤波均值滤波高通滤波双边滤波锐化滤波自定义滤波

在使用OpenCvSharp进行图像滤波处理时&#xff0c;各种滤波方法都有其特定的用途和效果。以下是对中值滤波、均值滤波、高通滤波、双边滤波、锐化滤波和自定义滤波的详细解释和归纳&#xff1a; 中值滤波&#xff08;MedianBlur&#xff09; 原理与作用&#xff1a;中值滤波是…