【机器学习】机器学习的基本分类-监督学习-Lasso 回归(Least Absolute Shrinkage and Selection Operator)

news2025/1/8 0:20:32

Lasso 回归是一种线性回归方法,通过引入 L_1​ 正则化(绝对值惩罚项)约束回归系数,既能解决多重共线性问题,又具有特征选择能力。


1. Lasso 回归的目标函数

Lasso 的目标是最小化以下损失函数:

\text{Lasso Loss} = \sum_{i=1}^n (y_i - \hat{y}_i)^2 + \lambda \sum_{j=1}^p |\beta_j|

其中:

  • \sum_{i=1}^n (y_i - \hat{y}_i)^2 是残差平方和。
  • \sum_{j=1}^p |\beta_j|L_1 正则化项。
  • λ > 0 是正则化强度的超参数,控制对回归系数的惩罚程度。

2. Lasso 的特点

  1. 特征选择

    • L_1​ 正则化能够将一些不重要的特征系数缩为 0,从而实现特征选择。
    • 这是 Lasso 和岭回归的最大区别,岭回归仅会缩小系数,但不会完全归零。
  2. 对多重共线性的处理

    • 当特征之间存在较强相关性时,Lasso 更倾向于保留一个特征,压缩其他特征的系数为 0,从而简化模型。

3. 数学解读

目标函数

Lasso 的优化目标:

\min_\beta \left\{ \| y - X\beta \|_2^2 + \lambda \| \beta \|_1 \right\}

  • \| y - X\beta \|_2^2​:拟合误差(最小化残差平方和)。
  • \| \beta \|_1 = \sum_{j=1}^p |\beta_j|:正则化项,控制模型复杂度。
几何解释
  • L_1 正则化将优化问题的约束区域限制在菱形L_1-范数球)内。
  • 菱形的顶点位于坐标轴上,因此 Lasso 具有将某些系数缩为 0 的特性。

4. 优缺点

优点
  1. 特征选择能力:可以将不重要的特征系数缩为 0,直接实现特征筛选。
  2. 降低模型复杂度:减少模型的变量数量,从而提高模型的可解释性。
  3. 解决多重共线性问题:对共线特征进行选择性保留,避免过拟合。
缺点
  1. 可能偏差较大:Lasso 会对所有系数施加惩罚,可能导致模型在某些情况下表现不佳。
  2. 不适合高维数据:当样本数小于特征数时,Lasso 的选择结果可能不稳定。
  3. 对正则化参数敏感:λ 的选择对模型性能影响较大。

5. Lasso 回归的实现

以下是 Python 中使用 scikit-learn 的实现示例:

from sklearn.linear_model import Lasso
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_regression
from sklearn.metrics import mean_squared_error

# 生成数据
X, y = make_regression(n_samples=100, n_features=10, noise=10, random_state=42)

# 数据集划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建 Lasso 模型
lasso = Lasso(alpha=0.1)  # alpha 即 λ
lasso.fit(X_train, y_train)

# 预测
y_pred = lasso.predict(X_test)

# 评价
print("MSE:", mean_squared_error(y_test, y_pred))
print("回归系数:", lasso.coef_)

输出结果

MSE: 104.93221988874537
回归系数: [18.96025415 54.8553183   3.43132401 63.6082866  92.65442432 69.48209529
 84.42789762  8.49332936  2.90087787 71.0628166 ]

6. 正则化参数 λ 的调优

Lasso 中的超参数 λ(在 scikit-learn 中是 alpha)需要通过交叉验证选择。可以使用 LassoCV 进行自动调优:

from sklearn.model_selection import train_test_split
from sklearn.datasets import make_regression
from sklearn.linear_model import LassoCV


# 生成数据
X, y = make_regression(n_samples=100, n_features=10, noise=10, random_state=42)

# 数据集划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 自动选择最佳 λ
lasso_cv = LassoCV(alphas=[0.1, 1.0, 10.0], cv=5)  # 5 折交叉验证
lasso_cv.fit(X_train, y_train)

# 最佳正则化参数
print("最佳 λ:", lasso_cv.alpha_)

# 使用最佳参数的回归系数
print("回归系数:", lasso_cv.coef_)

输出结果

最佳 λ: 0.1
回归系数: [18.96025415 54.8553183   3.43132401 63.6082866  92.65442432 69.48209529
 84.42789762  8.49332936  2.90087787 71.0628166 ]

7. Lasso 与岭回归的比较

方法正则化类型特点应用场景
岭回归L_2​ 范数收缩系数,解决多重共线性问题特征数量较多,但不需要特征选择时使用
Lasso 回归L_1 范数稀疏化系数,具有特征选择能力需要减少特征数量或增强模型解释性时
ElasticNetL_1 + L_2​ 范数综合岭回归和 Lasso 的优点高维数据特征筛选且有多重共线性时

8. 应用场景

  1. 基因数据分析:处理高维稀疏数据,选择关键基因。
  2. 金融数据建模:选择重要指标,如宏观经济特征对市场走势的影响。
  3. 图像处理:降维和稀疏特征提取。

 Lasso 回归是一种强大且解释性好的线性模型,通过 L_1 正则化实现特征选择和降维,适合高维但稀疏的数据集。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2255196.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

优化LabVIEW数据运算效率的方法

在LabVIEW中进行大量数据运算时,提升计算效率并减少时间占用是开发过程中常遇到的挑战。为此,可以从多个角度着手优化,包括合理选择数据结构与算法、并行处理、多线程技术、硬件加速、内存管理和界面优化等。通过采用这些策略,可以…

python学opencv|读取图像(四)imshow()函数尝试

【1】引言 前述已经学习了opencv读取图像的基本操作,包括下述链接: python学opencv|读取图像-CSDN博客 python学opencv|读取图像(二)保存彩色图像-CSDN博客 python学opencv|读取图像(三)放大和缩小图像…

MongoDB分片集群搭建及扩容

分片集群搭建及扩容 整体架构 环境准备 3台Linux虚拟机,准备MongoDB环境,配置环境变量。一定要版本一致(重点),当前使用 version4.4.9 配置域名解析 在3台虚拟机上执行以下命令,注意替换实际 IP 地址 e…

MATLAB 最小二乘平面拟合(90)

MATLAB 最小二乘平面拟合(90) 一、算法介绍二、算法实现1.代码2.结果:一、算法介绍 平面方程: ax+by+cz+d = 0 执行任务:读取一组点云(这里用自定义生成的平面模拟点云代替,在其中添加了噪声来模拟真实的数据),使用最小二乘拟合平面,来输出平面参数,并可视化显示拟…

AI+电影特效产品化:开启电影人物年轻化新时代

随着人工智能技术的不断进步,它正在改变着我们生活的方方面面,包括娱乐产业。在电影制作领域,AI技术的应用尤其引人注目,尤其是在实现演员年轻化或老化效果方面。本文将介绍一款名为MyTimeMach

Appium 安装问题汇总

好生气好生气,装了几天了, opencv4nodejs 和 mjpeg-consumer 就是装不了,气死我了不管了,等后面会装的时候再来完善,气死了气死了。 目录 前言 1、apkanalyzer.bat 2、opencv4nodejs 3、ffmpeg 4、mjpeg-consume…

Cannot resolve symbol ‘ActivityThread‘ | Android 语法

背景 ActivityThread 是 Android 系统内部使用的一个类,它位于 android.app 包中,但在 Android SDK 的公共 API 中并没有公开。 由于 ActivityThread 是隐藏的内部类,因此在编写单元测试或功能开发时,无法直接引用它。可以使用反射来访问内部 API,或者使用依赖注入的方式…

探索自然语言处理奥秘(NLP)

摘要 自然语言处理(NLP)是人工智能领域的一个重要分支,它致力于使计算机能够理解、解释和生成人类语言。这项技术让机器能够阅读文本、听懂语音,并与人类进行基本的对话交流。 通俗理解 自然语言处理(NLP&#xff09…

JAVAWeb中的Servlet学习

一 Servlet简介 1.1动态资源和静态资源 静态资源 无需在程序运行时通过代码运行生成的资源,在程序运行之前就写好的资源.例如:html css js img ,音频文件和视频文件 动态资源 需要在程序运行时通过代码运行生成的资源,在程序运行之前无法确定的数据,运行时动态生成,例如Servle…

「Mac畅玩鸿蒙与硬件40」UI互动应用篇17 - 照片墙布局

本篇将带你实现一个简单的照片墙布局应用,通过展示多张图片组成照片墙效果,用户可以点击图片查看其状态变化。 关键词 UI互动应用照片墙布局Grid 布局动态图片加载用户交互 一、功能说明 照片墙布局应用的特点: 动态加载多张图片组成网格布…

dhcpd服务器的配置与管理(超详细!!!)

前提条件: (1)虚拟机能够联网(如果nat模式不能联网的看另一期) CentOS7 NAT模式不能联网-CSDN博客 (2)系统是Centos8,因为下载的dhcp-server软件包版本和Centos7不匹配,如果你能成…

java基础概念47-ArrayList、LinkList和迭代器

一、ArrayList集合 1-1、ArrayList的两种添加信息的方式 1-2、ArrayList集合底层逻辑 1、利用空参创建的集合,在底层创建一个默认长度为0的数组 2、添加第一个元素时,底层会创建一个新的长度为10的数组 3、存满时,会扩容1.5倍。 4、如果…

oracle之用户的相关操作

(1)创建用户(sys用户下操作) 简单创建用户如下: CREATE USER username IDENTIFIED BY password; 如果需要自定义更多的信息,如用户使用的表空间等,可以使用如下: CREATE USER mall IDENTIFIED BY 12345…

ffmpeg转码与加水印

文章目录 转码 与加水印引入jar包代码ffmpeg安装错误解决方法 转码 与加水印 引入jar包 <dependency><groupId>net.bramp.ffmpeg</groupId><artifactId>ffmpeg</artifactId><version>0.6.2</version></dependency>代码 impo…

tomcat 运行加载机制解析

tomcat 运行加载机制 从tomcat jar包的加载顺序&#xff1a; tomcat的具体运行加载 可以从 start、setclasspath、catalina文件中看出来&#xff1a; start.bat执行 去找bin目录下的catalina.bat,catalina 或去找 bin\setenv.bat以获取标准环境变量&#xff0c;然后去找bin\…

策略模式实战 - 鸭展

该示例出自著名的《HeadFirst》系列的《HeadFirst设计模式》图书的第一个设计模式。用一个鸭子展览的小应用&#xff0c;一步步揭示了如何引入和使用策略模式将示例改造的完美一些。 文章目录 红头鸭与绿头鸭橡皮鸭和诱饵鸭用接口代替继承组合关系与策略模式 红头鸭与绿头鸭 当…

B4X编程语言:设置B4J控件的上下文菜单(ContextMenu)

B4J控件的ContextMenu属性&#xff0c;也叫上下文菜单属性&#xff0c;用于在用户右键点击控件时显示一个自定义菜单(右键菜单)。在B4J中&#xff0c;设置右键菜单有两种方法&#xff1a;一种是直接用代码设置&#xff0c;一种是在设计器设置。 假设在B4XMainPage页面有…

计算机网络·考点知识点整理

根据华科历年计网题&#xff0c;整理了一些常考的知识点难点。 因特网五层协议的功能 层次名称协议功能描述典型协议举例&#xff08;至少两种&#xff09;协议分组名称应用层制定两个应用进程之间的通信规范HTTP、SMTP、FTP、Telnet、POP3、IMAP报文运输层实现进程与进程之间…

创建 React Native 项目

创建 React Native 项目 npx react-nativelatest init YourProject切换依赖源 切换好源之后&#xff0c;你需要进入 android 目录&#xff0c;然后运行 gradlew build 命令。 Android 依赖安装是使用 gradlew 进行管理的。 $ cd android $ ./gradlew build --refresh-depend…

【Vue3中Router使用】

Vue3中Router使用 1. 安装vue-router组件2. 建两个测试页面2.1 测试页面Home.vue2.2 测试页面Category.vue 3. 创建路由对象4. 在入口main.js中引入router把App.vue改成路由页面5. 测试5.1 关闭检查解决ESlint报错5.2 改文件名解决ESlint检查报错测试WebHashHistory 和WebHisto…