Lucas带你手撕机器学习——套索回归

news2024/11/29 4:33:18

好的,下面我将详细介绍套索回归的背景、理论基础、实现细节以及在实践中的应用,同时还会讨论其优缺点和一些常见问题。

套索回归(Lasso Regression)

1. 背景与动机

在机器学习和统计学中,模型的复杂性通常会影响其在新数据上的泛化能力。特别是当特征数量多于样本数量时,模型容易过拟合,导致性能下降。为了解决这个问题,引入了正则化技术,以限制模型的复杂性。套索回归就是一种结合了线性回归与L1正则化的回归方法,具有以下特点:

  • 特征选择:由于L1正则化的特性,套索回归能够将一些特征的系数压缩为零,从而实现特征选择。这使得模型更简单、更易解释。

  • 提高泛化能力:通过减少特征数量,套索回归有助于提高模型的泛化能力,尤其在高维数据中表现更好。

2. 理论基础
2.1. 损失函数

套索回归的目标是最小化以下损失函数:
在这里插入图片描述

其中:
在这里插入图片描述
是目标变量与预测值之间的均方误差。
在这里插入图片描述
是L1正则化项,即模型参数的绝对值之和,𝜆 是正则化强度的超参数。

L1正则化会增加较大的惩罚,使得某些特征的系数可能被完全压缩为零,从而实现特征选择。

2.2. 优化算法

由于套索回归的损失函数是非光滑的(L1范数不连续),可以使用次梯度法、坐标下降法或其他优化方法来求解最优参数。坐标下降法是套索回归中一种常用且高效的优化算法。

3. 优缺点
3.1. 优点
  • 特征选择:能够自动选择重要特征,减少不必要的噪声,提高模型的可解释性。
  • 简化模型:减少模型的复杂性,降低过拟合的风险。
  • 适应高维数据:在特征数量远大于样本数量时,仍能有效工作。
3.2. 缺点
  • 可能丢失重要信息:如果正则化参数选择不当,可能会丢失对结果有影响的特征。
  • 对特征标准化敏感:套索回归对特征的尺度非常敏感,通常需要对特征进行标准化处理。
  • 在特征间高度相关时的局限性:在特征高度相关的情况下,套索回归可能随机选择其中一个特征,而忽略其他重要特征。
4. 实践中的应用

套索回归广泛应用于以下场景:

  • 金融风险建模:在预测信用评分或贷款违约的模型中,能够选择对结果影响最大的特征。
  • 生物医学:在基因选择和疾病预测等应用中,通过特征选择来提高模型的可解释性。
  • 文本分类:在文本特征提取中,通过选择重要的单词或短语来构建简化模型。
5. 使用 scikit-learnPyTorch 实现套索回归
5.1. scikit-learn 实现
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Lasso
from sklearn.datasets import make_regression

# 生成示例数据
X, y, coef = make_regression(n_samples=100, n_features=10, noise=0.1, coef=True, random_state=42)

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建套索回归模型
lasso_model = Lasso(alpha=1.0)  # alpha是正则化强度

# 训练模型
lasso_model.fit(X_train, y_train)

# 进行预测
y_pred = lasso_model.predict(X_test)

# 输出模型系数
print("模型系数:", lasso_model.coef_)
print("模型截距:", lasso_model.intercept_)

# 可视化真实值与预测值
plt.scatter(y_test, y_pred)
plt.xlabel("真实值")
plt.ylabel("预测值")
plt.title("真实值与预测值的比较")
plt.plot([y.min(), y.max()], [y.min(), y.max()], '--', color='red')  # 对角线
plt.show()
5.2. PyTorch 实现
import torch
import torch.nn as nn
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_regression

# 生成示例数据
X, y, coef = make_regression(n_samples=100, n_features=10, noise=0.1, coef=True, random_state=42)

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 转换为PyTorch张量
X_train_tensor = torch.tensor(X_train, dtype=torch.float32)
y_train_tensor = torch.tensor(y_train, dtype=torch.float32).view(-1, 1)
X_test_tensor = torch.tensor(X_test, dtype=torch.float32)
y_test_tensor = torch.tensor(y_test, dtype=torch.float32).view(-1, 1)

# 创建套索回归模型
class LassoRegression(nn.Module):
    def __init__(self, input_dim, lambda_reg):
        super(LassoRegression, self).__init__()
        self.linear = nn.Linear(input_dim, 1)
        self.lambda_reg = lambda_reg

    def forward(self, x):
        return self.linear(x)

    def loss_function(self, y_pred, y_true):
        mse_loss = nn.MSELoss()(y_pred, y_true)
        l1_reg = self.lambda_reg * torch.sum(torch.abs(self.linear.weight))
        return mse_loss + l1_reg

# 超参数
input_dim = X_train.shape[1]
lambda_reg = 1.0
num_epochs = 1000
learning_rate = 0.01

# 初始化模型和优化器
model = LassoRegression(input_dim, lambda_reg)
optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)

# 训练模型
for epoch in range(num_epochs):
    model.train()
    optimizer.zero_grad()
    y_pred = model(X_train_tensor)
    loss = model.loss_function(y_pred, y_train_tensor)
    loss.backward()
    optimizer.step()

    if epoch % 100 == 0:
        print(f'Epoch [{epoch}/{num_epochs}], Loss: {loss.item():.4f}')

# 进行预测
model.eval()
with torch.no_grad():
    y_test_pred = model(X_test_tensor)

# 可视化真实值与预测值
plt.scatter(y_test, y_test_pred.numpy())
plt.xlabel("真实值")
plt.ylabel("预测值")
plt.title("真实值与预测值的比较")
plt.plot([y.min(), y.max()], [y.min(), y.max()], '--', color='red')  # 对角线
plt.show()

# 输出模型系数和截距
print("模型权重:", model.linear.weight.data.numpy())
print("模型偏置:", model.linear.bias.data.numpy())

6. 常见问题

  1. 如何选择合适的正则化参数 (\lambda)?

    • 通常使用交叉验证来选择合适的正则化参数。可以尝试多个值并选择在验证集上表现最佳的参数。
  2. 是否需要对特征进行标准化?

    • 是的,特征标准化非常重要,因为套索回归对特征的尺度非常敏感。通常在训练之前对特征进行标准化处理(例如,标准化为均值为0,方差为1的分布)。
  3. 在特征之间高度相关时如何处理?

    • 套索回归可能会随机选择相关特征中的一个,而忽略其他特征。如果特征高度相关,可以考虑使用岭回归或其他方法来处理。

总结

套索回归是一种强大的线性回归工具,通过L1正则化实现特征选择,有助于提高模型的可解释性和泛化能力。在高维数据集上,套索回归表现良好,但需要仔细选择正则化参数并进行特征标准化。通过 scikit-learnPyTorch,我们可以灵活地实现套索回归,以适应不同的需求和应用场景。

如果您还有其他问题或需要更深入的讨论,请随时告诉我!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2227353.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

完全透彻了解一个asp.net core MVC项目模板1

当我们使用Visual Studio 2022去新建一个基于asp.net core Web项目的时候,一般有三种选择,一种是空项目,一种是基于MVC的项目、再有一种就是基于包含Razor Pages实例的web应用。如下图: 今天,我们打算选择基于MVC模…

【无标题】2024年第五届 MathorCup 数学应用挑战赛——大数据竞赛赛题

2024年第五届 MathorCup 数学应用挑战赛——大数据竞赛赛题已发布~,本届初赛时间为:2024年10月25日18:00至2024年11月1日20:00。本次赛题分为A,B两道,所有参赛队从赛道 A、B 中任选一题作答。在报名系统内选择自己队伍的赛道时&am…

离散化算法简介

【离散化简介】 ★ 离散化是一种数据处理的技巧,本质上可以看成是一种“哈希”,其保证数据在哈希以后仍然保持原来的“全/偏序”关系。用来离散化的可以是大整数、浮点数、字符串等等。★ 离散化的本质,是映射。原理是将间隔很大的元素&#…

毫米波技术基础

什么是毫米波? 顾名思义,毫米波是波长 (λ) 约为 1 毫米(更准确地说是 1 至 10 毫米)的电磁波。使用方程式f c /λ 将该波长转换为频率,其中c是光速 (3 x 10 8 m/s),得出 30-300 GHz 的频率范围。国际电信…

【STM32】内存管理

首先问个问题,你知道如何在LCD上显示SD卡文件浏览?-----需要读取所有文件名到内存,然后才能显示到LCD上。 一般的方法:是定义一个数组来存储文件名 1:需要知道最大文件名的长度 2:需要知道文件的个数。1…

OpenCV图像处理方法:腐蚀操作

腐蚀操作 前提 图像数据为二值的(黑/白) 作用 去掉图片中字上的毛刺 显示图片 读取一个图像文件,并在一个窗口中显示它。用户可以查看这个图像,直到按下任意键,然后程序会关闭显示图像的窗口 # cv2是OpenCV库的P…

使用Python中的jieba库进行简单情感分析

在自然语言处理(NLP)领域,情感分析是一项重要的任务,它可以帮助我们理解文本背后的情感倾向。本文将通过一个简单的例子来介绍如何使用Python的jieba库对中文文本进行基本的情感分析。 1. 环境准备 首先,确保已经安装…

图像分割从基础到进阶:阈值化、K-means和Mean-Shift算法的应用

图像分割是计算机视觉中的一项关键技术,用来将图像划分为若干个 有意义 的区域,以便后续的图像处理和分析工作。根据任务的不同,图像分割可以进一步细分为语义分割、实例分割和全景分割: 语义分割 (Semantic Segmentation) 对图像…

SQL进阶技巧:如何求组内排除当前行的移动平均值?

目录 0 需求描述 2 数据准备 3 问题分析 4 小结 0 需求描述 -- 按照 日期,省份,等级 分组 求分数的平均值;但是需要剔除当前行的数据 2 数据准备 create table avgtest as (select 2024-10-24 as cdate, 广东 as province,深圳 as city, 2 as level, 200 as scoreunio…

后台管理系统的通用权限解决方案(六)SpringBoot整合Logback实现日志记录

1 Logback介绍 1.1 Logback的组件 由上图可知,Logback和Log4j都是slf4j规范的具体实现。在程序中直接调用Logback的API其实都是slf4j规范定义好的API,其底层则是真正的日志实现组件—Logback或者Log4j。 Logback构建在三个主要的类上:Logge…

厨艺爱好者的在线互动平台:Spring Boot实现

摘 要 使用旧方法对厨艺交流信息进行系统化管理已经不再让人们信赖了,把现在的网络信息技术运用在厨艺交流信息的管理上面可以解决许多信息管理上面的难题,比如处理数据时间很长,数据存在错误不能及时纠正等问题。 这次开发的厨艺交流平台功能…

面试域——技术面试准备

摘要 来到技术面试这环节有两种情况,其一:这场技术面试可能就是一个面试官KPI面试(就是面试工作量,这个面试你是不可能过。)如今的就业环境下,人力资源部门也是有考核指标。如果遇到这样的面试你就放平心态…

2024年【焊工(中级)】最新解析及焊工(中级)考试总结

题库来源:安全生产模拟考试一点通公众号小程序 焊工(中级)最新解析参考答案及焊工(中级)考试试题解析是安全生产模拟考试一点通题库老师及焊工(中级)操作证已考过的学员汇总,相对有…

VsCode | 修改内置字体为JetBrains Mono NL

文章目录 一、下载JetBrains Mono NL字体二、VsCode进行字体的设置 一、下载JetBrains Mono NL字体 字体下载 下载完成以后解压找到JetBrainsMono-2.304\fonts\ttf文件夹下,全选鼠标右键点安装即可。 注意:一定要全部安装,否则字体样式可…

【微服务】Nacos 注册中心

<!-- nacos 依赖--><dependency><groupId>com.alibaba.cloud</groupId><artifactId>spring-cloud-alibaba-dependencies</artifactId><version>${nacos.version}</version><type>pom</type><scope>import&l…

Wasserstein Generative Adversarial Networks

Abstract 我们引入了一种名为 WGAN 的新算法&#xff0c;它是传统 GAN 训练的替代方案。 在这个新模型中&#xff0c;我们表明我们可以提高学习的稳定性&#xff0c;摆脱模式崩溃等问题&#xff0c;并提供对调试和超参数搜索有用的有意义的学习曲线。 此外&#xff0c;我们表明…

pip命令行安装pytest 一直报错

其实就是切换不同镜像安装 我最终成功的是阿里云镜像 pip install --trusted-host mirrors.aliyun.com pytest 也可以用其他的 pip install -i https://pypi.org/simple pytest # 或者使用其他的镜像源 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pytest

v4.7版本使用线下付款方式不给管理员发送新订单通知问题修复

在app/api/controller/v1/order/StoreOrderController.php文件中&#xff0c;将红框内的代码注释&#xff0c;加上绿框的代码即可修复 if ($this->services->setOrderTypePayOffline($order[order_id])) {event(NoticeListener, [$order, admin_pay_success_code]);retur…

DIY可视化-uniapp悬浮菜单支持拖动、吸附-代码生成器

在Uniapp中&#xff0c;悬浮菜单支持拖动和吸附功能&#xff0c;可以为用户带来更加灵活和便捷的操作体验。以下是对这两个功能的详细解释&#xff1a; 悬浮菜单支持拖动 提高用户体验&#xff1a;用户可以根据自己的需要&#xff0c;将悬浮菜单拖动到屏幕上的任意位置&#x…

MySQL企业常见架构与调优经验分享

文章目录 一、选择 PerconaServer、MariaDB 还是 MYSQL二、常用的 MYSQL 调优策略三、MYSOL 常见的应用架构分享四、MYSOL 经典应用架构 观看学习课程的笔记&#xff0c;分享于此~ 课程&#xff1a;MySQL企业常见架构与调优经验分享 mysql官方优化文档 调优MySQL参数 一、选择 …