线性回归模型之套索回归

news2025/1/19 21:50:02

概述

本案例是基于之前的岭回归的案例的。之前案例的完整代码如下:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import Ridge, LinearRegression
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_diabetes
from sklearn.model_selection import learning_curve, KFold

def plot_learning_curve(est, X, y):
    # 将数据拆分20次用来对模型进行评分
    training_set_size, train_scores, test_scores = learning_curve(
        est,
        X,
        y,
        train_sizes=np.linspace(.1, 1, 20),
        cv=KFold(20, shuffle=True, random_state=1)
    )

    # 获取模型名称
    estimator_name = est.__class__.__name__

    # 绘制模型评分
    line = plt.plot(training_set_size, train_scores.mean(axis=1), "--", label="training " + estimator_name)
    plt.plot(training_set_size, test_scores.mean(axis=1), "-", label="test " + estimator_name, c=line[0].get_color())
    plt.xlabel("Training set size")
    plt.ylabel("Score")
    plt.ylim(0, 1.1)

# 加载数据
data = load_diabetes()
X, y = data.data, data.target

# 绘制图形
plot_learning_curve(Ridge(alpha=1), X, y)
plot_learning_curve(LinearRegression(), X, y)
plt.legend(loc=(0, 1.05), ncol=2, fontsize=11)
plt.show()

输出结果如下:
在这里插入图片描述

套索回归的基本用法

引入套索回归,还是基于糖尿病数据,进行模型的训练。

from sklearn.linear_model import Lasso
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_diabetes
import numpy as np

# 加载数据
data = load_diabetes()
X, y = data.data, data.target

# 切割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=8)

# 使用套索回归拟合数据
reg = Lasso().fit(X_train, y_train)

# 查看结果
print(reg.score(X_train, y_train))
print(reg.score(X_test, y_test))
print(np.sum(reg.coef_ != 0))

输出结果如下:

0.3624222204154225
0.36561940472905163
3

调整套索回归的参数

上面的案例中,评分只有0.3,很低,我们可以试试调低alpha的值试试。

from sklearn.linear_model import Lasso
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_diabetes
import numpy as np

# 加载数据
data = load_diabetes()
X, y = data.data, data.target

# 切割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=8)

# 使用套索回归拟合数据
reg = Lasso(alpha=0.1, max_iter=100000).fit(X_train, y_train)

# 查看结果
print(reg.score(X_train, y_train))
print(reg.score(X_test, y_test))
print(np.sum(reg.coef_ != 0))

输出如下:

0.5194790915052719
0.4799480078849704
7

可以发现,评分有所增长,10个特征中,这里用到了7个特征。

过拟合问题

如果我们把alpha的值设置得太低,就相当于把正则化的效果去除了,模型就会出现过拟合问题。

比如,我们将alpha设置为0.0001:

from sklearn.linear_model import Lasso
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_diabetes
import numpy as np

# 加载数据
data = load_diabetes()
X, y = data.data, data.target

# 切割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=8)

# 使用套索回归拟合数据
reg = Lasso(alpha=0.0001, max_iter=100000).fit(X_train, y_train)

# 查看结果
print(reg.score(X_train, y_train))
print(reg.score(X_test, y_test))
print(np.sum(reg.coef_ != 0))

输出如下:

0.5303797950529495
0.4594491492143349
10

从结果来看,我们用到了全部特征,而且模型在测试集上的分数要稍微低于alpha等于0.1的时候的得分,说明降低alpha的数值会让模型倾向于出现过拟合的现象。

套索回归和岭回归的对比

我们采用图像的形式,来对比不同alpha的值的时候,套索回归和岭回归的系数。

from sklearn.linear_model import Lasso
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_diabetes
import numpy as np

# 加载数据
data = load_diabetes()
X, y = data.data, data.target

# 切割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=8)

# 使用套索回归拟合数据并绘图
reg = Lasso(alpha=1, max_iter=100000).fit(X_train, y_train)
plt.plot(reg.coef_, "s", label="Lasso alphat=1")

reg = Lasso(alpha=0.11, max_iter=100000).fit(X_train, y_train)
plt.plot(reg.coef_, "^", label="Lasso alphat=0.11")

reg = Lasso(alpha=0.0001, max_iter=100000).fit(X_train, y_train)
plt.plot(reg.coef_, "v", label="Lasso alphat=0.0001")

reg = Lasso(alpha=0.1, max_iter=100000).fit(X_train, y_train)
plt.plot(reg.coef_, "o", label="Lasso alphat=0.1")

plt.legend(ncol=2,loc=(0,1.05))
plt.ylim(-25,25)
plt.xlabel("Coefficient index")
plt.show()

输出:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1682193.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

对抗生成网络(GAN),DCGAN原理

目录 1. GAN基础原理 1.1 生成器 1.2 判别器 1.3 整体架构 2. 损失函数 3. DCGAN 3.1 问题 3.2 解决 1. GAN基础原理 GAN(Generative Adversarial Nets)是一种深度神经网络架构。它由生成器和判别器组成,生成器学习真实样本&#x…

微信公众号自定义分销商城小程序源码系统 带完整的安装代码吧以及系统部署搭建教程

系统概述 微信公众号自定义分销商城小程序源码系统是一款功能强大的电商解决方案,它集成了商品管理、订单处理、支付接口、分销管理等多种功能。该系统支持自定义界面设计,商家可根据自身需求调整商城的页面布局和风格,打造独特的品牌形象。…

月薪20K+的策划人简历应该怎么写?

一般咱们大多数策划在写简历前,都是先直接找模板,然后按照模板的框架直接往里面填内容。 最后草草收场,直接拿去海投简历,结果发现没有拿到任何面试邀约。 策划写简历前的第一件事要梳理自己的能力模型和岗位JD。 因为只有先梳…

解决谷歌浏览器无法登陆网站的问题,左下角弹出JavaScript(void:0)

破釜沉舟,全都试一遍: 如果还不行,那就关闭GPU加速:关了瞬间就好了 关闭之后,再打开GPU加速还是行的(咱也不知道为啥呀)

究极完整版!!Centos6.9安装最适配的python和yum,附带教大家如何写Centos6.9的yum.repos.d配置文件。亲测可行!

前言! 这里我真是要被Centos6.9给坑惨了,最刚开始学习linux的时候并没有在意那么的,没有考虑到选版本问题,直到23年下半年,官方不维护Centos6.9了,基本上当时配置的文件和安装的依赖都用不了了&#xff0c…

DCMM(数据管理能力成熟度模型)对企业的价值

随着大数据时代的来临,数据已成为企业发展的重要驱动力。为了有效地管理和利用数据,企业需要建立一套完善的数据管理体系,而DCMM(数据管理能力成熟度模型)正是这样一个帮助企业构建和优化数据管理能力的框架。 DCMM结构…

05-应用级开发者 AI 时代破局点

后端应用级开发者该如何拥抱 AI GC?就是在这样的一个大的浪潮下,我们的传统的应用级开发者。我们该如何选择职业或者是如何去快速转型,跟上这样的一个行业的一个浪潮? 0 AI金字塔模型 越往上它的整个难度就是职业机会也好,或者说…

Ubuntu 24 换国内源及原理 (阿里源)

备份原文件 sudo cp /etc/apt/sources.list.d/ubuntu.sources /etc/apt/sources.list.d/ubuntu.sources.bak 编辑源文件 sudo gedit /etc/apt/sources.list.d/ubuntu.sources (阿里源) Types: deb deb-src URIs: https://mirrors.aliyun.com/ubunt…

ArcGIS arcpy代码工具——关于标识码的那些事(查找最大标识码、唯一性检查、重排序、空值赋值)

系列文章目录 ArcGIS arcpy代码工具——批量对MXD文件的页面布局设置修改 ArcGIS arcpy代码工具——数据驱动工具批量导出MXD文档并同步导出图片 ArcGIS arcpy代码工具——将要素属性表字段及要素截图插入word模板 ArcGIS arcpy代码工具——定制属性表字段输出表格 ArcGIS arc…

二. Ast - 反混淆(基础篇-api的使用)

在线代码转AST语法树网站:AST explorer 什么是path对象 通过以下的代码,对以上图片中的AST语法树做例子。 VariableDeclarator(path) 是一个函数,表示 traverse 遍历AST时,要进入的节点path 参数,表示当前正在遍历的节…

Conda 常用命令大全

Conda 常用命令大全 配置源conda配置清华源pip配置清华源 环境管理创建一个新的虚拟环境列出虚拟环境激活虚拟环境退出虚拟环境删除虚拟环境复制某个虚拟环境 conda包管理列出全部包安装包卸载包 pip包管理列出全部包安装包卸载包 其他命令查询 conda 版本查看环境信息 简介&am…

某东-绑卡

声明 本文章中所有内容仅供学习交流使用,不用于其他任何目的,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关!wx a15018601872 本文章未…

element 表格滚动条滑动,表格错位

解决办法(主要是根据滚动条的宽度决定的,可自行调整) 1、.el-table__header-wrapper { width: 99.3% !important; } 2、.el-table__header-wrapper { padding-right: 10px!important; }

鸿蒙应用布局ArkUI:【其他常用布局容器和组件】介绍

其他常用布局容器和组件 创建轮播(Swiper)实现轮播图功能 开发前请熟悉鸿蒙开发指导文档:gitee.com/li-shizhen-skin/harmony-os/blob/master/README.md点击或者复制转到。 栅格布局(GridRow/GridCol)和Grid布局类似…

RockTree Capital石木资本品牌升级 沉浸式“加密朋克风”网站震撼上线

总部位于北京的领先的Web3 原生加密基金与投资机构 RockTree Capital 石木资本,宣布推出全新沉浸式网站,在其中呈现一个未来主义电影风格概念:赛博朋克加密城市。这个前沿互动型城市景观代表着 RockTree Capital 对 Web3 普及以及技术、金融与…

白鲸开源CEO郭炜在2024 DataOps发展大会上获聘专家

2024年5月15日,白鲸开源CEO郭炜在2024 DataOps发展大会上被正式聘任为DataOps专家,并获得了荣誉证书。本次大会由中国通信标准化协会主办,中关村科学城管委会提供支持,大数据技术标准推进委员会(CCSATC601)…

5月17日世界电信日:共筑数字桥梁,深圳市企讯通科技引领通讯创新潮流

在全球信息化浪潮中,每年的5月17日被赋予了非凡的意义——“世界电信日”。这不仅仅是全球电信业发展成果展示与未来趋势探讨的盛会,更是对未来通信领域无限可能的展望。自1969年设立以来,世界电信日不断激励着各国在信息通信技术&#xff08…

【50】Camunda8-Zeebe核心引擎-核心架构

Zeebe核心架构包4个主要内容:Clients、Gateways、Brokers、Exporters。 Clients 客户端发送命令到Zeebe来实施, 部署流程执行业务逻辑 启动流程实例发布消息激活作业完成作业失败的作业处理运营问题 更新流程实例变量解决事件 客户端应用程序可以独立…

3D数据格式转换工具HOOPS Exchange在PLM系统中的5大应用优势

在当今竞争激烈的制造业环境中,产品生命周期管理(PLM)系统已成为企业提升设计效率、缩短产品上市时间、降低成本和提高市场响应速度的关键工具。3D数据格式转换工具HOOPS Exchange,在PLM系统中扮演着至关重要的角色。以下是HOOPS …

今日分享【Vue3基础知识】

常用地址及工具: [vue3官网] https://cn.vuejs.org/ vue3官网[setup 基本使用] https://juejin.cn/post/7002490039066165279 setup基本使用[vite中文官网] https://cn.vitejs.dev/ Vite官网 1、如何使用vue3 vite //要构建一个 Vite Vue 项目,运行…