机器学习实战之用 Scikit-Learn 正则化方法解决过拟合详解

news2024/9/22 17:34:38

f8e94cbab3c740c294d52f7baa6919f7.jpg


 

你是不是在模型训练中遇到过这样的问题:在训练集上表现得极好,但在测试集上效果不佳?这就是过拟合的问题。

过拟合是模型在训练过程中学到了数据的“噪声”而非规律,导致在未知数据上表现不佳。那么怎么解决这个问题呢?今天我们就来聊聊 Scikit-Learn 的正则化方法吧!

小提示: 如果你还没有接触过 Scikit-Learn,可以先了解一下这个强大的 Python 机器学习库。本文会带你领略它的神奇之处!


一、正则化:是什么?为什么?

1.1 正则化的定义

正则化(Regularization)是一种降低模型复杂度的方法,通过给损失函数(Loss Function)加上一个惩罚项(Penalty Term),使得模型在拟合数据的同时避免过度复杂。

1.2 为什么需要正则化?

想象一下,你正在参加一个猜谜游戏。你猜了一个谜题,获得了一点提示。然后你开始构思一个解决方案,但太过复杂,包含了许多不必要的细节。这时,你可能需要简化你的思路,才能找到真正的答案。就像这个游戏一样,当我们的模型过于复杂时,可能会导致过拟合。而正则化就是我们的“简化”大师!

二、Scikit-Learn 的正则化方法

Scikit-Learn 提供了多种正则化方法,如 L1 正则化、L2 正则化和 Elastic Net。在这里,我们会分别介绍这三种方法,并给出实际应用示例。

2.1 L1 正则化

L1 正则化通过在损失函数中添加 L1 范数来实现,公式如下:

Loss_with_L1 = Loss + λ * L1_Norm(Weights)

其中,L1_Norm 是权重的 L1 范数(权重的绝对值之和),λ 是正则化强度(一个超参数)。

L1 正则化的特点是能将一些权重参数压缩至0,从而实现特征选择(Feature Selection)。

示例:使用 Scikit-Learn 的 Lasso 回归实现 L1 正则化。

from sklearn.linear_model import Lasso

# 创建 Lasso 对象,设置正则化强度
lasso = Lasso(alpha=0.1)

# 训练模型
lasso.fit(X_train, y_train)

# 预测
y_pred = lasso.predict(X_test)

2.2 L2 正则化

L2 正则化通过在损失函数中添加 L2 范数来实现,公式如下:

Loss_with_L2 = Loss + λ * L2_Norm(Weights)

其中,L2_Norm 是权重的 L2 范数(权重的平方和的平方根),λ 是正则化强度(一个超参数)。

L2 正则化的特点是能够减小权重的值,但不会将其压缩至0。

示例:使用 Scikit-Learn 的 Ridge 回归实现 L2 正则化。

from sklearn.linear_model import Ridge

# 创建 Ridge对象,设置正则化强度
ridge = Ridge(alpha=0.1)

# 训练模型
ridge.fit(X_train, y_train)

# 预测
y_pred = ridge.predict(X_test)

2.3 Elastic Net

Elastic Net 是 L1 正则化和 L2 正则化的组合,可以通过调整两者的权重来平衡特征选择与权重减小。公式如下:

Loss_with_ElasticNet = Loss + λ1 * L1_Norm(Weights) + λ2 * L2_Norm(Weights)

其中,λ1 和 λ2 分别是 L1 正则化和 L2 正则化的强度。

示例:使用 Scikit-Learn 的 ElasticNet 回归实现 Elastic Net。

from sklearn.linear_model import ElasticNet

# 创建 ElasticNet 对象,设置正则化强度
elastic_net = ElasticNet(alpha=0.1, l1_ratio=0.5)

# 训练模型
elastic_net.fit(X_train, y_train)

# 预测
y_pred = elastic_net.predict(X_test)

三、实战:用 Scikit-Learn 正则化方法解决过拟合

接下来,让我们通过一个实际例子来看看如何使用 Scikit-Learn 的正则化方法解决过拟合问题。

假设我们要预测一辆汽车的价格,给定了一些特征,如车龄、行驶里程、燃油类型等。我们将使用一个包含这些特征的数据集来训练一个回归模型。

3.1 数据准备

首先,我们需要加载数据并分割成训练集和测试集。

import pandas as pd
from sklearn.model_selection import train_test_split

# 加载数据
data = pd.read_csv("car_data.csv")

# 分割特征和目标变量
X = data.drop("price", axis=1)
y = data["price"]

# 分割训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

3.2 使用正则化方法训练模型

接下来,我们将分别使用 Lasso、Ridge 和 ElasticNet 三种正则化方法训练模型,并比较它们的性能。

from sklearn.metrics import mean_squared_error

# Lasso
lasso = Lasso(alpha=0.1)
lasso.fit(X_train, y_train)
y_pred_lasso = lasso.predict(X_test)
mse_lasso = mean_squared_error(y_test, y_pred_lasso)

# Ridge
ridge = Ridge(alpha=0.1)
ridge.fit(X_train, y_train)
y_pred_ridge = ridge.predict(X_test)
mse_ridge = mean_squared_error(y_test, y_pred_ridge)

# ElasticNet
elastic_net = ElasticNet(alpha=0.1, l1_ratio=0.5)
elastic_net.fit(X_train, y_train)
y_pred_elastic_net = elastic_net.predict(X_test)
mse_elastic_net = mean_squared_error(y_test, y_pred_elastic_net)

print("MSE of Lasso: ", mse_lasso)
print("MSE of Ridge: ", mse_ridge)
print("MSE of ElasticNet: ", mse_elastic_net)

3.3 结果分析

通过对比三种正则化方法的均方误差(MSE),我们可以了解到哪种方法在解决过拟合问题上表现得更好。例如,如果 ElasticNet 的 MSE 最低,说明它在平衡特征选择和权重减小方面做得更好。

四、技术总结

通过本文,我们了解了正则化的概念、原因以及 Scikit-Learn 提供的三种正则化方法。实际案例也展示了如何使用这些方法来解决过拟合问题。

但正则化并非万能,有时还需要结合其他方法,如交叉验证(Cross-Validation)或早停(Early Stopping)等…

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/931651.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue3将通用组件注册成全局组件

一、问题重现 我们用过vue的人都知道会有一个components文件夹用来存放我们的通用组件: 这里我的通用组件就有四个,但是有一些是使用评率比较高的,如果很多地方要使用我还得导入相同的组件,写的都是一样的代码: impo…

动态表情包怎么制作?分享一个一键生成gif动图的方法

跟朋友聊天时,经常会用很多有趣的表情包给朋友回复,那么除了利用系统提供的gif动画包,怎么才能完成gif图片制作(https://www.gif.cn)呢?下面就为大家分享一个一键生成gif动图的方法,通过简单的操…

msvcp110.dll丢失的解决方法,大家最常用的三个解决方法【教程】

win10是一款非常优秀的电脑系统,但有时候也会出现文件错误,比如msvcp110.dll丢失。这个问题可能会导致一些应用程序无法正常运行,甚至可能影响到系统的稳定性。那么,面对这样一个问题,我们应该如何解决呢?今…

C语言_分支和循环语句(1)

文章目录 前言分支语句循环语句一、什么是语句1.C语句可分为以下五类:2. 控制语句3.以下三类: 二、分支语句(选择结构)2.1 .1 if语句语法结构2.1.2 if书写形式的对比2.1.3 练习2.2 switch 语句 2.2.1 在switch语句中的break2.2.2 …

美团2面:5个9高可用99.999%,如何实现?

说在前面 在40岁老架构师 尼恩的读者社区(50)中,最近有小伙伴拿到了一线互联网企业如网易、有赞、希音、百度、网易、滴滴的面试资格,遇到一几个很重要的面试题: 问题1:你们系统,高可用怎么实现? 问题2&am…

根据案例写PLC程序-红绿灯控制

案例: 1、南北方向红灯点亮30s后熄灭; 2、在点亮南北方向红灯的同时点亮东西方向绿灯,并在点亮25s后,以0.5s熄灭0.5s点亮的时间闪烁3次后熄灭; 3、在东西方向绿灯熄灭后,东西方向黄灯点亮2s后熄灭&#xff…

手把手教你训练自己的Lora

本文教你手把手训练自己的Lora模型, 炼制的是Stable Diffusion的Lora模型。 1 准备工作 1.1 训练工具 当然, 我们可以使用Stable Diffusion的源码进行修改, 然后训练Lora模型。 但对于非专业用户来说, 这个门槛太高了。 推荐使…

Cookie for Mac:隐私保护工具保护您的在线隐私

随着互联网的发展,我们每天都会浏览各种网站,享受在线购物、社交娱乐和学习资料等各种便利。然而,您是否曾经遇到过需要频繁输入用户名和密码的情况?或者不方便访问您常用的网站?如果是这样,那么Cookie for…

无涯教程-机器学习 - 数据可视化

在上一章中,无涯教程讨论了数据对于机器学习算法的重要性,以了解具有统计信息的数据,还有另一种称为可视化的方式来理解数据。 借助数据可视化,可以看到数据的属性保持什么样的关联,这是查看要素是否与输出相对应的最…

ELK高级搜索(二)

文章目录 7.Java api 文档管理7.1 es技术特点7.2 获取数据7.3 文档查询7.4 文档新增7.5 文档修改7.6 文档删除7.7 文档bulk 8.图解es内部机制8.1 es分布式基础8.2 分片shard、副本replica8.3 单node环境创建index8.4 多node环境replica shard8.5 横向扩容…

WPF基础入门-Class7-WPF-MVVN框架

WPF基础入门 Class7-MVVN框架 使用框架可以省掉如Class6中的ViewModelBase.cs的OnPropertyChanged,亦方便命令传参 1、NuGet安装CommunityToolkit.Mvvm(原Mircrosoft.Toolkit.Mvvm)也可以安装MVVMLight等其他集成库 2、显示页面&#xff1…

【LeetCode-中等题】240. 搜索二维矩阵 II

文章目录 题目方法一:暴力双for查找方法二:二分查找,对每二维数组进行拆分,一行一行的进行二分查找方法三:列倒序Z字形查找 题目 方法一:暴力双for查找 public boolean searchMatrix(int[][] matrix, int …

Ansible 修改文件内容

按照下方所述,创建一个名为 /home/greg/ansible/issue.yml 的 playbook : 该 playbook 将在所有清单主机上运行 该 playbook 会将 /etc/issue 的内容替换为下方所示的一行文本: 在 dev 主机组中的主机上,这行文本显示 为&#x…

计算机msvcp120.dll丢失的解决方法,非常靠谱的三个解决方法

今天,我将为大家分享一个关于电脑报错msvcp120.dll解决方法的话题。在日常生活中,我们可能会遇到这样的问题:电脑突然出现“程序无法正常运行”的提示,然后要求我们重新安装某个软件或者升级系统。这时候,我们很可能会…

docker 学习-- 04 实践搭建 1(宝塔)

docker 学习-- 04 实践 1(宝塔) docker 学习-- 01 基础知识 docker 学习-- 02 常用命令 docker 学习-- 03 环境安装 docker 学习-- 04 实践 1(宝塔) 通过上面的学习, 已经可以搭建简单的案例, 接着我会搭…

适应高速率网络设备的-2.5G/5G/10G网络变压器/网络滤波器介绍

Hqst盈盛(华强盛)电子导读:在高速发展的互联网/物联网时代,为满足高网速的网络数据传输需求,网络设备在制造中也要选用合适的网络变压器/滤波器产品,有哪些可供选择的高速率网络变压器产品也是广大采购人员…

实验五 Linux 内核的安装与加载(三种方式)

【实验目的】 掌握 uboot 的使用方法,能够使用 uboot 安装和加载内核 【实验环境】 ubuntu 14.04 发行版FS4412 实验平台 【注意事项】 实验步骤中以“$”开头的命令表示在 ubuntu 环境下执行,以“#”开头的命令表 示在开发板下执行 【实验步骤】 …

Consul的简介与安装

1、Consul简介 Consul是一套开源的分布式服务发现和配置管理系统,由HashiCorp公司用Go语言开发,Consul提供了微服务系统中的服务治理、配置中心、控制总线等功能。这些功能中的每一个都可以根据需要单独使用,也可以一起使用以构建全方位的服…

python--文件管理系统

文件系统管理项目说明文档 项目说明 基本任务 在内存中开辟一个空间作为文件存储器,在其上实现一个简单的文件系统退出这个文件系统时,需要该文件系统的内容保存到磁盘上,以便下次可以将其回复到内存中来 具体要求 文件存储空间管理可采取链…