如何在【逻辑回归】中优化控制正则化程度的超参数C

news2024/9/22 15:31:43

一.逻辑回归基本介绍

逻辑回归也称作logistic回归,是一种广义的线性回归分析模型,主要是用来解决二分类问题(也可以解决多分类问题)。通过训练集来训练模型,并在训练结束后对测试集进行分类。
         通过激活函数,也就是sigmoid函数可以将线性回归模型的值缩放到(0,1)之间,公式和图像如下所示:

通过这种方式我们就可以将结果靠近1的判定为一类,靠近0的判定为另外一类了。

二.正则化基本介绍

正则化的意义:避免过拟合。模型如果很复杂,变量稍微变动就会引起模型的剧烈变动,这会导致模型在训练集上表现非常好,但是在测试集上会出现过拟合,不具备泛化能力,这不是我们想要的。因此我们选用正则化来避免过拟合,这是因为正则项是非负的,要使得损失最小必须让正则项趋近于0,它降低了特征参数的权重,使得模型更简单。

1、L1正则化
公式如下:

标题

L1正则化可以让一部分权重变为零(降维),因此产生稀疏模型,能够去除某些特征(权重为0则等效于去除)

2、L2正则化
公式如下:

L2正则化使各个维度权重普遍变小,减少了权重的固定比例,使权重平滑。

三.超参数C的介绍

C:浮点型(为正的浮点数),默认为1.0;表示正则化强度的倒数。数值越小表示正则化越强。

接下来我们通过绘制图像来可视化超参数C的大小对模型准确率的影响,从而选出最优的C:

四.python实战

先导入必要的模块:

from sklearn.linear_model import LogisticRegression as LR
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
import numpy as np

导入乳腺癌数据集,查看特征矩阵和标签值,并将其划分为训练集和测试集:

data = load_breast_cancer()
x = data.data
y = data.target
x.shape # (569, 30)
y.shape # (569,)
np.unique(y) # array([0, 1]) 二分类问题
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=420)

为了同时对比L1正则化和L2正则化的效果,因此创建四个空列表:

l1 = [] # 创建l1正则化的训练集准确率的空列表
l2 = [] # 创建l2正则化的训练集准确率的空列表
l1test = [] # 创建l1正则化的测试集准确率的空列表
l2test = [] # 创建l2正则化的测试集准确率的空列表
x_ = np.linspace(0.05, 1, 19) # 从0.05到1之间取19个数
for i in x_:
    lrl1 = LR(penalty="l1", solver="liblinear", C=i, max_iter=1000).fit(x_train, y_train)
    lrl2 = LR(penalty="l2", solver="liblinear", C=i, max_iter=1000).fit(x_train, y_train)
    l1.append(accuracy_score(lrl1.predict(x_train), y_train)) # l1正则化的训练集准确率
    l1test.append(accuracy_score(lrl1.predict(x_test), y_test)) # l1正则化的测试集准确率
    l2.append(accuracy_score(lrl2.predict(x_train), y_train)) # l2正则化的训练集准确率
    l2test.append(accuracy_score(lrl2.predict(x_test), y_test)) # l2正则化的测试集准确率
graph = [l1, l2, l1test, l2test]
color = ["green", "black", "lightgreen", "gray"]
label = ["L1", "L2", "L1test", "L2test"]
plt.figure(figsize=(6, 6))
for i in range(len(graph)):
    plt.plot(x_, graph[i], color[i], label=label[i])
plt.legend(loc=4) # 图例位置.4表示右下角 
plt.show()

结果如下所示:

由图可知,用训练集的测试结果显著优于用测试集的测试结果,这说明模型在训练集上表现很好,在测试集上表现欠佳,这说明有轻微的过拟合。还可以发现,当C逐渐增大时,对模型的惩罚越来越小,训练集上的表现越来越高;但是测试集的表现,L1正则化在C在0.5左右时,就不再提升,但是L2正则化在0.5之后还有提升,且在0.62左右达到最高,在0.9左右开始下降。虽然训练集表现在一路走高,但是测试集上模型已经表现出了过拟合的倾向。因此我们会倾向选择0.62作为我们最优的C。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1144136.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

我该如何入门Python机器学习?

我是在研一的时候开始学习机器学习的。相对于题主来说,我更是一窍不通,Python都没有一点点基础。总结一下我在学习Python的过程,以及自己在学习机器学习过程中的用到的优质资源,也总结一下我的学习心得。 一、怎么学习Python&…

开放式耳机百元价位怎么选、公认最好的百元开放式耳机

开放式耳机采用挂耳式的佩戴方式,不需封闭耳道,这一创新设计允许我们欣赏音乐的同时保持对周围环境的感知,从而在户外运动、通勤或其他活动中提供更安全的体验。而且,在预算有限的情况下,我们可以在百元价位范围内找到…

JS中Map对象与object的区别

若想了解Map对象可以阅读本人这篇ES6初步了解Map Map对象与object有什么区别?让我为大家介绍一下吧! 共同点 二者都是以key-value的形式对数据进行存储 const obj {name:"zs",age:18}console.log(obj)let m new Map()m.set("name&quo…

shell算数运算指令、shell的if分支结构使用场景及相关代码

1.shell算数运算的指令 (( )) $[ ] let expr expr的字符串运算 例子: 2.shell的if分支结构 例子:

【C++】C++入门(上)--命名空间 输入输出 缺省参数 函数重载

目录 一 命名空间 1 命名空间的定义 2 命名空间的使用 二 C输入和输出 1 输出 2 输入 三 缺省参数 1 缺省参数概念 2 缺省参数分类 (1) 全缺省参数 (2)半缺省参数 四 函数重载 1 函数重载概念 2 分类 1 参数类型不同 2 参数个数不同 3 参数类型顺序不同 3 C为什…

Python中json的用法

python 中 json的用法 一、JSON 的介绍二、json和python的转换1) python 的字典或列表转换为json2) json转换为python的字典或列表 一、JSON 的介绍 Json本质上一个带有特定格式的字符串,json是一种在各个编程语言中流通的数据格式,负责不同…

Android底层摸索改BUG(二):Android系统移除预置APP

首先我先提供以下博主博文,对相关知识点可以提供理解、解决、思考的 Android 系统如何预装第三方应用以及常见问题汇集android Android.mk属性说明及预置系统app操作说明系Android 中去除系统原生apk的方法 取消预置APK方法一: 其实就是上面的链接3&a…

基于springboot实现休闲娱乐代理售票平台系统项目【项目源码+论文说明】计算机毕业设计

基于springboot实现休闲娱乐代理售票平台系统演示 摘要 网络的广泛应用给生活带来了十分的便利。所以把休闲娱乐代理售票管理与现在网络相结合,利用java技术建设休闲娱乐代理售票系统,实现休闲娱乐代理售票的信息化。则对于进一步提高休闲娱乐代理售票管…

1817_ChibiOS的RT线程

全部学习汇总: GreyZhang/g_ChibiOS: I found a new RTOS called ChibiOS and it seems interesting! (github.com) 1. 关于线程,有几个概念需要弄清楚:声明、生命循环、延迟、线程引用、线程队列、线程时间、优先级管理、调度。 2. 两个声明…

CS224W2.2——传统基于特征的方法(边层级特征)

在这篇中,我们介绍了链接预测的重要任务,以及如何提取链接级特征来更好地解决这类问题。这在我们需要预测缺失的边或预测将来会出现的边的情况下很有用。我们将讨论的链路级功能包括基于距离的功能,以及本地和全局邻域重叠。 文章目录 1. 边层…

1818_ChibiOS的计数信号量

全部学习汇总: GreyZhang/g_ChibiOS: I found a new RTOS called ChibiOS and it seems interesting! (github.com) 之前见过计数信号量,也是在FreeRTOS中看到的。也看到过这样的功能在驱动设计中的应用,但是当时没有理解这个使用的方式。 1.…

接口自动化测试 —— JMeter断言基本使用!

断言 断言:就是让程序判断预期结果和实际结果是否一致 注意:请求发起成功了,不代表着一定符合预期的结果。 JMeter中常用断言 响应断言 JSON断言 持续时间断言 响应断言 步骤::线程组——HTTP取样器——断言—…

File相关方法2

一.获取当前目录下所有一级文件名称 1.代码 package org.example;import java.io.File;public class day03 {public static void main(String[] args) {//获取当前目录下所有一级文件名称final File f1 new File("d:/temp");final String[] name f1.list();for (…

【博士每天一篇文献-算法】Gradient Episodic Memory for Continual Learning

阅读时间:2023-10-26 1 介绍 年份:2017 作者:David Lopez-Paz, Marc’Aurelio Ranzato 期刊:Part of Advances in Neural Information Processing Systems 30 (NIPS 2017) 引用量:2044 针对持续学习中灾难性遗忘问题…

怎么在电脑上多屏播放和实时视频输入,ProVideoPlayer 功能介绍

ProVideoPlayer for mac简称pvp2,是一款Mac系统的多屏播放软件,可将视频映射(包括播放和实时视频输入)并实时控制到一个或多个输出端,实现包括实时效果、调度、网络同步和内容管理等多种效果,provideoplaye…

添加IDEA到右键打开里面

打开注册表 计算机\HKEY_LOCAL_MACHINE\SOFTWARE\Classes\Directory\shell 首先新建IDEA 将第一个值修改为下面这个,这个是右键时候的显示 新建一个字符串,重命名为Icon(一般好像是这个,可能无所谓),然…

leetcode:1154. 一年中的第几天(python3解法)

难度:简单 给你一个字符串 date ,按 YYYY-MM-DD 格式表示一个 现行公元纪年法 日期。返回该日期是当年的第几天。 示例 1: 输入:date "2019-01-09" 输出:9 解释:给定日期是2019年的第九天。 示例…

分享一波操作系统、谢希仁版本计算机网络学习笔记【思维导图】

操作系统复习笔记 - 幕布第一章引论第二章处理器管理进程同步与通信https://www.mubu.com/doc/58qrnf20ndg 大纲 - 幕布物理层数据链路层网络层https://www.mubu.com/doc/1eo9_8TyUdg计算机网络-语雀https://www.yuque.com/yuqueyonghu6nc56e/dgg1dl/wx34gx72xpgmt598?singleD…

七人拼团模式:裂变式营销的奥秘,全面解析

在当今的商业市场中,拼团模式已经成为一种备受欢迎的营销策略。其中,七人拼团模式以其独特的玩法和优势,吸引了众多消费者的关注。本文将详细介绍七人拼团模式的玩法、规则、优势亮点以及金额参考,帮助大家更好地了解这种模式。 一…

OS的Alarm定时器调度机制

调度表触发的任务在编译时就被静态定义,任务的触发时间和执行顺序是固定的。这种方式适用于已知的、固定的任务触发模式,例如周期性任务或事件驱动任务。而使用 Alarm 机制触发的任务具有更大的灵活性。Alarm 允许在运行时动态地设置和修改任务的触发时间…