17. 权重衰退（weight_decay）

news2025/2/22 4:35:03

之前描述了过拟合的问题，现在介绍一些正则化模型的技术。

正则化：凡事可以减少泛化误差而不是减少训练误差的方法，都可以称作正则化方法。

我们总是可以通过去收集更多的训练数据来缓解过拟合。但这可能成本很高，耗时颇多，或者完全超出我们的控制，因而在短期内不可能做到。

假设我们已经拥有尽可能多的高质量数据，我们便可以将重点放在正则化技术上。

在多项式回归的例子中，我们可以通过调整拟合多项式的阶数来限制模型的容量。实际上，限制特征的数量是缓解过拟合的一种常用技术。然而，简单地丢弃特征对这项工作来说可能过于生硬。

ps：不断更新w和b这两个模型参数使得损失函数最小，w和b不是唯一的。也就是说，达到局部最优解可以有多组值。有可能一组w和b很大，但仍然能达到局部最优解，但是参数很大，误差和噪声也会被放大，预测会不准确。因此，可以人为地控制参数的取值范围。

权重衰退是一种最常见的处理过拟合的方法，通常也被称为L2正则化

1. 使用均方范数作为硬性条件

在这里插入图片描述

w权重是模型中未知数的系数，它的取值情况直接决定了模型曲线到底是什么样子的，而偏置b的取值，不会改变模型曲线的样子，只会改变模型的平移情况。L1和L2正则化，针对的是w进行，对b的处理意义不大。

使得w的每个项的平方和是小于一个特定的值，也就是说每个项的值都小于特定值的开根号。

但一般来说，我们不会直接用这个优化函数，因为相对来说麻烦一点。常用的是下面的函数。

2. 使用均方范数作为柔性限制

在这里插入图片描述

当超参数=0，就是没有起作用，等价于上一张图片中Θ等于无穷大，因为没有对模型容量进行控制。
当超参数趋向于无穷大时，表示惩罚项越来越大，等价于Θ趋向于0，使得最优解w* 趋向于0.
如果想使得模型复杂度低，可以通过增加λ满足需求

W可以选择的范围越大哦，表示模型越复杂。
较小的λ值对应较少约束的w，而较大的λ值对w的约束更大。

3. 演示对最优解的影响

在这里插入图片描述
绿色曲线是损失函数的取值，黄色曲线是惩罚项的取值，两者都是圈越大取值越大。

在L2损失函数中，在优化点附近时对值的拉伸比较小，因为梯度来说相对比较小，但是离优化点比较远的时候，梯度值更大，往优化点的作用会越大。

所以，在绿色曲线的中心这一点，惩罚对这一点的拉力会大于绿色曲线loss对其的拉力，因为在最优点绿色函数梯度接近于0了，而黄色函数的梯度更大，使得参数更新时是往橙色函数方向更新，最后在两个曲线相切的地方形成平衡点。

因为目标是为了减小loss，一开始loss函数是只有一项组成，而现在加入了正则化项，在取同样的loss值时，只能通过更小的w来实现了。因此，这样就控制了w的取值范围，从而控制了模型容量。

所以，在加入了惩罚项后，也就是在橙色曲线的限制下，使得最优解往左下偏移了。这个最优解是目标函数（损失函数+正则化得到的函数）的最优解，而不是损失函数的最优解。

正则项就是为了防止达到损失达到损失函数最优而导致的过拟合，所以正则项能把最优解往外拉。

并且，换个角度理解，越接近loss函数的最优点，代表模型复杂度越高，拟合程度越大，当引入惩罚项来拉动远离最低点，就使得模型复杂度越低，模型容量更小，可以防止过拟合。

至于为什么是两个函数曲线相切的点呢？
答：因为两个曲线相切时，黄线和绿线梯度一样，并且由于二者梯度方向相反，此时梯度绝对值最小为0，参数就不会再更新下去了，得到了平衡，也就得到了最优解。

4. 参数更新法则

在这里插入图片描述
所以，新的更新梯度，每次是wt乘以一个小于1的数，再沿着梯度的反方向走一点。

为什么叫权重衰退？
答：是因为λ的引入，使得在更新参数前，把当前的权重进行了一次缩小（一次衰退）。

5. 总结

权重衰退通过L2正则项使得模型参数不会过大，从而控制模型复杂度
正则项权重是控制模型复杂度的超参数

6. 一些Q&A

为什么参数选择范围小，模型复杂度就更低了呢？

在这里插入图片描述

答：以上图中的函数图像来说，要去拟合那些红点，如果可以允许模型参数选的比较大的话，可以做一个任何一个很复杂的曲线（如蓝色曲线）去拟合。

比如说，同样是二次模型或者三次模型这种简单模型，假设我的权重可以取到很大，会造成一个非常不平滑的曲线。那现在限制w的取值范围，也就是只能去学习比较平滑的曲线，而不去学复杂的曲线，就意味着模型复杂度变低。

或者这么理解，一个多项式中的高次项的系数变小了或者为0，函数也就变平滑了。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/79617.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【OpenCV-Python】教程：4-7 BRIEF（ Binary Robust Independent Elementary Features）特征

【OpenCV-Python】教程：4-7 BRIEF（ Binary Robust Independent Elementary Features）特征

OpenCV Python BRIEF （ Binary Robust Independent Elementary Features） 【目标】学习 BRIEF 算法理论【理论】我们知道SIFT使用128维向量作为描述符。因为它使用的是浮点数，所以需要512字节。类似地，SURF也需要最少256字…

阅读更多...

堪称零瑕疵！仅用了365页直接封神，我要吹爆这份RocketMQ笔记

堪称零瑕疵！仅用了365页直接封神，我要吹爆这份RocketMQ笔记

RocketMQ 是阿里巴巴在2012年开源的分布式消息中间件，作为经历过多次阿里巴巴双十一这种“超级工程”的洗礼并有稳定出色表现的国产中间件，以其高性能、低延时和高可靠等特性近年来已经也被越来越多的国内企业使用。谁使用ApacheRocketMQ？ …

阅读更多...

【不知道发啥】Win7网页版使用方法

【不知道发啥】Win7网页版使用方法

文章目录网站使用方法测试总结🌈博客主页：Minecraft__Him 💌欢迎关注🎉点赞👍收藏⭐️私信📝评论网站 https://win7simu.visnalize.com/ 使用方法如果是蓝屏那就等一下， 等它跳到这个界面 …

阅读更多...

硕士毕业进入阿里三年半，离职申请N+3，到手20多万，跳槽到下家涨薪50%，感谢阿里！...

硕士毕业进入阿里三年半，离职申请N+3，到手20多万，跳槽到下家涨薪50%，感谢阿里！...

最近这段时间的负能量帖子太多了，今天说点正能量的事。一位前阿里员工说：硕士3.5年，校招进入阿里供应链后端，月初离职，申请拿了n3，一共给了20多万，跳槽的package涨了50%，感谢阿里&am…

阅读更多...

当我和ChatGPT聊Everything as Code

当我和ChatGPT聊Everything as Code

以下是我和ChatGPT的聊天原文。一开始还有点惊喜，震惊。越到后面，越感到失望。网络上大肆宣传ChatGPT要代替人类的文章，我怕是专门炒流量赚钱的吧？我个人觉得，它离代替人类，还远着呢。Everything as Code 的…

阅读更多...

Stimulsoft Reports.NET 2023.1.0 Crack

Stimulsoft Reports.NET 2023.1.0 Crack

Stimulsoft Reports.NET 是一种为在 Windows 窗体应用程序中集成和工作而创建的报告工具。使用我们的报告工具，您可以创建、编辑、查看、导出和打印任何复杂程度的报告。该产品包括一个功能强大、直观易懂的报表设计器和一个交互式查看器。最大功能 Stimulsoft Rep…

阅读更多...

光储直柔———助力实现零碳电力的新型建筑配电系统

光储直柔———助力实现零碳电力的新型建筑配电系统

光储直柔———助力实现零碳电力的新型建筑配电系统（2021） ［引用本文］江亿．光储直柔———助力实现零碳电力的新型建筑配电系统[J]．暖通空调，2021, 21(10): 112. 光储直柔PSDF（phot…

阅读更多...

记一次CTF测验（web）

记一次CTF测验（web）

目录 01.php 签到题目题目描述： 解题： 02.php 11？ 题目描述： 解题： 03.php get拿来吧你题目描述： 解题： 04.php 你从哪里来我的朋友题目描述： 解题： 05.p…

阅读更多...

功能测试（九）—— adb命令、Charles手机抓包

功能测试（九）—— adb命令、Charles手机抓包

目录目标一、APP命令格式 1.1 查看已连接的设备列表 1.2 断开连接设备 1.3 无线连接设备 1.4 开启adb服务 1.5 关闭adb服务 1.6 安装软件包 1.7 卸载软件包 1.8 获取包名 1.9 获取当前窗口(注意大小写区分) 1.10 清除缓存 1.11 启动/停止应用 1.12 获取手机日志…

阅读更多...

Verilog语法之条件编译指令`ifdef， `ifndef，`else， `elsif， `endif

Verilog语法之条件编译指令`ifdef， `ifndef，`else， `elsif， `endif

0、前言一般情况下，C语言中的每一行代码都要参加编译。但有时候出于对程序代码优化的考虑，希望只对其中一部分内容进行编译，此时就需要在程序中加上条件，让编译器只对满足条件的代码进行编译，将不满足条件的代码舍弃&…

阅读更多...

Canal-1-安装-代码

Canal-1-安装-代码

1总体简介 1 mysql需要开启binlog binlog分类 1.1）statement: 语句级别，binlog 会记录每一次执行写操作的语句。相对于row模式节省空间，但是会产生数据不一致性，例如：update aa set create_timenew(); 如果用binlo…

阅读更多...

Java学习笔记7.2.2 事件处理 - Swing常用事件

Java学习笔记7.2.2 事件处理 - Swing常用事件

文章目录零、本讲学习目标一、Swing常用事件二、窗体事件（一）窗体事件概述（二）窗体事件类API概述（三）窗体事件使用方法（四）窗体事件案例演示三、鼠标事件（一）…

阅读更多...

【进阶】C语言第一课：深度剖析数据在内存中的存储

【进阶】C语言第一课：深度剖析数据在内存中的存储

目录前言： 一、数据类型详细介绍： 1.相关知识回顾： 2.类型的基本归类： 整型家族： 浮点型家族： 构造类型： 指针类型： 空类型： 二、整形在内存中的存储： …

阅读更多...

PS 更换证件照背景色

PS 更换证件照背景色

哈喽，各位小伙伴！今天我们来学习一下如何更换证件照背景色？ 常见证件照常见的证件照一般有白色、蓝色和红色三种样式，我们拍证件照一般只拍一种，为了节省支出，其他两种颜色就需要我们自己调色处理了蓝…

阅读更多...

计算机毕业设计ssm+vue基本微信小程序的客户资源管理系统

计算机毕业设计ssm+vue基本微信小程序的客户资源管理系统

项目介绍基于Vue技术的客户资源管理系统是对客户的一些资料进行有效的管理, 它将企业的经营管理以客户为中心,通过系统管理员就可以轻松有效的对客户的信息进行操作管理。从而实现客户资料的一致性、准确性,查询的及时性等等。该系统提供了客户管理、系统管理、合同管理、…

阅读更多...

Java学习笔记7.1.2 初探Swing世界 - 布局管理器

Java学习笔记7.1.2 初探Swing世界 - 布局管理器

文章目录零、本讲学习目标一、布局管理器二、边框布局管理器（BorderLayout）（一）边框布局管理器概述（二）边框布局管理器API文档（三）边框布局管理器使用方法（四&#xff09…

阅读更多...

Java项目：SSM在线物流综合管理平台系统

Java项目：SSM在线物流综合管理平台系统

作者主页：源码空间站2022 简介：Java领域优质创作者、Java项目、学习资料、技术互助文末获取源码项目介绍本项目分为前后台，后台为管理员登录； 管理员角色包含以下功能管理员登录,管理员管理,合作公司管理,车型信息,货物基本…

阅读更多...

MongoDB 数据库安装详细教程

MongoDB 数据库安装详细教程

1. MongoDB 下载流程 （急用）直接抵达：Download MongoDB Community Server | MongoDB 打开MongoDB官网：MongoDB (点击进入) 下载完成之后双击打开会出现如下界面： 2. MongoDB 环境配置通过刚刚的安装知道了MongoDB Se…

阅读更多...

人工智能--决策树原理与代码实现、特征提取、回归决策树

人工智能--决策树原理与代码实现、特征提取、回归决策树

决策树：本质就是一个拥有多个判断节点的树 1，熵系统越有序，集中，熵值越低；系统越混乱，越分散，熵值越高在这里的计算中，log2记为1，通常以2为底 2，决策树…

阅读更多...

Matlab|基于粒子群优化算法及鲁棒MPPT控制器提高光伏并网的效率

Matlab|基于粒子群优化算法及鲁棒MPPT控制器提高光伏并网的效率

💥💥💥💞💞💞欢迎来到本博客❤️❤️❤️💥💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑…

阅读更多...

推荐文章

最新文章