【机器学习】正则化详解和过拟合的解决

news2024/12/26 20:50:40

https://blog.csdn.net/weixin_45434953/article/details/130970273
上一篇文章的例子中,如果使用一个四次多项式去拟合房价函数,会导致过拟合问题
左图:拟合成功;右图:过拟合
而正则化是解决过拟合的一个方法。右图过拟合是因为其三次方项和四次方项的影响,我们再回顾下线性回归的代价函数:
J = 1 2 m ∑ i = 1 m h θ ( x ( i ) − y ( i ) ) 2 J = \frac{1}{2m}\sum_{i=1}^m h_\theta(x^{(i)}-y^{(i)})^2 J=2m1i=1mhθ(x(i)y(i))2我们可以人为地添加一些"惩罚项",比如: J = 1 2 m ∑ i = 1 m h θ ( x ( i ) − y ( i ) ) 2 + 1000 θ 3 2 + 1000 θ 4 2 J = \frac{1}{2m}\sum_{i=1}^m h_\theta(x^{(i)}-y^{(i)})^2+1000\theta_3^2+1000\theta_4^2 J=2m1i=1mhθ(x(i)y(i))2+1000θ32+1000θ42当我们要得出最小的代价函数的时候, θ 3 \theta_3 θ3 θ 4 \theta_4 θ4必须要尽可能接近于0,否则函数J会变得很大。对于假设函数 θ 0 + θ 1 x + θ 2 x 2 + θ 3 x 3 + θ 4 x 4 \theta_0+\theta_1x+\theta_2x^2+\theta_3x^3+\theta_4x^4 θ0+θ1x+θ2x2+θ3x3+θ4x4来说 θ 3 \theta_3 θ3 θ 4 \theta_4 θ4接近于0会使得函数图像较为接近 θ 0 + θ 1 x + θ 2 x 2 \theta_0+\theta_1x+\theta_2x^2 θ0+θ1x+θ2x2,但是仍然保留有 θ 3 \theta_3 θ3 θ 4 \theta_4 θ4的特征,而不是简单地将它抛弃掉

简单来说,正则化能够在不丢失特征信息的情况下简化模型,使得曲线更加平滑而非“放飞自我”。假设房价有101个特征: θ 0 . . . . . . θ 1 00 \theta_0......\theta_100 θ0......θ100那么我们也能使用如下的正则化方式: J = [ 1 2 m ∑ i = 1 m h θ ( x ( i ) − y ( i ) ) 2 + λ ∑ j = 1 m θ j 2 ] J = [\frac{1}{2m}\sum_{i=1}^m h_\theta(x^{(i)}-y^{(i)})^2+\lambda\sum_{j=1}^m\theta_j^2] J=[2m1i=1mhθ(x(i)y(i))2+λj=1mθj2]可以看到我们一般不对 θ 0 \theta_0 θ0进行正则化。其中 λ \lambda λ用于控制它们之间的权重。如果 λ \lambda λ太大,会使得函数假设函数近似于 θ 0 \theta_0 θ0也就是用一条直线去拟合,反而变成了欠拟合了,因此对 λ \lambda λ也需要小心设置。

线性回归正则化

对于正则化的线性回归,我们需要作如下修改-在这里插入图片描述
仔细观察可知道,粉色括号里的项恰好是正则化后的代价函数 J ( θ ) J(\theta) J(θ)的导数。我么不妨整理一下 θ j : = ( 1 − ∂ λ m ) θ j − α 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) ∗ x ( i ) \theta_j := (1-\partial\frac{\lambda}{m})\theta_j-\alpha\frac{1}{m}\sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})*x^{(i)} θj:=(1mλ)θjαm1i=1m(hθ(x(i))y(i))x(i)可以看到,正则化的梯度下降就是将 θ j \theta_j θj缩小一下,然后采用常规的梯度下降进行处理

如果我们采用正规方程,那么正则化的正规方程的形式则如下:
θ = ( X T X + λ [ 0 1 . . 1 ] ) − 1 X T y \theta = (X^TX+\lambda\begin{bmatrix} 0 & & & & \\ & 1& & & \\ & & .& & \\ & & & . & \\ & & & & 1 \end{bmatrix})^{-1}X^Ty θ=(XTX+λ 01..1 )1XTy
相比常规正规方程增加了一个矩阵后,只要 λ > 0 \lambda>0 λ>0小括号里的矩阵就一定是可逆的,因此是一定有计算结果的。这也回应了之前在介绍正规方程时, ( X T X ) − 1 X T y (X^TX)^{-1}X^Ty (XTX)1XTy中的矩阵求逆一旦遇到不可逆的矩阵该怎么办,答案就是采用正规化将其变成可逆的

逻辑(Logistics)回归正规化

在这里插入图片描述
当我们采用一个有很多无关特征的多项式进行拟合的时候,这些大量的特征会导致过拟合

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/611529.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ChatGPT们对今后社会生活的影响

探索ChatGPT,协助工作学习创作。加入「阿杰与AI」公众号,一同探讨,一同成长,比他人更进一步。 1.AI、OpenAI、MidJourney发展史2.ChatGPT们对今后社会生活的影响3.目前市面比较好的AI产品介绍4.注册方式汇总5.针对初学者的 ChatG…

C#,码海拾贝(28)——求解“对称正定方程组”的“平方根法”之C#源代码

using System; namespace Zhou.CSharp.Algorithm { /// <summary> /// 求解线性方程组的类 LEquations /// 原作 周长发 /// 改编 深度混淆 /// </summary> public static partial class LEquations { /// <summary> /…

淘宝618每日一猜答案(6月5日) 淘宝大赢家今日答案

淘宝6月5日每日一猜答案是什么&#xff1f;&#xff0c;接下来也会给大家来介绍一下6月5日淘宝大赢家每日一猜的答案。 淘宝每日一猜6月5日答案分享 活动问题&#xff1a;亚特兰蒂斯体型最大的员工 活动答案&#xff1a;【白鲸】 注意&#xff1a;打开手机淘宝&#xff0c;搜…

记录 vue3 webpack 使用 iframe 遇到的坑

需求 我尝试用Vue3写一个自己的主页&#xff0c;把常用的功能集中到主页中&#xff0c;如下图 后发现一个好玩的东西&#xff0c;js实现的在网页底部出现鱼和波浪&#xff0c;如下图&#xff0c;就像想也放到自己的主页中&#xff0c;搜索后发现可以在Vue中用iframe标签直接引…

Nginx踩坑记录 配置文件中的include不能嵌套 (include的文件里不能再include其他文件了)

上一篇文章介绍了配置文件有多个位置&#xff0c;并且可以采用include实现主配置文件分文件的个性化配置模式&#xff1a;Nginx配置文件 所在路径 到底在哪&#xff1f;_身价五毛的博客-CSDN博客 然后就又踩坑了&#xff0c;include不能嵌套调用&#xff0c;即&#xff1a; …

战斗机上的无线电设备都有哪些?

无线电在我们的生活中无处不在&#xff0c;而无线电设备也有着广泛的应用。那么有没有老铁知道&#xff0c;战斗机上都有哪些无线电设备呢&#xff1f;下面河南宝蓝小编带大家一起来了解下&#xff1a; 战斗机上的无线电设备都有哪些 1、通信系统 通信系统是战斗机比较基本的…

IP-GUARD如何将触发策略的报警信息按照一定周期发送到指定邮箱?

如何将触发策略的报警信息按照一定周期发送到指定邮箱&#xff1f; 1、设置邮件服务器 控制台菜单【工具】-【选项】-【邮件报告服务器设置】中&#xff0c;设置好邮件服务器&#xff1b; 2、邮件报告设置 控制台菜单【工具】-【邮件报告设置】中&#xff0c;新建邮件配置&am…

技术的交流 思想的碰撞|2023 开放原子全球开源峰会 TOC 面对面分论坛即将启幕

由开放原子开源基金会主办的 2023 开放原子全球开源峰会 TOC 面对面分论坛即将于 6 月 13 日在北京经开区北人亦创国际会展中心隆重举办。 作为开放原子开源基金会最高技术决策机构&#xff0c;TOC&#xff08;Technical Oversight Committee&#xff09;汇聚了基金会单位的开…

大语言模型的创意能力到底几何?探索从GPT-2到GPT-4的演进

编者按&#xff1a;大语言模型可以提供许多创意性内容&#xff0c;如写诗、写小说等。那么到底应该如何评估大语言模型生成的创意性内容的水平呢&#xff1f; 本文探讨了GPT-2到GPT-4的创造性&#xff0c;并分析了这些模型在不同创造性测试中的表现。作者使用了三种测试来衡量模…

分布式事务·入门与解决·贰·Saga

文章目录 1 saga分布式事务框架1.1 分布式事务相关理论1.1.1 分布式事务的出现1.1.2 CAP定理1.1.3 BASE定理——CAP的解决思想1.1.4 分布式事务四种模式1.1.5 XA、AT与TCC模式1.1.6 Saga模式 1.2 分布式事务框架ElegentACTX对Saga模式的解决1.2.1 ElegentACTX介绍1.2.2 Elegent…

低代码开发的新趋势:公民自动化和公民开发

在企业数字化转型领域&#xff0c;公民自动化是一个比较“陌生又熟悉”的词汇&#xff0c;它在公民开发运动中引起了不小的轰动。那么&#xff0c;什么是公民自动化&#xff1f;什么是公民开发呢&#xff1f;它们之间又有什么不同之处&#xff1f; 什么是公民开发 自低代码诞生…

Neural Network学习笔记3

损失函数和反向传播网络 在进行损失函数计算后&#xff0c;再进行.backward()反向传播。 import torch import torchvision from torch import nn from torch.nn import Conv2d, MaxPool2d, Flatten, Linear, Sequential from torch.utils.data import DataLoader from torch…

外贸人注意!这件事不能再对客户承诺了!

你还在配合客户低开发票吗&#xff1f; 本文目录&#xff1a; 什么是低开发票&#xff1f; 低开发票有什么风险&#xff1f; 哪些国家客户喜欢低开发票&#xff1f; 哪些国家低开发票会被抓&#xff1f; 很多人认为客户索要低开发票偷税漏税是人之常情。为了加强合作关系&a…

2015 年一月联考逻辑真题

2015 年一月联考逻辑真题 真题&#xff08;2015-26&#xff09; 26.晴朗的夜晚我们可以看到满天星斗&#xff0c;其中有些是自身发光的恒星&#xff0c;有些是自身不发光但可以反射附近恒星光的行星。恒星尽管遥远&#xff0c;但是有些可以被现有的光学望远镜“看到”。和恒星不…

YOLOv8训练参数详解

全部参数表 首先罗列一下官网提供的全部参数。 1. model ✰✰✰✰✰ model: 模型文件的路径。这个参数指定了所使用的模型文件的位置&#xff0c;例如 yolov8n.pt 或 yolov8n.yaml。 选择.pt和.yaml的区别 若我们选择 yolov8n.pt这种.pt类型的文件&#xff0c;其实里面是包…

从0到1实现IOC

一、什么是 IOC 我们先来看看spring官网对IOC的定义&#xff1a; IoC is also known as dependency injection (DI). It is a process whereby objects define their dependencies, that is, the other objects they work with, only through constructor arguments, argumen…

阿里工程师手打的MySQL学习笔记,轻松拿捏MySQL

我们都知道阿里经历过几次重大的技术变革&#xff0c;其中就包括放弃Oracle和Hadoop&#xff0c;全面拥抱MySQL。 讲道理其实靠OracleHadoop也能撑一撑&#xff0c;为啥偏得变。当然肯定不是因为阿里爸爸没钱&#xff0c;而是即便再花个几千万还是不能彻底解决问题&#xff0c…

压力测试遭遇大量TIME_WITE之后(这样解决)

前言&#xff1a;http协议是互联网中最常使用的应用层协议&#xff0c;它的绝大多数实现是基于TCP协议的。 目录 一 问题描述 二 问题跟踪 三 跟进分析 四 解决方法 一、问题描述 某天&#xff0c;在对一个提供http接口的后台服务进行压力测试过程中&#xff0c;我们设定了…

科班出身又如何?这类人连外包都不要...

在软件测试这个领域&#xff0c;多数人对于外包公司是有戴有色眼镜看待的&#xff0c;外包测试员往往会处于一个比较尴尬的局面。主要是由于雇主公司比较核心或者底层的东西是不会让外包人员作的。外包人员一般做的都是“边角料”。而这些活往往对于技术要求不高&#xff0c;所…

python接口自动化 —— 接口测试工具介绍(详解)

简介 “工欲善其事必先利其器”&#xff0c;通过前边几篇文章的介绍&#xff0c;大家大致对接口有了进一步的认识。那么接下来让我们看看接口测试的工具有哪些。 目前&#xff0c;市场上有很多支持接口测试的工具。利用工具进行接口测试&#xff0c;能够提供测试效率。例如&…