五、过拟合问题与正则化

news2024/11/17 3:51:49

一、过拟合问题

(一)问题的提出

过拟合问题的定义,以线性回归为例,在房价预测的数据集中,假设函数产生的曲线有三种情况,如下图:

h_\theta(x)=\theta_0+\theta_1xh_\theta(x)=\theta_0+\theta_1x+\theta_2x^2h_\theta(x)=\theta_0+\theta_1x+\theta_2x^2+\theta_3x^3+\theta_4x^4
(1)欠拟合(2)正常拟合(3)过拟合

第一种情况,回归曲线不能很好的拟合数据集,假设函数具有高偏差,被称为欠拟合;

第二种情况,在第一种的基础上增加了一个二次项,可以较好的拟合样本点;

第三种情况,在第二种情况下又增加了三次项和四次项,似乎很好的拟合了数据集,因为它通过了所有的数据点。这种情况我们称为过度拟合,假设函数有高方差。这是由于只要函数足够复杂,那么肯定有一个多项式能够拟合所有的点,但是由于样本点的不足,无法对这个多项式产生很好的约束,这就产生了过度拟合。过度拟合会降低模型的泛化能力,对新样本的预测能力大大下降

以逻辑回归分类为例,在同一个数据集中,由于假设函数的复杂程度不同会产生下面三种情况:

h_\theta(x)=g(\theta_0+\theta_1x_1+\theta_2x_2)h_\theta(x)=g(\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x^2_1+\theta_4x_2^2+\theta_5x_1x_2)h_\theta(x)=g(\theta_0+\theta_1x_1+\theta_2x_2^2+\theta_3x_1x^2_2+\theta_4x_2^2+\theta_5x_1x_2....)
(1)欠拟合(2)正常拟合(3)过拟合

(二)解决过拟合问题的方法

在样本特征过多,但是数量过少时,往往容易产生过拟合现象。

1、减少选择变量的数量

(1)人工选择变量清单,减少变量

(2)模型选择算法(以后的课程会讲),自动选择特征

舍弃变量的同时,也舍弃了一些关于问题的信息。

2、正则化

(1)保存所有的特征变量,但是减小量级或参数\theta_j的大小

当有很多特征时,效果很好,因为每个特征都有助于预测y

二、代价函数

在上述问题中,三次项四次项的参数(\theta_3\theta_4)过大,会导致过拟合问题,降低模型的泛化能力,所以我们要尽可能小的降低\theta_3\theta_4

均方误差代价函数的形式为\underset{\theta}{min}\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2,我们的目的就是最小化这个函数,那么现在我们可以对这个函数进行一些修改,如添加两个项,使其变成\underset{\theta}{min}\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2+1000\theta^2_3+1000\theta_4^2,其中\theta_3\theta_4的参数我们设置为了1000是个很大的数,公式为了最小化代价函数,就会尽可能的减少\theta_3\theta_4的值,也就是接近于0,好像去掉了这两项一样。

举例说明:

有一个数据集,有100个特征x,假设函数存在101个参数

特征:x_1,x_2,...,x_{100}

参数:\theta_0,\theta_1,\theta_2,..,\theta_{100}

但是此时,我们不知道选择那些参数来缩小它们的值,所以在实际操作中,我们会对所有的参数进行最小化

如线性回归的代价函数为J(\theta)=\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2,我们在其中加入正则化项\lambda\sum_{i=1}^{n}\theta_j^2,使之变为J(\theta)=\frac{1}{2m}[\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum_{i=1}^{n}\theta_j^2],即从\theta_1\theta_{100}都最小化,一般会忽略\theta_0,这是约定俗成的,也可以不忽略,对结果没有影响

其中,\lambda被称为正则化参数。

在上述例子中正则化的代价函数J(\theta)中存在两项,其中,第一项是为了使函数更好的拟合样本点,第二项是为了使得各个参数尽可能的小,\lambda就是控制两者平衡的参数。

在线性回归中,如果\lambda被设置的过大的话,就会对参数的惩罚程度过大,使得它们都接近于0,最后假设模型就只剩下一个参数\theta_0,这时假设函数会接近于一条直线,如下图所示,会导致模型的欠拟合。

所以我们要合理的选择正则化参数\lambda

三、线性回归的正则化

在学习线性回归时,我们推导了两种方法,一种是梯度下降,一种是正规方程,本部分只介绍梯度下降的正则化方法(正规方程的听不懂,所以没写 )。

在没有加入正则化方法时,线性回归的梯度下降方法为不断的迭代下面这个函数:

由于在新的代价函数方程中加入了正则化项,J(\theta)=\frac{1}{2m}[\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum_{i=1}^{n}\theta_j^2],对于此式,同样对其求偏导\frac{\partial }{\partial \theta_j}J( \theta),可以得出此时的\theta_j:=\theta_j-\alpha[\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}+\frac{\lambda}{m}\theta_j],对于\theta_0我们一般是单独计算的,所以正则化的线性回归算法为重复下列公式:

\theta_j式子合并同类项,得到下式:

\theta_j的系数1-\alpha \frac{ \lambda }{m}中,\lambda是正则化系数一般远远小于样本总数m,并且学习率\alpha也是一个很小的数,所以这个系数是一个接近于1但小于1的数,这样\theta_j每次都会变小一些,\theta_j的第二项参数就是和没正则化前一样。

四、逻辑回归的正则化

同线性回归的正则化相同,逻辑回归的正则化如下:

但注意,逻辑回归中的h_\theta (x)=\frac{1}{1+e^{-\theta^Tx}}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1047518.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

保姆级 -- Zookeeper超详解

1. Zookeeper 是什么(了解) Zookeeper 是一个 分布式协调服务 的开源框架, 主要用来解决分布式集群中应用系统的一致性问题, 例如怎样避免同时操作同一数据造成脏读的问题. ZooKeeper 本质上是 一个分布式的小文件存储系统 . 提供基于类似于文件系统的目录树方式的数据存储, …

【Linux】线程同步和互斥

目录 一、线程互斥1.相关概念2.互斥锁(mutex)3.互斥锁的原理4.自定义封装一个锁 二、可重入和线程安全三、死锁死锁概念死锁四个必要条件如何避免死锁 四、线程同步1.条件变量概念条件变量接口基于阻塞队列实现生产者消费者模型 2.信号量概念信号量操作接…

Databend 源码阅读:配置管理

作者:尚卓燃(PsiACE)澳门科技大学在读硕士,Databend 研发工程师实习生 Apache OpenDAL(Incubating) Committer https://github.com/PsiACE 对于 Databend 这样复杂的数据库服务端程序,往往需要支持大量的可配置选项&am…

探索Lighthouse性能分数计算背后的奥秘

本文作者为 360 奇舞团前端开发工程师 作为开发我们都知道,页面性能很重要,一个性能良好的页面可以给用户带来非常好的用户体验。那么,怎么能知道自己写的页面性能是好是坏呢? Lighthouse 是Chrome提供给开发者用来测量页面性能的…

原生js之变量、作用域与内存

原生js之变量、作用域与内存 变量变量类型原始值引用值 复制值传递参数判断类型typeofinstanceof不常用的判断方法constructor构造方法判断Object.getPrototypeOf() 最好用的判断数据类型的方法!toString.call小总结 作用域链垃圾回收标记清理引用计数v8回收v8对GC的优化新生代…

对标8155体验,降本20%以上!这家企业用“量产”证明

智能座舱逐渐成为智能汽车标配。 根据高工智能汽车研究院监测的数据显示,2022年中国市场(不含进出口)乘用车搭载智能数字座舱(大屏语音车联网OTA)前装标配交付795.05万辆,同比增长40.59%,前装搭…

卫星通信链路预算(附程序)

文章目录 简介链路基本概念信息速率与传输速率载波占用带宽载波与噪声功率比 天线参数天线增益波束宽度极化损耗 有效全向辐射功率接收系统品质因数自由空间的传播损耗链路计算程序 简介 卫星通信链路是指从信源开始,通过编码调制及微波上变频、发射机和天线&#…

流量卡不带通话功能,这样的流量卡用着真的安全?

哈喽大家好,很多朋友私信小编,咨询关于纯流量卡的一些问题,可能大家都知道,现在正规的号卡也推出了“纯流量版”,也就是不带通话功能,那么,网上的带手机号的纯流量卡真的用着安全吗?…

企业数字化转型要怎么做?在线报修系统是如何解决维修难题的?

随着科技互联网等新技术的不断发展,企业服务已从信息化迈向数字化阶段。大型企业正迫切地向数字化转型,并需要技术革新和与云的融合,以应对当今市场的挑战。为满足这一需求,广东工程宝科技有限公司推出了一款新一代故障报修产品—…

如何快速搭建一个react项目?如何使用react脚手架快速搭建项目?

如何使用react脚手架快速搭建项目? 一、前提 电脑已经安装了node和npm环境。 react文档中要求Node > 8.10 和 npm > 5.6,查看版本:node -v;npm -v; 二、步骤 1、在合适的文件夹中打开命令行窗口cmd 2、全局安…

前端项目配置 prettier、eslint、lint-stages、husky、commitlint 、style-lint设置代码书写和提交规范

prettier中文网:Options Prettier 中文网 eslint中文网 :ESLint 中文网 github husky : https://github.com/typicode/husky commitlint.js 官网:commitlint - Lint commit messages 、github:GitHub - conventiona…

为什么大力推行国密算法SSL证书

国密算法SSL证书是一种采用我国自主研发的SM2公钥算法体系,支持SM2、SM3、SM4等国产密码算法及国密SSL安全协议的数字证书。相比于普通SSL证书,国密SSL证书具有以下特点: 自主可控:国密SSL证书采用我国自主研发的SM2公钥算法体系&…

十一,从摄像机打印HDR环境贴图

越来越接近真相了。我们很自然地想到,如果把漫游器放在中心打印,是不是就可以打印整个等距柱状投影图了呢?是的,但是,只是要注意的是,立方体贴图的内部和外部尽管一样,但是还是稍微有点模糊&…

Git 学习(2)

Git 学习(2) 版本号 Git 中文件的版本号是 40 位十六进制的数字字符串,采用 SHA-1 加密算法计算获得 这样一方面可避免在合并时的冲突问题 另一方面可以用于文件定位,其中前两位表示文件夹,后 38 位表示文件 指令介…

DDS信号发生器Verilog波形发生器FPGA

名称:DDS信号发生器Verilog波形发生器 软件:Quartus 语言:Verilog 要求: 1.可产生正弦波,锯齿波,三角波,方波4种波形,频率可调 2.具有波形选择、起动、停止功能。 代码下载&…

Flink on yarn 实战和源码分析

版本:1.13.6 目录 Flink on yarn 的3种模式的使用 yarn session 模式源码分析 yarn per-job模式源码分析 application模式源码分析 Flink on yarn 的3种模式的使用 Application Mode # ./bin/flink run-application -t yarn-application ./examples/streaming…

Apollo简易地图制作

在Apollo中模拟障碍物 一、准备工作 在模拟障碍物之前,需要下载并编译Apollo源码,过程可以依据Apollo开放平台文档,其中可能遇到的问题在这里或许可以寻找到答案 二、运行Dreamview 进入容器 cd ~/apollobash docker/scripts/dev_start.s…

515万新作者投身电商事业,抖音电商将投入更多资源扶持作者长期发展

9月27日,2023抖音电商作者峰会在上海举办。上千位抖音电商作者、MCN机构、精选联盟服务商、商家等重要生态伙伴参会,围绕大会主题“向新成长”进行了深入探讨。会上,抖音电商总裁魏雯雯提到,电商作者的事业有更多发展方向。为助力…

输送机使用的常见误区

输送机也称流水线,是指在自动化生产过程中起到运输货物,联通各个生产设备的主要机械设备。但在使用的过程中,很多用户对于输送机的使用存在一定的误区,导致设备故障频出,下面就针对用户已在使用输送机过程中的常见误区…

以太网中的介质共享访问控制机制

什么是CSMA/CD CSMA/CD(Carrier Sense Multiple Access with Collision Detection)是一种用于以太网等共享介质的访问控制机制。它用于协调多个设备共享同一物理介质(例如同一局域网)上的传输权利,以避免碰撞并提供公…