深度学习-归一化输入,梯度消失爆炸,梯度检验

news2024/12/24 13:47:22

文章目录

  • 前言
  • 一、归一化输入
    • 1、均值方差归一化
    • 2、why normalize input?
  • 二、梯度消失,爆炸
    • 1.梯度
    • 2.深度网络学习初始化
  • 三、梯度检验
    • 梯度检验


前言

吴恩达 week5

一、归一化输入

1、均值方差归一化

在这里插入图片描述
均值方差归一化。
要注意:我们要对训练数据集和测试数据集使用相同的u与方差。
对于测试数据集,我们不能确定测试的数据有什么,必然无法求出其均值方差。
对于测试数据集我们要使用训练数据集的均值和方差。
这样才能使我们的数据在同一分布上。

2、why normalize input?

如果我们的数据分布在不同的规模上,比如当我们使用梯度下降取优化J时,
左图:
我们的学习率要设置的小一些,
且也是来回跌宕直到最低点。
右图:
我们的学习率就可以设置的相对大一些。
且不管从哪里开始都可以。也可以避免左右来回跌宕的情况(学习率不是特别大的情况下)。
在这里插入图片描述
所以归一化输入也可以提高我们算法的效率

二、梯度消失,爆炸

1.梯度

如果w设置的不合理,可能会导致深度网络中的梯度爆炸或者消失的问题。
若梯度爆炸,则我们无法更好的训练我们的模型。
若梯度消失,则我们每次会走的步数很小,训练的时间太久。

2.深度网络学习初始化

为了防止梯度消失或爆炸,我们就需要更加细致的初始化我们的参数。
如z=w1*x1+…+b
若x太大,则我们就希望w小些。
要求选择Relu作为激活函数,w权值采样于(0,2/n[L-1])分布下,n[L-1]为输入样本个数。
在python中实现:即方差在(0,2/n[L-1])分布下,
np.random.randn(layers_dims[l], layers_dims[l - 1])
2/ np.sqrt(layers_dims[l - 1])
选择tanh作为激活函数,w权值采样于(0,1/n[L-1])分布下,n[L-1]为输入样本个数。
/ np.sqrt(layers_dims[l - 1])
另一种:
2/n[L-1]+n[L]

三、梯度检验

对于反向传播时的梯度,我们使用的是求导的具体值。
为了检验梯度的准确性,我们可以采用数值上近似的方式。
利用求导公式。
在这里插入图片描述
在这里插入图片描述

梯度检验

①在写好反向传播公式的时候,你没有办法保证执行反向传播的所有细节全部都是正确的,因此要进行梯度检验,保证反向传播可以正确实施。
②双边误差更准确。即数学中的求导公式
在这里插入图片描述

如何确定我们求导的误差没有错误呢?
利用图中的3,对我们求出来的近似值与真实的求导数值进行一个计算
若小于10的-7次方,则我们的反向求导没错。
若在10-5,我们需要检查一下我们写的梯度的近似的代码有没有错误。
若大于10-3 则我们的代码编写有错。

在这里插入图片描述
①不要在训练数据时,使用梯度检验,因为梯度检验太耗时,我们应该只在debug时使用。
②如果我们算出来的梯度与实际的梯度差距很大,则我们可以根据我们计算出来的梯度dtheta[i],看它包含哪个dW,db,以此来确定我们找错的范围。
③不要忘记正则化,更好的计算,更多的使用L2
④在梯度检验时,要关闭dropout,因为dropout的损失函数不确定,无法梯度检验,梯度检验是在J的基础上求的。
⑤在求反向梯度时,我们可能在w,b很小时求得的数据是对的,但是当迭代几次,参数变大之后,梯度可能就不准确了,因此我们可以在初始时检验一次,在迭代几次之后再检验一次。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/95606.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

探花交友_第9章_小视频方案(新版)

探花交友_第9章_小视频方案(新版) 文章目录探花交友_第9章_小视频方案(新版)1. 我的访客1.1 需求分析1.1.1 功能说明1.1.2 数据库表1.2 记录访客数据tanhua-modeltanhua-app-servertanhua-dubbo-interfacetanhua-dubbo-mongo1.3 首页谁看过我需求分析tanhua-modeltanhua-app-se…

小学生 C++画图 Go C 编程 第7课 奇异的花朵

第一课 GoC简介和演示 第一课 GoC简介和演示_ahwhjt的博客-CSDN博客_goc输入图形数量 第二课 了解编程环境 第二课 了解编程环境_ahwhjt的博客-CSDN博客_goc编程环境 第三课 基本绘图命令 第三课 基本绘图命令_ahwhjt的博客-CSDN博客_电脑编程的pen.lt 第四课 变量的引入 第…

重写 Nacos 服务发现:多个服务器如何跨命名空间,访问公共服务?

一、问题背景 在开发某个公共应用时,笔者发现该公共应用的数据是所有测试环境(假设存在 dev/dev2/dev3)通用的。 这就意味着只需部署一个应用,就能满足所有测试环境的需求;也意味着所有测试环境都需要调用该公共应用…

匆匆遭遇猿如意

刚刚收到一条消息,说有一个csdn的猿如意可以测试了,我就下载了一个,根据提示下载了,然后开始体验。 一、ChatGPT 谁让这个东西最近这么热呢,所以,我第一个就体验这个东东了,结果,结…

excel多条件预算:规划求解工具计算多产品最佳效益组合

江南皮革厂生产三种产品,皮鞋、皮手套、皮帽。三种产品需要原材料甲、乙、丙。近期,原材料供应有限制,生产工时也有限制。已知产品单件的用时、用料、利润,求如何组合产品利润最大。 一、加载规划求解工具 规划求解工具位于“数据…

CN域名隐私保护内测收费

我是卢松松,点点上面的头像,欢迎关注我哦! 据站长DNS Admin爆料,CNNIC向西部数码发布通知称,内测的CN域名WHOIS隐私保护服务即将暂停免费政策,继续使用将收取相应服务费用,价格为48元/个/年。 …

电脑重装系统后会闪屏是什么原因

​电脑的显示屏是我们日常使用电脑最常使用的硬件之一,可以说使用电脑必备的就是显示屏了。而显示屏在使用的过程中也会出现各种各样的问题,最近就有不少用户反应自己的电脑出现了黑屏闪烁的问题。 软件原因: 一、检查显示刷新率设置是否正确…

RTMP推流方案总结

由于项目需要 RTMP 推送 H264 数据,在网上查找了下相关的方案,总结一下。 RTMP协议简介 在总结之前,我们先简单介绍一下 RTMP 协议。 RTMP(Real Time Messaging Protocol) 实时消息传送协议是 Adobe Systems 公司为 Flash 播放器和服务器之间…

外卖订餐系统的设计与实现/点餐订餐系统

摘 要 随着外卖订餐在高校越来越普及,传统的电话订餐给顾客跟商家带来不方便,如何使订餐更快速,更方便已成为众多高校学生关注的问题了。本外卖订餐系统是针对高校商家进行具体的需求分析,采用JSP技术和采用SSM框架,MYSQL数据库…

QT制作窗口切换的小程序

QT制作窗口切换的小程序 前言:本次实验是在三个窗口之间自由切换,窗口中播放gif格式的动态图。 让我们先来看看使用到的主要的函数: 一、播放gif格式动态图的函数 QMovie *movie new QMovie("../form/1.gif"); // "../f…

软件测试人到30岁+,在岗位上工作如何破局?

最近一个学生也可以说是朋友,他遇到了一个让他困扰的职场难题,背景如下: 1)他们公司准备搞 安全测试 了,现在有人员培训的计划,所以全组有学习安全测试课程的安排。 2)他自己目前专职性能测试…

12月17日第壹简报,星期六,农历十一月廿四

12月17日第壹简报,星期六,农历十一月廿四1. 数字人民币试点再扩容:粤苏冀川4省全覆盖,新增济南、南宁、昆明等5座城市。2. 人民币兑美元中间价调降448点至6.9791,降幅创5月27日以来最大。3. 政府出面站台、鼓励居民团购…

DropBox系列-安卓DropBox介绍

前言: 作者本人负责公司的APM监控模块,因为工作的原因,对ANR,crash等流程研究的比较多,最近在打造APM监控平台的时候,顺带对DropBox的实现原理进行了一定的学习和研究,发现了一些妙用&#xff…

Dubbo 1 分布式系统中的相关概念 1.3 架构演进

Dubbo 【黑马程序员Dubbo快速入门,Java分布式框架dubbo教程】 1 分布式系统中的相关概念 文章目录Dubbo1 分布式系统中的相关概念1.3 架构演进1.3.1 架构演进1.3.2 架构演进 - 单体架构1.3.3 架构演进 - 垂直架构1.3.4 架构演进 - 分布式架构1.3.5 架构演进 - SOA…

SPDK块设备

SPDK视角每个App由多个子系统(subsystem)构成,同时每个子系统又包含多个模块(module),子系统和模块的注入都是可插拔的,通过相关的宏定义声明集成到SPDK组件容器里(其中子系统的注入可通过声明SPDK_SUBSYSTEM_REGISTER,块设备模块…

5G小基站行业市场空间将持续释放 2024年或将迎来建设高峰期

5G小基站行业上游包括硬件资源供应商、软件资源供应商、配套资源供应商;中游主体包括5G小基站设备厂商、5G小基站解决方案服务商;下游则主要是大型写字楼、购物中心、机场等。 数据来源:中国5G小基站市场发展趋势分析与未来前景研究报告&…

弥漫的烟圈-Abaqus涡环仿真与空气大炮

今天简单地讨论一下这个有趣的流体现象-烟圈,并使用Abaqus欧拉分析对它的形成过程进行仿真,揭示其中的力学奥秘。 烟圈 喷气圈的海豚 在流体力学里面,烟圈和水下气圈有个共同的名字,叫做Vortex Ring,即涡环或环形涡流…

腾讯云服务器选购新手教程(新版流程超级详细)

腾讯云服务器选购新手教程(新版流程超级详细),来详细说下腾讯云服务器购买流程图文详解及购买渠道说明。 腾讯云服务器购买流程 购买腾讯云服务器很简单,首先你需要注册一个腾讯云账号,使用微信或QQ注册即可,很简单。账号注册后&…

git clone 拉取远程仓库

1. git clone 拉取仓库 2. 以 HTTPS 方式拉取仓库 3. 以 SSH 方式拉取仓库 1. git clone 拉取仓库 拉取远程库的默认分支 git clone <repositories> 拉取远程库的指定分支 -b, --branch git clone -b <branch> <repositories> 将远程库拉取到指定目录 git c…

产品销量一直上不去,怎么办,试试这种模式?

裂变营销的本质是以存量带增量&#xff0c;让已有消费者帮你寻找潜在消费者&#xff0c;从而达到快速获客的目的。这种方法成本低、影响持久、效率高&#xff0c;已经成为传统企业转型不可或缺的重要战略&#xff1b;时至今日&#xff0c;许多传统企业&#xff0c;在引流方面碰…