【机器学习】038_梯度消失、梯度爆炸

【机器学习】038_梯度消失、梯度爆炸

news2025/4/26 15:07:58

一、原因

神经网络梯度

· 假设现在有一个 $d$ 层的神经网络，每层的输出为一个对输入作 $f_t$ 变换的函数结果

· 用 $h^t$ 来表示第 $t$ 层的输出，那么有下列公式：

$h^t = f_t(h^{t-1})$

· 链式法则计算损失 $l$ 关于某一层某个参数 $w_t$ 的梯度：

$\frac{\partial l}{\partial w_t}=\frac{\partial l}{\partial h^d}\frac{\partial h^d}{\partial h^{d-1}}...\frac{\partial h^t}{\partial w_t}$

· 注意到， $h^t$ 为向量，这相当于一个 d-t 次的矩阵乘法

这个传递可能造成以下问题：

· 假设每次的梯度为1.5，但随着神经网络的规模变大，往后传递过去可能就有 $1.5^{100}=4*10^{17}$ 这么大，从而产生梯度爆炸。

· 假设每次的梯度为0.8，同样的道理，传递过去可能有 $0.8^{100}=2*10^{-10}$ 这么小，从而使模型最后的变化幅度很小，出现梯度消失。

二、梯度消失

假设用sigmoid函数作为激活函数

· 导数的问题是，当输入相对较大或者较小时，求导计算之后，每次向上传递的梯度会变得很小

· 累乘起来之后，这个值可能就会变得更小

可能造成的问题：

· 梯度值非常接近0，使得模型无法训练，每次训练改变幅度非常小

· 在神经网络较深时，对于底部层尤为严重

· 反向传播时，顶部的训练可能较好，拿到的梯度较正常

· 越到底部，梯度越小，底部层无法训练，使得神经网络无法变深

三、梯度爆炸

假设我们使用ReLU函数作为隐藏层的激活函数

· ReLU激活函数的导数会使大于0的输出求导后都是1，小于等于0的输出求导后都是0

· 首先将链式法则的求导公式代入ReLU激活函数转化一下，得到下式

· 这时， $h^{t-1}$ 与 $w_t$ 相乘后再在ReLU函数里求导的结果就是0或1，那么每次传递的就是 $w_t$ 转置值

· 如果中间层 d-t 很大，那么最后累乘的结果就会很大，最终导致梯度爆炸

可能造成的问题：

· 值超过上限（如16位浮点数，可能数值上溢）

· 对学习率非常敏感

· 若学习率较大—大参数值—更大的梯度

· 若学习率较小—训练效果小

· 需要不断调整学习率

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1232109.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

工作记录---为什么双11当天不能申请退款？（有趣~）

工作记录---为什么双11当天不能申请退款？（有趣~）

为什么？ 服务降级了服务降级： 当服务器压力剧增的情况下，根据实际业务情况及流量，对一些服务和页面有策略的不处理或换种简单的方式处理，从而释放服务器资源以保证核心交易正常运作或高效运作。分布式系统的降级…

阅读更多...

科大讯飞 vue.js 语音听写流式实现全网首发

科大讯飞 vue.js 语音听写流式实现全网首发

组件下载还是最近的需求，页面表单输入元素过多，需要实现语音识别来由用户通过朗读的方式向表单中填写数据，尽量快的、高效的完成表单数据采集及输入。国内科大讯飞在语音识别方面的建树还是有目共睹，于是还是选择了科大讯飞的平…

阅读更多...

C/C++多级指针与多维数组

C/C++多级指针与多维数组

使用指针访问数组指针类型的加减运算可以使指针内保存的首地址移动。指针类型加n后。首地址向后移动 n * 步长字节。指针类型减n后。首地址向前移动 n * 步长字节。步长为指针所指向的类型所占空间大小。例如： int *p (int *)100;p 1，结果为首…

阅读更多...

校园报修抢修小程序系统开发物业小区报修预约上门维修工单系统

校园报修抢修小程序系统开发物业小区报修预约上门维修工单系统

开发的功能模块有： 1.报修工单提交：学生、教职员工等可以使用小程序提交报修请求。这通常包括选择报修的问题类型（如水漏、电器故障、照明问题等），地点，报修联系人，联系电话等，并提供…

阅读更多...

iPaaS和RPA，企业自动化应该如何选择？

iPaaS和RPA，企业自动化应该如何选择？

全球著名的咨询调查机构Gartner在2022年初再次发布了《2022年12大技术趋势》报告。 Gartner是全球最具权威的IT研究与顾问咨询公司，成立于1979年，在界定及分析那些决定了商业进程的发展趋势与技术方面，它拥有二十年以上的丰富经验&#xff0c…

阅读更多...

苹果CMS首涂第30套可装修DIY主题模板免授权版

苹果CMS首涂第30套可装修DIY主题模板免授权版

这是一款可以装修的主题，类似淘宝店装修一样，可以针对首页、栏目页、详情页、播放页进行自定义装修，内置10个模块自由选择、添加、修改、删除、排序操作，后续升级还会增加更多实用和个性模块供选择，主题内包含的导航、…

阅读更多...

自定义歌曲试听SeekBar

自定义歌曲试听SeekBar

看到这个效果，可能会想到完全自定义一个控件，其实我们在系统Seekbar的基础上，将progressDrawable中progress背景设为透明后，叠加绘制试听状态下的进度区域即可 class PlayerSeekBar JvmOverloads constructor(context: Context,a…

阅读更多...

广州华锐互动VRAR | VR课件内容编辑器解决院校实践教学难题

广州华锐互动VRAR | VR课件内容编辑器解决院校实践教学难题

VR课件内容编辑器由VR制作公司广州华锐互动开发，是一款专为虚拟现实教育领域设计的应用，它能够将传统的教学内容转化为沉浸式的三维体验。通过这款软件，教师可以轻松创建和编辑各种虚拟场景、模型和动画，以更生动、直观的方式展示…

阅读更多...

【亚马逊云科技产品测评】活动征文｜aws云服务器 + 微服务Spring Cloud Nacos 实战

【亚马逊云科技产品测评】活动征文｜aws云服务器 + 微服务Spring Cloud Nacos 实战

文章目录前言一、拥有一台Aws Linux服务器1.1、选择Ubuntu版本Linux系统1.2、创建新密钥对1.3、网络设置1.4、配置成功，启动实例1.5、回到实例区域1.6、进入具体的实例1.7、设置安全组二、在Mac上连接Aws云服务，并安装配置JDK112.1、解决离奇的错误2.2…

阅读更多...

四川天蝶电子商务有限公司服务可靠吗？

四川天蝶电子商务有限公司服务可靠吗？

作为当今最热门的社交媒体平台之一，抖音已经成为许多消费者和企业的重要销售渠道。然而，对于许多新手来说，如何在这个平台上开展电商服务却是一大难题。在这篇文章中，我们将探讨四川天蝶电子商务有限公司的抖音电商服务是否可靠&a…

阅读更多...

俄罗斯方块游戏制作

俄罗斯方块游戏制作

创建包和文件夹 1.创建小方块类 package eluosifangkuai; import java.awt.image.BufferedImage; import java.util.Objects;/*** author xiaoZhao* date 2022/5/7* describe* 小方块类* 方法： 左移、右移、下落*/ public class Cell {// 行private int row;//…

阅读更多...

基于野狗算法优化概率神经网络PNN的分类预测 - 附代码

基于野狗算法优化概率神经网络PNN的分类预测 - 附代码

基于野狗算法优化概率神经网络PNN的分类预测 - 附代码文章目录基于野狗算法优化概率神经网络PNN的分类预测 - 附代码1.PNN网络概述2.变压器故障诊街系统相关背景2.1 模型建立 3.基于野狗优化的PNN网络5.测试结果6.参考文献7.Matlab代码摘要：针对PNN神经网络的光滑…

阅读更多...

IPO解读丨高处不胜寒，澜沧古茶低头取暖？

IPO解读丨高处不胜寒，澜沧古茶低头取暖？

自A股注册制改革不断深化并全面落地后，不少意欲登陆资本市场的企业转战港股。这个过程中，诞生了很多以“港股”为前缀的“第一股”——“白酒第一股”珍酒李渡、“水果零售第一股”百果园、“智能驾驶第一股”知行汽车、“运动科技第一股”Keep…… 由A…

阅读更多...

以“防方视角”观Shiro反序列化漏洞

以“防方视角”观Shiro反序列化漏洞

为方便您的阅读，可点击下方蓝色字体，进行跳转↓↓↓ 01 案例概述02 攻击路径03 防方思路 01 案例概述这篇文章来自微信公众号“潇湘信安”，记录的某师傅如何发现、利用Shiro反序列化漏洞，又是怎样绕过火绒安全防护实现文件落地、…

阅读更多...

.NET 8 Video教程介绍（开篇）

.NET 8 Video教程介绍（开篇）

教程简介本文将简单描述视频网站教程，视频网站是一个类似于腾讯视频一样的网站，视频资源用户自己上传，然后提供友好的界面查看视频和搜索视频，并且提供管理页面对于视频进行管理，我们将使用Blazor作为前端&#xff0…

阅读更多...

chatGPT PLUS 绑卡提示信用卡被拒的解决办法

chatGPT PLUS 绑卡提示信用卡被拒的解决办法

一、 ChatGPT Plus介绍作为人工智能领域的一项重要革新，ChatGPT Plus的上线引起了众多用户的关注，其背后的OpenAI表现出傲娇的态度，被誉为下一个GTP 4.0。总的来说，ChatGPT Plus的火爆主要有两个原因。首先，其在人工…

阅读更多...

虹科示波器 | 汽车免拆检修 | 1994款凯迪拉克fleetwood车发动机无法起动

虹科示波器 | 汽车免拆检修 | 1994款凯迪拉克fleetwood车发动机无法起动

一、故障现象一辆1994款凯迪拉克fleetwood车，搭载5.7L发动机（燃油系统采用进气歧管多点喷射，每个气缸都有独立的喷油器；点火系统只有一个点火线圈，带机械分电器和高压线），发动机无法起动。二、…

阅读更多...

车载毫米波雷达行业发展5——企业

车载毫米波雷达行业发展5——企业

5.1 博世 5.1.1 公司简介博世集团创立于 1886 年，业务涵盖汽车与智能交通技术、工业技术、消费品、能源与建筑技术四大领域，是德国最大的工业企业之一、全球最大的汽车零部件供应商、最早研究车载毫米波雷达的企业之一。博世在高级辅助驾驶和自动驾驶…

阅读更多...

【NI-RIO入门】CompactRIO介绍及环境安装

【NI-RIO入门】CompactRIO介绍及环境安装

CompactRIO是什么？ CompactRIO系统提供了高处理性能、传感器专用I/O和紧密集成的软件工具，使其成为工业物联网、监测和控制应用的理想之选。实时处理器提供可靠，可预测的行为，而FPGA在需要高速逻辑和精确定时的较小任务上表现出色…

阅读更多...

在网络攻击之前、期间和之后应采取的步骤

在网络攻击之前、期间和之后应采取的步骤

在当今复杂的威胁形势下，网络攻击是不可避免的。恶意行为者变得越来越复杂，出于经济动机的攻击变得越来越普遍，并且每天都会发现新的恶意软件系列。这使得对于各种规模和跨行业的组织来说，制定适当的攻击计划变得更加重要。 …

阅读更多...

推荐文章

最新文章