【深度学习笔记】梯度消失与梯度爆炸

news2026/2/13 12:36:15

本专栏是网易云课堂人工智能课程《神经网络与深度学习》的学习笔记，视频由网易云课堂与 deeplearning.ai 联合出品，主讲人是吴恩达 Andrew Ng 教授。感兴趣的网友可以观看网易云课堂的视频进行深入学习，视频的链接如下：

神经网络和深度学习 - 网易云课堂

也欢迎对神经网络与深度学习感兴趣的网友一起交流 ~

目录

1 梯度消失与梯度爆炸

2 初始化权重

1 梯度消失与梯度爆炸

训练神经网络，尤其是深度神经网络所面临的一个问题是，梯度消失（Vanish gradient）与梯度爆炸（Explode gradient）。也就是说，当你训练深度网络时，导数或梯度有时会变得非常大，或非常小，甚至以指数方式变小，这加大了训练的难度。

假设你正在训练这样一个极深的神经网络，为了简单起见，假设使用激活函数 g(z) = z，那么输出 y 等于各层权重的矩阵乘积作用在输入 x 上。

假设前 L-1 层的权重都取如下矩阵

那么最后的输出 $\hat{y}$ 为

对于深度神经网络来说，L 的值很大，那么激活函数的输出也很大，并且以指数级增长；相反地，如果对角线上的权重是 0.5，激活函数的输出将以指数级递减。对应地梯度下降法的步长会变得非常大，或非常小，不利于梯度下降算法的计算过程。

2 初始化权重

针对深度神经网络的梯度消失与梯度爆炸问题，有一种不完整的解决方案，虽然不能解决问题，但是能帮助我们谨慎地选择初始化权值。

对于单个神经元的模型，假如有 n 个输入特征。为了防止 z 的值过大，在 n 值越大时，我们希望各层的权重 wi 越小，最合理的权重初始化方法是，使 wi 的方差 Var(wi) = 1/n，实现代码为

W = np.random.randn(X.shape) * np.sqrt(1/n)

如果激活函数使用 ReLU，那么设置 Var(wi) = 2/n，效果会更好。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/768905.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

labview 子画面插入面板

labview 子画面插入面板

1.前言在前面一篇文章中描述了弹框式显示子画面， labview 弹窗(子vi)_weixin_39926429的博客-CSDN博客本文介绍插入式显示子画面。本文的主题在以前的文章中介绍过， labview 插入子面板_labview插入子面板_weixin_39926429的博客-CSDN博客借用…

阅读更多...

JVM学习笔记总结

JVM学习笔记总结

目录 JVM内存区域划分 1、堆（线程共享） 2、方法区（线程共享） 3、栈（线程私有） 4、程序计数器（线程私有） JVM类加载机制加载验证准备解析初始化双亲委派模型 JVM垃…

阅读更多...

$入门力扣自学笔记276 C++ （题目编号：874）$

入门力扣自学笔记276 C++ （题目编号：874）

874. 模拟行走机器人题目： 机器人在一个无限大小的 XY 网格平面上行走，从点 (0, 0) 处开始出发，面向北方。该机器人可以接收以下三种类型的命令 commands ： -2 ：向左转 90 度 -1 ：向右转 90 度 1 < …

阅读更多...

【数据库高阶语句】

【数据库高阶语句】

文章目录 MySQL高阶语句一、常用查询1、按关键字排序二、实操1.创建表2.排序查询（默认不指定是升序排序，后面跟desc是降序排序）3.order by还可以结合where进行条件过滤，筛选地址是杭州的学生按分数降序排列4.查询学生信息先按兴趣…

阅读更多...

走访慰问空巢老人，连接传递浓浓温情

走访慰问空巢老人，连接传递浓浓温情

为了弘扬中华民族尊老、敬老、爱老的优良传统，让老人们感受到政府和社会的温暖，在“端午”来临之际，思南县青年志愿者协会联合思南县民慈社会工作服务中心、思南县小荧星幼儿园、思南县小英豪幼儿园到大河坝镇天坝村开展“走访慰问空巢老人&a…

阅读更多...

阿里云短信服务API怎么调用

阿里云短信服务API怎么调用

今天来搞一下阿里云短信服务来实现发送短信功能，其实能提供短信发送服务的平台有很多，但这里我选择的是阿里云，因为阿里云的示例还有代码封装的很简洁，使用起来非常简单，上手非常快，那么费话不多说我们直接…

阅读更多...

Python案例｜使用卷积网络对星系图片进行分类

Python案例｜使用卷积网络对星系图片进行分类

星系动物园（galaxy zoo）是由牛津大学等研究机构组织并邀请公众协助的志愿者科学计划，目的是为超过100万个星系图像进行分类。这是天文学中一次规模浩大的公众星空普查活动，大众参与热情高涨，在近十万名志愿者的积极参与…

阅读更多...

libevent:windows环境配置+QT使用

libevent:windows环境配置+QT使用

目录 libevent是什么编译 QT使用测试代码 libevent是什么 Fast portable non-blocking network programming with Libevent http://www.wangafu.net/~nickm/libevent-book/TOC.html 这篇文档讲的很清楚，尤其是Chapter 1: A tiny introduction to asynchro…

阅读更多...

c++11 标准模板（STL）（std::basic_istream）（十二）

c++11 标准模板（STL）（std::basic_istream）（十二）

定义于头文件 <istream> template< class CharT, class Traits std::char_traits<CharT> > class basic_istream : virtual public std::basic_ios<CharT, Traits> 类模板 basic_istream 提供字符流上的高层输入支持。受支持操作包含带格式的…

阅读更多...

【C++】vector 模拟笔记

【C++】vector 模拟笔记

文章目录成员变量和迭代器reserve()函数易错点迭代器区间初始化易错点迭代器失效整体代码成员变量和迭代器下面有vector 存储示意图：vector 是一个左闭又开的空间，_finish 不能存储有效数据。vector 的 iterator 是T 类型的指针，不要认为 …

阅读更多...

Python自动获取字母站视频

Python自动获取字母站视频

如果有疑问的话可以在我的谈论群：706128290 来找我目录前言二、编写代码 1.引入库 2.编写主类 3. 自动获取cookies值和生成headers 4.获取命令行参数运行效果前言 browser_cookie3 第三方模块 browser_cookie3是browser_cookie模块的分支，…

阅读更多...

Asymmetric Gained Deep Image Compression With Continuous Rate Adaptation文献复现

Asymmetric Gained Deep Image Compression With Continuous Rate Adaptation文献复现

前言相关论文阅读自行解决，这里主要是记录代码的学习与实验的复现 github地址此代码非官方部署代码，而是私人实现的。本博客仅做学习记录。 1 代码学习 1.1 主要框架部分这里的主编解码器与高斯建模的方式，采用的是同joint上下联合自回归一样的方式，主要的改动在增益…

阅读更多...

【Linux】使用云服务器搭建Linux环境

【Linux】使用云服务器搭建Linux环境

目录 1.Linux是什么 2.Linux的环境搭建 3.使用Xshell登录主机 1.Linux是什么 Linux，全称GNU/Linux，是一套免费使用和自由传播的类Unix操作系统，是一个基于POSIX的多用户、多任务、支持多线程和多CPU的操作系统。简单来说，Lin…

阅读更多...

图文详解Java参数传递类型

图文详解Java参数传递类型

大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

阅读更多...

Linux用户和用户组

Linux用户和用户组

Linux是多用户、多任务操作系统一般来说，一个服务分配一个用户，这个用户只拥有这个服务相关文件的相关权限，如果用户不需要登陆，连密码都可以不分配，一般来说，非法分子都是获取当前进程的的权限来攻击服务…

阅读更多...

自然语言处理: 第五章Attention注意力机制

自然语言处理: 第五章Attention注意力机制

自然语言处理: 第五章Attention注意力机制理论基础 Attention（来自2017年google发表的[1706.03762] Attention Is All You Need (arxiv.org) ），顾名思义是注意力机制，字面意思就是你所关注的东西，比如我们看到一个非…

阅读更多...

vue3中echarts的使用

vue3中echarts的使用

效果： 代码： <div class"outcharbox"><a-row :gutter"10"><a-col :span"8" v-for" (item, index) in linesobjdata" :key"item.MonitorItemId"><monitoringItemsChart :colorI…

阅读更多...

49天精通Java，第40天，jd-gui反编译class文件，解决jd-gui中文乱码问题

49天精通Java，第40天，jd-gui反编译class文件，解决jd-gui中文乱码问题

目录专栏导读一、添加局部变量二、反编译class文件三、解决乱码问题四、产品经理就业实战1、内容简介2、作者简介专栏导读本专栏收录于《49天精通Java从入门到就业》，本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从0开始&#xf…

阅读更多...

【SQL应知应会】表分区（四）• MySQL版

【SQL应知应会】表分区（四）• MySQL版

欢迎来到爱书不爱输的程序猿的博客, 本博客致力于知识分享，与更多的人进行学习交流本文收录于SQL应知应会专栏,本专栏主要用于记录对于数据库的一些学习，有基础也有进阶，有MySQL也有Oracle 分区表 • MySQL版前言一、分区表1.非分区表2.分区…

阅读更多...

系统学习Linux-SSH远程服务（二）

系统学习Linux-SSH远程服务（二）

概念安全外壳协议，提供安全可靠的远程连接特点 ssh是工作在传输层和应用层的协议 ssh提供了一组管理命令 ssh 远程登陆 scp 远程拷贝 sftp 远程上传下载 ssh-copy-id ssh keygen 生成提供了多种身份验证机制身份验证机制密码验证需要提供密码密…

阅读更多...

推荐文章

最新文章