数值稳定性、模型初始化和激活函数

数值稳定性、模型初始化和激活函数

news2025/4/17 18:05:53

一、数值稳定性：神经网络很深的时候数据非常容易不稳定

1、神经网络梯度

h^(t-1)是t-1层的输出，也就是t层的输入，y是需要优化的目标函数，向量关于向量的倒数是一个矩阵。

2、问题：梯度爆炸、梯度消失

（1）梯度爆炸例子：MLP

当使用ReLu作为激活函数

a、值超出值域(infinity) ，对于16位浮点数尤为严重(数值区间6e-5-6e4)
b、对学习率敏感，如果学习率太大->大参数值->更大的梯度，如果学习率太小>训练无进展，我们可能需要在训练过程不断调整学习率

（2）梯度消失

a、梯度值变成0 ，对16位浮点数尤为严重
b、训练没有进展，不管如何选择学习率
c、对于底部层尤为严重，仅仅顶部层训练的较好，无法让神经网络更深

3、总结

（1）当数值过大或者过小时会导致数值问题
（2）常发生在深度模型中，因为其会对n个数累乘

二、模型初始化和激活函数

1、模型初始化权重及选取激活函数让训练更加稳定

2、在上一部分知道梯度消失及梯度爆炸，为使梯度在合理的范围内，有方法

（1）将乘法变为加法

ResNet在很多层的情况下，加入加法，从乘法变成加法；

LSTM是长短时记忆网络，能够有效地解决梯度消失和梯度爆炸的问题（不知道具体的，大概后面学）

（2）归一化、梯度剪裁

归一化，比如将所有梯度归一化为均值为0，方差为1。梯度剪裁，比如大于n的梯度直接变成n，小于m的全部变成m

3、将每一层的输出和梯度都看成随机变量，使每一层权重为均值为0，方差为常数、

4、权重初始化

（1）训练开始的时候更容易有数值不稳定：远离最优解的地方损失函数表面可能很复杂，最优解附近表面会比较平

（2）使用N(0,0.01)来初始可能对小网络没问题，不能保证深度神经网络

（3）在合理值区间里随机初始参数

5、例子：MLP

（1）正向方差推导

Var(x)=E(x^2)-E(x)^2，这里E(x)=0（把E^2变成了Var[]）

最终由于等式可得

（2）反向均值和方差（最后一步不是很清楚，方差等于方差怎么得来的）

6、Xavier初始

关于这里的正态分布。pytorch的normal函数里面传参是标准差，数学上的正态分布写的是方差，这里按normal函数来的。

7、在线性激活函数下，必得激活函数y=x（一般情况下激活函数不使用线性）

反向同理

8、常用激活函数

对sigmoid进行调整，从绿线到蓝线。调整是为了正向和反向的传播，输入和输出的x都是正态分布

8、合理的权重初始化和激活函数的选取可以提高数值稳定性

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1870298.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

leetcode-19-回溯

leetcode-19-回溯

引自代码随想录 [77]组合给定两个整数 n 和 k，返回 1 ... n 中所有可能的 k 个数的组合。示例: 输入: n 4, k 2 输出: [ [2,4], [3,4], [2,3], [1,2], [1,3], [1,4]] 1、大致逻辑 k为树的深度，到叶子节点的路径即为一个结果开始索引保证不重复…

阅读更多...

当了面试官才知道：做好这3点，面试成功率至少提高50%

当了面试官才知道：做好这3点，面试成功率至少提高50%

关于辉哥： 资深IT从业者， 曾就职于阿里、腾讯、美团、中信科等互联网公司和央企； 两岁小男孩的父亲。不定期分享职场 | 婚姻 | 育儿 | 个人成长心得体会关注我，一起学习和成长。最近作为公司社招面…

阅读更多...

一文入门CMake

一文入门CMake

我们前几篇文章已经入门了gcc和Makefile，现在可以来玩玩CMake了。 CMake和Makefile是差不多的，基本上是可以相互替换使用的。CMAke可以生成Makefile，所以本质上我们还是用的Makefile，只不过用了CMake就不用再写Makefile了&#x…

阅读更多...

Zookeeper 四、Zookeeper应用场景

Zookeeper 四、Zookeeper应用场景

Zookeeper是一个典型的发布/订阅模式的分布式数据管理与协调框架，我们可以使用它来进行分布式数据的发布与订阅。另一方面，通过对Zookeeper中丰富的数据节点类型进行交叉使用，配合Watcher事件通知机制，可以非常方便地构建一系列分…

阅读更多...

Day.js

Day.js

Day.js 是什么？ Day.js是一个极简的JavaScript库，可以为现代浏览器解析、验证、操作和显示日期和时间。 Day.js中文网为什么要使用Day.js ？ 因为Day.js文件只有2KB左右，下载、解析和执行的JavaScript更少，为代码留下更…

阅读更多...

如何避免爬取网站时IP被封？

如何避免爬取网站时IP被封？

互联网协议 (IP) 地址是识别网络抓取工具的最常见方式。IP 是每个互联网交换的核心，对其进行跟踪和分析可以了解很多有关连接客户端的信息。在网络抓取中，IP 跟踪和分析（又名指纹）通常用于限制和阻止网络抓取程序或其他不需要的访…

阅读更多...

配电房挂轨巡检机器人

配电房挂轨巡检机器人

配电房作为电网中的重要组成部分。其运行的的安全和稳定性直接影响到电力供应的质量。然而，传统的人工巡检模式存在诸多弊端，例如巡检效率低下、人员安全难以保障、巡检结果主观性强等问题。为了解决这些问题，旗晟机器人推出B3系列升降云台轨…

阅读更多...

浅谈LiveData的通知过程

浅谈LiveData的通知过程

浅谈 LiveData 的通知机制 LiveData 和 ViewModel 一起是 Google 官方的 MVVM 架构的一个组成部分。巧了，昨天分析了一个问题是 ViewModel 的生命周期导致的。今天又遇到了一个问题是 LiveData 通知导致的。而 ViewModel 的生命周期和 LiveData 的通知机制是它们的…

阅读更多...

AI绘图软件：设计师的创意加速器

AI绘图软件：设计师的创意加速器

在人工智能的浪潮中，AI绘图软件工具已成为设计师和创意工作者的得力助手，它们不仅加速了复杂绘图任务的完成，还激发了无限创意。本文将为您介绍几款AI绘图软件工具，它如何成为提升工作效率和创意灵感的关键。 1. StartAI&#xf…

阅读更多...

ISO37001认证：防范贿赂风险的强大工具

ISO37001认证：防范贿赂风险的强大工具

随着全球反贿赂法规的日益严格，各类组织面临的贿赂风险和合规压力不断增加。ISO37001反贿赂管理体系认证应运而生，为组织提供了一个系统化的管理框架，帮助其有效发现、预防和管控贿赂风险。本文将详细探讨ISO37001认证的作用和意义&#xff0…

阅读更多...

小白学python（第三天）

小白学python（第三天）

小伙伴，大家好呀，昨天的内容吸收的好？昨天有小伙伴私信我，建议我在博文中加点练习题，可以看出这位童鞋很想学好这门语言哈，那我也尽量满足大家的要求。从控制台输入语法格式： 变量名 input…

阅读更多...

神经网络学习笔记9-简单的反向传播和线性回归

神经网络学习笔记9-简单的反向传播和线性回归

tensor在pytorch中是一个非常重要的类型假如需要计算梯度，就将tensor中 requires_grad设为true loss是一个张量，在做运算时构建运算图，因此不要直接进行，会将将梯度存入w，当反向传播完成后，该计算图会…

阅读更多...

C# 23设计模式备忘

C# 23设计模式备忘

创建型模式：单例（Singleton）模式：某个类只能生成一个实例，该类提供了一个全局访问点供外部获取该实例，其拓展是有限多例模式。原型（Prototype）模式：将一个对象作为原型&…

阅读更多...

地铁中的CAN通信--地铁高效安全运转原理

地铁中的CAN通信--地铁高效安全运转原理

目前地铁采用了自动化的技术来实现控制，有ATC（列车自动控制）系统可以实现列车自动驾驶、自动跟踪、自动调度；SCADA（供电系统管理自动化）系统可以实现主变电所、牵引变电所、降压变电所设备系统的遥控、遥信、遥测；BAS（环境监控系统）和FAS（火灾报警系统）可以实现车站…

阅读更多...

IDEA版本推荐

IDEA版本推荐

推荐版本： IDEA 2024.1.4 下载链接：IDEA下载 （下载时可以往下拖，选到自己想要的版本哦） 本人由于项目开发需要，陆续用过几个版本的IDEA，包括： IDEA 2020.2.4 。这是在看韩顺平老师…

阅读更多...

六西格玛绿带可以跳过，直接学六西格玛黑带吗？真实情况告诉你

六西格玛绿带可以跳过，直接学六西格玛黑带吗？真实情况告诉你

在现代企业管理中，六西格玛（Six Sigma）已经成为提升质量和效率的重要工具。对于很多企业而言，培养内部的六西格玛专家，特别是黑带（Black Belt），是推动持续改进的关键。然而&#xff…

阅读更多...

十常侍乱政 | 第2集 | 愿领精兵五千，斩关入内，册立新君，诛杀宦党，扫清朝廷，以安天下 | 三国演义 | 逐鹿群雄

十常侍乱政 | 第2集 | 愿领精兵五千，斩关入内，册立新君，诛杀宦党，扫清朝廷，以安天下 | 三国演义 | 逐鹿群雄

🙋大家好！我是毛毛张! 🌈个人首页： 神马都会亿点点的毛毛张 📌这篇博客是毛毛张分享三国演义文学剧本中的经典台词和语句，本篇分享的是《三国演义》第Ⅰ部分《群雄逐鹿》的第2️⃣集《十常侍乱政治》&am…

阅读更多...

代码随想录算法训练营第三十六天|62.不同路径、 63. 不同路径 II、343.整数拆分（可跳过）、96.不同的二叉搜索树（可跳过）

代码随想录算法训练营第三十六天|62.不同路径、 63. 不同路径 II、343.整数拆分（可跳过）、96.不同的二叉搜索树（可跳过）

62.不同路径题目链接：62.不同路径文档讲解：代码随想录状态：还行思路：当前状态的只有可能是从上面或者左边过来的，所以 dp[i][j] dp[i-1] dp[j-1] 题解： public int uniquePaths(int m, int n) {if (…

阅读更多...

Android Kotlin 中的闭包函数

Android Kotlin 中的闭包函数

闭包函数是现代编程语言中一个重要的概念，Kotlin 作为一种现代的 JVM 语言，自然也支持闭包函数。本文将详细介绍闭包函数的概念、在Kotlin 中的使用方法，以及一些常见的应用场景。什么是闭包函数？ 闭包函数，也称为闭…

阅读更多...

50etf期权合约一手多少钱你知道吗？

50etf期权合约一手多少钱你知道吗？

今天带你了解50etf期权合约一手多少钱你知道吗？50etf期权有不同价值的合约，每手50etf期权合约从几元到几百元再到上千元的都有，具体需要根据投资者选择了什么价值的合约。 50etf期权权利金 50ETF期权合约的权利金是买方需要缴纳的费用&…

阅读更多...

推荐文章

最新文章