从0开始深度学习(17)——数值稳定性和模型初始化

news2025/1/11 18:32:32

在每次训练之前,都会对模型的参数进行初始化,初始化方案的选择在神经网络学习中起着举足轻重的作用, 它对保持数值稳定性至关重要。
我们选择哪个函数以及如何初始化参数可以决定优化算法收敛的速度有多快。 糟糕选择可能会导致我们在训练时遇到梯度爆炸梯度消失

1 梯度消失和梯度爆炸

不稳定梯度带来的风险不止在于数值表示; 不稳定梯度也威胁到我们优化算法的稳定性。 我们可能面临一些问题:
要么是**梯度爆炸(gradient exploding)问题: 参数更新过大,破坏了模型的稳定收敛;
要么是
梯度消失(gradient vanishing)**问题: 参数更新过小,在每次更新时几乎不会移动,导致模型无法学习。

1.1 梯度消失

这里以sigmoid函数为例,因为它类似于阈值函数,所以也容易导致梯度消失,我们创建了一个从 -8.0 到 8.0,步长为 0.1 的一维张量 x,使用sigmoid函数,然后计算 y 对 x 的梯度,最后输出一个横轴是x,y轴是梯度的图像

%matplotlib inline
import torch
from d2l import torch as d2l

x = torch.arange(-8.0, 8.0, 0.1, requires_grad=True)
y = torch.sigmoid(x)
y.backward(torch.ones_like(x))

d2l.plot(x.detach().numpy(), [y.detach().numpy(), x.grad.numpy()],
         legend=['sigmoid', 'gradient'], figsize=(4.5, 2.5))

在这里插入图片描述
我们发现,当sigmoid函数的输入很大或是很小时,它的梯度都会消失,所以一旦某个网络层的输入过大或者过小,梯度就会消失, 因此,更稳定的ReLU系列函数称为了默认选择

1.2 梯度爆炸

通过构造一个简单的递归函数或链式乘法,可以看到梯度在反向传播过程中如何逐渐增大

%matplotlib inline
import torch
from d2l import torch as d2l

# 构造从 -1 到 1 的输入数据,并启用梯度计算
x = torch.tensor(1.0, requires_grad=True)

# 模拟梯度爆炸:我们构造一个由 100 个常数值相乘的过程
y = x
for i in range(100):  # 重复 100 次
    y = y * 1.1  # 每次乘以 1.1

# 反向传播
y.backward()

# 绘制结果
x_grad = x.grad.item()
print(f"x 的梯度值为: {x_grad}")

# 由于我们反复放大,梯度会呈指数增长,这就是梯度爆炸的表现。

当这种情况是由于深度网络的初始化所导致时,我们没有机会让梯度下降优化器收敛。

1.3 对称性问题

如果所有的神经元(同一层中的神经元)具有相同的初始权重,它们将学到相同的特征。这种现象会让网络的学习过程失去多样性,进而影响模型的表达能力和训练效果。

例如,如果你把每一层的所有神经元的权重都初始化为 0 或相同的值,网络中的每个神经元都会执行相同的计算,这样就失去了通过不同神经元学习不同特征的意义。

1.4 打破对称性

打破对称性就是在网络初始化时,为每个神经元赋予不同的初始权重值,确保它们在训练过程中能学习到不同的特征。通常的做法是随机初始化权重,同样的还能使用暂退法正则化来打破

2 参数初始化

解决(或至少减轻)上述问题的一种方法是进行参数初始化

2.1 默认初始化

之前的例子中,我们一直使用的是正态分布来初始化权重,如果不指定,pytorch框架会使用默认的随机初始化方法。

2.2 Xavier初始化( Glorot 初始化)

核心思想:
Xavier 初始化的目标是确保信号的方差在每一层传播时保持一致,即:

  • 前向传播中,输出的激活值的方差保持稳定,避免过大或过小。
  • 反向传播中,梯度的方差同样保持稳定,避免梯度爆炸或梯度消失。

为了实现这个目标,Xavier 初始化根据输入和输出层的神经元数量,计算合适的初始权重分布。具体公式如下:

对于权重矩阵中的每个元素 W i j W_{ij} Wij ,其初始化值从一个均匀分布或正态分布中随机采样:

  1. 均匀分布:

在这里插入图片描述

  1. 正态分布:

在这里插入图片描述

​其中:

  • n i n n_{in} nin是该层神经元的输入节点数量(上一层的神经元数量)。
  • n o u t n_{out} nout是该层神经元的输出节点数量(下一层的神经元数量)。

PyTorch 中提供了 Xavier 初始化的方法,可以直接使用 torch.nn.init.xavier_uniform_ 或 torch.nn.init.xavier_normal_ 来应用 Xavier 初始化。

import torch
import torch.nn as nn

linear = nn.Linear(100, 50)  
# 使用 Xavier 均匀初始化
nn.init.xavier_uniform_(linear.weight)
# 如果需要 Xavier 正态分布初始化
# nn.init.xavier_normal_(linear.weight)

Xavier 初始化通过平衡前向和反向传播中信号和梯度的方差,能够有效地帮助深层网络稳定训练,特别是对于使用 sigmoid 或 tanh 激活函数的网络非常重要。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2227467.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

3D、VR、AR技术的应用,对家电品牌营销有哪些影响?

家电行业3D数字化营销正以其独特的优势引领着行业的变革。随着技术的不断进步和应用场景的不断拓展,我们有理由相信,未来家电行业的3D数字化营销将会更加精彩纷呈。 那么3D、VR、AR技术的应用,对家电品牌营销有哪些影响? 01、提升…

[ 问题解决篇 ] 解决远程桌面安全登录框的问题

🍬 博主介绍 👨‍🎓 博主介绍:大家好,我是 _PowerShell ,很高兴认识大家~ ✨主攻领域:【渗透领域】【数据通信】 【通讯安全】 【web安全】【面试分析】 🎉点赞➕评论➕收藏 养成习…

Leetcode 二叉树的最近公共祖先

class Solution {public TreeNode lowestCommonAncestor(TreeNode root, TreeNode p, TreeNode q) {//root p || root q 时不能再往更深层找了, 否则会不满足公共祖先的要求if(root null || root p || root q) {return root;//在二叉树递归算法中,root可以认为是递归过程中…

ZooKeeper 客户端API操作

文章目录 一、节点信息1、创建节点2、获取子节点并监听节点变化3、判断节点是否存在4、客户端向服务端写入数据写入请求直接发给 Leader 节点写入请求直接发给 follow 节点 二、服务器动态上下线监听1、监听过程2、代码 三、分布式锁1、什么是分布式锁?2、Curator 框架实现分布…

【HTML】之基本标签的使用详解

HTML(HyperText Markup Language,超文本标记语言)是构建网页的基础。它不是一种编程语言,而是一种标记语言,用于描述网页的内容和结构。本文将带你了解HTML的基础知识,并通过详细的代码示例和中文注释进行讲…

【C++】哈希冲突的解决办法:闭散列 与 开散列

哈希冲突解决 上一篇博客提到了,哈希函数的优化可以减小哈希冲突发生的可能性,但无法完全避免。本文就来探讨一下解决哈希冲突的两种常见方法:闭散列和开散列 1.闭散列 闭散列也叫开放定址法,发生哈希冲突时,如果哈…

线程的理解及基本操作

目录 一、线程的理解 (1)什么是线程呢? (2)线程的优缺点及异常 二、线程的基本操作 (1)创建一个新的进程 (2)获取线程id (3)线程终止 &…

H3C OSPF配置

OSPF配置实验 实验拓扑图 实验需求 1.配置IP地址 2.分区域配置OSPF&#xff0c;实现全网互通 3.为了路由结构稳定&#xff0c;要求路由器使用环回口作为Router-id&#xff0c;ABR的环回口宣告进骨干区域 实验配置 1.配置IP地址 R1&#xff1a; <H3C>system-view …

apt的编译安装(古老通讯)

Ubuntu系统的防火墙关闭&#xff1a; ufw disable 第一步&#xff1a;Ubuntu 安装依赖环境 apt -y install libpcre3-dev zlib1g-dev libssl-dev build-essential 如果出现无法下载则在末尾处假如 --fix missing如下图所示 出现下图则为安装成功 第二步&#xff1a; useradd…

Vue.js(2) 入门指南:从基础知识到核心功能

我相信一万小时定律&#xff0c;不相信天上掉馅饼的灵感和坐等的成就。做一个自由而自律的人&#xff0c;势必靠决心认真地活着 文章目录 前言vue是什么?vue做什么?vue的核心功能安装vuevue初体验vue配置选项插值表达式指令vue阻止默认行为总结 前言 Vue.js 是一个用于构建用…

Spring 启动流程分析

Spring 的设计 Bean: Spring作为一个IoC容器&#xff0c;最重要的当然是Bean咯 BeanFactory: 生产与管理Bean的工厂 BeanDefinition: Bean的定义&#xff0c;也就是我们方案中的Class&#xff0c;Spring对它进行了封装 BeanDefinitionRegistry: 类似于Bean与BeanFactory的关…

智能名片小程序源码

智能名片小程序&#xff0c;是一款集在线介绍公司和个人名片、高效获取客户信息以及全面展示公司产品于一体的数字化工具。它通过数字化的方式&#xff0c;让名片信息的传递更加高效、便捷&#xff0c;极大地提升了商务交流的效率和效果。 在功能性方面&#xff0c;智能名片小…

LabVIEW汽车状态监测系统

LabVIEW汽车状态监测系统通过模拟车辆运行状态&#xff0c;有效地辅助工程师进行故障预测和维护计划优化&#xff0c;从而提高汽车的可靠性和安全性。 项目背景&#xff1a; 现代汽车工业面临着日益增长的安全要求和客户对于车辆性能的高期望。汽车状态监测系统旨在实时监控汽…

Golang的Web应用架构设计

# Golang的Web应用架构设计 介绍 是一种快速、高效、可靠的编程语言&#xff0c;它在Web应用开发中越来越受欢迎。Golang的Web应用架构设计通常包括前端、后端和数据库三个部分。在本篇文章中&#xff0c;我们将详细介绍Golang的Web应用架构设计及其组成部分。 前端 在Golang的…

SIP 业务举例之 三方通话:邀请第三方加入的信令流程

目录 1. 3-Way Conference - Third Party Is Added 简介 2. RFC5359 的 3-Way Conference - Third Party Is Added 信令流程 3. 3-Way Conference - Third Party Is Added 总结 博主wx:yuanlai45_csdn 博主qq:2777137742 想要 深入学习 5GC IMS 等通信知识(加入 51学通信)…

GNN+强化学习:双霸主强强联合,10种创新思路刷爆顶会!

图神经网络&#xff08;GNN&#xff09;强化学习&#xff08;RL&#xff09;&#xff0c;融合了GNN在图数据表示上的深度学习能力和RL在决策过程中的策略优化能力。这种结合为处理具有复杂图结构的数据问题提供了强大的工具。 GNN与强化学习的结合不仅推动了图机器学习的研究进…

R语言机器学习算法实战系列(十三)随机森林生存分析构建预后模型 (Random Survival Forest)

禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者! 文章目录 介绍教程加载R包案例数据数据预处理数据描述构建randomForestSRC模型评估模型C-indexBrier score特征重要性构建新的随机森林生存模型风险打分高低风险分组的生存分析时间依赖的ROC(Ti…

Http 状态码 301 Permanent Rediret 302 Temporary Redirect、 重定向 重写

HTTP状态码301和302是什么&#xff1f; 1、HTTP状态码301 HTTP状态码301表示永久性转移&#xff08;Permanent Redirect&#xff09;&#xff0c;这意味着请求的资源已经被分配了一个新的URI&#xff0c;以后的引用应该使用资源现在所指的URI。 HTTP 301状态码表示请求的资源…

Segugio:一款针对恶意软件的进程执行跟踪与安全分析工具

关于Segugio Segugio是一款功能强大的恶意软件安全分析工具&#xff0c;该工具允许我们轻松分析恶意软件执行的关键步骤&#xff0c;并对其进行跟踪分析和安全审计。 Segugio允许执行和跟踪恶意软件感染过程中的关键步骤&#xff0c;其中包括从点击第一阶段到提取恶意软件的最…

CSS.导入方式

1.内部样式 在head的style里面定义如 <style>p1{color: brown;}</style> 2.内联样式 直接在标签的里面定义如 <p2 style"color: blue;">这是用了内联样式&#xff0c;蓝色</p2><br> 3.外部样式表 在css文件夹里面构建一个css文件…