全连接网络参数Xavier初始化

news2025/1/11 4:03:48

1.梯度消失

考虑下图的神经网络,在使用梯度下降法迭代更新W_ki和W_ij时,它们的梯度方向间有什么关系?
在这里插入图片描述
它们的梯度关系如下:
在这里插入图片描述
从上述两个式子我们大致可以看出,损失函数L关于第h层参数的梯度由两部分组成:1)损失函数L关于第(h+1)层特征的梯度和2)第h层特征。
进一步分析1)
L关于第(h+1)层特征的梯度和L关于第h层特征的梯度之间有什么关系?(p为第h+1层结点数)
在这里插入图片描述
2)第h层特征和(h-1)层特征有什么关系?
在这里插入图片描述
为了使得参数更新的稳定,我们应该使1)和2)的分布保持稳定,即假设相邻两层i和j,
1)Var(X_i) = Var(X_j)
2)Var(L关于X_i的偏导)=Var(L关于X_j的偏导)
X_i,X_j为两个随机变量,尽可能让它们的分布一致。
L关于X_i的偏导,L关于X_j的偏导为两个随机变量,尽可能让它们的分布也一致。这就是Xavier初始化要做的任务。经上述粗略分析,如果它们的分布不一致,就很可能造成梯度消失或梯度爆炸的情况出现。

2.Xavier初始化方法

随机变量的思想:
1.假设样本容量为n:{x1,…xn}|xi∈Rd。每个数据均为一个d维向量。假设特征和特征间独立,d个特征就对应d个相互独立的随机变量。每个特征对应一个随机变量,不同特征对应的随机变量独立。理论上来说每个特征都应对应一个与其他特征独立的正态分布。但为了简化问题,我们在数据预处理时已经对数据进行了规范化,使得每个特征独立且均满足均值为0,方差为1的正态分布。
2.假设我们只考虑一层全连接层h->h+1。h层中节点的索引用i来表示,h+1层中节点索引用j来表示。wij表示全连接网络中的参数。我们引入一个前提:h->h+1层的所有参数满足一个分布,所有参数构成了一个随机变量W,对应一个正态分布,这个随机变量W和1中所说的每个特征对应的随机变量同样相互独立。我们要确定的就是W的分布,简化考虑就是确定满足正态分布的随机变量W的均值和方差。确定了W的均值和方差,我们就可以:1)根据第h层特征的分布(均值为0,方差为1),来限制第(h+1)层特征的分布(均值为0,方差为1),2)根据L关于第(h+1)层特征的梯度(请注意,这也可以看作一个随机变量,也有对应的分布)来限制L关于第h层特征的梯度(同样也是一个随机变量)。(这也对应了Xavier初始化的两个限制条件)
接下来简单求解:
假设第h层有n个节点,第(h+1)层有p个节点。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
可求解W可从该正态分布中采样。
其实,我们不用管W满足什么分布,只需要保证W的均值为0,方差为2/(n+p)就可以保证各层特征的数值稳定和各层梯度的稳定,保证了这两点,就可以保证全连接网络反向传播中数值的稳定性。
在这里插入图片描述
所以,W也可以满足上图所示的均匀分布U.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1116155.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

sql server2014如何添加多个实例 | 以及如何删除多个实例中的单个实例

标题sql server2014如何添加多个实例 前提(已安装sql server2014 且已有默认实例MSSQLSERVER) 添加新的实例 其实就是根据安装步骤再安装一次(区别在过程中说明) 双击安装 选择“全新独立安装或添加现有功能” 然后下一步下一…

微信小程序开发之后台数据交互及wxs应用

目录 一、后端准备 1. 应用配置 2. 数据源配置 二、数据库 1. 创建 2. 数据表 3. 数据测试 三、前端 1. 请求方法整合 2. 数据请求 3. WXS的使用 4. 样式美化 5. 页面 一、后端准备 通过SpringMVC及mybatis的技术学习,还有前后端分离的技术应用&…

Linux程序地址

目录 一、定义 二、问题引出 三、虚拟地址和物理地址 &#xff08;一&#xff09;问题解释 &#xff08;二&#xff09;什么是进程地址空间 &#xff08;三&#xff09;为什么要有进程地址空间 一、定义 #include <stdio.h> #include <stdlib.h>//geten…

运维监控Zabbix部署

目录 运维监控Zabbix部署 1. 简介 2. 安装 ​编辑 2.1 安装前准备 - Mysql 2.2 安装Zabbix Server 和 Zabbix Agent 2.2.1 安装Zabbix yum库 2.2.2 安装Zabbix Server、前端、Agent 2.2.3 初始化Mysql数据库 2.2.4 为Zabbix Server配置数据库 2.2.5 配置Zab…

【目标检测】Co-DETR:ATSS+Faster RCNN+DETR协作的先进检测器(ICCV 2023)

论文&#xff1a;DETRs with Collaborative Hybrid Assignments Training 代码**&#xff1a;https://github.com/Sense-X/Co-DETR 文章目录 摘要一、简介二、本文方法2.1.概述2.2.协同混合分配训练2.3. 定制的正 Query 生成2.4. Co-DETR为何有效1、丰富编码器的监督2、通过减少…

QEMU DirtyLimit特性介绍

文章目录 背景基本原理PMLDirty-RingDirty-Limit 具体实现数据结构vcpu_dirty_rate_statdirtylimit_state 算法实现接口逻辑qmp_set_vcpu_dirty_limitqmp_cancel_vcpu_dirty_limit 限制算法算法框架理想效果具体实现 测试验证QEMULibvirt 一个广子 背景 热迁移实现逻辑中&…

---图的遍历和最小生成树

广度优先遍历 --- 针对的是顶点遍历 深度优先遍历 如果给的图不是连通图&#xff1f;以某个点为起点就没有遍历完成。那么怎么保证遍历完剩下的点呢&#xff1f;&#xff1f; 在标记数组当中找没有遍历过的点&#xff0c;在进行遍历 最小生成树 生成树&#xff1a;一个连通…

使用TypeScript和jsdom库实现自动化数据抓取

目录 环境准备 使用TypeScript和jsdom抓取数据 总结 随着网络技术的发展&#xff0c;数据抓取已成为获取信息的重要手段。然而&#xff0c;手动进行数据抓取既耗时又容易出错。因此&#xff0c;本文将介绍如何使用TypeScript和jsdom库实现自动化数据抓取。我们将通过创建一个…

iMazing苹果用户手机备份工具 兼容最新的iOS16操作系统

现在距离苹果秋季新品发布会已过去月余&#xff0c;新iPhone 14系列和新版的iOS 16操作系统也如约与我们见面了&#xff0c;相信大家在9月初抢购的iPhone 14也基本到手了&#xff0c;但随之到来的数据资料备份迁移却是一件令人头大的事情&#xff0c;使用官方提供的iTunes软件卡…

计算机网络,网络(OSI)七层模型,三次握手四次挥手,get与post请求区别,网络IO(BIO\NIO\AIO),TCP与UDP区别

1.OSI模型&#xff1f; 开放式系统互联通信参考模型(Open System Interconnection Reference Model) OSI网络七层模型&#xff1a;应用层、表示层、会话层、传输层、网络层、数据链路层、物理层 TCP/IP协议群简化了OSI七层模型&#xff1a;应用层、传输层、网络层、数据链路…

java-各种成员变量初始化过程-待完善

前置条件 一、本文章讨论的成员变量 public static final String aa "aa";public static final Integer bb 1;public static final Students cc new Students();public static String aa1 "aa";public static Integer bb1 1;public static String bb2…

nodejs+vue中学信息技术线上学习系统-计算机毕业设计

因此&#xff0c;将现代化的计算机技术、网络技术以及多媒体等技术相结合&#xff0c;开发基于互联网的自主学习平台&#xff0c;为学生提供良好的自主学习环境&#xff0c;方便学生能够网上学习&#xff0c;师生通过该平台可以进行课后交流。目 录 摘 要 I ABSTRACT II 目 录 …

ssrf漏洞学习

目录 ssrf漏洞 相关函数 相关协议 file协议 dict协议 gopher协议 ctfshow ssrf web351 web352 web353 web354过滤01 web355五位长度 web356 三位长度 web357 DNS重定向 web358 正则 ssrf漏洞 SSRF&#xff08;Server-Side Request Forgery&#xff0c;服务器端请…

基于SSM的培训学校教学管理平台的设计与实现

末尾获取源码 开发语言&#xff1a;Java Java开发工具&#xff1a;JDK1.8 后端框架&#xff1a;SSM 前端&#xff1a;Vue 数据库&#xff1a;MySQL5.7和Navicat管理工具结合 服务器&#xff1a;Tomcat8.5 开发软件&#xff1a;IDEA / Eclipse 是否Maven项目&#xff1a;是 目录…

ASCII_Util.java

package asc_ii;/*** 我写程序&#xff0c;写代码&#xff0c;做项目做产品&#xff0c;更加努力学习做人* 我曾经家里有两只狗&#xff0c;rocket就是那种小型犬吧&#xff0c;两耳朵跑起来飞舞着&#xff0c;我也不记得是不是舞蝶犬* 还有一条中型犬&#xff0c;“豆豆”&…

小程序实现后台数据交互及WXS的使用

一&#xff0c;数据交互准备工作 1.1 后端准备 后端部分代码&#xff0c;可自行创建后端代码 package com.zking.minoa.wxcontroller;import com.zking.minoa.mapper.InfoMapper; import com.zking.minoa.model.Info; import com.zking.minoa.util.ResponseUtil; import org…

FPGA【紫光语法】

寄存器数据类型&#xff1a; reg 默认为 1 bit wide&#xff0c;如果超过 1 bit&#xff0c;则需要 range declaration 设置 reg 的位宽integer 默认位宽为 32 bit&#xff0c;不允许有 range declarationtime 默认位宽为 64 bit&#xff0c;不允许有 range declarat…

黄金现货期货各有各的市场

投资黄金要获得高效的收益&#xff0c;投资者应该选择有一定资金杠杆的保证金品种&#xff0c;比如现货黄金和黄金期货就是这样投资方式&#xff0c;投资者都可以通过它们的杠杆来放大自己的收益&#xff0c;但二者始终存在区别&#xff0c;投资者到底该如何选择呢&#xff1f;…

(2023,DALL-E3,两步微调,标题重建)通过更好的标题改进图像生成

Improving Image Generation with Better Captions 公众号&#xff1a;EDPJ&#xff08;添加 VX&#xff1a;CV_EDPJ 或直接进 Q 交流群&#xff1a;922230617 获取资料&#xff09; 目录 0. 摘要 1. 简介 2. 重建数据集标题 2.1 构建图像标题器 2.1.1 微调标题器 3…

AI虚拟主播频繁亮相,未来会替代真人吗?灰豚AI数字人深度解析!

你可能听说过一些头部主播其实不是真人&#xff0c;而是由人工智能技术生成的虚拟数字人。这些数字人有着逼真的外貌、声音和表情&#xff0c;和真人几乎一模一样&#xff0c;可以在直播平台上和观众进行各种内容的展示和互动。那么&#xff0c;现在来考考你以下哪一个头部主播…