深度学习-全连接神经网络-训练过程-权值初始化- [北邮鲁鹏]

news2024/11/26 17:37:18

文章目录

  • 思想
  • 避免全零初始化
  • 随机权值初始化
    • 权值初始化太小:
    • 权值初始化太大
    • Xavier初始化
      • 目标
      • 为什么输入和输出分布会变得不同?
      • Xavier在使用Tanh时的表现好
      • Xavier在使用ReLU时的表现不好
    • HE初始化(MSRA)
    • 权值初始化总结


思想

通过调整权值的分布使得输出与输入具有相同的分布

在这里插入图片描述

避免全零初始化

全零初始化:网络中不同的神经元有相同的输出,进行同样的参数更新;
因此,这些神经元学到的参数都一样,等价于一个神经元。

在这里插入图片描述
建议:采用随机初始化,避免全零初始化!

随机权值初始化

权值初始化太小:

前向信息流消失

在这里插入图片描述

权值初始化太大

反向梯度消失

在这里插入图片描述

实验结论:初始化时让权值不相等,并不能保证网络能够正常的被训练。

有效的初始化方法:是网络各层的激活值和局部梯度的方差在传播过程中尽量保持一致;以保证网络中正向和反向数据流动。

Xavier初始化

Xavier初始化是一种用于初始化神经网络权重的方法,旨在使网络的前向传播时保持信号的方差不变。该方法根据每一层的输入和输出神经元的数量来确定权重的初始范围。

目标

使网络各层的激活值和局部梯度的方差在传播过程中保持一致,即寻找w的分布使得输出y与输入z的方差一致

在这里插入图片描述

为什么输入和输出分布会变得不同?

因为输入在经过隐藏层时发生衰变。

Xavier在使用Tanh时的表现好

在这里插入图片描述

Xavier在使用ReLU时的表现不好

在这里插入图片描述
在多次迭代后结果集中在0附近

HE初始化(MSRA)

在这里插入图片描述
适用于ReLU函数

权值初始化总结

  • 好的初始化方法可以防止前向传播过程中的信息消失,也可以解决反向传递过程中的梯度消失。
  • 激活函数选择双曲正切(ReLU)或者Sigmoid时,建议使用Xaizer初始化方法;
  • 激活函数选择ReLY或Leakly ReLU时,推荐使用He初始化方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1009093.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ARMv8架构简介

ARMv8-A架构和处理器 ARMv8-A架构 ARMv8‑A 架构是针对应用程序配置文件的最新一代 ARM 架构。 ARMv8 这个名称用于描述整体架构,现在包括 32 位执行状态和 64 位执行状态。它引入了使用 64 位宽寄存器执行的能力,同时保持与现有 ARMv7 软件的向后兼容性。 ARMv8‑A 架构引…

电脑死机的时候,CPU到底在做什么?

电脑死机,应该每个接触计算机的小伙伴都经历过吧。 尤其是早些年,电脑配置还没现在这么高的时候,多开几个重量级应用程序,死机就能如约而至,就算你把键盘上的CTRLALTDELETE按烂了,任务管理器也出不来&…

GIS前端-地图事件编程

GIS前端-地图事件编程 图层操作事件地图状态事件交互事件弹出框事件导出PDF 在地图上的一切操作均要采用地图事件机制来实现,即通过鼠标、键盘等交互,触发地图相关事件,进而调用相关功能接口函数实现相应的GIS功能。在具体的实现过程中&#…

logstash无法精确到毫秒级解决方案

问题描述 最近遇到这样一个问题:logstash想要动态更新数据库内容,常用的方法是在conf文件里设置。这里我选择用timestamp记录 # 数据追踪 # 追踪的字段 tracking_column > "update_time" tracking_column_type > "timestamp"…

【LeetCode-中等题】 454. 四数相加 II

文章目录 题目方法一:哈希表 题目 方法一:哈希表 哈希表记录前两个数组的和以及出现次数,然后记录后面两个数组的和,成功将四数之和转换为两数之和 因为本题特殊在和是为0 的 所以后面的两个数组之和取反 如果能在map的key中存在…

关于rsync用不了之后

1.尝试找出rsync使用错误原因: 我遇见一个问题:rsync:read errors mapping:communication error on send (70),我查了一下这个问题很大可能是网络链接导致的,然后我用nslookup指令查看了/train2…

python-爬虫-爬取中华人民共和国农业农村部网站公开的农产品批发价格中的蔬菜价格周数据

中华人民共和国农业农村部 http://www.moa.gov.cn/ 点击数据 → 点击周度数据 → 跳转网页 http://zdscxx.moa.gov.cn:8080/nyb/pc/frequency.jsp 分析 抓包,发现getFrequencyData里面有我们想要的数据 查看请求的提交参数 使用postman接口测试工具测试验证ge…

华为云征文|华为云云耀云服务器L实例使用教学

目录 国内免费云服务器(体验) 认识国内免费云服务器 如何开通国内免费云服务器 云耀云服务器 HECS HECS适用于哪些场景? 网站搭建 电商建设 开发测试环境 云端学习环境 为什么选择华为云耀云服务器 HECS 国内免费云服务器&#xff…

MES管理系统和ERP系统在生产制造管理中的应用

MES生产管理系统通过过程管理、质量管理、设备管理、产品跟踪和溯源、性能分析和物料管理等方面来管理生产制造,旨在建立规范的生产管理信息平台,提高企业核心竞争力。ERP系统则通过制定生产计划、细分物料需求计划、车间订单下达和生产回报等步骤进行生…

推荐9个好玩的AI作图网站

1、Mental AI Mental AI是一款国产的AI作图网站,它访问方便,使用简单,是更适合国内设计师使用的AI作图网站推荐。在Mental AI中,设计师既可以使用文字描述的方式来生成图片,也可以使用叠加模型的方式来生成图片&#x…

点击劫持概念及解决办法

1.点击劫持的概念 点击劫持 (Clickjacking) 技术又称为界面伪装攻击 (UI redress attack ),是一种视觉上的欺骗手段。攻击者使用一个或多个透明的 iframe 覆盖在一个正常的网页上,然后诱使用户在该网页上进行操作,当用户在不知情的情况下点击…

靶场上新:Openfire身份认证绕过

本文由掌控安全学院-江月投稿 封神台新上线漏洞复现靶场:Openfire身份认证绕过。 漏洞详情: Openfire是采用Java编程语言开发的实时协作服务器,Openfire的管理控制台是一个基于Web的应用程序,被发现可以使用路径遍历的方式绕过…

GIS前端编程 地图常用操作

GIS前端编程 地图常用操作 地图背景设置地图定位地图级数控制获取显示参数 地图操作是WebGIS应用的基本功能,如缩放、移动等操作。在实际WebGIS应用中,地图操作方式多种多样。下面主要介绍以下几种地图操作:地图背景设置、地图定位、地图级数…

WebDAV之π-Disk派盘 + BubbleUPnP

BubbleUPnP是一款功能强大的Android播放器,支持UPnP/DLNA多屏互动。它可以将手机内容投屏到电视大屏上,与家人和朋友一起共享。此外,BubbleUPnP还提供了丰富的音乐和影视资源,您可以在线搜索并播放喜欢的内容。 以下是BubbleUPnP的一些主要特点: 1. 支持Chromecast和转码…

2023 致远OA-任意用户密码重置漏洞

一、致远OA 致远OA是一款企业级办公自动化软件,它提供了一系列的办公自动化解决方案,包括文档管理、流程管理、协同办公、知识管理、人力资源管理等功能。致远OA可以帮助企业实现信息化管理,提高工作效率和管理水平,同时也可以提高…

【Linux 运维必备的 13 款实用工具,赶紧收藏~】

转载:https://blog.csdn.net/jb19900111/article/details/17756183 本文介绍几款Linux运维比较实用的工具,希望对Linux管理员有所帮助。 1、查看进程占用带宽情况-Nethogs Nethogs 是一个终端下的网络流量监控工具可以直观的显示每个进程占用的带宽。 …

【教学类-32-03】20230906十二生肖3.0上课版(绘画+手工+排序+左右分类+玩牌)(大班:《我是中国人》偏科学-数)

背景需求: 8月30日收到一个信息技术比赛的通知,9月10日前完工,单位里大活动很多,人手极度不足。作为信息员,只能自己顶上,做课件、开录课,完成这来之不易的KPI(去年疫情&#xff0c…

【Prometheus】Prometheus+Grafana部署

Prometheus 概述 官网https://prometheus.io/docs/introduction/overview/ Prometheus 是一款基于时序数据库的开源监控告警系统,非常适合Kubernetes集群的监控。Prometheus的基本原理是通过HTTP协议周期性抓取被监控组件的状态,任意组件只要提供对应的…

批量处理长视频,提高视频制作效率的技巧分享

在视频制作过程中,我们常常需要处理大量的长视频,例如从拍摄的整个影片中剪出某些特定的片段,或者需要把一个长的视频分割成多个小片段。这个过程可以是极其耗时和困难的,但幸运的是,现在有许多工具可以帮助我们自动化…

Biome-BGC生态系统模型与Python融合

目录 一 模式讲解 二 学习基础 三 数据处理 四 单点的模拟 五 区域模拟-1 六 长时间序列模拟案例 七 分析 Biome-BGC是利用站点描述数据、气象数据和植被生理生态参数,模拟日尺度碳、水和氮通量的有效模型,其研究的空间尺度可以从点尺度扩展到陆地…