【机器学习合集】参数初始化合集 ->(个人学习记录笔记)

news2024/12/24 7:11:45

文章目录

  • 综述
  • 1. 全零与随机初始化
  • 2. 标准初始化(固定方差)
  • 3. Xavier初始化(方差缩放)
  • 4. He初始化
  • 5. 正交初始化
  • 6. MSRA初始化

综述

这些是不同的权重初始化方法,用于初始化神经网络的权重参数。它们的主要区别在于初始化权重的策略和数学原理。以下是这些初始化方法的简要介绍和区别:

  1. 简单初始化(Zero Initialization)

    • 策略:所有权重初始化为零。
    • 区别:这是最简单的初始化方法,但通常不建议使用,因为在多层神经网络中,所有的神经元将拥有相同的权重,导致对称性问题,不利于学习。
  2. 随机初始化(Random Initialization)

    • 策略:权重以随机小的值初始化,通常在[-ε, ε]的范围内,其中ε是一个很小的正数。
    • 区别:随机初始化打破了对称性,允许神经网络从不同的起点开始学习,改善了训练过程。
  3. 固定方差初始化(Fixed Variance Initialization)

    • 策略:权重初始化时,使用一个固定的方差,通常是从正态分布中选择的。
    • 区别:这个方法确保权重的分布具有相对一致的方差,但不一定适用于所有网络结构和任务。
  4. 方差缩放初始化(Variance Scaling Initialization)

    • 策略:权重初始化时,方差根据网络的输入和输出的维度进行缩放,通常以特定的方式选择。
    • 区别:这个方法试图通过权重初始化来平衡信号的方差,以防止梯度消失或爆炸问题,并有助于更稳定的训练。
  5. He初始化(He Initialization)

    • 策略:权重初始化是根据网络的输入和输出的维度进行的,方差被设置为2/n,其中n是权重连接的输入维度。
    • 区别:He初始化是为深度卷积神经网络设计的,通过设置适当的方差,可以提高网络的学习速度和性能。
  6. 正交初始化(Orthogonal Initialization)

    • 策略:权重初始化是通过生成正交矩阵来实现的,确保权重之间彼此正交。
    • 区别:正交初始化有助于减少权重之间的冗余信息,提高网络的效率和学习性能。
  7. MSRA初始化(Microsoft Research for Advanced Initiative Initialization)

    • 策略:权重初始化是根据网络的输入和输出的维度进行的,方差被设置为2/(n_in + n_out),其中n_in是输入维度,n_out是输出维度。
    • 区别:MSRA初始化旨在平衡信号的方差,以提高网络的训练速度和性能。
  • 不同的初始化方法适用于不同的网络结构和任务。通常,随机初始化、He初始化和MSRA初始化在深度神经网络中表现良好,因为它们可以打破对称性,有助于更快的收敛和更好的性能。选择正确的初始化方法通常是深度学习中的一个重要超参数,需要根据具体的情况进行调整。

在这里插入图片描述

1. 全零与随机初始化

在这里插入图片描述

2. 标准初始化(固定方差)

在这里插入图片描述

3. Xavier初始化(方差缩放)

在这里插入图片描述

4. He初始化

在这里插入图片描述

5. 正交初始化

在这里插入图片描述
在这里插入图片描述

6. MSRA初始化

在这里插入图片描述

部分内容来自: 阿里云天池、神经网络与深度学习(邱锡鹏著)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1127132.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RTI-DDS代码分析使用介绍

DDS(Data Distribution Service数据分发服务)是对象管理组织OMG的有关分布式实时系统中数据发布的规范。 DDS规范采用了发布/订阅体系结构,但对实时性要求提供更好的支持。DDS是以数据为中心的发布/订阅通信模型。 以下工程基于rti_connext_dds-7.2.0 hello_world.…

Spark简单回顾

星光下的赶路人star的个人主页 大鹏一日同风起,扶摇直上九万里 文章目录 1、Spark1.1 Spark入门1.1.1 Spark部署模式1.1.2 常用端口 1.2 SparkCore1.2.1 RDD不可变和五大属性1.2.2 RDD的弹性1.2.3 cache和Checkpoint的区别1.2.4 算子 1.3 SparkSQL1.4 内核1.4.1提交…

在Linux上安装RStudio工具并实现本地远程访问【内网穿透】

文章目录 前言1. 安装RStudio Server2. 本地访问3. Linux 安装cpolar4. 配置RStudio server公网访问地址5. 公网远程访问RStudio6. 固定RStudio公网地址 前言 RStudio Server 使你能够在 Linux 服务器上运行你所熟悉和喜爱的 RStudio IDE,并通过 Web 浏览器进行访问…

音频怎么录制?让你轻松成为录音专家!

“音频可以录制吗?如果可以那应该怎么去操作呢?参加了一个配音比赛,需要录制自己配音的视频,但是我不懂怎么录制音频,眼看比赛就要截止了,真的很着急,大家帮帮我。” 音频录制是一项常见但强大…

【数据结构初阶】算法的时间复杂度和空间复杂度

算法的时间复杂度和空间复杂度 1.算法效率1.1 如何衡量一个算法的好坏1.2 算法的复杂度 2.时间复杂度2.1 时间复杂度的概念2.2 大O的渐进表示法2.3常见时间复杂度计算举例 3.空间复杂度4. 常见复杂度对比 1.算法效率 1.1 如何衡量一个算法的好坏 如何衡量一个算法的好坏呢&am…

【pdf密码】为什么我的PDF文件不能复制文字?

大家现在接触PDF文件越来越多,有的时候在网上下载的PDF文件打开之后,发现选中文字之后无法复制。甚至其他功能也都无法使用,这是怎么回事?该怎么办? 当我们发现文件打开之后,编辑功能无法使用,很…

设置中添加UI设置系统默认NTP服务器

经常遇到客户在内网中使用无法与ntp服务器通讯导致系统时间错乱,他们想自己替换ntp地址要么是用adb命令要么是重新刷机,这样比较浪费客户的时间。 看了一下Android系统中选择ntp地址的逻辑,发现在framework中已经有了个ntp地址那么系统将会选…

window10彻底关闭系统管理员控制(所有软件以管理员身份运行)

window10彻底关闭系统管理员控制(所有软件以管理员身份运行) gpedit.msc》计算机配置》windows设置》安全设置》安全选项》 1.用户账户控制:以管理员批准模式运行所有管理员 2.用户账户控制:用于内置管理员账户的管理员批准模式 1…

GeoHash分享

写在前边 复制的一个内部分享,所以可能更偏向PPT性质,本文提出的问题,在末尾参考材料中都会有所提及,包括更深层次的实现原理和各大API对于GeoHash的优化。感兴趣的读者可以拓展看一下。 START GeoHash是一种地址编码&#xff…

又被罚了~新生支付

近日,中国人民银行海南省分行公布行政处罚公示信息内容,具有清算机构新生支付有限公司因存违规行为领罚款单。 行政处罚决定书批准文号“琼银罚决字〔2023〕22号”表明,新生支付有限公司(通称“新生支付”)存有三项违…

深入 Maven:构建杰出的软件项目的完美工具

掌握 Meven:构建更强大、更智能的应用程序的秘诀 Maven1.1 初识Maven1.1.1 什么是Maven1.1.2 Maven的作用 02. Maven概述2.1 Maven介绍2.2 Maven模型2.3 Maven仓库2.4 Maven安装2.4.1 下载2.4.2 安装步骤 03. IDEA集成Maven3.1 配置Maven环境3.1.1 当前工程设置3.1.…

PX4-Autopilot下载与编译

文章目录 1 Git clone 代码2 下载子模块3 编译4 可能遇到的问题参考 1 Git clone 代码 Github Repository 链接:PX4-Autopilot 查看现有版本: 在终端用命令下载,-b表示branch git clone -b v1.14.0 https://github.com/PX4/PX4-Autopilot.…

最新Workerman 在线客服系统源码/附搭建教程-ThinkPHP网站在线客服系统源码

源码简介: Workerman开发的Ai智能客服在线客服系统网站源码,里面有附带安装教程文档搭建教程。它是最新Workerman 在线客服系统源码。 源码链接: 网盘源码 密码:hma8 源码特点: 作为网站在线客服系统源码,它有下…

【Java】【PAT】Basic Level 1018 锤子剪刀布

题目 1018 锤子剪刀布 作者 CHEN, Yue 单位 浙江大学 大家应该都会玩“锤子剪刀布”的游戏:两人同时给出手势,胜负规则如图所示: 现给出两人的交锋记录,请统计双方的胜、平、负次数,并且给出双方分别出什么手势的胜…

Python 中的函数包装器:模型运行时和调试

一、说明 在Python中,函数包装器被称为装饰器,它们在数据科学中具有各种有用的应用。本指南介绍如何使用它们来管理模型运行时和调试。 二、函数的封装 函数包装器是用于修改函数行为的有用工具。在Python中,它们被称为装饰器。装饰器允许我们…

设计模式:建造者模式(C#、JAVA、JavaScript、C++、Python、Go、PHP)

上一篇《策略模式》 下一篇《适配器模式》 简介: 建造者模式,它是一种对象构建模式,它提供了一种构建对象的最佳方式。这种模式适用于当对象的构建过程需要涉及到多个部分&#xff…

观察者模式 vs 发布-订阅模式:两种设计模式的对决!

🎬 江城开朗的豌豆:个人主页 🔥 个人专栏 :《 VUE 》 《 javaScript 》 📝 个人网站 :《 江城开朗的豌豆🫛 》 ⛺️ 生活的理想,就是为了理想的生活 ! ​ 目录 ⭐ 专栏简介 📘 文章引言 一…

设备标识牌不锈钢二维码制作

一、设备标识牌二维码好处: 1、设备信息管理:传统标识牌容纳的信息有限,将二维码用于设备标识牌,可实现设备信息丰富展示、设备文档资料可存储二维码云端、微信扫码检查查阅,无需携带纸质,同时凡尔码云端后…

JSX 动态类名控制

学习目标&#xff1a; 根据需求判断是否显示某个类名的样式 实现&#xff1a; 使用三元表达式或逻辑&&运算 import ./app.css; function App() {const color1 trueconst color2 truereturn (<div className"App">1. 三元&#xff1a;<div classN…

android项目实践说明

权限与存储 本地读取文件&#xff08;IO流&#xff09; 网络传输&#xff08;Socket通信&#xff09; 串口通信&#xff08;串行传输接口通信&#xff09; 而串口通信是应用在智能家居和单片机通信的场景&#xff0c;人脸识别门禁&#xff0c;利用串口控制门开关&#xff0…