【机器学习合集】参数初始化合集 -＞（个人学习记录笔记）

news2025/7/8 12:17:51

文章目录

综述
1. 全零与随机初始化
2. 标准初始化(固定方差)
3. Xavier初始化(方差缩放)
4. He初始化
5. 正交初始化
6. MSRA初始化

综述

这些是不同的权重初始化方法，用于初始化神经网络的权重参数。它们的主要区别在于初始化权重的策略和数学原理。以下是这些初始化方法的简要介绍和区别：

简单初始化（Zero Initialization）：

策略：所有权重初始化为零。
区别：这是最简单的初始化方法，但通常不建议使用，因为在多层神经网络中，所有的神经元将拥有相同的权重，导致对称性问题，不利于学习。

随机初始化（Random Initialization）：

策略：权重以随机小的值初始化，通常在[-ε, ε]的范围内，其中ε是一个很小的正数。
区别：随机初始化打破了对称性，允许神经网络从不同的起点开始学习，改善了训练过程。

固定方差初始化（Fixed Variance Initialization）：

策略：权重初始化时，使用一个固定的方差，通常是从正态分布中选择的。
区别：这个方法确保权重的分布具有相对一致的方差，但不一定适用于所有网络结构和任务。

方差缩放初始化（Variance Scaling Initialization）：

策略：权重初始化时，方差根据网络的输入和输出的维度进行缩放，通常以特定的方式选择。
区别：这个方法试图通过权重初始化来平衡信号的方差，以防止梯度消失或爆炸问题，并有助于更稳定的训练。

He初始化（He Initialization）：

策略：权重初始化是根据网络的输入和输出的维度进行的，方差被设置为2/n，其中n是权重连接的输入维度。
区别：He初始化是为深度卷积神经网络设计的，通过设置适当的方差，可以提高网络的学习速度和性能。

正交初始化（Orthogonal Initialization）：

策略：权重初始化是通过生成正交矩阵来实现的，确保权重之间彼此正交。
区别：正交初始化有助于减少权重之间的冗余信息，提高网络的效率和学习性能。

MSRA初始化（Microsoft Research for Advanced Initiative Initialization）：

策略：权重初始化是根据网络的输入和输出的维度进行的，方差被设置为2/(n_in + n_out)，其中n_in是输入维度，n_out是输出维度。
区别：MSRA初始化旨在平衡信号的方差，以提高网络的训练速度和性能。