【机器学习300问】75、如何理解深度学习中Dropout正则化技术？

news2025/4/5 13:56:38

一、Dropout正则化的原理是什么？

Dropout（随机失活）正则化是一种用于减少神经网络中过拟合现象的技术。Dropout正则化的做法是：

在训练过程中的每次迭代中，随机将网络中的一部分权重临时"丢弃"（即将它们的值设为0），确保它们不参与前向传播和后向传播。换句话说，每个神经元有一定的概率被暂时从网络中移除。通过这种方式，网络的每次训练迭代都是在一种略微不同的架构下完成的。这相当于在训练一个由多个不同网络组成的大型网络组合。

通常，丢弃的概率（dropout rate）是一个预先设定的值，如0.5，意味着在每一轮训练中，大约有一半的隐藏层神经元会被暂时忽略。有时候也反过来设置一个保留概率（keep-prob）操作和上面类似。

二、如何具体实现Dropout？

用下面这幅图为例来详细说明一下Dropout的步骤

（1）确定Dropout率

dropout_rate是一个超参数，表示在每次训练迭代中神经元被丢弃的概率。设定为 p，通常在0.2到0.5之间。

keep_prob = 1 - dropout_rate

（2）生成随机的Dropout掩码

Dropout最常用的方法，即inverted dropout（反向随机失活），首先要定义Dropout掩码向量dropout_mask。然后看它是否小于某数，我们称之为keep_prob，keep_prob是一个具体数字，而本例将它设为0.8，它表示保留某个隐藏单元的概率，此处keep-prob等于0.8，它意味着消除任意一个隐藏单元的概率是0.2，它的作用就是生成随机矩阵。

dropout_mask = np.random.rand(activations.shape[0], activations.shape[1]) < keep_prob

接下来要做的就是从某一层中获取激活函数，这里我叫它activations，activations其中含有要计算的激活函数。

（3）应用掩码

将activations和dropout_mask相乘，它的作用就是让dropout_mask中所有等于0的元素（输出），而各个元素等于0的概率只有20%，乘法运算最终把dropout_mask中相应元素输出，即让dropout_mask中0元素与activations中相对元素归零。

activations *= dropout_mask  # 将神经元的输出乘以0或1

（4）Dropout缩放

在测试或使用神经网络进行预测时，通常不会应用Dropout。但是，为了平衡那些在训练时被“保留下来”的权重，我们对网络中每个权重乘以保留（未丢弃）概率，或者是在测试时使用所有权重的平均值。这种方法称为“Dropout缩放”，它确保了训练时和测试时网络的表现是一致的。

activations /= keep_prob     # 缩放未丢弃的神经元的输出

（5）总结

将上面的步骤总结起来，可以写成这样：

def apply_dropout(activations, dropout_rate):
    # Step 1: 确定保留的神经元的概率
    keep_prob = 1 - dropout_rate
    
    # Step 2: 生成随机的Dropout掩码
    dropout_mask = np.random.rand(activations.shape[0], activations.shape[1]) < keep_prob
    
    # Step 3: 应用掩码并缩放
    activations *= dropout_mask  # 将神经元的输出乘以0或1
    activations /= keep_prob     # 缩放未丢弃的神经元的输出
    
    return activations

需要特别说一下的是，不同层的keep_prob是可以不同的，因为不同层的W权重矩阵的大小不同，一般我们担心这些层更容易发生过拟合，对很大的权重矩阵设置比较低的keep_prob假设是0.5。对于其它层，过拟合的程度可能没那么严重，它们的keep-prob值可能高一些，可能是0.7。如果在某一层，我们不必担心其过拟合的问题，那么keep-prob可以为1意味着保留所有单元，并且不在这一层使用dropout。