CV【3】:drop_out drop_path

news2024/11/23 15:33:18

文章目录

  • 前言
  • 1. drop_out
    • 1.1. 出现的原因
    • 1.2. 概念
    • 1.3. 工作原理
    • 1.4. 尺度匹配问题
    • 1.5. 有效缓解过拟合的原因
    • 1.6. 代码实现
  • 2. drop_path
    • 2.1. 与 drop_out 的差异
    • 2.2. 工作原理
    • 2.3. 在网络中的应用
    • 2.4. 代码实现


前言

本文主要对比了两种正则化方法:drop_outdrop_path


1. drop_out

1.1. 出现的原因

在机器学习的模型中,如果模型的参数太多,而训练样本又太少,训练出来的模型很容易产生过拟合的现象。在训练神经网络的时候经常会遇到过拟合的问题,过拟合具体表现在:模型在训练数据上损失函数较小,预测准确率较高;但是在测试数据上损失函数比较大,预测准确率较低。

过拟合是很多机器学习的通病。如果模型过拟合,那么得到的模型几乎不能用。为了解决过拟合问题,一般会采用模型集成的方法,即训练多个模型进行组合。此时,训练模型费时就成为一个很大的问题,不仅训练多个模型费时,测试多个模型也是很费时。

正则化可以有效地缓解上述两个问题

1.2. 概念

drop_out 是作为缓解卷积神经网络CNN过拟合而被提出的一种正则化方法,也叫做随机失活。

drop_out 可以作为训练深度神经网络的一种 trick 供选择。在每个训练批次中,通过忽略一半的特征检测器(让一半的隐层节点值为 0),可以明显地减少过拟合现象。这种方式可以减少特征检测器(隐层节点)间的相互作用,检测器相互作用是指某些检测器依赖其他检测器才能发挥作用。

简单来说就是在模型训练阶段的前向传播过程中,让某些神经元的激活值以一定的概率停止工作。

drop_out 确实能够有效缓解过拟合现象的发生,但是可能会减缓模型收敛的速度,因为每次迭代只有一部分参数更新,可能导致梯度下降变慢。

1.3. 工作原理

通过一个三层的简单神经网络来介绍 drop_out的工作原理,输入是 X X X,输出是 Y Y Y。正常的训练流程是首先把输入X通过网络进行前向传播,然后把误差反向传播以决定如何更新参数。

在这里插入图片描述

  • 遍历神经网络的每一层节点,设置节点保留概率 keep_prob,即该层的节点有 keep_prob 的概率被保留,keep_prob 的取值范围在 0 到 1 之间,假设 keep_prob = 0.5
    • 通过设置神经网络该层节点的保留概率,使得神经网络不会去偏向于某一个节点(因为该节点有可能被删除),从而使得每一个节点的权重不会过大,来减轻神经网络的过拟合
  • 删除神经网络的节点,并删除网络与移除节点之间的连接
    在这里插入图片描述
  • 输入样本,使用简化后的网络进行训练
    • 让输入 X X X 通过部分神经元失活的新网络(如上右图)进行前向传播,然后计算损失并把损失反向传播,一小批样本执行完这个过程后,根据梯度下降算法更新参数
  • 不断重复这一过程:
    • 恢复失活的神经元
    • 重新让所有神经元以一定概率 p 失活(这次失活的和上次失活的神经元并不一定相同)
    • 让输入通过部分神经元失活的新网络进行前向传播,然后计算损失并把损失反向传播,新的一批样本执行完这个过程后,根据梯度下降算法更新参数

需要注意的是,drop_out 一般只在网络的训练阶段使用,而测试阶段不使用drop_out。这是因为如果在测试阶段使用 drop_out 可能会导致预测值产生随机变化(因为 drop_out 使节点随机失活)。而且,在训练阶段已经将权重参数除以 keep_prob 来保证输出的期望值不变,所以在测试阶段没必要再使用 drop_out

1.4. 尺度匹配问题

上面提到 drop_out 一般只在网络的训练阶段使用,而测试阶段不使用drop_out,也就是说训练时前向传播只使用没有失活的那部分神经元,而测试时使用的是全部的神经元,那么训练和测试阶段就会出现数据尺度不同的问题。

所以测试时,所有权重参数 W W W 都要乘以 1 − p 1 - p 1p,以保证训练和测试时尺度变化一致。

举例来说,假设输入是 100 个特征,没有使用 drop_out 之前,隐藏层第一层的第一个神经元的值可以表示为:

Z 1 1 = ∑ i = 1 100 w 1 i x 1 i Z_1^1 = \displaystyle\sum^{100}_{i=1} w_1^i x_1^i Z11=i=1100w1ix1i

不妨取 ω 1 i x 1 i = a \omega _{1}^{i}x_{1}^{i}=a ω1ix1i=a,那么此时 Z 1 1 = 100 a Z_{1}^{1}=100a Z11=100a

  • 训练阶段使用 drop_out 时,若失活率 p = 0.3 p = 0.3 p=0.3,可以理解成只有 70 个神经元起作用,此时 Z 1 1 = ∑ i = 1 70 ω 1 i x 1 i = 70 a Z_{1}^{1}=\displaystyle\sum_{i=1}^{70}\omega _{1}^{i}x_{1}^{i}=70a Z11=i=170ω1ix1i=70a
  • 而测试时没有 drop_out ,使用的是全部神经元,也就是 100a,不难发现使用 drop_out 后少了 30a,这就是训练阶段和测试阶段数据的尺度不一致

为了保证尺度的一致性,测试时所有权重参数 W W W 都要乘以 1 − p 1 - p 1p,即 Z 1 1 = ∑ i = 1 100 ( 0.7 ω 1 i ) x 1 i = 70 a Z_{1}^{1}=\displaystyle\sum_{i=1}^{100} (0.7\omega _{1}^{i})x_{1}^{i}=70a Z11=i=1100(0.7ω1i)x1i=70a,这样使用 drop_out 的训练集和不使用 drop_out 的测试集的尺度就一致了。所以 drop_out 在训练和测试时是不一样的

代码实现时要注意这点,即训练前要用 train() 函数,表示模型进入训练阶段,该阶段 drop_out 是正常工作的,测试前要用 eval() 函数,表示模型进入测试阶段,drop_out 就会停止工作

1.5. 有效缓解过拟合的原因

  • 使用 drop_out 可以使得部分节点失活,可以起到简化神经网络结构的作用,从而起到正则化的作用
  • 取平均的策略通常可以有效防止过拟合问题,drop_out 掉不同的隐藏神经元就类似在训练不同的网络,随机删掉部分隐藏神经元导致网络结构已经不同,整个 drop_out 过程就相当于对很多个不同的神经网络取平均
  • 使用 drop_out 可以使得神经网络的节点随机失活,这样会让神经网络在训练的时候不会使得某一个节点权重过大,让神经网络的节点不会依赖任何输入的特征

1.6. 代码实现

nn.Dropoutnn.functional.dropout 两种具体的实现方法:

class Dropout1(nn.Module):
   def __init__(self):
       super(Dropout1, self).__init__()
       self.fc = nn.Linear(100,20)
 
   def forward(self, input):
       out = self.fc(input)
       out = F.dropout(out, p=0.5, training=self.training)  # 这里必须给traning设置为True
       return out
# 如果设置为F.dropout(out, p=0.5)实际上是没有任何用的, 因为它的training状态一直是默认值False. 由于F.dropout只是相当于引用的一个外部函数, 模型整体的training状态变化也不会引起F.dropout这个函数的training状态发生变化. 所以,在训练模式下out = F.dropout(out) 就是 out = out. 
Net = Dropout1()
Net.train()

#或者直接使用nn.Dropout() (nn.Dropout()实际上是对F.dropout的一个包装, 自动将self.training传入,两者没有本质的差别)
class Dropout2(nn.Module):
  def __init__(self):
      super(Dropout2, self).__init__()
      self.fc = nn.Linear(100,20)
      self.dropout = nn.Dropout(p=0.5)
 
  def forward(self, input):
      out = self.fc(input)
      out = self.dropout(out)
      return out
Net = Dropout2()
Net.train()

2. drop_path

2.1. 与 drop_out 的差异

drop_path 将深度学习模型中的多分支结构随机 “失效”,而 drop_out 是对神经元随机 “失效”。换句话说,drop_out 是随机的点对点路径的关闭,drop_path 是随机的点对层之间的关闭

假设有一个 Linear 层输入4结点,输出5结点,那么一共有 20 个点对点路径。drop_out 会随机关闭这些路径,而 drop_path 会随机选择输入结点,使其与之相连的 5 条路径全部关闭

2.2. 工作原理

drop_pathdrop_out 其实数学原理类似:通过范围是 ( 0 , 1 ) (0,1) (0,1) 的随机 rand 值,当施加了一个 drop_rate 后,被关闭的概率 p = rand + drop_rate

  • 只需要对 p p p 进行下取整,即可得到服从 0-1 分布的数据,通过与权重的点乘,即可关闭 drop_rate 比例的结点
  • 但是在传播过程中,总结点数没有改变(仍然包含被关闭的结点),因此输入的数据均值 u = s u m ( x ) / N u=sum(x)/N u=sum(x)/N,就被放大了

假设原始的数据 X X X,结点数为 N N N,均值为 u u u

  • 经过比例为 r r r 的 drop 操作后,总数据有 n = N ∗ r n = N * r n=Nr 个结点被置 0
  • 因此新的均值为 u ′ = ( N − n ) ∗ u / N u' = (N-n)*u/N u=(Nn)u/N,显然均值发生变化,数据分布以及梯度也随之发生变化
  • 为了让数据保持一致性,需要将均值拉回来: u ′ ÷ ( N − n ) / N u' ÷ (N-n)/N u÷(Nn)/N,即 u ′ ÷ r u' ÷ r u÷r
  • 但是 drop_path 输出,是对原始数据的调整,通过激活函数来完成 drop 的功能

2.3. 在网络中的应用

假设在前向传播中有如下的代码:

x = x + self.drop_path( self.conv(x) )

那么在 drop_path 分支中,每个 batch 有 drop_prob 的概率样本在 self.conv(x) 不会 “执行”,会以 0 直接传递。

x x x 为输入的张量,其通道为 [ B , C , H , W ] [B,C,H,W] [B,C,H,W],那么 drop_path 的含义为在一个 batch_size中,随机有 drop_prob 的样本,不经过主干,而直接由分支进行恒等映射

需要注意的是,drop_path 不能直接这样使用:

x = self.drop_path(x)

2.4. 代码实现

def drop_path(x, drop_prob: float = 0., training: bool = False):
    if drop_prob == 0. or not training:
        return x
    keep_prob = 1 - drop_prob
    shape = (x.shape[0],) + (1,) * (x.ndim - 1)  # work with diff dim tensors, not just 2D ConvNets
    random_tensor = keep_prob + torch.rand(shape, dtype=x.dtype, device=x.device)
    random_tensor.floor_()  # binarize
    output = x.div(keep_prob) * random_tensor
    return output


class DropPath(nn.Module):
    """Drop paths (Stochastic Depth) per sample  (when applied in main path of residual blocks).
    """
    def __init__(self, drop_prob=None):
        super(DropPath, self).__init__()
        self.drop_prob = drop_prob

    def forward(self, x):
        return drop_path(x, self.drop_prob, self.training)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/168690.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Javascript 组合模式

组合模式 简介 组合模式将对象组合成树形结构,以表示“部分-整体”的层次结构。除了用来表示树形结构之外,组合模式的另一个好处是通过对象的多态性表现,使得用户对单个对象和组合对象的使用具有一致性 请求在树中传递的过程 在组合模式中&…

Express框架连接MySQL数据库操作

在上一篇中已经在Node.js中引入使用了mysql模块进行数据库的基本操作,在本篇当中在Express框架中来连接数据库以及操作数据库; Express 项目环境 这里是通过全局安装Express框架生产的项目环境,也可以通过局部安装的方式,安装过程…

同济子豪兄带我学pytorch图像分类-task01(数据集准备)

学习准备: 本机配置环境的过程很繁琐,考虑时间的问题,直接租一个云服务器。 学习过程中代码没有出现任何问题,代码具有很高的时效性。竟然没有一个语法报错。 所有图片均来源于网络,若有侵犯,多有抱歉 …

Kubernetes 1.25.4版本安装

Kubernetes 1.25.4版本安装 1 配置 1.1 环境介绍 OS:CentOS Linux release 8.5.2111 机器: IPhostname10.104.10.201k8s-master10.104.10.202k8s-node110.104.10.203k8s-node2 所有机器,都将yum源改为国内阿里云开源镜像源 cd /etc/yum.repos.d/ m…

Rockchip开发系列 - 9.watchdog看门狗开发

By: fulinux E-mail: fulinux@sina.com Blog: https://blog.csdn.net/fulinus 喜欢的盆友欢迎点赞和订阅! 你的喜欢就是我写作的动力! 目录 dts中的watchdog节点watchdog驱动文件TRM watchdog:WDT框图功能描述计数器中断系统复位复位脉冲长度操作流程图寄存器描述寄存器设置…

【GD32F427开发板试用】点亮WS2812B炫彩灯环

本篇文章来自极术社区与兆易创新组织的GD32F427开发板评测活动,更多开发板试用活动请关注极术社区网站。作者:HonestQiao 我有一个WS2812B炫彩灯环,搭配精选的背景,非常出镜: 在玩过的板子上,我都要把它点亮…

算法之美~堆

如何理解“堆”堆是一种特殊的树&#xff0c;只要满足如下两点&#xff1a;堆是一个完全二叉树&#xff1b;堆中每个节点的值都必须>&#xff08;或<&#xff09;其子树中每个节点的值。大顶堆&#xff1a;每个节点的值都>子树中每个节点的值&#xff1b;小顶堆&#…

完美的Pornhub风格的Logo生成器,在线工具

pornhub是全球最大的Sex影片分享网站之一。于2007年成立于加拿大蒙特利尔&#xff0c;是属于大型的色情视频分享类网站&#xff0c;被视为是“Sex2.0”的先驱&#xff0c;在Alexa上排名第80位&#xff08;最高时曾跻身前30&#xff09;。 同样这个网站的logo风格也别具一格&am…

C 程序设计教程(17)—— 循环结构程序设计练习题

C 程序设计教程&#xff08;17&#xff09;—— 循环结构程序设计练习题 该专栏主要介绍 C 语言的基本语法&#xff0c;作为《程序设计语言》课程的课件与参考资料&#xff0c;用于《程序设计语言》课程的教学&#xff0c;供入门级用户阅读。 目录C 程序设计教程&#xff08;17…

3DMAX砖墙神器WallBuilder:快速生成常见砖墙插件教程

3DMAX一键快速生成砖墙插件&#xff08;3DMAX砖墙神器——快速常见砖墙&#xff09;WallBuilder&#xff0c;用来生成各种砖砌或石砌墙体、地面的插件。 【主要特性】 -偏移以将不同的墙放在一起&#xff1b; -可以按照样条曲线创建墙&#xff1b; -随机化砖块的随机函数&am…

【寒假每日一题】DAY.9 猜名次

目录 一、题目内容 二、思路 思路1 思路2 思路3 三、代码实现 一、题目内容 5位运动员参加了10米台跳水比赛&#xff0c;有人让他们预测比赛结果&#xff1a;A选手说&#xff1a;B第二&#xff0c;我第三&#xff1b;B选手说&#xff1a;我第二&#xff0c;E第四&#xff1b;…

COS插件入驻Discuz!x

Discuz!Discuz! 平台&#xff0c;由一群高擎互联网人在倾情支持&#xff0c; 他们来自于腾讯Discuz! 创业团队成员以及优秀的开发者。在中国互联网风云变迁中&#xff0c;Discuz! 20多年间为300万企业及站长赋能&#xff0c;秉承“开放、连接、共赢”的精神&#xff0c;倡导与生…

ZStack协议栈点对点通信

这里是zstack3.0安装包&#xff1a;链接&#xff1a;https://pan.baidu.com/s/1-N8FFQ86zenF1iq-wgkmJQ?pwd2023 提取码&#xff1a;2023 新建自己的zstack工程这篇写得详细&#xff1a;新建 这个点对点通信主要是终端节点向协调器发送命令D1,协调器收到命令后判断数据是否为…

聚焦技术与体验极致提升,阿里云视频云连续5年领跑!

全球领先的IT市场研究和咨询公司IDC发布 《中国视频云市场跟踪&#xff08;2022上半年&#xff09;》 阿里云连续五年稳居 中国视频云整体市场份额第一 整体市场份额占比达25.4% 近日&#xff0c;全球领先的IT市场研究和咨询公司IDC发布的《中国视频云市场跟踪&#xff08;…

算法训练营 day21 二叉树 二叉搜索树的最小绝对差 二叉搜索树中的众数 二叉树的最近公共祖先

算法训练营 day21 二叉树 二叉搜索树的最小绝对差 二叉搜索树中的众数 二叉树的最近公共祖先 二叉搜索树的最小绝对差 530. 二叉搜索树的最小绝对差 - 力扣&#xff08;LeetCode&#xff09; 给你一个二叉搜索树的根节点 root &#xff0c;返回 树中任意两不同节点值之间的最…

《啊哈算法》第四章之深度优先搜索

✌好听的歌一起分享&#xff01; 稻香 (女声版) - 余不不 - 单曲 - 网易云音乐 目录 模板 例子 1&#xff0c;关于遍历 2&#xff0c;关于边界 正文 1&#xff0c;概念 2&#xff0c;解救小哈 例子源码和题目 1&#xff0c;小学奥数 2&#xff0c;全排列 3&#x…

【自学Docker 】Docker inspect命令

Docker inspect命令 大纲 docker inspect教程 使用 docker inspect 命令可以用来获取 Docker容器 或者 Docker镜像 的元数据。该命令后面的 CONTAINER 可以是容器Id&#xff0c;或者是容器名。 docker inspect语法 haicoder(www.haicoder.net)# docker inspect [OPTIONS] N…

python小知识

一、pip config list -v#pip在哪里寻找pip.conf文件 阿里云镜像&#xff1a; 二、安装anaconda(阿里云镜像库) 1、安装完成&#xff0c;命令行输入&#xff1a;conda config生成.condarc文件&#xff08;运行期配置文件&#xff09; 2、如果原本的源中的源地址是 https&…

webService速通教学(送源码)

什么是WebService webService是一种古老的互联网通讯方法。通过http通讯&#xff0c;将数据封装成XML的形式在网络中传输。习惯Java开发的伙伴肯定会对其嗤之以鼻&#xff0c;为什么不用Json传输&#xff0c;为什么不直接通过url拼参数&#xff1f;最大的两个因素是&#xff1…

Nginx基础03:配置文件nginx.conf(Part2)

上一篇文章概述与罗列了"全局配置块、events配置块、http全局块"的基本配置与属性&#xff0c;本篇文章将继续深入server块的配置项&#xff0c;以及相关应用。上篇文章地址&#xff1a;Nginx基础02&#xff1a;配置文件nginx.conf&#xff08;Part1&#xff09;如何…