Pytorch各种Dropout层应用于详解

news2025/1/10 12:44:00

目录

torch框架Dropout functions详解

dropout

用途

用法

使用技巧

参数

数学理论公式

代码示例

alpha_dropout

用途

用法

使用技巧

参数

数学理论公式

代码示例 

feature_alpha_dropout

用途

用法

使用技巧

参数

数学理论

代码示例

dropout1d

用途

用法

使用技巧

参数

数学理论

代码示例

dropout2d

用途

用法

使用技巧

参数

数学理论

代码示例

dropout3d

用途

用法

使用技巧

参数

数学理论

代码示例

总结


torch框架Dropout functions详解

dropout

torch.nn.functional.dropout 是 PyTorch 深度学习框架中的一个功能模块,主要用于在训练神经网络时防止过拟合。这个函数通过随机地将输入张量中的某些元素置零来实现正则化效果。

用途

  1. 防止过拟合:在训练过程中,dropout 可以减少对特定神经元的依赖,从而增强模型的泛化能力。
  2. 模型正则化:作为一种正则化技术,可以提高模型对噪声的鲁棒性。

用法

基本用法如下:

output = torch.nn.functional.dropout(input, p=0.5, training=True, inplace=False)

其中:

  • input:输入数据
  • p:零化元素的概率
  • training:是否在训练模式下应用 dropout
  • inplace:是否原地执行此操作

使用技巧

  1. 选择合适的 p 值:p 值太大可能导致信息丢失,太小则可能效果不明显。
  2. 训练和测试阶段的差异:确保在训练阶段启用 dropout,在测试或评估阶段关闭。
  3. inplace 参数的使用:只在确保不影响后续计算的情况下使用 inplace 操作。

参数

  • p(float):元素被零化的概率,默认值为 0.5。
  • training(bool):如果为 True,则应用 dropout,默认为 True。
  • inplace(bool):如果设置为 True,则原地修改数据,默认为 False。

数学理论公式

公式:Y=X*M

其中:

  • Y:输出数据
  • X:输入数据
  • M:由伯努利分布生成的掩码,其中 M 中的元素独立且等概率地为 0 或 1/(1-p)​。

代码示例

import torch
import torch.nn.functional as F

# 输入数据
input = torch.randn(5)

# 应用 dropout
output = F.dropout(input, p=0.5, training=True)

print(output)  # 输出结果可能类似于 tensor([ 0.0000, -0.0000, -1.8468, 0.0000, -0.0000])

在这个例子中,我们首先定义了一个随机的输入张量 input。接着,我们应用 torch.nn.functional.dropout 函数,并设置 dropout 概率为 0.5。由于 training 参数设置为 True,函数将随机地将一些元素置零。输出结果会显示一些元素为零,而其他元素的值会增加以保持总体激活水平。 

alpha_dropout

torch.nn.functional.alpha_dropout 是 PyTorch 中的一个功能模块,专门用于应用 alpha dropout。Alpha dropout 是一种特殊的 dropout 方法,它不仅随机地将输入张量中的一些元素置零,而且还保持了输入数据的平均值和方差。这种方法特别适用于自归一化的神经网络,如基于 Scaled Exponential Linear Units (SELU) 的网络。

用途

  1. 维持自归一化属性:对于使用 SELU 激活函数的网络,alpha dropout 可以保持输入数据的平均值和方差,有助于维持网络的自归一化属性。
  2. 减少过拟合:和传统的 dropout 一样,alpha dropout 可以减少模型对训练数据的过度拟合。

用法

output = torch.nn.functional.alpha_dropout(input, p=0.5, training=False, inplace=False)

其中:

  • input:输入数据
  • p:元素被零化的概率
  • training:是否在训练模式下应用 alpha dropout
  • inplace:是否原地执行此操作

使用技巧

  1. 适用于 SELU 激活函数的网络:在使用 SELU 激活函数的网络中使用 alpha dropout 可以获得最佳效果。
  2. 训练与测试阶段的差异:确保在训练阶段启用 alpha dropout,在测试或评估阶段关闭。

参数

  • p(float):元素被零化的概率,默认值为 0.5。
  • training(bool):如果为 True,则应用 alpha dropout,默认为 False。
  • inplace(bool):如果设置为 True,则原地修改数据,默认为 False。

数学理论公式

 Y=\begin{Bmatrix} {\alpha }'\cdot M+\alpha , IF \ training\\ X, otherwise \end{Bmatrix}

其中:

  • Y:输出数据
  • X:输入数据
  • M:一个掩码,其中元素独立且等概率地为 0 或 1。
  • α 和 α′:预定义的常数,用于保持输入的平均值和方差。

代码示例 

import torch
import torch.nn.functional as F

# 输入数据
input = torch.randn(5)

# 应用 alpha dropout
output = F.alpha_dropout(input, p=0.5, training=True)

print(output)  # 输出结果可能类似于 tensor([-1.7580,  0.0000,  0.0000, -0.6776,  1.3564])

在这个例子中,我们首先定义了一个随机的输入张量 input。接着,我们应用 torch.nn.functional.alpha_dropout 函数,并设置 dropout 概率为 0.5。由于 training 参数设置为 True,函数将根据 alpha dropout 的规则随机地将一些元素置零并调整其他元素的值。

feature_alpha_dropout

 

torch.nn.functional.feature_alpha_dropout 是 PyTorch 中的一个特殊的 dropout 函数,它专门用于随机屏蔽输入张量的整个通道。这种方法在深度学习中尤其适用于保持卷积网络中特征映射(feature maps)的结构完整性。与传统的 dropout 不同,它将激活值设置为 SELU(Scaled Exponential Linear Unit)激活函数的负饱和值,而不是简单地置零。

用途

  1. 维持特征映射的完整性:通过屏蔽整个特征映射,而不是单个激活值,帮助保持特征的结构。
  2. 适用于 SELU 激活的网络:特别适合于使用 SELU 激活函数的网络,因为它保持了激活值的负饱和状态。

用法

output = torch.nn.functional.feature_alpha_dropout(input, p=0.5, training=True, inplace=False)

其中:

  • input:输入张量
  • p:通道被零化的概率
  • training:是否在训练模式下应用 feature alpha dropout
  • inplace:是否原地执行此操作

使用技巧

  1. 适用于具有 SELU 激活的网络:这种 dropout 形式特别适合于使用 SELU 激活函数的网络。
  2. 注意训练和测试阶段的差异:确保在训练阶段启用 feature alpha dropout,在测试或评估阶段关闭。

参数

  • p(float):通道被零化的概率,默认为 0.5。
  • training(bool):如果为 True,则应用 feature alpha dropout,默认为 True。
  • inplace(bool):如果设置为 True,则原地修改数据,默认为 False。

数学理论

与传统 dropout 相比,feature alpha dropout 不仅仅是将激活值简单地置零。相反,它将被屏蔽的激活值设置为 SELU 激活函数的负饱和值,同时保持输入数据的均值和方差。这是通过对每个通道独立应用伯努利分布来实现的,每个通道被屏蔽的概率为 p。

代码示例

 

import torch
import torch.nn.functional as F

# 输入数据
input = torch.randn(1, 3, 4, 4)  # 假设是一个具有 3 个通道的特征映射

# 应用 feature alpha dropout
output = F.feature_alpha_dropout(input, p=0.5, training=True)

print(output)  # 输出结果会显示部分通道的激活值被设置为 SELU 的负饱和值

在这个例子中,我们首先定义了一个具有 3 个通道的随机输入张量 input,其形状为 (1, 3, 4, 4),表示有 1 个样本,3 个通道,每个通道是一个 4x4 的特征映射。然后,我们应用 torch.nn.functional.feature_alpha_dropout 函数,并设置 dropout 概率为 0.5。由于 training 参数设置为 True,函数将随机地选择一些通道并将它们的激活值设置为 SELU 激活函数的负饱和值,而保留其他通道不变。

这种处理方式有助于在训练使用 SELU 激活函数的卷积网络时,保持特征映射的完整性,并减少过拟合。它是一种更精细的正则化方法,特别适用于深度学习中的图像处理和其他需要保持空间结构的应用。

dropout1d

torch.nn.functional.dropout1d 是 PyTorch 中的一个函数,专门用于在一维数据上应用 dropout。它的主要作用是随机将输入张量的整个通道置零。这种方法在处理一维特征映射(例如,在卷积神经网络中处理时间序列数据或一维信号)时特别有用。

用途

  1. 防止一维数据过拟合:通过随机地屏蔽整个通道,dropout1d 减少了模型对单个通道的依赖,从而增强了模型的泛化能力。
  2. 适用于一维特征映射:特别适用于处理一维数据,如时间序列或一维信号。

用法

output = torch.nn.functional.dropout1d(input, p=0.5, training=True, inplace=False)

其中:

  • input:输入张量
  • p:通道被零化的概率
  • training:是否在训练模式下应用 dropout1d
  • inplace:是否原地执行此操作

使用技巧

  1. 选择合适的 p 值:p 值太大可能导致信息丢失,太小则可能效果不明显。
  2. 训练和测试阶段的差异:确保在训练阶段启用 dropout1d,在测试或评估阶段关闭。
  3. 一维数据结构:确保输入数据的结构符合一维特征映射的形式。

参数

  • p(float):通道被零化的概率,默认为 0.5。
  • training(bool):如果为 True,则应用 dropout1d,默认为 True。
  • inplace(bool):如果设置为 True,则原地修改数据,默认为 False。

数学理论

与传统的 dropout 相似,dropout1d 函数在每次前向传播时,都会根据伯努利分布以概率 p 随机选择一些通道并将它们置零。不同之处在于,dropout1d 是对整个一维通道进行操作,而不是单个元素。

代码示例

 

import torch
import torch.nn.functional as F

# 输入数据
input = torch.randn(1,3, 10) # 假设是一个具有 3 个通道的一维特征映射,每个通道有 10 个元素

output = F.dropout1d(input, p=0.5, training=True)

print(output) # 输出结果可能显示一些通道被完全置零

在这个例子中,我们首先定义了一个随机的一维输入张量 `input`,其形状为 `(1, 3, 10)`,表示有 1 个样本,3 个通道,每个通道有 10 个元素。然后,我们应用 `torch.nn.functional.dropout1d` 函数,并设置 dropout 概率为 0.5。由于 `training` 参数设置为 True,函数将在每次前向传播时随机地选择一些通道并将它们完全置零。这种处理方式有助于在训练一维数据时减少过拟合,尤其适用于处理如音频、时间序列或任何一维信号数据的场景。通过随机地屏蔽整个通道,它鼓励模型学习到更加鲁棒的特征表示。

dropout2d

torch.nn.functional.dropout2d 是 PyTorch 中的一个函数,专用于在二维数据上应用 dropout。这个函数的主要作用是在每次前向传播时,随机将输入张量的整个二维通道(即二维特征映射)置零。这在处理具有空间特征的数据,如图像数据,在卷积神经网络中尤为有用。

用途

  1. 防止二维数据过拟合:通过随机地屏蔽整个通道,dropout2d 减少了模型对单个通道的依赖,从而增强了模型的泛化能力。
  2. 适用于图像处理:特别适用于图像数据等二维特征映射的处理。

用法

output = torch.nn.functional.dropout2d(input, p=0.5, training=True, inplace=False)

其中:

  • input:输入张量
  • p:通道被零化的概率
  • training:是否在训练模式下应用 dropout2d
  • inplace:是否原地执行此操作

使用技巧

  1. 选择合适的 p 值:p 值太大可能导致信息丢失,太小则可能效果不明显。
  2. 训练和测试阶段的差异:确保在训练阶段启用 dropout2d,在测试或评估阶段关闭。
  3. 二维数据结构:确保输入数据的结构符合二维特征映射的形式。

参数

  • p(float):通道被零化的概率,默认为 0.5。
  • training(bool):如果为 True,则应用 dropout2d,默认为 True。
  • inplace(bool):如果设置为 True,则原地修改数据,默认为 False。

数学理论

dropout2d 函数在每次前向传播时,都会根据伯努利分布以概率 p 随机选择一些通道并将它们置零。不同之处在于,dropout2d 是对整个二维通道进行操作,而不是单个元素。

代码示例

import torch
import torch.nn.functional as F

# 输入数据
input = torch.randn(1, 3, 8, 8)  # 假设是一个具有 3 个通道的二维特征映射,每个通道是一个 8x8 的图像

# 应用 dropout2d
output = F.dropout2d(input, p=0.5, training=True)

print(output)  # 输出结果可能显示一些通道被完全置零

在这个例子中,我们首先定义了一个随机的二维输入张量 input,其形状为 (1, 3, 8, 8),表示有 1 个样本,3 个通道,每个通道是一个 8x8 的图像(或二维特征映射)。然后,我们应用了 torch.nn.functional.dropout2d 函数,并设置了 dropout 概率为 0.5。由于 training 参数设置为 True,函数将在每次前向传播时随机地选择一些通道并将它们完全置零。这种处理方式有助于在训练图像或其他二维数据时减少过拟合,尤其适用于卷积神经网络中的图像识别、图像分类等场景。通过随机地屏蔽整个通道,它鼓励模型学习到更加鲁棒的特征表示,从而提高模型在新数据上的泛化能力。

dropout3d

torch.nn.functional.dropout3d 是 PyTorch 中的一个函数,用于在三维数据上应用 dropout。这个函数的主要作用是在每次前向传播时,随机将输入张量的整个三维通道(即三维特征映射)置零。这在处理具有三维空间特征的数据,如三维图像或体积数据,在卷积神经网络中尤为有用。

用途

  1. 防止三维数据过拟合:通过随机地屏蔽整个通道,dropout3d 减少了模型对单个通道的依赖,从而增强了模型的泛化能力。
  2. 适用于三维特征映射:特别适用于处理三维数据,如体积医学图像或三维时间序列。

用法

output = torch.nn.functional.dropout3d(input, p=0.5, training=True, inplace=False)

其中:

  • input:输入张量
  • p:通道被零化的概率
  • training:是否在训练模式下应用 dropout3d
  • inplace:是否原地执行此操作

使用技巧

  1. 选择合适的 p 值:p 值太大可能导致信息丢失,太小则可能效果不明显。
  2. 训练和测试阶段的差异:确保在训练阶段启用 dropout3d,在测试或评估阶段关闭。
  3. 三维数据结构:确保输入数据的结构符合三维特征映射的形式。

参数

  • p(float):通道被零化的概率,默认为 0.5。
  • training(bool):如果为 True,则应用 dropout3d,默认为 True。
  • inplace(bool):如果设置为 True,则原地修改数据,默认为 False。

数学理论

dropout3d 函数在每次前向传播时,都会根据伯努利分布以概率 p 随机选择一些通道并将它们置零。不同之处在于,dropout3d 是对整个三维通道进行操作,而不是单个元素。

代码示例

import torch
import torch.nn.functional as F

# 输入数据
input = torch.randn(1, 3, 8, 8, 8)  # 假设是一个具有 3 个通道的三维特征映射,每个通道是一个 8x8x8 的体积数据

# 应用 dropout3d
output = F.dropout3d(input, p=0.5, training=True)

print(output)  # 输出结果可能显示一些通道被完全置零

在这个例子中,我们首先定义了一个随机的三维输入张量 input,其形状为 (1, 3, 8, 8, 8),表示有 1 个样本,3 个通道,每个通道是一个 8x8x8 的体积数据。然后,我们应用了 torch.nn.functional.dropout3d 函数,并设置了 dropout 概率为 0.5。由于 training 参数设置为 True,函数将在每次前向传播时随机地选择一些通道并将它们完全置零。这种处理方式有助于在训练涉及三维空间数据的模型时减少过拟合,尤其适用于处理体积医学图像、三维扫描数据或任何涉及三维结构的场景。通过随机地屏蔽整个通道,它鼓励模型学习到更加鲁棒的三维特征表示,从而提高模型在新数据上的泛化能力和性能。在实践中,这种方法可以显著提高三维数据处理任务的准确性和可靠性。

总结

本文解析了 PyTorch 框架中的几种关键的 dropout 函数,包括 dropoutalpha_dropoutfeature_alpha_dropoutdropout1ddropout2ddropout3d。每种方法都针对不同的数据维度和网络特点,提供了有效的过拟合防止和模型正则化策略。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1393718.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

echarts X轴数据过多导致重叠展示不全问题(已解决)

问题 x轴数据过多导致坐标轴数据重叠 修改后 List item interval为0代表每个标签都显示,即间隔为0! 将其设置为我们想要的数值即可。 xAxis: {type: "time",splitLine: {show: false,},axisLine: {show: false,lineStyle: {color: &qu…

正则表达式中的“回引用(回溯)”——别名引用与序号引用的差异及正则表达式中的“P”关键字

读到一段巧妙的正则表达式,勾起我对正则表达式欠缺知识点的探寻: P y t h o n Python Python正则表达式中的“回引用(回溯)”——分组别名引用与序号引用的差异及正则表达式中的“P”关键字详情。 (笔记模板由python脚本于2024年01月14日 07:49:35创建&a…

RT-Thread Studio学习(十四)ADC

RT-Thread Studio学习(十四)ADC 一、简介二、新建RT-Thread项目并使用外部时钟三、启用ADC四、测试 一、简介 本文将基于STM32F407VET芯片介绍如何在RT-Thread Studio开发环境下使用ADC设备。硬件及开发环境如下: OS WIN10STM32F407VET6STM…

16.5 参考文献——深度学习定位

16.5 一种高效鲁棒的多楼层室内环境指纹定位方法 同济大学 Zhao Y, Gong W, Li L, et al. An Efficient and Robust Fingerprint Based Localization Method for Multi Floor Indoor Environment[J]. IEEEa Internet of Things Journal, 2023. 2.相关工作 B.基于深度学习的…

情人节专属--html5 canvas制作情人节告白爱心动画特效

💖效果展示 💖html展示 <!doctype html> <html> <head> <meta charset=

2024杭州国际智慧城市,人工智能,安防展览会(杭州智博会)

在智能化浪潮的冲击下&#xff0c;我们的生活与环境正在经历一场深刻的变革。这是一场前所未有的技术革命&#xff0c;它以前所未有的速度和广度&#xff0c;改变着我们的生活方式、工作方式、思维方式和社会结构。在这场变革中&#xff0c;有的人选择激流勇进&#xff0c;拥抱…

Redis中的Java客户端

一、Jedis Jedis是一个Java实现的Redis客户端连接工具。 Jedis使用非常简单&#xff0c;直接引入依赖。基于默认参数的Jedis连接池&#xff0c;初始化连接池类&#xff08;使用默认连接池参数&#xff09;JedisPool&#xff0c;获取一个Jedis连接Jedis jedisjp.getResource()…

Git将某个文件合并到指定分支

企业开发中&#xff0c;经常会单独拉分支去做自己的需求开发&#xff0c;但是某些时候一些公共的配置我们需要从主线pull&#xff0c;这时候整个分支merge显然不合适 1.切换至待合并文件的分支 git checkout <branch>2.将目标分支的单个文件合并到当前分支 git checkou…

线上党建展厅有哪些功能,如何搭建一个成功的线上党建展厅

引言&#xff1a; 随着互联网的飞速发展&#xff0c;线上党建展厅成为党建宣传的新平工具&#xff0c;它提供了一个方便的党建学习、交流和展示的空间。那么线上党建展厅有哪些功能&#xff0c;如何搭建一个成功的线上党建展厅呢&#xff1f; 一、线上党建展厅有哪些功能 1.组…

SSH 隧道是什么,有什么用

本地主机&#xff08;A&#xff09;&#xff1a;需要访问目标服务器的主机。 跳板服务器&#xff08;B&#xff09;&#xff1a;位于本地主机和目标服务器之间的第三方服务器。跳板服务器上已经配置好SSH服务&#xff0c;并允许SSH隧道传输。 目标服务器&#xff08;C&#xff…

vscode调试debug,launch.json文件‘args’无法发传递给脚本

问题&#xff1a;调试时&#xff0c;脚本执行&#xff0c;发现在launch.json文件中明明定义了“args”参数&#xff0c;却没有传递给执行命令。 解决&#xff1a; launch.json中的"name"参数不要随便起&#xff0c;要与执行的文件名一致&#xff01; 参考链接&…

RT-Thread Studio学习(十三)DAC

RT-Thread Studio学习&#xff08;十三&#xff09;DAC 一、简介二、新建RT-Thread项目并使用外部时钟三、启用DAC四、测试五、总结 一、简介 本文将基于STM32F407VET芯片介绍如何在RT-Thread Studio开发环境下使用DAC设备。硬件及开发环境如下&#xff1a; OS WIN10STM32F40…

聆听人生故事:欧美用户与“爱可声”助听器的相伴时刻

在日常生活中&#xff0c;听力下降是一种常见的问题&#xff0c;尤其在年长者中更为普遍。随着人口老龄化的加剧&#xff0c;助听器市场也在不断扩大。据世界卫生组织发布的《世界听力报告》显示&#xff0c;目前全球五分之一的人听力受损&#xff0c;听力损失影响全球超过15亿…

pxe高效批量网络装机 以及安装教程

系统装机的三种引导模式 1.pe 2光驱 3.网卡 打开本机桌面 可以看见背景图片 查看配置文件内容 文件时引导选项的功能 pxe原理&#xff1a; 先根据dhcp找到IP地址、和引导程序的地址&#xff0c;还提供客户机tftp地址&#xff0c;因为tftp是小文件&#xff0c;容量小&#…

龙芯3A6000_统信UOS上使用UDOM工具箱

原文链接&#xff1a;龙芯3A6000|统信UOS上使用UDOM工具箱 大家好&#xff01;今天&#xff0c;我非常兴奋地和大家分享一篇关于在龙芯3A6000搭载统信UOS系统上使用UDOM工具箱的实用指南。这不仅是一次技术探索&#xff0c;也是一次提升运维效率的旅程。 首先&#xff0c;让我们…

【NPL】自然语言处理(Natural Language Processing,NLP)的发展简述

大家好&#xff0c;我是全栈小5&#xff0c;欢迎阅读文章&#xff01; 此篇是【话题达人】序列文章&#xff0c;这一次的话题是《自然语言处理的发展》 文章将以博主的角度进行讲述&#xff0c;理解和水平有限&#xff0c;不足之处&#xff0c;望指正。 目录 背景发展线路研发关…

d2l包安装教程

目录 一、下载d2l包 1、错误的安装方法 2、正确的安装方法 二、可能会遇到的问题 1、网络超时导致下载中断 2、windows powershell激活虚拟环境时报错 一、下载d2l包 直接按照教程安装 — 动手学深度学习 2.0.0 documentation运行命令pip install d2l0.17.6安装会比较慢&…

Jira 宣布Data Center版涨价5%-15%,6年内第8次提价

近日&#xff0c;Atlassian官方面向合作伙伴发布2024年涨价通知&#xff1a; 自2024年2月15日起&#xff0c;旗下核心产品Jira Software、Confluence、Jira Service Management的DC版本&#xff08;Data Center版本&#xff09;价格提高5%-15%&#xff08;涨幅与坐席数阶梯相关…

关于C#中的async/await的理解

1. 使用async标记的方法被认为是一个异步方法&#xff0c;如果不使用await关键字&#xff0c;调用跟普通方法没有区别 static async Task Main(string[] args){Console.WriteLine("主线程id&#xff1a;" Thread.CurrentThread.ManagedThreadId);TestAwait();Consol…

数字身份所有权:Web3时代用户数据的掌控权

随着Web3时代的来临&#xff0c;数字身份的概念正焕发出崭新的光芒。在这个数字化的时代&#xff0c;用户的个人数据变得愈加珍贵&#xff0c;而Web3则为用户带来了数字身份所有权的概念&#xff0c;重新定义了用户与个人数据之间的关系。本文将深入探讨Web3时代用户数据的掌控…