Dropout 和 BatchNorm 在训练和验证中的差异

Dropout 和 BatchNorm 在训练和验证中的差异

news2025/4/3 16:08:33

文章目录

- 1. Dropout
- - 1.1 作用
  - 1.2 训练和验证的差异
  - 1.3 示例
- 2. Batch Normalization (BatchNorm)
- - 2.1 作用
  - 2.2 训练和验证时的差异
  - 2.3 示例
- 3. 总结
- 4. 实际使用建议

在神经网络中，Dropout 和 Batch Normalization (BatchNorm) 是常见的层，其行为在训练阶段和验证阶段（推理阶段）是不同的。这种差异的原因是它们在两个阶段处理数据的方式不同，以适应训练和推理的需求。

1. Dropout

1.1 作用

Dropout 是一种正则化方法，用于防止过拟合。
它通过在训练过程中随机“丢弃”一部分神经元（即将它们的输出置为 0）来增加模型的鲁棒性。

1.2 训练和验证的差异

训练阶段： 随机丢弃部分神经元，按照设定的概率 $p$ (比如0.5), 使某些神经元的输出置为0。但会通过放神经元的输出（即乘以 $\frac {1} {1-p}$ )，补偿训练阶段丢弃部分神经元导致的输出缩减，从而确保输出的一致性。
在验证阶段:，不再丢弃神经元，保留所有神经元的输出

1.3 示例

import torch
import torch.nn as nn

dropout = nn.Dropout(p=0.5)

# Training phase
dropout.train()  # 启用训练模式
x_train = torch.ones(5)  # 输入为全1
output_train = dropout(x_train)  # 部分输出会被置为0

# Validation phase
dropout.eval()  # 启用验证模式
x_val = torch.ones(5)  # 输入为全1
output_val = dropout(x_val)  # 所有输出保持不变，但被缩放

输出

output_train tensor([2., 2., 0., 2., 0.])
output_val tensor([1., 1., 1., 1., 1.])

2. Batch Normalization (BatchNorm)

2.1 作用

BatchNorm 用于加速训练，解决梯度消失和梯度爆炸的问题。
它通过对每个mini-batch的数据进行归一化（使输出具有零均值和单位方差）来实现稳定的训练过程。

2.2 训练和验证时的差异

在这里插入图片描述
原理

在训练过程中，BatchNorm 会计算每个 mini-batch 的均值和方差，同时更新全局的移动平均值（moving mean）和移动方差（moving variance）。
在验证阶段，为了避免小批量数据引入偏差，直接使用训练阶段保存的全局统计信息进行归一化。

2.3 示例

import torch
import torch.nn as nn

batchnorm = nn.BatchNorm1d(num_features=5)

# Training phase
batchnorm.train()  # 启用训练模式
x_train = torch.rand(10, 5)  # 随机生成输入
output_train = batchnorm(x_train)  # 使用 mini-batch 均值和方差进行归一化

# Validation phase
batchnorm.eval()  # 启用验证模式
x_val = torch.rand(10, 5)  # 随机生成输入
output_val = batchnorm(x_val)  # 使用全局的 moving mean 和 moving variance

3. 总结

在这里插入图片描述
注意事项：

在验证或推理阶段，必须调用 model.eval()，否则 Dropout 和 BatchNorm 的行为会与训练阶段一致，导致验证结果或推理结果不正确。
如果模型中没有 Dropout 或 BatchNorm，则 model.eval() 不会改变模型的行为。

4. 实际使用建议

典型推理代码

model.eval()  # 切换到验证模式
with torch.no_grad():  # 关闭梯度计算
    output = model(input_tensor)  # 推理

训练代码

model.train()  # 切换到训练模式
output = model(input_tensor)  # 进行前向传播
loss = loss_fn(output, target)  # 计算损失
loss.backward()  # 反向传播
optimizer.step()  # 更新参数

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2242244.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

SQL Server 查询设置 - LIKE/DISTINCT/HAVING/排序

SQL Server 查询设置 - LIKE/DISTINCT/HAVING/排序

目录背景一、LIKE - 模糊查询 1. 通配符 % 2. 占位符 _ 3. 指定集合 [] 3.1 表示否定 ^ 3.2 表示范围 - 4. 否定 NOT 二、DISTINCT - 去重查询三、HAVING - 过滤查询四、小的查询设置 1. ASC|DESC - 排序 2. TOP - 限制 3. 子查询 4. not in - 取补集&…

阅读更多...

【算法速刷(10/100)】LeetCode —— 23. 合并 K 个升序链表

【算法速刷(10/100)】LeetCode —— 23. 合并 K 个升序链表

按照最朴素的方法，每轮都对所给列表进行一次遍历，O(n)的复杂度获得值最小的节点，并将其上的链表指针后移一位，一旦为空则剔除数组。数组为空时结束循环。这样写时间复杂度较高，因为涉及到枚举最小值节点，数…

阅读更多...

【C语言】四种方法交换两个数(免费复制)

【C语言】四种方法交换两个数(免费复制)

方法一： 通过中间变量t直接交换。 #include<stdio.h> //方法一 int main() {int a,b,t;printf("请输入a和b的值：\n");scanf("%d %d",&a,&b);printf("交换前：a%d,b%d\n",a,b);ta;ab;bt;printf…

阅读更多...

WebSocket简易聊天室实现（有详细解释）

完整代码 Arata08/online-chat-demo 服务端: 1.编写配置类，扫描有 ServerEndpoint 注解的 Bean import org.springframework.context.annotation.Bean; import org.springframework.context.annotation.Configuration; import org.springframework.web.socket.s…

阅读更多...

数据分析——Python绘制实时的动态折线图

数据分析——Python绘制实时的动态折线图

最近在做视觉应用开发，有个需求需要实时获取当前识别到的位姿点位是否有突变，从而确认是否是视觉算法的问题，发现Python的Matplotlib进行绘制比较方便。目录 1.数据绘制2.绘制实时的动态折线图3.保存实时数据到CSV文件中 import matplotlib.…

阅读更多...

i春秋-Hash

i春秋-Hash

练习平台地址竞赛中心题目描述题目内容啥也没有就一个标签跳转点击后的确发生了跳转观察到url中有key和hash两个值，猜测hash是key的hash 查看源代码发现确实是 $hashmd5($sign.$key);the length of $sign is 8 解密得到$sign应该为kkkkkk01 构造122的hash i…

阅读更多...

举例理解LSM-Tree，LSM-Tree和B+Tree的比较

举例理解LSM-Tree，LSM-Tree和B+Tree的比较

写操作 write1：WAL 把操作同步到磁盘中WAL做备份（追加写、性能极高） write2：Memtable 完成WAL后将(k,v)数据写入内存中的Memtable，Memtable的数据结构一般是跳表或者红黑树内存内采用这种数据结构一方面支持内存…

阅读更多...

论文PDF页面无法下载PDF

论文PDF页面无法下载PDF

问题：通常在下载学术论文时，网页命名是PDF页面，但是无法下载PDF，下载的是html网页解决： mac：按F12打开开发者界面然后点击源代码/来源选项然后打开下图所在位置，鼠标右键复制链接&#xff…

阅读更多...

ORA-01092 ORA-14695 ORA-38301

ORA-01092 ORA-14695 ORA-38301

文章目录前言一、MAX_STRING_SIZE--12C 新特性扩展数据类型 varchar2(32767)二、恢复操作1.尝试恢复MAX_STRING_SIZE参数为默认值2.在upgrade模式下执行utl32k.sql 前言今天客户发来一个内部测试库数据库启动截图报错，描述是“上午出现服务卡顿，然后重…

阅读更多...

ElasticSearch学习笔记二：使用Java客户端

ElasticSearch学习笔记二：使用Java客户端

一、前言在上一篇文章中，我们对ES有了最基本的认识，本着实用为主的原则，我们先不学很深的东西，今天打算先学习一下ES的Java客户端如何使用。二、创建项目 1、普通Maven项目 1、创建一个Maven项目 2、Pom文件 <dependenc…

阅读更多...

[Linux]多线程详解

[Linux]多线程详解

多线程 1.线程的概念和理解1.1线程的优点1.2线程的缺点1.3线程的设计1.4线程 VS 进程 2.线程控制2.1线程等待2.2 线程终止2.3 线程分离 3.线程互斥3.1背景3.2抢票代码演示3.3保护公共资源（加锁）3.3.1创建锁/销毁锁3.3.2申请锁/尝试申请锁/解锁 3.4解决抢…

阅读更多...

替换OpenTSDB和HBase，宝武集团使用IoTDB助力钢铁设备智能运维

替换OpenTSDB和HBase，宝武集团使用IoTDB助力钢铁设备智能运维

时序数据库 IoTDB 应用于宝武集团全基地钢铁时序数据管理，激活数据资产，赋能大型设备智能运维。 1. 背景概述宝武装备智能科技有限公司（以下简称：宝武智维）是中国宝武设备智能运维专业化平台公司，30 余年始…

阅读更多...

VSCode+ESP-IDF开发ESP32-S3-DevKitC-1（1）开发环境搭建

VSCode+ESP-IDF开发ESP32-S3-DevKitC-1（1）开发环境搭建

VSCodeESP-IDF开发ESP32-S3-DevKitC-1（1）开发环境搭建 1.开发环境搭建（安装ESP-IDF）2.开发环境搭建（安装VS Code）3.开发环境搭建（VSCode中安装ESP-IDF插件及配置） 1.开发环境搭建&am…

阅读更多...

Ubuntu24 上安装搜狗输入法

Ubuntu24 上安装搜狗输入法

link 首先在终端中依次输入以下代码 sudo apt update sudo apt install fcitx 找到语言支持在终端中依次输入 sudo cp /usr/share/applications/fcitx.desktop /etc/xdg/autostart/ sudo apt purge ibus 进入网页搜狗输入法linux-首页 shurufa.sogou.com/linux 找到刚才下…

阅读更多...

Qt文件目录操作

Qt文件目录操作

文件目录操作相关类 Qt 为文件和目录操作提供了一些类，利用这些类可以方便地实现一些操作。Qt 提供的与文件和目录操作相关的类包括以下几个： QCoreApplication：用于提取应用程序路径，程序名等文件信息；QFile&#x…

阅读更多...

Session注入

Session注入

Session注入在进行Dll注入的时候，我们发现没法注入一些系统进程提示我们缺少权限或者拒绝访问，甚至干脆就是什么反应都没有这时候我们考虑往更加底层去跟函数，我们不能再使用在用户层所给我们的函数，我们自己去寻找内核层的…

阅读更多...

深入List集合：ArrayList与LinkedList的底层逻辑与区别

深入List集合：ArrayList与LinkedList的底层逻辑与区别

目录一、前言二、基本概念三、相同之处四、不同之处五、ArrayList 底层六、LinkedList 底层七、ArrayList 应用场景八、LinkedList 应用场景九、ArrayList和LinkedList高级话题十、总结一、前言在Java集合的广阔舞台上，ArrayList与LinkedLis…

阅读更多...

从建立TRUST到实现FAIR：可持续海洋经济的数据管理

从建立TRUST到实现FAIR：可持续海洋经济的数据管理

1. 引言随着我们对信息管理方式的信任，我们的社会对数字化数据的以来呈指数级增长。为了跟上大数据的需求，通过不断的努力和持续实践，对“good”数据管理方式的共识也在不断发展和演变。加拿大正在建设国家基础设施和服务以及研究数据管理…

阅读更多...

数据结构《栈和队列》

数据结构《栈和队列》

文章目录一、什么是栈？1.1 栈的模拟实现1.2 关于栈的例题二、什么是队列？2.2 队列的模拟实现2.2 关于队列的例题总结提示：关于栈和队列的实现其实很简单，基本上是对之前的顺序表和链表的一种应用，代码部分也不难。…

阅读更多...

一.Spring cloud--Consul服务注册与发现(2)

一.Spring cloud--Consul服务注册与发现(2)

安装并运行Consul (1)官网下载 (2)下载完成后只有一个consul.exe文件,对应全路径下查看版本号信息 (3)使用开发模式启动 consul agent -dev 通过以下地址可以访问Consul的首页: http://localhost:8500 结果页面

阅读更多...

推荐文章

最新文章