Batch Norm简明图解【批归一化】

news2024/10/1 9:49:36

Batch Norm(批归一化) 是现代深度学习实践者工具包的重要组成部分。 在批归一化论文中引入它后不久,它就被认为在创建可以更快训练的更深层次神经网络方面具有变革性。

Batch Norm 是一种神经网络层,现在在许多架构中普遍使用。 它通常作为线性或卷积块的一部分添加,并有助于在训练期间稳定网络。

在本文中,我们将探讨什么是 Batch Norm、为什么需要它以及它是如何工作的。

但在我们讨论批归一化本身之前,让我们先了解一些有关归一化的背景知识。

NSDT在线工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器

1、归一化输入数据

将数据输入深度学习模型时,标准做法是将数据归一化为零均值和单位方差。 这意味着什么?我们为什么要这样做?

假设输入数据由多个特征 x1、x2、…xn 组成。 每个特征可能有不同的值范围。 例如,特征 x1 的值可能在 1 到 5 之间,而特征 x2 的值可能在 1000 到 99999 之间。

因此,对于每个特征列,我们分别获取数据集中所有样本的值并计算平均值和方差。 然后使用下面的公式对值进行标准化。

如何归一化

下图中,我们可以看到数据归一化后的效果。 原始值(蓝色)现在以零(红色)为中心。 这确保了所有特征值现在都处于相同的比例。

归一化数据是什么样的

为了了解没有对数据归一化处理时会发生什么,让我们看一个只有两个尺度截然不同的特征的示例。 由于网络输出是每个特征向量的线性组合,这意味着网络学习每个特征的权重,这些特征也在不同的尺度上。 否则,大特征就会淹没小特征。

然后,在梯度下降期间,为了“改变损失”,网络必须对一个权重(与另一个权重相比)进行较大的更新。 这可能会导致梯度下降轨迹沿一维来回振荡,从而需要更多步骤才能达到最小值。

不同尺度的特征需要更长的时间才能达到最小值

在这种情况下,损失景观看起来就像一条狭窄的峡谷。 我们可以沿二维分解梯度。 它沿着一个维度陡峭,而沿着另一个维度则平缓得多。

由于梯度很大,我们最终对一个权重进行了更大的更新。 这会导致梯度下降反弹到斜坡的另一侧。 另一方面,沿第二方向的较小梯度导致我们进行较小的权重更新,从而采取较小的步长。 这种不均匀的轨迹需要更长的时间才能使网络收敛。

狭窄的山谷会导致梯度下降从一个斜坡反弹到另一个斜坡

相反,如果特征具有相同的尺度,则损失景观会像碗一样更加均匀。 然后梯度下降可以平滑地下降到最小值。

归一化数据有助于网络更快收敛

2、批归一化的必要性

现在我们了解了归一化是什么,需要批归一化的原因开始变得清晰。

考虑网络的任何隐藏层。 前一层的激活只是该层的输入。 例如,从下图中第 2 层的角度来看,如果我们“空白”所有先前的层,则来自第 1 层的激活与原始输入没有什么不同。

要求我们归一化第一层输入的相同逻辑也适用于每个隐藏层:

每个隐藏层的输入是前一层的激活,并且还必须进行归一化

换句话说,如果我们能够以某种方式对前一层的激活进行归一化,那么梯度下降在训练过程中就会更好地收敛。 这正是 Batch Norm 层为我们所做的事情。

3、批归一化如何工作?

批归一化只是插入隐藏层和下一个隐藏层之间的另一个网络层。 它的工作是获取第一个隐藏层的输出并对其进行标准化,然后将其作为下一个隐藏层的输入传递。

Batch Norm 层在到达第 2 层之前对来自第 1 层的激活进行归一化

就像任何网络层的参数(例如权重、偏差)一样,Batch Norm 层也有自己的参数:

  • 两个可学习的参数称为 beta 和 gamma。
  • 两个不可学习的参数(均值移动平均线和方差移动平均线)被保存为 Batch Norm 层“状态”的一部分。

Batch Norm 层的参数

这些参数针对每个 Batch Norm 层。 因此,如果我们在网络中有三个隐藏层和三个 Batch Norm 层,那么这三个层就会有三个可学习的 beta 和 gamma 参数。 移动平均线参数也类似。

每个 Batch Norm 层都有自己的参数副本

在训练期间,我们一次向网络提供一小批数据。 在前向传递期间,网络的每一层都会处理该小批量数据。 Batch Norm 层按如下方式处理其数据:

Batch Norm 层执行的计算

  • 激活

前一层的激活作为输入传递给 Batch Norm。 数据中的每个特征都有一个激活向量。

  • 计算均值和方差

分别对于每个激活向量,计算小批量中所有值的均值和方差。

  • 归一化

使用相应的均值和方差计算每个激活特征向量的归一化值。 这些标准化值现在均值和单位方差为零。

  • 缩放和移位

这一步是 Batch Norm 引入的巨大创新,赋予了它强大的力量。 与输入层要求所有归一化值具有零均值和单位方差不同,Batch Norm 允许其值移动(到不同的均值)和缩放(到不同的方差)。 它通过将归一化值乘以系数 gamma 并添加系数 beta 来实现此目的。 请注意,这是逐元素乘法,而不是矩阵乘法。

缩放和移位这项创新的巧妙之处在于,这些因素不是超参数(即模型设计者提供的常量),而是由网络学习的可训练参数。 换句话说,每个 Batch Norm 层都能够最佳地找到适合自身的最佳因子,从而可以移动和缩放归一化值以获得最佳预测。

  • 滑动平均

此外,Batch Norm 还保留均值和方差的指数滑动平均 (EMA:Exponential Moving Average) 的运行计数。 在训练期间,它只是计算 EMA,但不会对其执行任何操作。 在训练结束时,它只是将该值保存为层状态的一部分,以供在推理阶段使用。

稍后当我们讨论推理时,我们将回到这一点。 移动平均线计算使用标量“动量”,用下面的 alpha 表示。 这是一个仅用于 Batch Norm 移动平均值的超参数,不应与优化器中使用的动量混淆。

  • 矢量形状

下面,我们可以看到这些向量的形状。 计算特定特征的向量所涉及的值也以红色突出显示。 但是,请记住,所有特征向量都是在单个矩阵运算中计算的。

批归一化向量的形状

在前向传播之后,我们照常进行反向传播。 计算梯度并更新所有层权重以及 Batch Norm 层中的所有 beta 和 gamma 参数。

4、推理过程中的批归一化

正如我们上面所讨论的,在训练期间,Batch Norm 首先计算小批量的均值和方差。 然而,在推理过程中,我们只有一个样本,而不是一个批。 在这种情况下我们如何获得均值和方差?

这就是两个滑动平均参数的用武之地—我们在训练期间计算并与模型一起保存的参数。 我们在推理过程中使用这些保存的平均值和方差值进行批归一化:

推理过程中的批归一化计算

理想情况下,在训练期间,我们可以计算并保存完整数据的均值和方差。 但这会非常昂贵,因为我们必须在训练期间将完整数据集的值保留在内存中。 相反,移动平均可以很好地代表数据的均值和方差。 它的效率要高得多,因为计算是增量的—我们只需记住最近的移动平均值。

5、Batch Norm 层的放置顺序

对于 Batch Norm 层应放置在架构中的位置有两种意见 - 激活之前和之后。 原始论文将其放在前面,尽管我认为你会发现文献中经常提到这两个选项。 有人说“之后”效果更好。

Batch Norm 可以在激活之前或之后使用

6、结束语

Batch Norm 是一个非常有用的层,你最终将在网络架构中经常使用它。 希望这篇文章能帮助你很好地理解批归一化的工作原理。


原文链接:批归一化图解 - BimAnt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1261315.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

uni-app:心跳机制基础逻辑(定时器方法解决)

思路 1、在登录的时候,定义一个存储当前时间的全局变量,并且开始心跳请求 2、在全局中定义一个定时器,该定时器每秒都会执行一次,并获取当前的时间 3、将定时器每秒的获取的当前时间和全局变量获取的时间进行比较 4、指定一个…

Oracle ORA12514 监听程序当前无法识别连接描述符中请求的服务

最简单的有可能是你的服务还没有开启,需要启动服务!!!! 在连接数据库的时候,有时会遇到一个“ORA12514:监听程序当前无法识别连接描述符中请求的服务”的错误,这个错误其实就是数据…

针对MAC上,面对8080端口被占用怎么解决

首先输入这个命令,在终端,这个是搜查命令,搜查当前8080端口被谁占着 sudo lsof -i :8080 杀死当前的进程 kill -9 1821 kill -9 (上面写着的PID)

NX二次开发UF_CURVE_ask_wrap_curves 函数介绍

文章作者:里海 来源网站:https://blog.csdn.net/WangPaiFeiXingYuan UF_CURVE_ask_wrap_curves Defined in: uf_curve.h int UF_CURVE_ask_wrap_curves(tag_t wrap_curve_object, int * num_output_curves, tag_t * * output_curves ) overview 概述 …

深度学习【二】

1.运行时错误 1.1 ModuleNotFoundError: No module named ‘torch_scatter’ 参考 https://blog.csdn.net/weixin_42421914/article/details/132875571 pip install --no-index torch-scatter -f https://pytorch-geometric.com/whl/torch-1.13.1%2Bcpu.html

unity学习笔记10

一、生命周期函数 1.Awake() 调用时间:对象被激活或创建时。 用途:通常用于初始化对象的状态,获取组件引用或执行其他在脚本生命周期早期需要完成的任务。 2.OnEnable(): 调用时间:对象激活时,包括对象被创建和Se…

2023_Spark_实验二十一:Zookeeper单机安装与配置

zookeeper单机安装与配置一、zookeeper的安装 1.上传zookeeper-3.4.5.tar.gz到/tools目录下 2.解压安装zookeeper到/training中 tar -zvcf zookeeper-3.4.5.tar.gz -C /opt/soft_installed/zookeeper-3.4.53.配置环境变量 vim /home/lh/.bashrc# 添加内容如下 export ZK_HOME…

京东运营数据分析(京东数据采集):2023年10月京东护肤行业品牌销售排行榜

鲸参谋监测的京东平台10月份护肤市场销售数据已出炉! 鲸参谋数据显示,2023年10月份,京东平台上护肤市场的销量为2000万,环比增长约28%,同比降低约26%;销售额为25亿,环比增长约24%,同…

shell编程系列- bash和sh的区别

文章目录 引言bash和sh的区别CentOS下的区别Ubuntu下的区别 最佳实践 引言 我们在编写shell脚本时,通常第一行都要声明当前脚本的执行程序,也就是常见的 #!/bin/sh 或者是 #!/bin/bash ,我们无论用哪一个脚本似乎都可以正常的执行&#xff0…

三丶openlayer之source和layer

1.source和layer的概念 在前面的例子中,已经对Source和Layer有所了解了,我们用天地图为底图加载出来东西,但是这个世界上的地图不仅仅是有天地图一种类型,比如Google地图,高德地图,百度地图等,…

Java中如何构建平衡二叉树

定义:平衡二叉树是一棵二叉排序树,或者为空,或者满足以下条件: 1)左右子树高度差的绝对值不大于1; 2)左右子树都是平衡二叉树。 平衡因子:左子树的高度减去右子树的高度,显然,在平衡…

【C/PTA —— 12.指针1(课内实践)】

C/PTA —— 12.指针1(课内实践) 6-1 交换两个整数的值6-2 利用指针找最大值6-3 字符串的连接6-4 移动字母 6-1 交换两个整数的值 void fun(int* a, int* b) {int* tmp *a;*a *b;*b tmp; }6-2 利用指针找最大值 void findmax(int* px, int* py, int* p…

Find My键盘|苹果Find My技术与键盘结合,智能防丢,全球定位

键盘是最常用也是最主要的输入设备,通过键盘可以将英文字母、汉字、数字、标点符号等输入到计算机中,从而向计算机发出命令、输入数据等。还有一些带有各种快捷键的键盘。随着时间的推移,渐渐的市场上也出现独立的具有各种快捷功能的产品单独…

VS2010配置opencv2.4.10

1.下载opencv2.4.10,百度网盘链接如下: 链接:https://pan.baidu.com/s/1UdoQJbRUEB_G2urT703xYQ 提取码:7lbd 2.运行opencv-2.4.10.exe,将文件提取到一个自定义目录里: 3.添加系统环境变量 在“系统变量…

Webhook端口中的自签名身份验证

概述 有时,可能需要通过 Webhook 端口从交易伙伴处接收数据,但该交易伙伴可能需要更多的安全性,而不仅仅是用于验证入站 Webhook 请求的基本身份验证用户名/密码 – 或者您可能只想在入站 Webhook 消息上添加额外的安全层。 使用 Webhook 端…

Ubuntu新手使用教程

🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🦄 博客首页——🐅🐾猫头虎的博客🎐 🐳 《面试题大全专栏》 🦕 文章图文…

STM32_9(USART串口)

一、串口通信 串口是一种应用十分广泛的通讯接口,串口成本低、容易使用、通信线路简单,可实现两个设备的互相通信单片机的串口可以使单片机与单片机、单片机与电脑、单片机与各式各样的模块互相通信,极大地扩展了单片机的应用范围&#xff0…

前缀和算法总结

前缀和思维导图&#xff1a; 一维前缀和算法模版&#xff1a; #include <iostream>using namespace std;const int N 100010;int n, m; int s[N];int main() {scanf("%d%d", &n, &m);for (int i 1; i < n; i){int x;scanf("%d", &…

​无人机石油管道巡检方案新亮点:灵活准确又高效

在当前石油工业的安全管理中&#xff0c;无人机技术逐渐成为一种不可或缺的工具。随着我国油气管道里程的持续增长&#xff0c;确保这些关键基础设施的安全运行变得越来越重要。传统的巡检方法已经无法满足现代油气行业的需求&#xff0c;而无人机石油管道巡检技术的应用提供了…

相同JS代码,多次混淆加密能得到不同的结果吗?

一份相同的JavaScript代码&#xff0c;进行多次混淆加密&#xff0c;能得到不同的结果吗&#xff1f; 答案是肯定的&#xff0c;能。 JShaman可以实现这个效果。即&#xff1a;加密结果具有多态性、变化性。 下面实测展示。 来到JShaman网站&#xff0c;用它默认的示例代码…