Normalization(BN and LN) in NN

news2025/4/28 10:39:11

在这里插入图片描述

Batch Normalization

称为批标准化。批是指一批数据，通常为 mini-batch；标准化是处理后的数据服从 $N (0, 1)$ 的正态分布。在训练过程中，数据需要经过多层的网络，如果数据在前向传播的过程中，尺度发生了变化，可能会导致梯度爆炸或者梯度消失，从而导致模型难以收敛。

假设输入的 mini-batch 数据是 $B={x_1...x_m}$ ，Batch Normalization 的可学习参数是 $\gamma, \beta$ ，步骤如下：

求 mini-batch 的均值： $\mu_B\gets \frac{1}{m} {\textstyle \sum_{i=1}^{m}}x_i$
求 mini-batch 的方差： $\sigma_B^2\gets \frac{1}{m} {\textstyle \sum_{i=1}^{m}}(x_i-\mu _B)$
标准化： $\widehat{x_i} \gets \frac{x_i-\mu_B}{\sqrt{\sigma_B^2+\epsilon } }$ ，其中 $\epsilon$ 是防止分母为 0 的一个数。
affine transform(缩放和平移)： $y_i\gets \gamma \widehat{x_i} +\beta\equiv BN_{r,\beta}(x_i)$ ，这个操作可以增强模型的 capacity，也就是让模型自己判断是否要对数据进行标准化，进行多大程度的标准化。如果
$\gamma=\sqrt{\sigma_B^2}, \beta=\mu_B$ ，那么就实现了恒等映射（前三步做标准化，这步做标准化的反变换）。

Batch Normalization 层一般在激活函数前一层。

在 PyTorch 中，有 3 个 Batch Normalization 类：

nn.BatchNorm1d()，输入数据的形状是 $\times C \times 1D feature(L)$ ：length
nn.BatchNorm2d()，输入数据的形状是 $\times C \times 2D feature(H \times W)$ ：hight, weight
nn.BatchNorm3d()，输入数据的形状是 $\times C \times 3D feature(T \times H \times W)$ ：time, hight, weight

torch.nn.BatchNorm1d(num_features, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)

num_features：一个样本的特征维度C，这个参数最重要
eps：在进行标准化操作时的分布修正项
momentum：指数加权平均估计当前的均值和方差
affine：是否需要 affine transform，默认为 True
track_running_stats：True 为训练状态，此时均值和方差会根据每个 mini-batch 改变。False 为测试状态，此时均值和方差会固定

例如，输入数据的形状是 $\times C \times 2D feature$ ，(3, 2, 2, 2, 3)，表示一个 mini-batch 有 3 个样本，每个样本有 2 个特征，每个特征的维度是 2 x 2 x3。那么就会计算 2 个均值和方差，分别对应每个特征维度。momentum 设置为 0.3，第一次的均值和方差默认为 0 和 1。输入两次 mini-batch 的数据。

Layer Normalization

提出的原因：Batch Normalization 不适用于变长的网络，如 RNN

思路：每个网络层计算均值和方差， $\gamma$ 和 $\beta$ 为逐样本的可学习参数。

torch.nn.LayerNorm(normalized_shape, eps=1e-05, elementwise_affine=True)

normalized_shape：该层每个样本特征的形状，可以取 $\times H \times W$ 、 $\times W$ 、 $W$
eps：标准化时的分母修正项
elementwise_affine：是否需要逐个样本 affine transform

例如，输入数据的形状是 $\times C \times feature$ ，(8, 2, 3, 4)，表示一个 mini-batch 有 8 个样本，每个样本有 2 个特征，每个特征的维度是 3 x 4。那么就会计算 8 个均值和方差，分别对应每个样本。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/797642.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

Normalization(BN and LN) in NN

Batch Normalization

Layer Normalization

相关文章

IO模型、javaIO

Spring核心概念、IoC和DI的认识、Spring中bean的配置及实例化、bean的生命周期

windows中注册redis服务启动时报1067错误

【LeetCode】98.验证二叉搜索树

怎么在树莓派上搭建web网站，并发布到外网可访问？

servlet基本使用

Mybatis 支持复杂类型方式List＜String＞

Appium+python自动化（二十六）- Toast提示（超详解）简介

在Ail Linux中手动配置IPv6

（学习笔记-系统结构）Linux内核与windows内核

Docker 容器基础操作

【山河送书第四期】：《Python之光：Python编程入门与实战》参与活动，免费送书五本！！

评测报告的结论如何写？

QT多线程编程基础

突破AI医疗对话MDS瓶颈，深兰科技·科学院论文被国际顶会SIGIR 2023收录

【ADS】导入CMOS衬底文件+使用coilsys生成电感

MySQL碎片清理

C语言getchar函数和putchar函数

关于avs和avs2编码stuffing bit的一点理解

封装 vue3 入场动画插件并发布到 npm