Pytorch常用的函数(六)常见的归一化总结(BatchNorm/LayerNorm/InsNorm/GroupNorm)

news2025/1/14 4:15:15

Pytorch常用的函数(六)常见的归一化总结(BatchNorm/LayerNorm/InsNorm/GroupNorm)

常见的归一化操作有:批量归一化(Batch Normalization)、层归一化(Layer Normalization)、实例归一化(Instance Normalization)、组归一化(Group Normalization)等。

其归一化操作示意图如下:

(下图来自Group Normalization论文,地址: https://arxiv.org/pdf/1803.08494.pdf)

在这里插入图片描述

在CV领域,深度网络中的数据维度一般是[N, C, H, W]格式,N是batch size,H/W是feature的高/宽,C是feature的channel,压缩H/W至一个维度。

其三维的表示如上图,假设单个方格的长度是1,那么其表示的是[6, 6,*, * ]

上图形象的表示了四种norm的工作方式:

  • BN在batch的维度上norm,归一化维度为[N,H,W],对batch中对应的channel归一化;
  • LN避开了batch维度,归一化的维度为[C,H,W];
  • IN 归一化的维度为[H,W];
  • 而GN介于LN和IN之间,其首先将channel分为许多组(group),再对每一组做归一化。
  • 我们下面以nlp中三维数据[N, L, C]为例进行详细讲解。

1 批归一化(BatchNorm)

BN应该是我们最熟悉的归一化操作了,批归一化的核心思想是:以一个小批量数据样本为单位在对应维度上进行标准化

1.1 批归一化的计算公式

数据归一化方法很简单,就是要让数据具有0均值和单位方差,如下式:
y = x − E [ x ] V a r [ x ] + ϵ y = \frac{x - \mathrm{E}[x]}{\sqrt{\mathrm{Var}[x] + \epsilon}} y=Var[x]+ϵ xE[x]
但是如果简单的这么干,会降低层的表达能力。比如在使用sigmoid激活函数的时候,如果把数据限制到0均值单位方差,那么相当于只使用了激活函数中近似线性的部分,这显然会降低模型表达能力。

为此,作者又为BN增加了2个参数,用来保持模型的表达能力,这样就公式就变为下式的形式:
y = x − E [ x ] V a r [ x ] + ϵ ∗ γ + β y = \frac{x - \mathrm{E}[x]}{\sqrt{\mathrm{Var}[x] + \epsilon}} * \gamma + \beta y=Var[x]+ϵ xE[x]γ+β

  • 上述公式中用到了均值E和方差Var,需要注意的是理想情况下E和Var应该是针对整个数据集的,但显然这是不现实的。因此,作者做了简化,用一个Batch的均值和方差作为对整个数据集均值和方差的估计。
  • BN与常用的数据归一化最大的区别就是加了后面这两个参数,这两个参数主要作用是在加速收敛和表征破坏之间做的trade off。
    • 以Sigmoid激活函数为例,批量归一化之后数据整体处于函数的非饱和区域, 只包含线性变换,破坏了之前学习到的特征分布。
    • 为了恢复原始数据分布,具体实现中引入了变换重构以及可学习参数gamma和beta ,即规范化后的隐层表示将输入数据限制到了一个全局统一的确定范围,为了保证模型的表达能力不因为规范化而下降
    • beta 是再平移参数,gamma是再缩放参数。

1.2 批归一化的api验证

批归一化的计算步骤如下:

  1. 对于每个批次的输入样本,在每个通道上分别计算均值和标准差。
    • 如下图所示,一共有6(embeding_dim)个通道
    • 每个通道,用36(seq_len×batch_size)个数据计算出1个均值,一共计算出6个均值
  2. 使用每个通道上的均值和标准差,对该样本中的每个通道内的元素进行归一化。

在这里插入图片描述

api官方文档: https://pytorch.org/docs/stable/generated/torch.nn.BatchNorm1d.html

torch.nn.BatchNorm1d(
    num_features,   # 通道
    eps=1e-05,      # 避免归一化时分母为0
    momentum=0.1,   # 用来计算running_mean和running_var的一个量
    affine=True,    # 是否进行缩放平移,即gamma和beta参数是否启用
    track_running_stats=True,  # 是否统计全局的running_mean和running_var
    device=None, 
    dtype=None
)

我们通过手动实现BatchNorm1d来验证公式:

import torch
import torch.nn as nn


def bn_nlp():
    batch_size = 2
    seq_len = 3
    embedding_dim = 4

    input_x = torch.randn(batch_size, seq_len, embedding_dim)  # N L C

    print('原始的输入:\n', input_x)

    # 1、调用官网api
    # 设置affine=False,不启用gamma和beta参数
    bn_op = nn.BatchNorm1d(num_features=embedding_dim, affine=False)
    # 输入要求是 N C L,需要变换维度
    # N is the batch size, 
    # C is the number of features or channels
    # L is the sequence length
    bn_y = bn_op(input_x.transpose(-1, -2)).transpose(-1, -2)

    print('官方api的bn结果:\n', bn_y)

    # 2、手动实现bn
    # 在【每个通道】上分别计算均值和标准差
    # 这里一共4(embedding_dim)个通道
    # 即在batch维度和seq_len维度,求均值和标准差(即上图蓝色部分)
    bn_mean = input_x.mean(dim=(0, 1), keepdim=True)
    # unbiased=False  使用有偏估计来计算标准差
    bn_std = input_x.std(dim=(0, 1), unbiased=False, keepdim=True)
    print('均值:\n', bn_mean)
    print('标准差:\n', bn_std)

    eps = 1e-5
    # note: 官方文档是将eps放入方差之中再开根号,不过这里对值影响不大
    verify_bn_y = (input_x - bn_mean) / (bn_std + eps)  # bn_mean和bn_std会触发广播机制
    print('自己实现的bn结果:\n', verify_bn_y)


if __name__ == '__main__':
    bn_nlp()
# 可以看到官方api的bn结果和自己计算的bn结果一致
原始的输入:
 tensor([[[-1.9182, -0.8153, -0.2014, -0.0894],
          [ 0.6366, -1.1906, -1.2189, -0.2368],
          [ 2.1686, -0.3856, -0.1906,  0.9672]],

         [[ 0.5857, -0.7613, -0.0867, -0.6334],
          [ 0.1875, -1.3680,  0.2689,  0.5938],
          [-0.8454,  1.4016,  0.7525, -0.8184]]])
官方api的bn结果:
 tensor([[[-1.6096, -0.3228, -0.1488, -0.0839],
          [ 0.3925, -0.7329, -1.8555, -0.3162],
          [ 1.5930,  0.1468, -0.1306,  1.5814]],

         [[ 0.3525, -0.2638,  0.0436, -0.9413],
          [ 0.0405, -0.9268,  0.6400,  0.9928],
          [-0.7689,  2.0996,  1.4513, -1.2329]]])
均值:
# (-1.9182+0.6366+2.1686+0.5857+0.1875-0.8454)/6 = 0.1358
 tensor([[[ 0.1358, -0.5199, -0.1127, -0.0362]]])
标准差:
 tensor([[[1.2761, 0.9151, 0.5961, 0.6345]]])
自己实现的bn结果:
 tensor([[[-1.6096, -0.3228, -0.1488, -0.0839],
          [ 0.3925, -0.7329, -1.8555, -0.3162],
          [ 1.5930,  0.1468, -0.1306,  1.5814]],

         [[ 0.3525, -0.2638,  0.0436, -0.9413],
          [ 0.0405, -0.9268,  0.6400,  0.9928],
          [-0.7689,  2.0996,  1.4513, -1.2329]]])

1.3 批归一化的注意点

1.3.1 使用场景

BN的适用性

  • 每个 mini-batch 比较大,数据分布比较接近。
  • 在进行训练之前,要做好充分的 shuffle,否则效果会差很多。

不能使用BN的场景

  • 在使用小batch size的时候不稳定

  • 对于在线学习不好

  • 对于循环神经网络不好,RNN不适合用BN的原因:Normalize的对象(position)来自不同分布。

    • CNN中使用BN,对一个batch内的每个channel做标准化。多个训练图像的同一个channel,大概率来自相似的分布。(例如树的图,起始的3个channel是3个颜色通道,都会有相似的树形状和颜色深度)
    • RNN中使用BN,对一个batch内的每个position做标准化。多个sequence的同一个position,很难说来自相似的分布。(例如都是影评,但可以使用各种句式,同一个位置出现的词很难服从相似分布)
    • 所以RNN中BN很难学到合适的μ和σ,将来自不同分布的特征做正确变换,甚至带来反作用,所以效果不好。

1.3.2 BN的作用

  • 改善流经网络的梯度

  • 允许更大的学习率,大幅提高训练速度。现在我们可以采用初始很大的学习率,然后学习率的衰减速度也很大,因为这个算法收敛很快。当然这个算法即使你选择了较小的学习率,也比以前的收敛速度快,因为它具有快速训练收敛的特性;

  • 减少对初始化的强烈依赖

  • 改善正则化策略。作为正则化的一种形式,轻微减少了对dropout的需求。你再也不用去理会过拟合中drop out、L2正则项参数的选择问题,采用BN算法后,你可以移除这两项参数,或者可以选择更小的L2正则约束参数了,因为BN具有提高网络泛化能力的特性;

  • 再也不需要使用使用局部响应归一化层了(局部响应归一化是Alexnet网络用到的方法),因为BN本身就是一个归一化网络层;

  • 可以把训练数据彻底打乱(防止每批训练的时候,某一个样本都经常被挑选到,文献说这个可以提高1%的精度)。

1.3.3 BN在训练和推理时候的差异

  • 在训练时,是对每一批的训练数据进行归一化,也即用每一批数据的均值和方差。

    • BN训练时为什么不用全量训练集的均值和方差呢?
    • 因为用全量训练集的均值和方差容易过拟合,对于BN,其实就是对每一批数据进行归一化到一个相同的分布,而每一批数据的均值和方差会有一定的差别,而不是用固定的值,这个差别实际上能够增加模型的鲁棒性,也会在一定程度上减少过拟合。
    • 也正是因此,BN一般要求将训练集完全打乱,并用一个较大的batch值,否则,一个batch的数据无法较好得代表训练集的分布,会影响模型训练的效果。
  • 在推理时,比如进行一个样本的预测,就并没有batch的概念,因此用的是全量训练数据的均值和方差,可以通过移动平均法求得。

2 层归一化(LayerNorm)

2.1 层归一化概述

层归一化的公式,和批归一化相同:
y = x − E [ x ] V a r [ x ] + ϵ ∗ γ + β y = \frac{x - \mathrm{E}[x]}{\sqrt{\mathrm{Var}[x] + \epsilon}} * \gamma + \beta y=Var[x]+ϵ xE[x]γ+β

2.2.1 层归一化的优缺点

  • 层规范化就是针对 BN 的不足而提出的。

  • LN 针对单个训练样本进行,不依赖于其他数据,因此可以避免 BN 中受 mini-batch 数据分布影响的问题

    • 可以用于 小mini-batch场景、动态网络场景和 RNN,特别是自然语言处理领域。
    • LN则是独立于batch_size的。
  • 此外,LN 不需要保存 mini-batch 的均值和方差,节省了额外的存储空间。

  • 需要注意的是:

    • BN 的转换是针对单个神经元可训练的,即不同神经元的输入经过再平移和再缩放后分布在不同的区间。
    • 而 LN 对于一整层的神经元训练得到同一个转换,即所有的输入都在同一个区间范围内。
    • 因此,如果不同输入特征不属于相似的类别(比如颜色和大小),那么 LN 的处理可能会降低模型的表达能力。

2.2.2 BN和LN的差异

  • BatchNorm就是通过对batch size这个维度归一化来让分布稳定下来。

  • LayerNorm则是通过对Hidden size这个维度归一化来让某层的分布稳定。

  • 在BN和LN都能使用的场景中,BN的效果一般优于LN,原因是基于不同数据,同一特征得到的归一化特征更不容易损失信息。

  • 但是有些场景是不能使用BN的,例如: batchsize较小或者在RNN中,这时候可以选择使用LN,LN得到的模型更稳定且起到正则化的作用。LN能应用到小批量和RNN中是因为LN的归一化统计量的计算是和batchsize没有关系的。

2.2.3 Bert、Transformer中为何使用的是LN

为何CV数据任务上很少用LN,用BN的比较多,而NLP上应用LN是比较多?

第一种解释如下:

我们用文本数据句话来说明BN和LN的操作区别。

我是中国人我爱中国
武汉抗疫非常成功0
大家好才是真的好0
人工智能很火000
  • 上面的4条文本数据组成了一个batch的数据,那么BN的操作的时候,就会把4条文本相同位置的字来做归一化处理,例如:我、武、大、人(每个embedding第i个位置一起进行归一化),这里就破坏了一个字内在语义的联系。

  • 而LN则是针对每一句话的每个token embedding做归一化处理。从这个角度看,LN就比较适合NLP任务,也就是bert和Transformer用的比较多。

  • 第一个解释从反面证明BN不适合作归一化,它是对batch个词的某个embedding位置进行归一化,不合理。

第二个解释如下:

batch normalization不具备的两个功能:

  • 1、layer normalization 有助于得到一个球体空间中符合均值为0、方差为1高斯分布的 embedding。NLP数据则是由embedding开始的,这个embedding并不是客观存在的,它是由我们设计的网络学习出来的。通过layer normalization得到的embedding是以坐标原点为中心,1为标准差,越往外越稀疏的球体空间中,这个正是我们理想的数据分布

  • 2、layer normalization可以对transformer学习过程中由于多词条embedding累加可能带来的“尺度”问题施加约束,相当于对表达每个词一词多义的空间施加了约束,有效降低模型方差。简单来说,每个词有一片相对独立的小空间,通过在这个小空间中产生一个小的偏移来达到表示一词多义的效果。transformer每一层都做了这件事,也就是在不断调整每个词在空间中的位置,这个调整就可以由layer normalization 来实现,batch normalization是做不到的。

2.2 层归一化的api验证

  • 层归一化计算步骤
  1. 对于每个样本内的每个层级,计算该层级上的均值和标准差。
    • 如下图所示,每一道红线(embeding_dim个数据计算)计算一个均值和标准差
    • 下图中,一共有6个样本,每个样本有6个层级,因此会计算出36个均值
  2. 使用每个层级的均值和标准差,对每个样本内的通道进行归一化。

在这里插入图片描述

api官方文档:https://pytorch.org/docs/stable/generated/torch.nn.LayerNorm.html

torch.nn.LayerNorm(
    normalized_shape, 
    eps=1e-05, 
    elementwise_affine=True, 
    bias=True, 
    device=None, 
    dtype=None
)

我们通过手动实现LayerNorm来验证公式:

def ln_nlp():
    batch_size = 2
    seq_len = 3
    embedding_dim = 4

    input_x = torch.randn(batch_size, seq_len, embedding_dim)  # N L C

    print('原始的输入:\n', input_x)

    # 1、调用官网api
    # 设置elementwise_affine=False,不启用gamma和beta参数
    ln_op = nn.LayerNorm(normalized_shape=embedding_dim, elementwise_affine=False)
    # 输入要求是 [N, *],不需要变换维度
    ln_y = ln_op(input_x)

    print('官方api的ln结果:\n', ln_y)

    # 2、手动实现layer norm
    # 对于【每个样本内的每个层级】,计算该层级上的均值和标准差
    # 这里有2(batch_size)个样本,每个样本有3(seq_len)个层级
    ln_mean = input_x.mean(dim=-1, keepdim=True)
    # unbiased=False  使用有偏估计来计算标准差
    ln_std = input_x.std(dim=-1, unbiased=False, keepdim=True)
    print('均值:\n', ln_mean)
    print('标准差:\n', ln_std)

    eps = 1e-5
    # note: 官方文档是将eps放入方差之中再开根号,不过这里对值影响不大
    verify_ln_y = (input_x - ln_mean) / (ln_std + eps)  # 触发广播机制
    print('自己实现的ln结果:\n', verify_ln_y)



if __name__ == '__main__':
    ln_nlp()
# 可以看到官方api的ln结果和自己计算的ln结果一致
原始的输入:
 tensor([[[-0.9624,  1.2447,  0.6740,  0.2548],
          [-0.4195,  1.3283, -2.7728,  0.8382],
          [ 0.8185, -0.5858,  0.0787,  0.6890]],

         [[-0.8232, -2.5022, -0.7234,  0.3765],
          [ 1.2651, -0.9825, -0.3684, -0.1102],
          [ 0.0357,  1.5741,  1.1220, -0.5346]]])
官方api的ln结果:
 tensor([[[-1.5608,  1.1621,  0.4580, -0.0592],
          [-0.1028,  0.9989, -1.5861,  0.6900],
          [ 1.0193, -1.4990, -0.3074,  0.7871]],

         [[ 0.0922, -1.5400,  0.1892,  1.2586],
          [ 1.5983, -1.1353, -0.3885, -0.0744],
          [-0.6120,  1.2212,  0.6825, -1.2916]]])
均值:
 tensor([[[ 0.3028],  # (-0.9624+1.2447+0.6740+0.2548)/4 = 0.3028
          [-0.2565],
          [ 0.2501]],

         [[-0.9180],
          [-0.0490],
          [ 0.5493]]])
标准差:
 tensor([[[0.8106],
          [1.5865],
          [0.5576]],

         [[1.0286],
          [0.8222],
          [0.8392]]])
自己实现的ln结果:
 tensor([[[-1.5608,  1.1621,  0.4580, -0.0592],
          [-0.1028,  0.9989, -1.5861,  0.6900],
          [ 1.0193, -1.4990, -0.3074,  0.7871]],

         [[ 0.0922, -1.5400,  0.1892,  1.2585],
          [ 1.5983, -1.1353, -0.3885, -0.0744],
          [-0.6120,  1.2212,  0.6825, -1.2916]]])

3 实例归一化(InstanctNorm)

3.1 实例归一化概述

  • 区别:实例归一化独立于批次和通道。每个样本都有自己的归一化参数。
  • 适用场景:适用于图像生成、风格迁移等需要保留每个样本独特性的任务,因为它不会引入批次间的相关性,更适合处理单个样本或小批量的情况。

3.2 实例归一化的api验证

  • 实例归一化的计算步骤
  1. 对于每个输入样本,在每个通道上分别计算均值和标准差。
    • 如下图,一共有6个输入样本,6个通道数据
    • 下图的蓝色区域计算一个均值和标准差,一共计算出36个均值
  2. 使用每个通道上的均值和标准差,对该样本中的每个通道内的元素进行归一化。

在这里插入图片描述

api官方文档:https://pytorch.org/docs/stable/generated/torch.nn.InstanceNorm1d.html

torch.nn.InstanceNorm1d(
    num_features, 
    eps=1e-05, 
    momentum=0.1, 
    affine=False, 
    track_running_stats=False, 
    device=None, 
    dtype=None
)

我们通过手动实现InstanceNorm1d来验证公式:

def in_nlp():
    batch_size = 2
    seq_len = 3
    embedding_dim = 4

    input_x = torch.randn(batch_size, seq_len, embedding_dim)  # N L C

    print('原始的输入:\n', input_x)

    # 1、调用官网api
    # 设置affine=False,不启用gamma和beta参数
    in_op = nn.InstanceNorm1d(num_features=embedding_dim, affine=False)
    # 输入要求是 [N, C, L],需要变换维度
    in_y = in_op(input_x.transpose(-1, -2)).transpose(-1, -2)

    print('官方api的in结果:\n', in_y)

    # 2、手动实现instant norm
    # 对于每个输入样本,在每个通道上分别计算均值和标准差
    # 这里有2(batch_size)个样本,有4(embedding_dim)个通道
    in_mean = input_x.mean(dim=1, keepdim=True)
    # unbiased=False  使用有偏估计来计算标准差
    in_std = input_x.std(dim=1, unbiased=False, keepdim=True)
    print('均值:\n', in_mean)
    print('标准差:\n', in_std)

    eps = 1e-5
    # note: 官方文档是将eps放入方差之中再开根号,不过这里对值影响不大
    verify_in_y = (input_x - in_mean) / (in_std + eps)  # 触发广播机制
    print('自己实现in结果:\n', verify_in_y)

if __name__ == '__main__':
    in_nlp()
原始的输入:
 tensor([[[ 1.4341, -0.4215,  1.1963, -0.6798],
          [-0.4178, -0.3566,  0.6031, -0.9045],
          [ 0.2921, -1.4179,  0.8111, -1.7165]],

         [[-0.8753,  1.8243,  1.7770, -0.6461],
          [ 0.6337,  1.9972,  0.1212, -1.1680],
          [ 0.2313,  0.4167, -1.0360, -0.3761]]])
官方api的in结果:
 tensor([[[ 1.3082,  0.6393,  1.3270,  0.9443],
          [-1.1194,  0.7728, -1.0866,  0.4396],
          [-0.1888, -1.4121, -0.2404, -1.3838]],

         [[-1.3665,  0.5815,  1.2904,  0.2554],
          [ 0.9986,  0.8257, -0.1440, -1.3323],
          [ 0.3680, -1.4072, -1.1464,  1.0768]]])
均值:
 # (1.4341-0.4178+0.2921)/3 = 0.4361
 tensor([[[ 0.4361, -0.7320,  0.8701, -1.1003]],

        [[-0.0034,  1.4127,  0.2874, -0.7301]]])
标准差:
 tensor([[[0.7629, 0.4857, 0.2457, 0.4453]],

        [[0.6380, 0.7078, 1.1544, 0.3287]]])
自己实现in结果:
 tensor([[[ 1.3081,  0.6393,  1.3271,  0.9443],
          [-1.1194,  0.7728, -1.0867,  0.4396],
          [-0.1888, -1.4121, -0.2404, -1.3838]],

         [[-1.3665,  0.5815,  1.2904,  0.2554],
          [ 0.9986,  0.8257, -0.1440, -1.3323],
          [ 0.3680, -1.4071, -1.1464,  1.0768]]])

4 组归一化(Group Norm)

4.1 组归一化概述

  • 我们已经知道对于BN来说,过小的batch size会导致其性能下降,一般来说每GPU上batch设为32最合适

  • 但是对于一些其他深度学习任务batch size往往只有1-2,比如目标检测,图像分割,视频分类上,输入的图像数据很大,较大的batchsize显存吃不消。

  • 在这里插入图片描述

  • 另外,BN是在batch这个维度上Normalization,但是这个维度并不是固定不变的,比如训练和测试时一般不一样,一般都是训练的时候在训练集上通过滑动平均预先计算好平均-mean,和方差-variance参数,在测试的时候,不在计算这些值,而是直接调用这些预计算好的来用,但是,当训练数据和测试数据分布有差别是时,训练机上预计算好的数据并不能代表测试数据。

  • 既然明确了问题,解决起来就简单了,归一化的时候避开batch这个维度是不是可行呢,于是就出现了layer normalization和instance normalization等工作,但是仍比不上GN。

  • GN的极端情况就是LN和IN,分别对应G等于1和G等于C,作者在论文中给出G设为32较好。

4.2 组归一化的api验证

  • 组归一化的计算步骤
  1. 对于每个输入样本,在每个组上(下图整块蓝色区域)分别计算均值和标准差。
    • 如下图,一共有6个输入样本,2个组
    • 下图的蓝色区域计算一个均值和标准差,一共计算出12个均值
  2. 使用每个组上的均值和标准差,对该组中的元素进行归一化。

在这里插入图片描述

api的官方文档:https://pytorch.org/docs/stable/generated/torch.nn.GroupNorm.html

torch.nn.GroupNorm(
    num_groups,   # 分组的组数
    num_channels, # channel的个数
    eps=1e-05, 
    affine=True, 
    device=None, 
    dtype=None
)

我们通过手动实现GroupNorm来验证公式:

def group_nlp():
    batch_size = 2
    seq_len = 3
    embedding_dim = 4

    input_x = torch.randn(batch_size, seq_len, embedding_dim)  # N L C

    print('原始的输入:\n', input_x)

    # 1、调用官网api
    # 设置affine=False,不启用gamma和beta参数
    # 设置分为2组
    group_op = nn.GroupNorm(num_groups=2, num_channels=embedding_dim, affine=False)
    # 输入要求是 [N, C, *],需要变换维度
    group_y = group_op(input_x.transpose(-1, -2)).transpose(-1, -2)

    print('官方api的group结果:\n', group_y)

    # 2、手动实现group norm
    # 将输入按照通道切分为2组
    g_input_xs = torch.split(input_x, split_size_or_sections=embedding_dim // 2, dim=-1)

    # 循环2组,进行归一化
    results = []
    for index, g_input_x in enumerate(g_input_xs):
        # 对于每个输入样本,在每个组上分别计算均值和标准差
        group_mean = g_input_x.mean(dim=(1, 2), keepdim=True)
        # unbiased=False  使用有偏估计来计算标准差
        group_std = g_input_x.std(dim=(1, 2), unbiased=False, keepdim=True)
        print(f'第{index + 1}组均值:\n', group_mean)
        print(f'第{index + 1}组标准差:\n', group_std)
        eps = 1e-5
        # note: 官方文档是将eps放入方差之中再开根号,不过这里对值影响不大
        g_result = (g_input_x - group_mean) / (group_std + eps)
        results.append(g_result)
    # 再次拼接    
    verify_gn_y = torch.cat(results, dim=-1)
    print('自己实现group结果:\n', verify_gn_y)


if __name__ == '__main__':
    group_nlp()
原始的输入:
 tensor([[[ 0.6412, -0.9580,  0.1505, -0.9598],
          [-0.2981, -1.5032,  0.3579, -0.8543],
          [ 0.0351, -0.0369, -1.4433,  1.0080]],

         [[-0.2616,  0.2139, -0.8719,  3.2135],
          [-1.0790,  0.0833,  0.8177, -0.0801],
          [ 1.2287, -2.2719,  0.6443, -0.3537]]])
官方api的group结果:
 tensor([[[ 1.4229, -0.8651,  0.5148, -0.7823],
          [ 0.0790, -1.6452,  0.7571, -0.6591],
          [ 0.5557,  0.4527, -1.3472,  1.5167]],

         [[ 0.0785,  0.5116, -1.0883,  2.0133],
          [-0.6661,  0.3926,  0.1944, -0.4872],
          [ 1.4360, -1.7527,  0.0627, -0.6949]]])
第1组均值:
 tensor([[[-0.3533]], # (0.6412-0.2981+0.0351-0.9580-1.5032-0.0369)/6=-0.3533

        [[-0.3477]]])
第1组标准差:
 tensor([[[0.6989]],

        [[1.0978]]])
第2组均值:
 tensor([[[-0.2902]],# (0.1505+0.3579-1.4433-0.9598-0.8543+1.0080)/6=-0.2902

        [[ 0.5616]]])
第2组标准差:
 tensor([[[0.8559]],

        [[1.3172]]])
自己实现group结果:
 tensor([[[ 1.4229, -0.8651,  0.5148, -0.7823],
          [ 0.0790, -1.6452,  0.7571, -0.6591],
          [ 0.5557,  0.4527, -1.3472,  1.5167]],

         [[ 0.0785,  0.5116, -1.0883,  2.0133],
          [-0.6661,  0.3926,  0.1944, -0.4872],
          [ 1.4360, -1.7527,  0.0627, -0.6949]]])

5 总结

四者联系:

  • 都属于归一化技术, 基本数学原理一模一样,目标是减少内部协变量偏移,加速网络训练
  • 都会计算均值和标准差,并做归一化处理

四者区别:

  • 适用场景不同:BN用于CNN,LN用于RNN,IN用于样式迁移,GN兼具BN和LN的优点
  • 归一化粒度不同:BN针对批,LN针对层,IN针对实例,GN针对通道组
  • 计算量不同:BN和GN计算量大,LN和IN计算量小
  • 是否使用批信息:BN使用批信息,LN、IN、GN不使用
  • BN和GN会减少特征表达的灵活性,LN和IN能够保留特征表达的灵活性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1366669.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux驱动】Pinctrl子系统 | GPIO子系统 | 基于子系统的LED驱动程序

🐱作者:一只大喵咪1201 🐱专栏:《Linux驱动》 🔥格言:你只管努力,剩下的交给时间! 目录 🛷Pinctrl子系统🥅设备树中的Pinctrl子系统 🛷GPIO子系统…

ComfyUI报错AttributeError: module ‘cv2.gapi.wip.draw‘ has no attribute ‘Text‘

ComfyUI在安装comfyui-reactor-node插件,然后启动之后突然报错: AttributeError: module cv2.gapi.wip.draw has no attribute Text 这是怎么回事呢? 于是四处搜寻答案。 总之就是opencv-python版本的问题导致的。 我将有可能解决办法的方法进行了总结。 下面列出所有解…

强化学习的数学原理学习笔记 - 时序差分学习(Temporal Difference)

文章目录 概览:RL方法分类时序差分学习(Temporal Difference,TD)TD for state values🟦Basic TD🟡TD vs. MC 🟦Sarsa (TD for action values)Basic Sarsa变体1:Expected Sarsa变体2&…

动态SLAM 开源方案汇总及介绍(一)

参考https://zhuanlan.zhihu.com/p/673614739及https://zhuanlan.zhihu.com/p/673615788 具体来说,当SLAM系统在前一帧的动态物体上提取了特征点时,如果将这个特征点投影到当前帧,由于目标已经移动,这个点找到的匹配点必然是错误…

【python】爬取知乎热榜Top50保存到Excel文件中【附源码】

欢迎来到英杰社区https://bbs.csdn.net/topics/617804998 一、导入必要的模块: 这篇博客将介绍如何使用Python编写一个爬虫程序,从斗鱼直播网站上获取图片信息并保存到本地。我们将使用requests模块发送HTTP请求和接收响应,以及os模块处理文件…

MySQL 8.0 InnoDB Tablespaces之Temporary Tablespaces(临时表空间)

文章目录 MySQL 8.0 InnoDB Tablespaces之Temporary Tablespaces(临时表空间)会话临时表空间会话临时表空间的磁盘分配和回收会话临时表空间的创建创建临时表和查看临时表信息会话临时表空间相关的设置参数innodb_temp_tablespaces_dir 全局临时表空间查…

「MCU」SD NAND芯片之国产新选择优秀

文章目录 前言 传统SD卡和可贴片SD卡 传统SD卡 可贴片SD卡 实际使用 总结 前言 随着目前时代的快速发展,即使是使用MCU的项目上也经常有大数据存储的需求。可以看到经常有小伙伴这样提问: 大家好,请问有没有SD卡芯片,可以…

RT-Thread 线程管理

线程管理 在日常生活中,我们要完成一个大任务,一般会将它分解成多个简单、容易解决的小问题,小问题逐个被解决,大问题也就随之解决了。 在多线程操作系统中,也同样需要开发人员把一个复杂的应用分解成多个小的、可调…

C#上位机与三菱PLC的通信01--搭建仿真环境

1、三菱PLC介绍 三菱PLC是三菱电机生产的主力产品。 它采用一类可编程的存储器,用于其内部存储程序,执行逻辑运算、顺序控制、定时、计数与算术操作等面向用户的指令,并通过数字或模拟式输入/输出控制各种类型的机械或生产过程。三菱PLC在中国…

软件测试|深入理解Python的encode()和decode()方法

简介 在Python中,字符串是不可变的序列对象,它由Unicode字符组成。当我们需要在字符串和字节之间进行转换时,Python提供了两个非常重要的方法:encode()和decode()。这两个方法允许我们在Unicode字符和字节之间进行相互转换&#…

网络报文分析程序的设计与实现(2024)

1.题目描述 在上一题的基础上,参照教材中各层报文的头部结构,结合使用 wireshark 软件(下载地址 https://www.wireshark.org/download.html#releases)观察网络各层报文捕获,解析和分析的过程(如下 图所示&a…

计算机毕业设计——SpringBoot 个人博客管理系统(附源码)

1,绪论 1.1 背景调研 在互联网飞速发展的今天,互联网已经成为人们快速获取、发布和传递信息的重要渠道,它在人们政治、经济、生活等各个方面发挥着重要的作用。互联网上发布信息主要是通过网站来实现的,获取信息也是要在互联网中…

智能网联汽车安全相关标准汇总

目录 1.标准方向分析 2.智能驾驶域相关标准 3.智能座舱域相关标准 3.汽车通用规范 1.标准方向分析 当前汽车行业的内卷态势已经蔓延至项目立项,导致如今开发模式都尽可能地左移,例如瑞萨提出的虚拟ECU开发模式可以极大节省ECU的实车验证资源&#xf…

Open3D 基于统计滤波去除噪点(5)

Open3D 基于统计滤波去除噪点(5) 一、什么是统计滤波二、具体实现1.代码 一、什么是统计滤波 统计滤波是一种常用的点云滤波方法,用于去除噪声和异常点。在统计滤波中,通过计算每个点邻域内的统计特征(如平均值和标准…

院士专家齐聚 京彩未来联合重点研究院创建数字空间联合实验室

1月6日,京彩未来与北京大学数字中国研究院华南分院暨广东省数字广东研究院共同创建的“数字空间共同体联合室验室”正式挂牌运营。 著名经济学家管清友博士、北京大学数字中国研究院华南分院暨广东省数字广东研究院常务副院长李鹰教授,广东省数字广东研…

MFC Socket和合信CTMC M266ES 运动控制型PLC通信进行数据交换

前言 1、前两篇文章通过对Snap7和S7-1200/S7-1500PLC的通信进行了详细的介绍。Snap7的优点开源性强、使用方便易于上手,跨平台和可移植性性强。但是Snap7也有个缺点就是只能访问PLC的DB、MB、I、Q区进行数据读写,不能对V区进行读写,有人说可以读写V区&am…

Spring AOP(详解)

目录 1.AOP概述 2.AOP相关术语 3.Spring AOP的原理机制 3.1JDK动态代理 3.2 CGLIB动态代理 3.3简单代码展示 3.3.1JDK动态代理 3.3.2CGLIB动态代理 4.Spring的AOP配置 4.1pom.xml 4.2增强方法 4.3切点 4.4切面 5.基于注解的AOP配置 5.1.创建工程 5.2.增强 5.3AOP…

抖去推账号矩阵+无人直播+文案引流系统开发搭建--开源

核心技术 1. AI自动直播: 智能系统通过丰富可定制的文案库, 拥有有料有趣的灵魂。不仅能自动语音讲解内容,还可以在直播中和用户灵活互动。直播中可将团购商品同话术自动上下架。 2. AI剪辑 可一键智能批量成片,也可跟着模板剪…

苹果IOS如何支持微信小程序分享

各位同学们好!我是咕噜铁蛋!,我们经常需要与读者分享有关移动应用的使用方法和技巧。微信小程序是一种便捷的应用形式,可以在微信内部直接使用,而无需下载和安装。本文铁蛋讲详细介绍iOS苹果支持微信小程序类型分享的使…

简单几步,实现餐厅扫码点餐

越来越多的人选择外出就餐,而餐厅的点餐方式也随着科技的发展而不断进步。其中,扫码点餐是最为常见的一种方式,它不仅方便快捷,还能节省人力成本。本文将介绍一种简单易行的餐厅扫码点餐解决方案。 打开乔拓云平台,登录…