3。3
Batch Normalization (BN) 的工作原理
Batch Normalization 是在处理一个 "批次" 数据时,计算这个批次内所有样本的平均值和方差,然后使用这些统计量对每个样本进行归一化。这就是说:
- 批次(batch):比如,你一次性处理了 32 张图片,这 32 张图片就是一个批次。
- 平均值和方差:BN 会计算这 32 张图片在每一个特征上的平均值和方差,然后用这些数值对每张图片进行归一化。
因为 BN 依赖于批次内的统计量(平均值和方差),它需要你在训练时保持一个相对较大的批次大小才能计算出稳定的平均值和方差。
此外,为了在模型推理(即测试或使用模型时)时保持效果,BN 还会在训练过程中记录下一个“全局的平均值和方差”(叫做 running mean 和 running variance)。这两个值在推理阶段会被用来归一化新的数据。
Layer Normalization (LN) 的工作原理
与 BN 不同,Layer Normalization 是在单个样本内进行归一化,不管你一次处理多少个样本。LN 只看一个样本里的所有特征,计算这个样本的平均值和方差,然后用这些数值对这个样本进行归一化。也就是说:
- 单个样本:LN 不关心批次的大小,它只关注每个样本自身。
- 特征维度:LN 在单个样本的所有特征上计算平均值和方差,并用它们来归一化这个样本。
因此,LN 不需要考虑 batch size 的大小,因为它每次只处理一个样本。也正因为如此,LN 也不需要像 BN 那样维护 running mean 和 running variance,因为它不依赖于不同样本之间的统计量。
总结
简单来说:
- BN:需要考虑一个批次内的所有样本来计算平均值和方差,因此需要记录下这些统计量(running mean 和 running variance),而且 batch size 的大小很重要。
- LN:只考虑单个样本的特征,不关心批次,也不需要记录任何统计量,因此不受 batch size 的影响。
LSTM引入了几种关键机制来缓解这些问题:
-
遗忘门(Forget Gate):控制当前时刻是否需要“忘记”某些过去的信息。遗忘门的引入使得网络可以选择性地丢弃不重要的信息,从而避免旧信息对当前决策的过度影响。
-
输入门(Input Gate):控制当前输入信息是否应该被写入到记忆单元中。这样可以确保只有重要的输入信息被保留下来,而不重要的信息被忽略。
-
输出门(Output Gate):控制当前时刻的记忆单元应该输出哪些信息作为当前时刻的输出。
-
记忆单元(Cell State):这是LSTM的核心结构,它允许信息跨越多个时间步的传递。通过遗忘门和输入门的调控,记忆单元可以保留长期的依赖关系,从而有效缓解梯度消失问题。
RNN在处理长序列时,由于它的结构特性,容易出现梯度消失或梯度爆炸的问题。这是因为RNN的隐藏状态是通过将上一个隐藏状态与当前输入相乘得到的,这种递归计算容易导致梯度的指数增长或衰减。
3. 为什么LSTM比RNN好
-
梯度问题的解决:LSTM通过门控机制(遗忘门、输入门、输出门)和记忆单元的设计,使得它能够在训练过程中保持梯度的稳定性,从而有效避免梯度消失和梯度爆炸问题。
-
长时间依赖的捕捉:由于LSTM的结构可以有效地记住长时间的依赖关系,因此在处理长序列数据时,它比普通的RNN表现得更好。
4.10
-
如果不引入非线性激励函数,神经网络的每一层只是前一层的线性变换。即使堆叠了多层网络,整体上仍然是线性组合。因此,无论神经网络有多少层,最终的模型仍然是一个线性模型,无法表达复杂的非线性关系。
-
通过引入非线性激励函数(如 ReLU、Sigmoid、Tanh 等),每一层输出的结果在经过非线性变换后,网络的表达能力大大增强。非线性函数允许网络层之间的组合变得更加复杂,从而能够表示更加复杂的映射关系。这种增强的表达能力使得神经网络可以解决复杂的任务
4.11
在这些门控结构中,Sigmoid 函数的作用就是输出一个接近 0 或 1 的值,用来“开”或“关”这些门。接近 1 表示允许信息通过,而接近 0 表示阻止信息通过。因此,Sigmoid 函数非常适合用于门控机制。
Tanh 函数的输出范围是 [-1, 1]
,它通常用于将数据压缩到一个较小的范围内,并使数据具有零中心分布。在 LSTM 中,Tanh 函数主要用于对细胞状态(cell state)和候选状态进行处理。
具体来说:
- 细胞状态更新:Tanh 函数用于调节候选细胞状态(即潜在的新信息),让其值在
[-1, 1]
之间。这有助于平衡网络中的激活值,避免数值爆炸或消失,并且能够有效地表示正负信息。 - 输出部分的非线性变换:LSTM 最后的输出部分通常也是通过 Tanh 激活函数来处理的,这样可以确保输出值在
[-1, 1]
之间,从而更适合建模复杂的时间序列模式。
-
不同的任务:LSTM 中的门控机制和细胞状态更新的任务不同,分别需要不同的激活函数。Sigmoid 是一种门控函数,用于选择性地允许或抑制信息的流动,而 Tanh 则用于调节信息的范围并提供非线性变换。这两种激活函数各自适应不同的需求,确保 LSTM 能够更好地处理和记忆序列数据。
-
避免过度激活:如果仅使用 Sigmoid,输出范围太小(仅在
[0, 1]
之间),可能导致信息传递过程中逐步减弱,尤其在序列很长时容易导致梯度消失。如果仅使用 Tanh,虽然它能提供更广的输出范围([-1, 1]
),但在门控机制上表现不如 Sigmoid 明确有效。
4.12
梯度爆炸问题通常通过梯度裁剪来解决。梯度裁剪是在反向传播过程中,如果梯度的范数超过了一个预设的阈值,就将梯度缩放到这个阈值之内。这样可以防止梯度过大导致权重更新幅度过大,进而稳定训练过程。
长短期记忆网络(LSTM)和门控循环单元(GRU)是 RNN 的变种,专门设计来解决梯度消失问题。这些模型通过引入门控机制,允许信息在多个时间步之间有效地流动,从而缓解了梯度弥散问题。
计算attention score的时候,如何对padding做mask操作?
5.计算attention score的时候,如何对padding做mask操作?
7.大概讲一下Transformer的Encoder结构?
8.8.为何在获取输入词向量之后需要对矩阵乘以embedding size的开方?意义是什么?
9.介绍下transformer的位置编码?有什么意义和缺点?
位置编码的核心思想是为序列中的每个元素添加一组表示其在序列中位置的信息。通常情况下,位置编码会与输入的词嵌入(Word Embedding)相加,这样模型在处理输入时就能够感知每个元素的位置信息。
意义:
缺点:
固定位置编码在处理非常长的序列或需要更复杂位置关系的任务时可能表现不佳。
10.你还了解哪些关于位置编码的技术,各自的优缺点是什么?
混合位置编码(Hybrid Positional Encoding):将绝对位置编码和相对位置编码结合起来,试图同时利用两者的优势。比如,可以将绝对位置编码和相对位置编码的向量相加或拼接在一起,作为最终的位置编码。
可以同时捕捉元素的绝对位置和相对位置,从而在不同任务中表现更好。
复杂性增加,调优难度增加
随机位置编码:帮助模型更好的泛化到没见过的位置信息
导致模型的不稳定性
11.介绍一下transformer的残差结构以及意义
每个 子层的输入和输出之间加个残差连接 Y=g(x+f(x))
缓解梯度消失
简化优化过程
加速模型训练收敛
提升模型表达能力
12.为什么transformer使用LN而不是BN?Ln层在transformer哪个位置?
Transformer主要用于处理序列数据(如自然语言处理中的句子)。序列的长度可以变化,且不同批次中的序列长度可能并不相同。BN在进行归一化时依赖于批次中的样本统计数据(均值和方差),这在序列长度不统一时可能导致不稳定的结果。而LN更适合处理变长的序列,是对单个样本进行归一化,不受batch和序列长度影响
LN通常出现在每个子层(Sub-Layer)之后,但在添加残差连接(Residual Connection)之前。
LN处理保证了每层输出的稳定性和有效性,并且防止了残差连接导致的数值爆炸或消失问题
13.介绍一下BN以及它的优缺点?
加速模型训练过程并提高泛化能力
优:减少样本间分布差异,缓解梯度消失和爆炸,训练更稳定,加速训练过程、
一定程度上正则化 ,减少过拟合
BN减少了网络对参数初始化的敏感性,使得模型可以在更宽泛的初始化范围内有效地进行训练。
缺:batchsize敏感,特别是小的时候,均值和方差不准确,影响模型训练效果
对于rnn和注意力,序列长度变化,难应用
推理阶段,保存训练阶段的均值和方差,增加计算成本
14.描述一下transformer的前馈神经网络,使用了什么激活函数?相关优缺点?
线性变换+激活函数+线性变换+归一化
relu缺点;神经元死亡,输出分布不均匀,输出不受限制容易梯度爆炸
优点:计算简单,缓解梯度消失
ffn优点:简单有效,强大的特征提取能力
缺点:死亡relu影响模型性能,不如更加复杂的网络结构灵活
改进方案,使用其他激活函数leaky relu ,GELU
增加层结构
15.transformer的Encoder端和Decoder端是如何进行交互的?举一个seq2seq的例子进行说明
注意力机制
encoder:输入句子转化为上下文向量表示
decoder:第一个单词时,根据自注意力机制和encoder的上下文向量,第二个单词根据一个词和encoder的上下文向量以及自注意力机制和编码- 解码注意力机制
decoder利用encoder的上下文信息,通过注意力机制动态关注输入序列的不同部分,实现输入序列的理解和翻译
16.Decoder阶段的多头自注意力和encoder的多头自注意力有什么区别?
17.Transformer的并行化提现在哪个地方?
比较常用的几何变换方法主要有:翻转,旋转,裁剪,缩放,平移,抖动。值得注意的是,在某些具体的任务中,当使用这些方法时需要主要标签数据的变化,如目标检测中若使用翻转,则需要将gt框进行相应的调整。
比较常用的像素变换方法有:加椒盐噪声,高斯噪声,进行高斯模糊,调整HSV对比度,调节亮度,饱和度,直方图均衡化,调整白平衡等。