注释1111

news2025/1/23 13:36:00

3。3

Batch Normalization (BN) 的工作原理

Batch Normalization 是在处理一个 "批次" 数据时,计算这个批次内所有样本的平均值和方差,然后使用这些统计量对每个样本进行归一化。这就是说:

  • 批次(batch):比如,你一次性处理了 32 张图片,这 32 张图片就是一个批次。
  • 平均值和方差:BN 会计算这 32 张图片在每一个特征上的平均值和方差,然后用这些数值对每张图片进行归一化。

因为 BN 依赖于批次内的统计量(平均值和方差),它需要你在训练时保持一个相对较大的批次大小才能计算出稳定的平均值和方差。

此外,为了在模型推理(即测试或使用模型时)时保持效果,BN 还会在训练过程中记录下一个“全局的平均值和方差”(叫做 running mean 和 running variance)。这两个值在推理阶段会被用来归一化新的数据。

Layer Normalization (LN) 的工作原理

与 BN 不同,Layer Normalization 是在单个样本内进行归一化,不管你一次处理多少个样本。LN 只看一个样本里的所有特征,计算这个样本的平均值和方差,然后用这些数值对这个样本进行归一化。也就是说:

  • 单个样本:LN 不关心批次的大小,它只关注每个样本自身。
  • 特征维度:LN 在单个样本的所有特征上计算平均值和方差,并用它们来归一化这个样本。

因此,LN 不需要考虑 batch size 的大小,因为它每次只处理一个样本。也正因为如此,LN 也不需要像 BN 那样维护 running mean 和 running variance,因为它不依赖于不同样本之间的统计量。

总结

简单来说:

  • BN:需要考虑一个批次内的所有样本来计算平均值和方差,因此需要记录下这些统计量(running mean 和 running variance),而且 batch size 的大小很重要。
  • LN:只考虑单个样本的特征,不关心批次,也不需要记录任何统计量,因此不受 batch size 的影响。

LSTM引入了几种关键机制来缓解这些问题:

  • 遗忘门(Forget Gate):控制当前时刻是否需要“忘记”某些过去的信息。遗忘门的引入使得网络可以选择性地丢弃不重要的信息,从而避免旧信息对当前决策的过度影响。

  • 输入门(Input Gate):控制当前输入信息是否应该被写入到记忆单元中。这样可以确保只有重要的输入信息被保留下来,而不重要的信息被忽略。

  • 输出门(Output Gate):控制当前时刻的记忆单元应该输出哪些信息作为当前时刻的输出。

  • 记忆单元(Cell State):这是LSTM的核心结构,它允许信息跨越多个时间步的传递。通过遗忘门和输入门的调控,记忆单元可以保留长期的依赖关系,从而有效缓解梯度消失问题。

RNN在处理长序列时,由于它的结构特性,容易出现梯度消失或梯度爆炸的问题。这是因为RNN的隐藏状态是通过将上一个隐藏状态与当前输入相乘得到的,这种递归计算容易导致梯度的指数增长或衰减。

3. 为什么LSTM比RNN好

  • 梯度问题的解决:LSTM通过门控机制(遗忘门、输入门、输出门)和记忆单元的设计,使得它能够在训练过程中保持梯度的稳定性,从而有效避免梯度消失和梯度爆炸问题。

  • 长时间依赖的捕捉:由于LSTM的结构可以有效地记住长时间的依赖关系,因此在处理长序列数据时,它比普通的RNN表现得更好。

4.10

  • 如果不引入非线性激励函数,神经网络的每一层只是前一层的线性变换。即使堆叠了多层网络,整体上仍然是线性组合。因此,无论神经网络有多少层,最终的模型仍然是一个线性模型,无法表达复杂的非线性关系。

  •  通过引入非线性激励函数(如 ReLU、Sigmoid、Tanh 等),每一层输出的结果在经过非线性变换后,网络的表达能力大大增强。非线性函数允许网络层之间的组合变得更加复杂,从而能够表示更加复杂的映射关系。这种增强的表达能力使得神经网络可以解决复杂的任务

4.11

在这些门控结构中,Sigmoid 函数的作用就是输出一个接近 0 或 1 的值,用来“开”或“关”这些门。接近 1 表示允许信息通过,而接近 0 表示阻止信息通过。因此,Sigmoid 函数非常适合用于门控机制。

Tanh 函数的输出范围是 [-1, 1],它通常用于将数据压缩到一个较小的范围内,并使数据具有零中心分布。在 LSTM 中,Tanh 函数主要用于对细胞状态(cell state)和候选状态进行处理。

具体来说:

  • 细胞状态更新:Tanh 函数用于调节候选细胞状态(即潜在的新信息),让其值在 [-1, 1] 之间。这有助于平衡网络中的激活值,避免数值爆炸或消失,并且能够有效地表示正负信息。
  • 输出部分的非线性变换:LSTM 最后的输出部分通常也是通过 Tanh 激活函数来处理的,这样可以确保输出值在 [-1, 1] 之间,从而更适合建模复杂的时间序列模式。
  • 不同的任务:LSTM 中的门控机制和细胞状态更新的任务不同,分别需要不同的激活函数。Sigmoid 是一种门控函数,用于选择性地允许或抑制信息的流动,而 Tanh 则用于调节信息的范围并提供非线性变换。这两种激活函数各自适应不同的需求,确保 LSTM 能够更好地处理和记忆序列数据。

  • 避免过度激活:如果仅使用 Sigmoid,输出范围太小(仅在 [0, 1] 之间),可能导致信息传递过程中逐步减弱,尤其在序列很长时容易导致梯度消失。如果仅使用 Tanh,虽然它能提供更广的输出范围([-1, 1]),但在门控机制上表现不如 Sigmoid 明确有效。

4.12

梯度爆炸问题通常通过梯度裁剪来解决。梯度裁剪是在反向传播过程中,如果梯度的范数超过了一个预设的阈值,就将梯度缩放到这个阈值之内。这样可以防止梯度过大导致权重更新幅度过大,进而稳定训练过程。

长短期记忆网络(LSTM)和门控循环单元(GRU)是 RNN 的变种,专门设计来解决梯度消失问题。这些模型通过引入门控机制,允许信息在多个时间步之间有效地流动,从而缓解了梯度弥散问题。

计算attention score的时候,如何对padding做mask操作?

5.计算attention score的时候,如何对padding做mask操作?

7.大概讲一下Transformer的Encoder结构?

8.8.为何在获取输入词向量之后需要对矩阵乘以embedding size的开方?意义是什么?

9.介绍下transformer的位置编码?有什么意义和缺点?

位置编码的核心思想是为序列中的每个元素添加一组表示其在序列中位置的信息。通常情况下,位置编码会与输入的词嵌入(Word Embedding)相加,这样模型在处理输入时就能够感知每个元素的位置信息。

意义:

缺点:

固定位置编码在处理非常长的序列或需要更复杂位置关系的任务时可能表现不佳。

10.你还了解哪些关于位置编码的技术,各自的优缺点是什么?

混合位置编码(Hybrid Positional Encoding):将绝对位置编码和相对位置编码结合起来,试图同时利用两者的优势。比如,可以将绝对位置编码和相对位置编码的向量相加或拼接在一起,作为最终的位置编码。

可以同时捕捉元素的绝对位置和相对位置,从而在不同任务中表现更好。

复杂性增加,调优难度增加

随机位置编码:帮助模型更好的泛化到没见过的位置信息

导致模型的不稳定性

11.介绍一下transformer的残差结构以及意义

每个 子层的输入和输出之间加个残差连接 Y=g(x+f(x))

缓解梯度消失

简化优化过程

加速模型训练收敛

提升模型表达能力

12.为什么transformer使用LN而不是BN?Ln层在transformer哪个位置?

Transformer主要用于处理序列数据(如自然语言处理中的句子)。序列的长度可以变化,且不同批次中的序列长度可能并不相同。BN在进行归一化时依赖于批次中的样本统计数据(均值和方差),这在序列长度不统一时可能导致不稳定的结果。而LN更适合处理变长的序列,是对单个样本进行归一化,不受batch和序列长度影响

LN通常出现在每个子层(Sub-Layer)之后,但在添加残差连接(Residual Connection)之前。

LN处理保证了每层输出的稳定性和有效性,并且防止了残差连接导致的数值爆炸或消失问题

13.介绍一下BN以及它的优缺点?

加速模型训练过程并提高泛化能力

优:减少样本间分布差异,缓解梯度消失和爆炸,训练更稳定,加速训练过程、

一定程度上正则化 ,减少过拟合

BN减少了网络对参数初始化的敏感性,使得模型可以在更宽泛的初始化范围内有效地进行训练。

缺:batchsize敏感,特别是小的时候,均值和方差不准确,影响模型训练效果

对于rnn和注意力,序列长度变化,难应用

推理阶段,保存训练阶段的均值和方差,增加计算成本

14.描述一下transformer的前馈神经网络,使用了什么激活函数?相关优缺点?

线性变换+激活函数+线性变换+归一化

relu缺点;神经元死亡,输出分布不均匀,输出不受限制容易梯度爆炸

优点:计算简单,缓解梯度消失

ffn优点:简单有效,强大的特征提取能力

缺点:死亡relu影响模型性能,不如更加复杂的网络结构灵活

改进方案,使用其他激活函数leaky relu ,GELU

增加层结构

15.transformerEncoder端和Decoder端是如何进行交互的?举一个seq2seq的例子进行说明

注意力机制

encoder:输入句子转化为上下文向量表示

decoder:第一个单词时,根据自注意力机制和encoder的上下文向量,第二个单词根据一个词和encoder的上下文向量以及自注意力机制和编码- 解码注意力机制

decoder利用encoder的上下文信息,通过注意力机制动态关注输入序列的不同部分,实现输入序列的理解和翻译

16.Decoder阶段的多头自注意力和encoder的多头自注意力有什么区别?

17.Transformer的并行化提现在哪个地方?

比较常用的几何变换方法主要有:翻转,旋转,裁剪,缩放,平移,抖动。值得注意的是,在某些具体的任务中,当使用这些方法时需要主要标签数据的变化,如目标检测中若使用翻转,则需要将gt框进行相应的调整。

        比较常用的像素变换方法有:加椒盐噪声,高斯噪声,进行高斯模糊,调整HSV对比度,调节亮度,饱和度,直方图均衡化,调整白平衡等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2098580.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

局部整体(五)利用python绘制旭日图

局部整体(五)利用python绘制旭日图 旭日图( Sunburst Charts)简介 由于其形状像太阳光由内向外辐射出来,所以叫SunBurst(太阳爆发),中文也叫日出图。是多个层级的环图/饼图的拓展,可以显示多个…

GNU的编译工具链

文章目录 GNU的编译工具链 GNU的编译工具链 预编译器cpp 编译器 cc1 汇编器 as 链接器 ld 其中cpp和cc1属于gcc的一部分,as和ld属于binutils的一部分。

MySQL-如何定位慢查询

慢查询:页面加载过慢,接口压测响应时间过长(超过1s)

STM32基础篇:PWR

PWR简介 PWR(Power Control),为电源控制模块,负责管理STM32内部的电源供电部分,可以实现可编程电压监测器和低功耗模式的功能。 1、可编程电压监测器 简称PVD,可以监控VDD电源电压。当VDD下降到PVD阀值以…

yum安装nexus3详细教程分享

创建nexus用户,类似于这种中间件,尽量做到专户管理,当然如果你喜欢直接用root权限安装,更改配置文件也是可以支持的。但是实际上大多情况下,在生产环境是拿不到root权限的。 useradd -m nexus为nexus用户设置密码 pass…

AS-V1000视频监控平台客户端播放实时视频时,一些视频画面显示的时间不准确的解决方法

目录 一、背景说明 二、解决过程 1、查看设备时间 2、查看服务器时间 3、ntp介绍 1) ntp的概念 2) ntp的同步方式 3) ntp的优势 4、自动校准服务器和设备时间 1) 下载ntp 2) 修改ntp.conf 3) 重启ntp服务,自动校准时间 4) 国标重新接入设备自动同步时间 三、问题解…

zStorage在海光CPU架构上的性能调优

前言 随着"信创"的东风吹遍大江南北,各家公司都开始了国产化的适配道路。zStorage团队当然也没有缺席,去年我们适配了华为的鲲鹏架构,整体性能水平达到了Intel架构的70%以上。今年我们开始着力于海光CPU架构的适配。与鲲鹏架构相比…

【linux学习指南】权限管理与文件访问设置方法

文章目录 📝前言🌠 bc指令🌉uname –r指令 🌠重要的几个热键[Tab],[ctrl]-c, [ctrl]-d🌉关机 🌠命令扩展🌉shell命令以及运行原理 🌠Linux权限的概念🌠 Linux权限管理&am…

善用工具:开发与效率

文章目录 常用工具Visual Studio Code(VS Code)GitDockerPostman 效率对比VS Code 与 Sublime TextGit 与 SVNDocker 与虚拟机Postman 与 cURL 近来趋势人工智能与编程工具的结合低代码与无代码平台版本控制的演进准备自适应的开发环境与新兴技术的整合 …

Linux驱动(三):字符设备驱动之杂项

目录 一、Linux设备分类二、设备号与字符设备的编码方式1.设备号2.字符设备的编码方式 三、杂项字符设备驱动的初级编写 一、Linux设备分类 Linux下一切皆文件,所有的硬件设备在Linux应用层中都会被抽象成文件,所有对硬件设备的操作到应用层中&#xff0…

电脑垃圾箱删除的东西怎么找回来?介绍四个有效方法

在日常使用电脑的过程中,‌我们可能会不小心删除一些重要文件,‌而这些文件往往会被放入垃圾箱(‌回收站)‌。‌但有时候,‌我们可能会清空垃圾箱,‌导致这些文件看似永久丢失。‌其实,‌即使垃…

RFID光触发标签在汽车制造行业的深度应用

汽车制造行业作为现代工业的重要支柱,面临着日益激烈的市场竞争和不断提高的客户需求。传统的汽车制造管理方式在生产过程监控、零部件管理、质量追溯等方面存在诸多不足,而 RFID 光触发标签技术的出现为汽车制造行业的转型升级提供了有力的解决方案。 …

用友大易:以AI创新驱动招聘未来,引领2024 AIGC商业新趋势

更多内容前往个人网站:孔乙己大叔 在科技日新月异的今天,人工智能(AI)正以前所未有的速度渗透并重塑各行各业,其中,企业招聘领域也不例外。8月22日,由创业邦及2024 AGI商业趋势大会组委会主办的…

Mysql基础练习题 610.判断三角形 (力扣)

题目: 对每三个线段报告它们是否可以形成一个三角形 题目连接: https://leetcode.cn/problems/triangle-judgement/description/ 建表插入数据: Create table If Not Exists Triangle (x int, y int, z int) Truncate table Triangle in…

综合评价 | 基于层次-熵权-博弈组合法的综合评价模型(Matlab)

目录 效果一览基本介绍程序设计参考资料 效果一览 基本介绍 AHP层次分析法是一种解决多目标复杂问题的定性和定量相结合进行计算决策权重的研究方法。该方法将定量分析与定性分析结合起来,用决策者的经验判断各衡量目标之间能否实现的标准之间的相对重要程度&#…

SAP CN22释放物料的可用性的操作方法

SAP PS系统,CN22要释放网络的可用性(直发物料号的需求), 必输要操作路径正确,或者操作的界面正确,否则保存后无法释放可用性。 先进入作业一览 然后进入作业的组件,对网络赋值的界面&#xff0…

实训day41(9.2)

[rootlocalhost ~]# docker stop 30 //停止nginx容器 30 [rootlocalhost ~]# docker ps --all CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS …

银河麒麟v10-sp3 安装Tomcat10最新版

tomcat官方地址---Apache Tomcat - Apache Tomcat 10 Software Downloads 下载这个即可 Core: 含义:Core代表Tomcat的核心程序,即Tomcat的正式二进制发布版本。这是大多数用户做开发或学习时应该下载的版本。用途:包含了Tomcat服…

53.x86游戏实战-XXX获取人物状态

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 本次游戏没法给 内容参考于:微尘网络安全 工具下载: 链接:https://pan.baidu.com/s/1rEEJnt85npn7N38Ai0_F2Q?pwd6tw3 提…

一套高效、稳定的自卸车自动充电系统

随着工业自动化和智能化水平的不断提升,无人化作业已成为现代生产线的必然趋势。在山西地区的室内生产条件下,富唯智能凭借其在自卸车充电系统领域的深厚积累,成功设计出一套高效、稳定的自卸车自动充电系统,为工业领域带来革命性…