LayerNormalization

news2025/7/13 3:19:45

目录

1.BN的问题

1.1 BN与batch size

1.2 BN与RNN

2.LN详解

2.1 MLP中的LN

2.2 RNN中的LN

2.3 LN与ICS和损失平面平滑

BN不适用于RNN等动态网络和batchsize较小的时候效果不好。LayerNormalization的提出有效的解决BN的这两个问题。LN和BN不同点是归一化的维度是互相垂直的，如图1所示。在图中N表示样本轴，C表示通道轴，F是每个通道的特征数量。BN如右侧所示，它是取不同样本的同一个通道的特征做郭奕华；LN则是如左侧所示，它取得是同一个样本的不同通道做归一化。

图1:LN(左)和BN(右)对比示意图

1.BN的问题

1.1 BN与batch size

如图1右侧部分，BN是按照样本数计算归一化统计量的，当样本数很少时，比如说只有4个。这四个样本的均值和方差便不能反映全局的统计分布信息，所以基于少量样本的BN的效果会变得很差。在一些场景中，比如说硬件资源受限、在线学习等场景，BN是非常不适用的。

1.2 BN与RNN

RNN可以展开成一个隐藏层共享参数的MLP，随着时间片的增多，展开后的MLP的层数也在增多，最终层数由输入数据的时间片的数量决定，所以RNN是一个动态的网络。

在一个batch中，通常各个样本的长度都是不同的，当统计到比较靠后的时间片时，例如图2中t>4时，这时只有一个样本还有数据，基于这个样本的统计信息不能反映全局分布，所以这时BN的效果并不好。

另外如果在测试时我们遇到了长度大于任何一个训练样本的测试样本，我们无法找到保存的归一化统计量，所以BN无法运行

图2：RNN中使用BN会导致batchsize过小的问题

2.LN详解

2.1 MLP中的LN

通过第一节的分析，我们知道BN的两个缺点的产生原因均是因为计算归一化统计量时计算的样本量太少。LN是一个独立于batch size的算法，所以无论样本数多少都不会影响参与LN计算的数据量，从而解决BN的两个问题。LN的做法如图1左侧所示：根据样本的特征数做归一化。

先看MLP中的LN。设H是一层中隐藏节点的数量，ｌ是MLP的层数，我们计算LN的归一化统计量μ和σ：

注意上面统计量的计算是和样本数量没有关系的，它的数量只取决于隐藏节点的数量，所以只要隐层节点的数量足够多，我们就能保证LN的归一化统计量足够具有代表性。通过 $\mu^l,\sigma^l$ 可以得到归一化后的值 $\hat{a}^l$ :

在LN中我们也需要一组参数来保证归一化操作不会破坏之前的信息，在LN中这组参数叫做增益(gain)g和偏置(bias) b（等同于BN中的γ和β)，g初始化为1，b初始化为0。假设激活函数为f,最终LN的输出为:

我们将式子合并，并忽略参数l，我们有：

2.2 RNN中的LN

在RNN中，我们可以非常简单的在每个时间片中使用LN，而且在任何时间片我们都能归一化统计量统计的是H个节点的信息。对于RNN时刻t时的节点，其输入时t-1时刻的隐藏状态 $h^{t-1}$ 和t时刻的输入数据 $x_t$ ，可以表示为

接着我们便可以在 $a^t$ 上采用同样的归一化过程:

2.3 LN与ICS和损失平面平滑

LN也能减轻ICS，加速收敛速度。LN不需要额外维护一个对训练样本均值方差的统计，每次只需要在句子范围内计算即可。

模型优化之Layer Normalization - 知乎

层标准化详解（Layer Normalization）_十里清风的博客-CSDN博客

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/401299.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

SQL总结-排名的使用

SQL总结-排名的使用

##一、通过排名或者范围条件连表筛选特殊行第一行最后一行区间（第一行到第二行或者连续区间）找中位数通过排名进行分组或者连续区间 ######1.使用条件筛选连表找区间 Employee 表保存了一年内的薪水信息。请你编写 SQL 语句，来查询每个…

阅读更多...

基于ChatRWKV智能问答和内容创作

基于ChatRWKV智能问答和内容创作

ChatRWKV是对标ChatGPT的开源项目，希望做大规模语言模型的Stable Diffusion，测试很一段时间确实很像ChatGPT，从使用方法和内容结果上都很相似，但是还有一些差异。文章目录准备工作环境配置创建虚拟环境激活虚拟环境pip安装匹配版本ChatRWKV 使用模型替换常用参数设置使用…

阅读更多...

手机磁吸背夹散热器制冷快速方案

手机磁吸背夹散热器制冷快速方案

手机散热器是什么？手机散热器分为几种类型？手机散热的方式都有哪些？ 因为经常玩游戏，手机发热得厉害，都可以煎鸡蛋了，心想着要买个东西给手机散散热，没想到还真的有手机散热器。不知道手机散…

阅读更多...

mysql锁分类大全

mysql锁分类大全

前言为什么会出现锁 MySQL中的锁是为了保证并发操作的正确性和一致性而存在的。当多个用户同时对同一份数据进行操作时，如果不加控制地进行读写操作，就可能导致数据不一致的问题。例如，当多个用户同时对同一行数据进行写操作时&#xff…

阅读更多...

uniapp使用webview嵌入vue页面及通信

uniapp使用webview嵌入vue页面及通信

最近刚做的一个需求，web端（Vue）使用了FormMaking库，FormMaking是一个拖拉拽的动态设计表单、快速开发的一个东西，拖拽完之后最终可以导出一个很长的json，然后通过json再进行回显，快速开发&#…

阅读更多...

【Spring Boot】Spring Boot经典面试题分享

【Spring Boot】Spring Boot经典面试题分享

文章目录1. SpringBoot 简介2. SpringBoot 的优缺点3. SpringBoot 固定版本4. SpringBoot 的使用方式5. SpringBoot 自动配置原理6. PropertySource7. ImportResource8. springboot 的 profile 加载9. SpringBoot 激活指定 profile 的几种方式10. SpringBoot 项目内部配置文件加…

阅读更多...

项目中用到的责任链模式

项目中用到的责任链模式

目录 1.什么是责任链？它的原理是什么？ 2.应用场景 3.项目中的应用传送门：策略模式，工作中你用上了吗？ 1.什么是责任链？它的原理是什么？ 将请求的发送和接收解耦，让多个接收对象…

阅读更多...

NetApp AFF A900：针对任务关键型应用程序的解决方案

NetApp AFF A900：针对任务关键型应用程序的解决方案

NetApp AFF A900：适用于数据中心的解决方案 AFF A 系列中的 AFF A900 高端 NVMe 闪存存储功能强大、安全可靠、具有故障恢复能力，提供您为任务关键型企业级应用程序提供动力并保持数据始终可用且安全所需的一切。 AFF A900：针对任务关键型应…

阅读更多...

关于BLE的一些知识总结

关于BLE的一些知识总结

数据包长度对于BLE4.0/4.1来说，一个数据包的有效载荷最大为20字节对于BLE4.2以上，数据包的有效载荷扩大为251字节传输速率在不考虑跳频间隔的情况下，最大传输速率为：1）BLE4.0/4.1的理论吞吐率为39kb/s；2&am…

阅读更多...

523-（ZCU102E的pin兼容替代卡）基于 XCZU15EG的双 FMC通用信号处理板

523-（ZCU102E的pin兼容替代卡）基于 XCZU15EG的双 FMC通用信号处理板

（ZCU102E的pin兼容替代卡） 基于 XCZU15EG的双 FMC通用信号处理板一、板卡概述本板卡基于Xilinx Zynq Ultrascale MPSOC系列SOC XCZU15EG-FFVB1156架构，PS端搭载一组64-bit DDR4，容量32Gb，最高可稳定运行在240…

阅读更多...

solidworks调用toolbox出现未配置怎么办

solidworks调用toolbox出现未配置怎么办

问题背景本人最近在跟随B站恶补solidworks，学习链接如下 https://www.bilibili.com/video/BV1iw411Z7HZ/?spm_id_from333.337.search-card.all.click 但是在学习的过程中遇到了这样的问题智能点现在配置，正常的应该是这样的扒拉了网上所有的解决办…

阅读更多...

04从零开始学Java之可能是最详细的Java环境配置教程

04从零开始学Java之可能是最详细的Java环境配置教程

作者：孙玉昌，昵称【一一哥】，另外【壹壹哥】也是我哦CSDN博客专家、万粉博主、阿里云专家博主、掘金优质作者前言在上一篇文章中，壹哥给大家重点讲解了Java实现跨平台的原理，不知道你现在有没有弄清楚呢？如…

阅读更多...

window vscode编辑appsmith源码

window vscode编辑appsmith源码

前言本来最开始用的idea打开wsl中的appsmith，卡得一批。最后没办法，用自己的电脑装成ubuntu server，然后vscode的远程开发对appsmith源码进行编辑。如果自己电脑内存16个G或者更大可能打开wsl中的估计会还好，我公司电脑只有8g所…

阅读更多...

Virtualbox Vagrant 迁移与恢复

Virtualbox Vagrant 迁移与恢复

前言 window10电脑重新安装C盘。重装前正常使用的VirtualBox虚拟机，启动失败，先是启动报各种找不到{uuid.vmdk}文件的错误，使用原来的虚拟机配置文件虽然能正常启动，但是关闭虚拟机后，xxx.vbox配置文件的快照顺序又被…

阅读更多...

MySQL主从复制，读写分离

MySQL主从复制，读写分离

目录一、MySQL主从复制介绍 MySQL复制过程分成三步二、主库配置master 1、步骤1 2、第二步:重启Mysql服务 3、第三步：登录Mysql数据库，执行下面SQL 4、第四步：登录Mysql数据库，执行下面SQL，记录下结果中File和…

阅读更多...

vue2 使用 cesium 【第二篇-相机视角移动+添加模型】

vue2 使用 cesium 【第二篇-相机视角移动+添加模型】

vue2 使用 cesium 【第二篇-相机视角移动添加模型】搞了一阵子 cesium，小白入门，这东西很牛逼，但是感觉这东西好费劲啊！网上资料不多，每个人的用法又不一样，操作起来真的是绝绝子。之前写了一篇 vue2 使用…

阅读更多...

【C#进阶】C# 反射

【C#进阶】C# 反射

序号系列文章11【C#基础】C# 预处理器指令12【C#基础】C# 文件与IO13【C#进阶】C# 特性文章目录前言1，反射的概念2，使用反射访问特性3，反射的用途4，反射的优缺点比较4.1 优点：4.2 缺点：5，System…

阅读更多...

吲哚菁绿-巯基,ICG-SH,科研级别试剂，吲哚菁绿可用于测定心输出量、肝脏功能、肝血流量,和对于眼科血管造影术。

吲哚菁绿-巯基,ICG-SH,科研级别试剂，吲哚菁绿可用于测定心输出量、肝脏功能、肝血流量,和对于眼科血管造影术。

ICG-THIOL,吲哚菁绿-巯基中文名称：吲哚菁绿-巯基英文名称：ICG-THIOL 英文别名：ICG-SH 性状：绿色粉末溶剂：溶于二氯甲烷等其他常规有机溶剂稳定性：冷藏保存，避免反复冻融。存储条件&…

阅读更多...

搭建SpringBoot多模块微服务项目脚手架(二)

搭建SpringBoot多模块微服务项目脚手架(二)

搭建SpringBoot多模块微服务项目脚手架(二) 文章目录搭建SpringBoot多模块微服务项目脚手架(二)1.概述2.封装 MybatisPlus2.1.封装MybatisPlus1.安装依赖2.安装lombok插件3.配置数据库链接信息2.2.创建公共子模块1.创建公共模块common2.创建common_utils模块3.创建service_base…

阅读更多...

【C++知识点】文件操作

【C++知识点】文件操作

✍个人博客：https://blog.csdn.net/Newin2020?spm1011.2415.3001.5343 📚专栏地址：C/C知识点 📣专栏定位：整理一下 C 相关的知识点，供大家学习参考~ ❤️如果有收获的话，欢迎点赞👍…

阅读更多...

推荐文章

最新文章