LayerNorm 在 Transformers 中对注意力的作用研究

LayerNorm 在 Transformers 中对注意力的作用研究

news2026/2/12 18:04:14

LayerNorm 一直是 Transformer 架构的重要组成部分。如果问大多人为什么要 LayerNorm，一般的回答是：使用 LayerNorm 来归一化前向传播的激活和反向传播的梯度。

其实这只是部分正确：Brody、Alon 和 Yahav 的一篇题为“On the Expressivity Role of LayerNorm in Transformer’s Attention”的新论文表明，LayerNorm 的作用要深得多。

LayerNorm其实为Transformer的Attention提供了两个重要的功能：

1、Projection：LayerNorm 帮助 Attention 设计一个注意力查询，这样所有的Key都可以平等地访问。它通过将Key向量投影到同一个超平面上来实现这一点，从而使模型能够将查询对齐。这样一来，Attention 组件就无需自己学习如何执行此操作。

论文包含了更精细的细节，比如论文中的这图片可以让我们进行可视化的查看

2、Scaling：这是更明显的部分，LayerNorm 重新缩放输入。但这种重新缩放做了什么呢？根据这篇论文潜在的好处是有两个好处：

每个Key都有可能获得“最高”关注

没有Key可以在“un-selectable”区域结束。

论文中的第二张图片在视觉上给了我们答案：

他们还注意到：Attention 之后的 LayerNorm仍然实现了相同的目的，但是作用是用于下一个 Attention 块的。并且在较大的 Transformer 模型中，这些好处似乎并不那么明显。论文认为这是由于更大尺寸的模型能够找到替代解决方案（也就是上面说的Attention不需要帮助而是自己学习到了如何执行这个操作）。

但是 LayerNorm 的确隐含地具有两个核心功能，即投影和缩放。这篇论文的细节要多得多，本文的总结并以直观的形式展示这两个主要发现，因为这论文中这两个图可以直接的表达这个内容。

如果你像详细阅读，论文地址：

https://avoid.overfit.cn/post/ac6bbc9b20fb4bd292009d0a5370bb46

作者：Less Wright

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/531148.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

LabVIEWCompactRIO 开发指南20 应用程序接口

LabVIEWCompactRIO 开发指南20 应用程序接口

应用程序接口 STMAPI如图4.24所示。对于基本操作，它由一个读VI和一个写VI组成。它还具有两个补充VI，以帮助传输元数据，但它们的使用不是强制性的。每个主要的VI都是多态，这意味着可以将它们与不同的传输层一起使用。本文档讨论基…

阅读更多...

WMS 窗口添加流程

WMS 窗口添加流程

WMS 系统窗口添加流程文章目录 WMS 系统窗口添加流程一. addView二. addView代码分析2.1 应用端调用WindowManager的addView2.2 WindowManager的实现类是WindowManagerImpl2.3 WindowManagerGlobal2.4 setView2.4 addToDisplayAsUser（Session.java）2.5 …

阅读更多...

韦东山Linux驱动入门实验班（2）hello驱动---驱动层与应用层通讯，以及自动产生设备节点

韦东山Linux驱动入门实验班（2）hello驱动---驱动层与应用层通讯，以及自动产生设备节点

前言 （1）学习韦东山老师的Linux，因为他讲的很精简，以至于很多人听不懂。接下来我讲介绍韦东山老师的驱动实验班的第二个Hello程序。 （2）注意，请先学习完视频再来看这个教程！本文仅供…

阅读更多...

Oracle数据库实现limit功能

Oracle数据库实现limit功能

Oracle数据库不支持mysql中limit功能，但可以通过rownum来限制返回的结果集的行数，rownum并不是用户添加的字段，而是oracle系统自动添加的。 #1、使查询结果最多返回前100行： SELECT * FROM TESTSDK WHERE rownum<10; #2、查询结…

阅读更多...

跟庄买股票得新技巧（2023.05.16）（绝密资料，只发一次）

跟庄买股票得新技巧（2023.05.16）（绝密资料，只发一次）

昨天学了一个跟庄买卖股票的得新技能统计昨天庄家异动的情况，按照行业分类（板块）板块对涨幅进行排序，涨幅排名分前三的是，龙头一，龙头二，龙头三买卖规则：看龙一，玩龙二…

阅读更多...

如何使用Sentinel做流量控制？此文将附代码详细介绍Sentinel几种限流模式

如何使用Sentinel做流量控制？此文将附代码详细介绍Sentinel几种限流模式

前言：大家好，我是小威，24届毕业生，在一家满意的公司实习。本篇文章将详细介绍Sentinel的两种限流模式，由于篇幅原因，后续文章将详细介绍Sentinel的其他三种。如果文章有什么需要改进的地方还请大佬不吝赐教…

阅读更多...

SCS【25】单细胞细胞间通信第一部分细胞通讯可视化（CellChat）

SCS【25】单细胞细胞间通信第一部分细胞通讯可视化（CellChat）

桓峰基因公众号推出单细胞生信分析教程并配有视频在线教程，目前整理出来的相关教程目录如下： Topic 6. 克隆进化之 Canopy Topic 7. 克隆进化之 Cardelino Topic 8. 克隆进化之 RobustClone SCS【1】今天开启单细胞之旅，述说单细胞测序的前世…

阅读更多...

Servlet进阶API、监听器与过滤器

Servlet进阶API、监听器与过滤器

过滤器和监听器是Servlet规范里的两个高级特性， 过滤器的作用是通过对request、response 的修改实现特定的功能，例如请求数据字符编码、IP地址过滤、异常过滤、用户身份认证等。监听器的作用是用于监听Web程序中正在执行的程序， 根据发生的事…

阅读更多...

罗德与施瓦茨Rohde Schwarz FSW8 2HZ-8GHZ信号分析仪FSW13收购

罗德与施瓦茨Rohde Schwarz FSW8 2HZ-8GHZ信号分析仪FSW13收购

罗德与施瓦茨Rohde & Schwarz FSW8 2HZ-8GHZ信号分析仪附加功能： 10 kHz 偏移（1 GHz 载波）时的低相位噪声为 –137 dBc (1 Hz) 用于 WCDMA ACLR 测量的 –88 dBc 动态范围（带噪声消除） 高达 2 GHz 的分析带宽 &…

阅读更多...

Camtasia2023.0.1CS电脑录制屏幕动作工具新功能介绍

Camtasia2023.0.1CS电脑录制屏幕动作工具新功能介绍

Camtasia Studio是一款专门录制屏幕动作的工具，它能在任何颜色模式下轻松地记录屏幕动作，包括影像、音效、鼠标移动轨迹、解说声音等等，另外，它还具有即时播放和编辑压缩的功能，可对视频片段进行剪接、添加转场效果。…

阅读更多...

云原生背景下如何配置 JVM 内存

云原生背景下如何配置 JVM 内存

image.png 背景前段时间业务研发反馈说是他的应用内存使用率很高，导致频繁的重启，让我排查下是怎么回事； 在这之前我也没怎么在意过这个问题，正好这次排查分析的过程做一个记录。首先我查看了监控面板里的 Pod 监控：…

阅读更多...

指令的运行原理及Linux权限解读

指令的运行原理及Linux权限解读

目录一. 指令的运行原理二. Linux下的用户 2.1 Linux的用户分类 2.2 用户之间的切换三. 文件权限的概念 3.1 文件类型 3.2 文件的权限 3.3 ls -l 打印文件全部信息的解读四. 权限的修改五. 拥有者和所属组的修改六. 起始权限问题和权限掩码umask 七. 目录文件…

阅读更多...

ArcGIS之克里金插值教学

ArcGIS之克里金插值教学

本文来自：GIS科研实验室基本概念 1.什么是克里金插值？ 克里金插值又称空间局部插值法，是以半变异函数理论和结构分析为基础，在有限区域内对区域化变量进行无偏最优估计的一种方法，是地统计学的主要内容之一。南非矿产…

阅读更多...

【消息中间件】RocketMQ消息重复消费场景及解决办法

【消息中间件】RocketMQ消息重复消费场景及解决办法

文章目录前言那么在什么情况下会发生RocketMQ的消息重复消费呢？消息重复消费的场景大概可以分为生产者端重复消费和消费者端重复消费，那么如何来解决消息的重复消费呢？既然在生产者做幂等性的方案都不是特别靠谱，那就再在消费者端…

阅读更多...

信创办公–基于WPS的EXCEL最佳实践系列（宏的录制）

信创办公–基于WPS的EXCEL最佳实践系列（宏的录制）

信创办公–基于WPS的EXCEL最佳实践系列 （宏的录制） 目录应用背景操作步骤1、宏的录制启用2、宏的使用3、宏的保存4、宏的禁用应用背景宏是一个自动化完成重复性工作的工具，使用宏可以提高我们的工作效率，那应该怎样使用宏这一…

阅读更多...

日志与时间戳，客户端与服务器端，打包压缩解压解包介绍，date，cal，zip，unzip，tar指令等

日志与时间戳，客户端与服务器端，打包压缩解压解包介绍，date，cal，zip，unzip，tar指令等

日志与时间戳计算机世界里面，时间其实很重要的，首先我们需要有日志这个概念，这个日志其实就跟日记一样，那么在日记里面的话就会有时间。时间真的非常关键，比方在出现问题的时候去找到这个问题出现的时间点&#xff0…

阅读更多...

EEPROM读写测试实验(主要记录IIC通信协议)

EEPROM读写测试实验(主要记录IIC通信协议)

一、简介 EEPROM，电可擦除可编程只读存储器，是一个非易失性的存储器件。RAM： 随机访问存储器，可读也可写，断电不保存数据，常用的RAM有ddr3、SDRAM。ROM仅支持读，不可写，但断电可以保…

阅读更多...

4 通道3.2GSPS（或者配置成2 通道6.4GSPS）采样率的12 位AD 采集FMC+子卡模块

4 通道3.2GSPS（或者配置成2 通道6.4GSPS）采样率的12 位AD 采集FMC+子卡模块

板卡概述 FMC_XM134 是一款4 通道3.2GSPS（或者配置成2 通道6.4GSPS）采样率的12 位AD 采集FMC子卡模块，该板卡为FMC标准，符合VITA57.4 规范，可以作为一个理想的IO 模块耦合至FPGA 前端，射频模拟信号数字化后…

阅读更多...

外网远程访问公司内网用友畅捷通T财务软件 - 远程办公

外网远程访问公司内网用友畅捷通T财务软件 - 远程办公

文章目录前言1.本地访问简介2. cpolar内网穿透3. 公网远程访问4. 固定公网地址前言用友畅捷通T适用于异地多组织、多机构对企业财务汇总的管理需求；全面支持企业对远程仓库、异地办事处的管理需求；全面满足企业财务业务一体化管理需求。企业一般将其…

阅读更多...

老胡的周刊（第090期）

老胡的周刊（第090期）

老胡的信息周刊[1]，记录这周我看到的有价值的信息，主要针对计算机领域，内容主题极大程度被我个人喜好主导。这个项目核心目的在于记录让自己有印象的信息做一个留存以及共享。 🎯 项目 privateGPT[2] 为保证数据私密性&#xff0c…

阅读更多...

推荐文章

最新文章