N10 - NLP中的注意力机制

N10 - NLP中的注意力机制

news2026/2/12 2:34:58

🍨 本文为🔗365天深度学习训练营中的学习记录博客
🍖 原作者：K同学啊

目录

1. 注意力机制是什么
2. 注意力实现步骤
- 0. 准备隐藏状态
- 1. 获取每个编码器隐藏状态的分数
- 2. 通过softmax层运行所有分数
- 3. 通过softmax得分将每个编码器的隐藏状态相乘
- 4. 向量求和
- 5. 将上下文向量输入编码器
- 最后来一个总的动图
总结与心得体会

1. 注意力机制是什么

在上节的seq2seq框架中，让两个循环神经网络（RNN）构成了编码器-解码器结构。其中编码器逐个读取输入词，获得固定维度的向量表示，然后解码器基于这些输入逐个提取输出词。
RNN构成编码器-解码器结构
上面的结构的问题在于，解码器从编码器接受的唯一信息是 最后一个编码器隐藏状态，这是类似于对输入的序列进行总结。

所以对于较长的输入文本，结构会变成如下图所示
较长文本的RNN结构
如果仍然希望解码器仅仅利用最后一个编码器的隐藏状态的输出就输出完成的译文，肯定是不太合理地，会导致灾难性遗忘。

所以我们如果可以向解码器提供每个编码器时间步的向量表示，而不是只把最终的给它，是不是就能改进翻译的结果呢，这就需要引入注意力机制。

注意力机制是编码器和解码器之间的接口，它为解码器提供每个编码器隐藏状态的信息（最后一层的除外）。通过这个设置，模型能够有选择地侧重输入序列中游泳的部分，有助于模型更高效地处理输入长句。

注意力机制的本质：通过为每个单词分配值，注意力机制可以为不同单词分配不同的注意力。然后利用softmax对编码器隐藏状态进行加权求和，得到上下文向量（Context Vector）。

注意力层的实现可以分成6个步骤。

2. 注意力实现步骤

0. 准备隐藏状态

首先需要准备一个解码器隐藏状态和所有可用的编码器的隐藏状态
状态准备

1. 获取每个编码器隐藏状态的分数

分数（标量）通过评分函数获得。图示是解码器和编码器隐藏状态之间的点积。
计算隐藏状态的分数

2. 通过softmax层运行所有分数

将上一步的得分放到softmax层，这些得分代表注意力分布。
通过softmax计算注意力分布

3. 通过softmax得分将每个编码器的隐藏状态相乘

将每个编码器隐藏状态与对应的softmax得分相乘，获得alignment向量

4. 向量求和

将所有的alignment向量相加，生成上下文向量(Context Vector)

5. 将上下文向量输入编码器

最后一步就是把生成的上下文向量给编码器作为输入使用
把上下文向量给编码器

最后来一个总的动图

注意力计算的过程

总结与心得体会

在没有本节学习之前，我一直以为注意力机制就是Transformer中使用的自注意力机制。通过注意力机制的过程学习，我才发现，自注意力机制只是注意力机制中的一种，并且Transformer这种也只是自注意力机制的一种实现形式。宏观上来看，自注意力机制可以用在更广泛的场景中，比如计算一下特征图每层之间的注意力分数，叫做通道注意力机制。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2086861.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

elasticsearch之我不会的

elasticsearch之我不会的

elasticsearch之我不会的如何安装，在此不谈，开门见山 1.概念理解 Relational DBelasticsearch说明表tableindex索引(index)，就是文档的集合，类似数据库的表(table)行rows文档documents文档（Document）&a…

阅读更多...

51.x86游戏实战-XXX返回城镇的实现

51.x86游戏实战-XXX返回城镇的实现

免责声明：内容仅供学习参考，请合法利用知识，禁止进行违法犯罪活动！ 本次游戏没法给内容参考于：微尘网络安全工具下载： 链接：https://pan.baidu.com/s/1rEEJnt85npn7N38Ai0_F2Q?pwd6tw3 提…

阅读更多...

使用智谱AI大模型翻译视频字幕

使用智谱AI大模型翻译视频字幕

不久前，国内的头部大模型厂商智谱 AI ，刚刚推出了 glm-4-0520 模型，该模型被认为是当前平台最先进的模型，具备 128k 的上下文长度，并且相较于前一代模型，指令遵从能力大幅提升 18.6%。可以看出，…

阅读更多...

一键开启，精彩即现！极简设计录屏软件大盘点

一键开启，精彩即现！极简设计录屏软件大盘点

如果你想要用一款小巧的录屏工具，第一时间是不是就想到了ocam录屏，现在这类的简便录屏工具越来越多了，如果你想要换一个不妨接着往下看吧。 1.福昕录屏大师链接：www.foxitsoftware.cn/REC/ 这个软件的界面看起来就很好操作&am…

阅读更多...

《HelloGitHub》第 101 期

《HelloGitHub》第 101 期

兴趣是最好的老师，HelloGitHub 让你对编程感兴趣！ 简介 HelloGitHub 分享 GitHub 上有趣、入门级的开源项目。 github.com/521xueweihan/HelloGitHub 这里有实战项目、入门教程、黑科技、开源书籍、大厂开源项目等，涵盖多种编程语言 Python、…

阅读更多...

测试 UDP 端口可达性的方法

测试 UDP 端口可达性的方法

前言： UDP (User Datagram Protocol) 是一种无连接的传输层协议，它不像 TCP 那样提供确认机制来保证数据包的可靠传输。因此，测试 UDP 端口的可达性通常需要一些特殊的方法，因为传统的端口扫描工具（如 nmap&#xff0…

阅读更多...

【开源 Mac 工具推荐之 5】tldr：简洁明了的命令行手册显示工具

【开源 Mac 工具推荐之 5】tldr：简洁明了的命令行手册显示工具

简介在大家日常在 macOS/Linux 上使用 Shell 的时候，常常会遇到一些不太熟悉的命令行指令，为此我们一般会查看一下该命令的使用手册（指南）。往往，大家都会使用 man <command> 这样一个非常传统的指令。但 man …

阅读更多...

YOLOv8改进 | 融合改进 | C2f融合Faster-GELU模块提升检测速度【完整代码 + 主要代码解析】

YOLOv8改进 | 融合改进 | C2f融合Faster-GELU模块提升检测速度【完整代码 + 主要代码解析】

秋招面试专栏推荐 ：深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 💡💡💡本专栏所有程序均经过测试，可成功执行💡💡💡 专栏目录 ：《YOLOv8改进有效…

阅读更多...

【科研】如何给自己的模型起名字，起名网站

【科研】如何给自己的模型起名字，起名网站

1.模型起名字的网站起名

阅读更多...

Unity URPShader支持多光源处理

Unity URPShader支持多光源处理

//声明变体并且引用文件 #pragma shader_feature _ _ADDITIONAL_LIGHTS_VERTEX _ADDITIONAL_LIGHTS #include "Packages/com.unity.render-pipelines.universal/ShaderLibrary/Lighting.hlsl" //在数据结构体中声明需要使用的数据 struct Attributes {float4 posit…

阅读更多...

如何写一份简单的3C产品说明书？五步让你留住客源

如何写一份简单的3C产品说明书？五步让你留住客源

在撰写3C（计算机、通信、消费电子）产品说明书时，清晰、简洁且全面的信息传递至关重要。本文将首先介绍产品说明书的基本结构，随后探讨视觉阅读的重要性，并通过实例展示如何撰写一份优秀的产品说明书。最后，…

阅读更多...

SpringBoot2：学SpringBoot前的知识准备-用IDEA创建传统的webapp工程，并整合SpringMVC

SpringBoot2：学SpringBoot前的知识准备-用IDEA创建传统的webapp工程，并整合SpringMVC

1、IDEA创建工程基于Maven模板创建的SpringMVC工程工程创建好后，只有webapp目录这里，我们需要手动创建java目录和resources配置文件目录创建好后，配置下目录属性最终结构至此，工程就创建好了 2、配置Tomcat 参考&am…

阅读更多...

LabVIEW中10μs方波生成问题

LabVIEW中10μs方波生成问题

在LabVIEW中使用NI PCIe-6353卡生成并控制10μs级别的方波输出可能遇到频率调整的问题。下面将详细分析常见问题的原因，如采样率设置、时钟源配置、波形生成方式等，并提供具体的解决方案，帮助用户成功生成并调整高精度方波信号。为了在LabVI…

阅读更多...

孙悟空求药的深刻反思

孙悟空求药的深刻反思 - 孔乙己大叔引言：孙悟空的求药之旅在古老的神话故事中，孙悟空为了拯救乌鸡国国王的生命，不惜跨越千山万水，前往太上老君的仙宫，祈求那传说中的九转还魂丹。面对孙悟空那看似贪婪的一千…

阅读更多...

【案例65】WebSphere启动比tomcat启动慢的测试

【案例65】WebSphere启动比tomcat启动慢的测试

以下为多次测试的一些结论，谨慎使用，请一定做好测试后在使用。 1.在原先慢的WAS环境下，添加-Dsun.reflect.inflationThreshold15,可以有效提升was下的响应速度，和Tomcat下速度相当，但该参数15的情况我们Tomcat以前还没…

阅读更多...

FastGPT：利用大模型重新定义传统知识库

FastGPT：利用大模型重新定义传统知识库

引言传统知识库的痛点传统知识库广泛应用于企业文档管理、客户支持等场景，但随着信息量和复杂度的增加，存在以下显著问题： 数据难整合： 结构化与非结构化数据分散，更新维护成本高。检索不精准： 依赖关…

阅读更多...

day03-面向对象-内部类泛型常用API

day03-面向对象-内部类泛型常用API

一、内部类内部类是类中的五大成分之一（成员变量、方法、构造器、代码块、内部类） 如果一个类定义在另一个类的内部，这个类就是内部类。场景：当一个类的内部，包含了一个完整的事物，且这个事物没有必要单…

阅读更多...

Go发布自定义包

Go发布自定义包

1、初始化go.mod go mod init github.com/xumeng03/images2、编写包内容这里只是一个简单的压缩jpg/jpeg图片例子，代码参考 https://github.com/disintegration/imaging 2.1、fs.go package imagesimport ("image""io""os""p…

阅读更多...

利用通义灵码实现我的第一次开源贡献

利用通义灵码实现我的第一次开源贡献

作者：重庆邮电大学计算机学院李逸雄结缘开源最早了解开源是从学校的兴趣组织开始的。2023 年 10 月 21 日，openSUSE 亚洲峰会在我们学校召开，这次会议汇聚了许多来自 openSUSE 社区贡献者以及对开源感兴趣的爱好者们。我第一次知道有这么…

阅读更多...

postman使用记录

postman使用记录

输入密码，地址然后输入格式为json 在 body里写入传参然后点击发送即可

阅读更多...

推荐文章

最新文章