Seq2Seq增加attention机制的原理说明

Seq2Seq增加attention机制的原理说明

news2026/2/15 18:33:10

以中文翻译为英文为例讲解seq2seq的原理，以及增加attention机制之后的seq2seq优化版本。

文本参考:

Pytorch实现Seq2Seq（Attention）字符级机器翻译_pytorch seq2seq_孤独腹地的博客-CSDN博客

https://github.com/datawhalechina/learn-nlp-with-transformers/blob/main/docs/%E7%AF%87%E7%AB%A02-Transformer%E7%9B%B8%E5%85%B3%E5%8E%9F%E7%90%86/2.1-%E5%9B%BE%E8%A7%A3attention.md

一、seq2seq

步骤：

1、将中文“我是学生”进行分词，分别得到“我”，“是”，“学生”

2、每个单词通过word2vec转化为向量

3、初始化RNN的隐藏层向量为h_init

4、Encode阶段：将h_init和input(“我”的词向量)输入RNN族神经网络，得到h1。再将h1和input(“是”的词向量)输入RNN得到h2。直到得到最后的h3，将最后一个hidden即h3作为context

5、Decode阶段：将context作为decode阶段RNN的初始隐藏层向量，与input(<bos>开始的词向量)输入RNN族神经网络，得到h1’。h1’再输入FC网络，再经过softmax得到数据分布，取argmax对应的单词即为预测的第一个单词。然后再将h1’和input(“I”的词向量)输入RNN得到h2’后再得到预测的第二个单词。直到最后预测的单词为结束单词即“<EOS>”。

存在的问题：一个单词向量很难包含所有文本序列的信息。比如RNN处理到第500个单词的时候，很难再包含1-499个单词中的所有信息了。

于是我们通过增加attention机制解决上述问题。

二、seq2seq增加attention机制

步骤：

1、将中文“我是学生”进行分词，分别得到“我”，“是”，“学生”

2、每个单词通过word2vec转化为向量

3、初始化RNN的隐藏层向量为h_init

4、Encode阶段：将h_init和input(“我”的词向量)输入RNN族神经网络，得到h1。再将h1和input(“是”的词向量)输入RNN得到h2。直到得到最后的h3。将h1+h2+h3一起作为encode的输出。

5、Decode阶段：

（1）将h3作为RNN的hidden_init，与input(<bos>的词向量)输入RNN得到输出h1‘。

（2）h1’与encode的输出(h1、h2、h3)分别进行点积得到3个weight值

（3）将weight值再乘以encode的输出(h1、h2、h3)得到最终的context

（4）将context与h1’进行concat作为FC的输入

（5）输入FC网络，再经过softmax得到数据分布，取argmax对应的单词即为预测的第一个单词。

（6）重复以上1~5步直到预测单词为”<eos>”

以上标红部分为与未加attention的区别部分。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/156854.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Dbeaver连接ES问题一站解决

Dbeaver连接ES问题一站解决

前言最近几天一直做ES的TPS测试，每次看数据ES的数据都在嫌麻烦（在postman指定索引通过url请求查看数据）。最后决定还是整整Dbeaver连接ES。一、当前境况 1、ES版本比较老，还是6.4.2的 2、Dbeaver直接连接已经提示支持8.x版本 3…

阅读更多...

【自学Python】Python格式化输出

【自学Python】Python格式化输出

Python格式化输出 Python格式化输出教程在 Python 中，print() 函数用于打印相应的信息到终端控制台，同时我们还可以通过 print() 函数的 % 占位符，来对输出进行格式化，即按照我们指定的格式进行输出。 Python格式化输出占位符…

阅读更多...

灵能传输(思维贪心)

灵能传输(思维贪心)

题目如下： 思路 or 题解如果我们可以发现前缀和，对于这个题有特殊的性质，这个题就不能做出来了，不然你会想我一样卡好长时间，从不知所措。 ai1ai,ai−1ai,ai−2aia_{i1}a_i,a_{i−1}a_i,a_i−2a_iai1ai,ai−1a…

阅读更多...

html 获取视频文件的宽高尺寸，怎么获取视频的宽度-解决方案

html 获取视频文件的宽高尺寸，怎么获取视频的宽度-解决方案

html代码 <video id"video" loop preload"auto" autoplay><source src"1.mp4" type"video/mp4">您的浏览器不支持Video标签。 </video> js代码 var videodocument.querySelector("#video");//当前视频…

阅读更多...

Unity 之资源加载 -- 可寻址系统使用介绍 -- 入门（三）

Unity 之资源加载 -- 可寻址系统使用介绍 -- 入门（三）

可寻址系统设置面板使用介绍介绍 -- 入门（三）一，可寻址系统目录介绍二，可寻址系统面板介绍2.1 Groups - 资源组2.2 Settings - 设置2.3 Profiles - 配置文件2.4 Event Viewer - 事件查看器2.5 Analyze - 分析工具2.6 Hosting - 托…

阅读更多...

springAOP的注解使用

springAOP的注解使用

注解使用导入依赖常用注解：注意，给测试类起名字的时候千万不要定义成Test，测试的方法不可以有参数，不可以有返回值在使用注解的时候，还需要告诉spring应该从哪个包开始扫描,一般在定义的时候都写上相同包的路径需要导入…

阅读更多...

GitLab安装到实战

GitLab安装到实战

简介关于gitlab的入门与实战，这里使用的是docker安装。2核4g的话不太行。安装由于这里我是学习环境,所以买的是抢占式，配置也不是很高。购买服务器示例 Docker安装步骤 1.安装docker yum install -y docker 2.启动docker systemctl start doc…

阅读更多...

【JavaEE】进程和线程

【JavaEE】进程和线程

目录 1. 进程 1.1 PCB 1.1.1. PID 1.1.2. 内存指针 1.1.3. 文件描述符表 1.1.4.进程调度相关的属性 1.2 进程的虚拟地址空间 1.3 进程间的通信 2. 线程 2.1 线程与进程之间的联系 2.2 多线程与多进程 1. 进程在了解线程之前，我们首先要了解进程&…

阅读更多...

RHCE学习笔记-253-3

RHCE学习笔记-253-3

system monitoring Introduction to system monitoring security breaches or system malfunctions can be detected with regular system monitoring system monitoring includes: file system monitoring log file analysis process monitoring file system analysis 如果定期…

阅读更多...

谷粒商城-基础篇-Day08-调试会员等级相关接口

谷粒商城-基础篇-Day08-调试会员等级相关接口

在P83级中，点击发布商品时没有出现请求则需要解决 PubSub is not definded这个问题 PubSub是用来检测选择分类的值变动的。选择分类值变动，会请求后台接口，动态更新选择品牌的选项。安装依赖 npm install --save pubsub-js&#xff08…

阅读更多...

算法队伍的搭建

算法队伍的搭建

🌞欢迎来到数据结构的世界 🌈博客主页：卿云阁 💌欢迎关注🎉点赞👍收藏⭐️留言📝 🌟本文由卿云阁原创！ 🙏作者水平很有限，如果发现错误&#xff…

阅读更多...

网络安全必备1000道面试题集锦（附答案）

网络安全必备1000道面试题集锦（附答案）

前言以下为网络安全各个方向涉及的面试题，星数越多代表问题出现的几率越大，祝各位都能找到满意的工作。注：本套面试题，已整理成pdf文档，但内容还在持续更新中，因为无论如何都不可能覆盖所有的面试问题&a…

阅读更多...

使用ResNet18实现CIFAR10数据集的训练

使用ResNet18实现CIFAR10数据集的训练

如果对你有用的话，希望能够点赞支持一下，这样我就能有更多的动力更新更多的学习笔记了。😄😄 使用ResNet进行CIFAR-10数据集进行测试，这里使用的是将CIFAR-10数据集的分辨率扩大到32X32，因为算力相关的…

阅读更多...

Git使用详解(图文+代码)：基础内容

Git使用详解(图文+代码)：基础内容

基础内容前言版本控制本地版本控制系统集中化版本控制系统分布式控制系统Git使用详解Git基础理解Git基础指令取得项目的Git仓库记录每次更新的仓库检查当前文件状态跟踪文件暂存已修改文件忽略某些文件查看已暂存和未暂存的更新提交更新跳过使用暂存区域移除文件远程操作的使用…

阅读更多...

熊市里再看GameFi，为什么说链游潜力巨大？

熊市里再看GameFi，为什么说链游潜力巨大？

大方向上来看，区块链项目本质上分为两类，一类是金融资产属性的项目，比如我们常说的DeFi、DAO、公链等，另一类则具有娱乐艺术属性的，比如NFT、GameFi、元宇宙等，熊市环境下如何看待这两类项目，以…

阅读更多...

【iOS】—— 初识GCD

【iOS】—— 初识GCD

GCD（Grand Central Dispatch） 文章目录GCD（Grand Central Dispatch）什么是GCDperformSelector方法：GCD的优点：任务和队列队列的创建方式任务的创建方法六种情况的例子1.并发队列同步执行2. 并发队列异步…

阅读更多...

Vector - VT System - Ethernet板卡_VT6306

Vector - VT System - Ethernet板卡_VT6306

前面介绍了支持CAN&CANFD&LIN板卡，但是对于当前日益火爆的车载以太网来说，Vector也是提供了类似于VN5000系列一样的板卡，那就是VT6306。它给提供6路的百兆或者6路千兆的车载以太网（2022年之前选择后是固定的，有…

阅读更多...

央视点赞百度智能云激活民营经济”数字“活力

央视点赞百度智能云激活民营经济”数字“活力

2023年，对民营企业究竟意味着什么。 2022年12月，新华社发表重磅长文解读中国经济发展大势：“迎接更加壮阔的光明前程”。随后央视新闻联播连续4天发声，关注民营经济发展。4条新闻中，“创新”一词共出现了29次&#…

阅读更多...

小程序的运行机制以及安全机制

小程序的运行机制以及安全机制

接触小程序有一段时间了，总得来说小程序开发门槛比较低，但其中基本的运行机制和原理还是要懂的. 了解小程序的由来在小程序没有出来之前，最初微信WebView逐渐成为移动web重要入口，微信发布了一整套网页开发工具包，称…

阅读更多...

199：vue+openlayers 添加删除修改feature信息，双向不同颜色指示互动

199：vue+openlayers 添加删除修改feature信息，双向不同颜色指示互动

第199个点击查看专栏目录本示例的目的是介绍如何在vue+openlayers项目中绘制多边形，每绘制一个，左侧输出一个feature指示标志，双向颜色互动指示。直接复制下面的 vue+openlayers源代码，操作2分钟即可运行实现效果；注意如果OpenStreetMap无法加载，请加载其他来练习 …

阅读更多...

推荐文章

最新文章