seq2seq与引入注意力机制的seq2seq

news2025/7/12 14:48:37

1、什么是 seq2seq？

就是字面意思，“句子到句子”。比如翻译。

2、seq2seq 有一些特点

seq2seq 的整体架构是 “编码器-解码器”。

其中，编码器是 RNN，并将 最后一个hidden state（隐藏状态）【即：包含了整个句子的所有特征】作为编码器的输入；解码器使用另一个 RNN 去输出。

编码器-解码器：
输入 → Encoder → 中间状态 → Decoder（← 新输入） → 输出
与一般的模型不同的是，在 Decoder 可能会接受新的输入。
编码器相当于在“提取特征”。解码器相当于“从特征（中间态）还原出输出”

3、训练和预测

稍微看一下，便于更好的掌握seq2seq的工作原理。重点是注意力机制。

3.1 训练

训练的时候，因为知道翻译结果，所以直接使用正确的翻译作为输入（解码器底下一行）。所以即使预测错误（解码器上面那行）也不会影响到输入。
在这里插入图片描述

3.2 预测

可以看到，与“训练”不同的是：解码器的输入使用的是上一次预测的结果。
在这里插入图片描述

4、引入注意力机制的 seq2seq

4.1 为什么 seq2seq 要引入注意力机制？

因为在翻译中，比如：我们要翻译 “你好世界” 成 “hello world” ，那么在翻译 “hello” 的时候，应该 针对性地去看 “你好” 相关的信息，而不是 把 “你好世界” 所有的信息作为输入去处理。

其中，针对性地去看 “你好” 相关的信息 就是注意力机制；
把 “你好世界” 所有的信息作为输入去处理 就是seq2seq原本干的事：把最后一个hidden state作为解码器的输入。

4.2 如何引入的呢？

在这里插入图片描述

编码器（左）对每次词的输出作为key和value（key=value）
解码器（右）RNN对上一个词的输出是query（为什么是上一次词呢？就是说我现在要找“world”对应中文的相关信息，但是我现在只有hello，因为world还没有翻译出来呢！因为翻译需要输入，而world的输入从下面一点可以得知当前这一步才能拼出来。所以是“上一次词”的输出作为query）
注意力的输出和下一个词的embedding 进行cat 作为输入

注意力和query、key、value：
key-value是输入，通过 query **偏向性地选出（即：注意力）**想要的输入

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/962250.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

nacos闪退、密码修改等通用问题

nacos闪退、密码修改等通用问题

问题1：nacos闪退解决方案：通常是jdk环境变量配置有问题，nacos获取不到环境变量所以闪退。因为nacos的启动文件会获取JAVA_HOME，如果配置的不对，会直接闪退。如图所示，nacos启动文件最开始就是获取环境…

阅读更多...

Rust 学习笔记（持续更新中…）

Rust 学习笔记（持续更新中…）

一、编译和运行是单独的两步运行 Rust 程序之前必须先编译，命令为：rustc 源文件名 - rustc main.rs编译成功之后，会生成一个二进制文件 - 在 Windows 上还会生产一个 .pdb 文件 ，里面包含调试信息Rust 是 ahead-of-time 编译的…

阅读更多...

CleanMyMac X和腾讯柠檬清理功能对比区别介绍

CleanMyMac X和腾讯柠檬清理功能对比区别介绍

Mac电脑的清理软件款式多样，不同软件之间的功能和清理效果各不相同，那么大家的Mac都用什么清理软件呢？小编看了一篇Mac清理软件介绍的知乎，里面大部分评论用户推荐的主要是两款清理软件：CleanMyMac和腾讯柠檬清理软件。…

阅读更多...

Linux挖矿程序清除

Linux挖矿程序清除

1. 找到挖矿进程 2.找到病毒的文件地址 ls -l /proc/进程ID/exe3.删除文件命令 rm -rf 文件地址4.杀死挖矿进程 kill -9 进程ID

阅读更多...

【教学类-35-01】学号+姓名+班级（描字帖）A4一页

【教学类-35-01】学号+姓名+班级（描字帖）A4一页

背景说明： 本学期我带机动班，其中大4班去的频率比较高，与是我用大四班的名单做了一份 “描字帖”，在9月1日第一天见面时，孩子们用记号笔描字帖时，我也可以对这些孩子初步混个眼熟（聪明的&#x…

阅读更多...

0基础学习VR全景平台篇第95篇：VR实景智慧导航操作手册

0基础学习VR全景平台篇第95篇：VR实景智慧导航操作手册

一、实景导航前期准备工作及点位采集 （一）实景导航前期准备工作 （1）拍摄设备 1.推荐相机：全画幅的佳能 Canon EOS 5D Mark IV 2.搭配镜头：原厂的佳能 Canon EF卡口 8-15mm 全画幅鱼眼镜头 3.三角架 …

阅读更多...

基于鱼鹰算法优化的BP神经网络（预测应用） - 附代码

基于鱼鹰算法优化的BP神经网络（预测应用） - 附代码

基于鱼鹰算法优化的BP神经网络（预测应用） - 附代码文章目录基于鱼鹰算法优化的BP神经网络（预测应用） - 附代码1.数据介绍2.鱼鹰优化BP神经网络2.1 BP神经网络参数设置2.2 鱼鹰算法应用 4.测试结果：5.Matlab代码摘要…

阅读更多...

【JavaEE进阶】Spring事务和事务传播机制

【JavaEE进阶】Spring事务和事务传播机制

文章目录一. 什么是Spring事务二. Spring中事务的实现1. Spring编程式事务2. 声明式事务2.1 trycatch下事务不会自动回滚的解决方案2.2 Transactional 作用范围2.3 Transactional 参数说明2.4 Transactional 工作原理三. 事务的隔离级别1. 事务的四大特性2. Spring中设置事务…

阅读更多...

15 mysql tiny/meidum/long blob/text 的数据存储

15 mysql tiny/meidum/long blob/text 的数据存储

前言这里主要是由于之前的一个 datetime 存储的时间导致的问题的衍生出来的探究探究的主要内容为 int 类类型的存储, 浮点类类型的存储, char 类类型的存储, blob 类类型的存储, enum/json/set/bit 类类型的存储本文主要的相关内容是 tiny/medium/long blob/text 类…

阅读更多...

基于电气特征分析（ESA）的状态监测是如何实现的？

基于电气特征分析（ESA）的状态监测是如何实现的？

在现代工业和生产环境中，设备的正常运行和高效性对于维持生产的连续性和质量至关重要。然而，设备的故障和损坏可能会导致生产中断、不必要的维修成本以及生产效率的下降。为了应对这些挑战，状态监测技术已成为工业界的重要工具之一&#xff0…

阅读更多...

C++之std::search应用实例(一百八十九)

C++之std::search应用实例(一百八十九)

简介： CSDN博客专家，专注Android/Linux系统，分享多mic语音方案、音视频、编解码等技术，与大家一起成长！ 优质专栏：Audio工程师进阶系列【原创干货持续更新中……】🚀 人生格言： 人生…

阅读更多...

Redis数据结构总结

Redis数据结构总结

Redis 是一款开源的，内存中的数据结构存储系统，它可以用作数据库、缓存和消息代理。Redis 支持多种类型的数据结构，如字符串（String）、哈希（Hashes）、列表（Lists）、集合&…

阅读更多...

45、springboot 文件上传到指定磁盘路径及上传成功后的文件回显

45、springboot 文件上传到指定磁盘路径及上传成功后的文件回显

需求： 写一个文件上传的功能，把文件上传到指定的文件夹。然后上传成功后的文件回显 ★ Spring Boot对文件上传提供的自动配置支持 Spring Boot的文件上传自动配置主要由 MultipartAutoConfiguration 和 MultipartProperties 两个类组成。MultipartPro…

阅读更多...

linux并发服务器 —— 多线程并发（六）

linux并发服务器 —— 多线程并发（六）

线程概述同一个程序中的所有线程均会独立执行相同程序，且共享同一份全局内存区域； 进程是CPU分配资源的最小单位，线程是操作系统调度执行的最小单位； Linux环境下，线程的本质就是进程； ps -Lf pid&…

阅读更多...

【方案】基于视频与AI智能分析技术的城市轨道交通视频监控建设方案

【方案】基于视频与AI智能分析技术的城市轨道交通视频监控建设方案

一、背景分析地铁作为重要的公共场所交通枢纽，流动性非常高、人员大量聚集，轨道交通需要利用视频监控系统来实现全程、全方位的安全防范，这也是保证地铁行车组织和安全的重要手段。调度员和车站值班员通过系统监管列车运行、客流情况、变电…

阅读更多...

MySQL数据库——多表查询（3）-自连接、联合查询、子查询

MySQL数据库——多表查询（3）-自连接、联合查询、子查询

目录自连接查询语法自连接演示联合查询查询语法子查询介绍标量子查询列子查询行子查询表子查询自连接通过前面的学习，我们对于连接已经有了一定的理解。而自连接，通俗地去理解就是自己连接自己，即一张表查询多次。…

阅读更多...

Python小知识 - 一致性哈希算法

Python小知识 - 一致性哈希算法

一致性哈希算法一致性哈希算法（Consistent Hashing Algorithm）是用于解决分布式系统中节点增减比较频繁的问题。它的思想是，将数据映射到0~2^64-1的哈希空间中，并通过哈希函数对数据进行映射，计算出数据所在的节点。当…

阅读更多...

【LeetCode75】第四十三题钥匙和房间

【LeetCode75】第四十三题钥匙和房间

目录题目： 示例： 分析： 代码： 题目： 示例： 分析： 给我们一个数组，表示对应的房间里拥有能开启的对应索引号的钥匙。一开始我们只能进入0号房间，也就是数组里索引…

阅读更多...

图像OCR转文字,验证码识别技术太疯狂-UI软件自动化

图像OCR转文字,验证码识别技术太疯狂-UI软件自动化

现在用PYTHON识别图片文字，PaddleOCR，Tesseract,Opencv等很多开源技术。知识大爆炸年代，几年不学习就跟不上时代了。以前早的时候一个验证码图片上有4个不同颜色字符，带一些杂点，我写点代码按颜色最多的进行提取&…

阅读更多...

Angular安全专辑之三 —— 授权绕过，利用漏洞控制管理员账户

Angular安全专辑之三 —— 授权绕过，利用漏洞控制管理员账户

这篇文章是针对实际项目中所出现的问题所做的一个总结。简单来说，就是授权绕过问题，管理员帐户被错误的接管。详细情况是这样的，我们的项目中通常都会有用户身份验证功能，不同的用户拥有不同的权限。相对来说管理员账户所对应的…

阅读更多...

推荐文章

最新文章