使用注意力机制的seq2seq

news2024/11/19 0:31:16

注意力机制在NLP中的应用,是早期工作之一

1.为什么使用注意力机制

①在机器翻译的时候,每个生成的词可能相关于源句子不同的词

②语言翻译的时候,中英文存在倒装句,几个相同意思的句子中的词的位置可能近似的对应。翻译句子某部分的时候,只看源句子对应的位置就可以。

③seq2seq模型不能直接建模。Seq2seq模型中编码器向解码器传递的信息是:最后时刻的隐藏状态,解码器只用到编码器最后时刻的隐藏状态作为初始化进行预测。所以编码器看不到解码器最后时刻之前的其他隐藏状态。

④源句子的所有信息都包含在隐藏状态,但是翻译某个词的时候,每个解码步骤使用编码相同的上下文变量。并且并非所有的输入词元对解码某个词元有用。将注意力关注在源句子的对应位置,这也是注意力机制应用在seq2seq的动机

2.加入注意力:用编码器建立索引,解码器定位关注点

 ①解码器对每个词的输出(隐藏状态)作为key和value。序列多少词元,就有多少对key-value对,他们是等价的。都是第i个词元的rnn的输出。

②解码器RNN对上一个词的预测输出(隐藏状态)是query

③注意力的输出和下一个词的嵌入合并进入RNN解码器

④对seq2seq的改进:加入注意力机制对模型的索引词进行加权平均,根据翻译的词的不同时刻的RNN编码器输出隐藏状态

【总结】

①seq2seq中通过编码器最后时刻的隐藏状态在编码器和解码器传递信息

②注意力机制可以根据解码器RNN的输出来匹配到合适的编码器RNN的输出来有效地传递信息

③在预测词元时,如果不是所有的输入词元都是相关的,加入注意力机制能够使RNN编码器-解码器有选择地统计输入序列地不同部分(通过将上下文变量视为加性注意力池化地输出实现)

 

【代码实现】

import torch
from torch import nn
from d2l import torch as d2l
# 定义注意力解码器
class AttentionDecoder(d2l.Decoder):
    '''带有注意力机制编码器的基本接口'''

    def __init__(self, **kwargs):
        super(AttentionDecoder, self).__init__(**kwargs)

    def attention_weights(self):
        raise NotImplementedError
'''
1.编码器在所有时间步的最终层隐藏状态,将作为注意力的键和值
2.上一时间步的编码器全层隐状态,作为初始化解码器的隐状态
3.编码器的有效长度
编码器上一个时间步的最终隐状态作为查询
'''
# Seq2SeqAttentionDecoder类中 实现带有Bahdanau注意力的循环神经网络解码器

class Seq2SeqAttentionDecoder(AttentionDecoder):
    def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,
                 dropout=0, **kwargs):
        super(Seq2SeqAttentionDecoder, self).__init__(**kwargs)
        self.attention = d2l.AdditiveAttention(
            num_hiddens, num_hiddens, num_hiddens, dropout)
        self.embedding = nn.Embedding(vocab_size, embed_size)
        self.rnn = nn.GRU(
            embed_size + num_hiddens, num_hiddens, num_layers,
            dropout=dropout)
        self.dense = nn.Linear(num_hiddens, vocab_size)

    def init_state(self, enc_outputs, enc_valid_lens, *args):
        # outputs的形状为(batch_size,num_steps,num_hiddens).
        # hidden_state的形状为(num_layers,batch_size,num_hiddens)
        outputs, hidden_state = enc_outputs
        return (outputs.permute(1, 0, 2), hidden_state, enc_valid_lens)

    def forward(self, X, state):
        # enc_outputs的形状为(batch_size,num_steps,num_hiddens).
        # hidden_state的形状为(num_layers,batch_size,
        # num_hiddens)
        enc_outputs, hidden_state, enc_valid_lens = state
        # 输出X的形状为(num_steps,batch_size,embed_size)
        X = self.embedding(X).permute(1, 0, 2)
        outputs, self._attention_weights = [], []
        for x in X:
            # query的形状为(batch_size,1,num_hiddens)
            query = torch.unsqueeze(hidden_state[-1], dim=1)
            # context的形状为(batch_size,1,num_hiddens)
            context = self.attention(
                query, enc_outputs, enc_outputs, enc_valid_lens)
            # 在特征维度上连结
            x = torch.cat((context, torch.unsqueeze(x, dim=1)), dim=-1)
            # 将x变形为(1,batch_size,embed_size+num_hiddens)
            out, hidden_state = self.rnn(x.permute(1, 0, 2), hidden_state)
            outputs.append(out)
            self._attention_weights.append(self.attention.attention_weights)
        # 全连接层变换后,outputs的形状为
        # (num_steps,batch_size,vocab_size)
        outputs = self.dense(torch.cat(outputs, dim=0))
        return outputs.permute(1, 0, 2), [enc_outputs, hidden_state,
                                          enc_valid_lens]

    def attention_weights(self):
        return self._attention_weights
# 包含7个时间步的4个序列输入的小批量测试Bahdanau
encoder = d2l.Seq2SeqEncoder(vocab_size=10, embed_size=8, num_hiddens=16, num_layers=2)
encoder.eval()
decoder = Seq2SeqAttentionDecoder(vocab_size=10, embed_size=8, num_hiddens=16, num_layers=2)
decoder.eval()
X = torch.zeros((4, 7), dtype=torch.long)
state = decoder.init_state(encoder(X), None)
output, state = decoder(X, state)
print(output.shape, len(state), state[0].shape, len(state[1]), state[1][0].shape)
# 训练
embed_size, num_hiddens, num_layers, dropout = 32, 32, 2, 0.1
batch_size, num_steps = 64, 10
lr, num_epochs, device = 0.005, 250, d2l.try_gpu()
train_iter, src_vocab, tgt_vocab = d2l.load_data_nmt(batch_size, num_steps)
encoder = d2l.Seq2SeqEncoder(len(src_vocab), embed_size, num_hiddens, num_layers, dropout)
decoder = Seq2SeqAttentionDecoder(len(tgt_vocab), embed_size, num_hiddens, num_layers, dropout)
net = d2l.EncoderDecoder(encoder, decoder)
d2l.train_seq2seq(net, train_iter, lr, num_epochs, tgt_vocab, device)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/348446.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Lp正则化

一、L1 和 L2范数(norm)A norm is a mathematical thing that is applied to a vector. The norm of a vector maps vector values to values in [0,∞). In machine learning, norms are useful because they are used to express distances: this vect…

DataWhale-统计学习方法打卡Task01

学习教材《统计学习方法(第二版)》李航 统计学习方法(第2版) by...李航 (z-lib.org).pdf https://www.aliyundrive.com/s/maJZ6M9hrTe 点击链接保存,或者复制本段内容,打开「阿里云盘」APP ,无…

论文笔记:NeuLF: Efficient Novel View Synthesis with Neural 4D Light Fight

中文标题:基于神经4D光场的高效新视角合成 创新点 在我们的方法中,一个3D场景被表示为一个光场,即一组射线,每条射线在到达图像平面时都有相应的颜色。为了实现高效的新视图渲染,我们采用了光场的双平面参数化&#…

JAVA实现心跳检测【长连接】

文章目录1、心跳机制简介2、心跳机制实现方式3、客户端4 、服务端5、代码实现5.1 KeepAlive.java5.2 MyClient.java5.3 MyServer5.4 测试结果1、心跳机制简介 在分布式系统中,分布在不同主机上的节点需要检测其他节点的状态,如服务器节点需要检测从节点…

Git 介绍和使用

文章目录前言1、Git 安装和使用2、Git 工作区域和状态3、Git 常用指令3.1、Git 参数配置3.2、Git 本地仓库3.3、Git 远程仓库3.4、分支前言 Git 是一个免费,开源的分布式版本控制系统,可以敏捷高效的进行各种规模大小的版本管理。Git 与 SVN 的二者最核心…

ChatGPT到底是什么

ChatGPT到底是什么 我将在这里尝试解释清楚 ChatGPT 到底什么。 对于非常了解和非常熟悉 ChatGPT 的朋友,这篇推文您可以跳过不看! ChatGPT 在全球互联网上制造了一场人工智能风暴。 ChatGPT是什么? ChatGPT是由OpenAI开发的一个人工智能聊…

Golang-数组与切片常见错误及陷阱

数组与切片有什么区别 slice 的底层数据是数组,slice 是对数组的封装,它描述一个数组的片段。两者都可以通过下标来访问单个元素。 数组是定长的,长度定义好之后,不能再更改。在 Go 中,数组是不常见的,因…

Zabbix 3.0 从入门到精通(zabbix使用详解)

Zabbix 3.0 从入门到精通(zabbix使用详解) 第1章 zabbix监控 1.1 为什么要监控 在需要的时刻,提前提醒我们服务器出问题了 当出问题之后,可以找到问题的根源 网站/服务器 的可用性 1.1.1 网站可用性 在软件系统的高可靠性(也称为可用性…

css复习

CSS 最大价值: 由 HTML 专注去做结构呈现,样式交给 CSS,即 结构 ( HTML ) 与样式( CSS ) 相分离。 CSS 规则由两个主要的部分构成:选择器以及一条或多条声明。 代码风格: ①属性值前面,冒号后面,保留一个空…

Java基础:异常与错误(ExceptionError)

1 缘起 某天上网冲浪时,偶然看到一个问题,说Java的Error和Exception有什么区别? 一句话:不知道。并不能很清晰地描述出个中区别。 当然,曾经也看过Throwable相关的知识,但是,并没有通过源码及注…

Java递归问题

3 递归 3.1 递归基础 递归概述:以编程的角度来看,递归指的是方法定义中调用方法本身的现象递归解决问题的思路: 把一个复杂的问题层层转化为一个与原问题相似的规模较小的问题来求解递归策略只需少量的程序就可描述出解题过程所需要的多次重…

CHAPTER 3 Zabbix Grafana

Zabbix & Grafana3.1 Grafana简介3.2 安装grafana3.3 启动grafana3.4 登录控制台3.5 链接zabbix1.安装zabbix插件2.启用插件3.链接数据源4.导入仪表盘5.创建仪表板6.创建仪表盘7.添加自建监控项8.监控信息3.1 Grafana简介 Grafana是一款开源的数据可视化工具,使…

多商户java版小程序+公众号+h5+app秒杀拼团砍价分销商城源码

三勾多商户商城小程序、支持多端发布,一套代码发布到8个平台,面向开发,方便二次开发 项目介绍 三勾多商户小程序商城基于springbootelement-uiuniapp打造的面向开发的小程序商城,方便二次开发或直接使用,可发布到多端&…

做软文发布需要注意哪些细节?

软文发布是一种有效的网络营销和推广活动,它以媒体等形式把产品信息植入到软文报道或新闻中,进行心理暗示和引导销售,进行正面宣传以及促进销售的新型网络营销方式,它不但能够有效地推行产品宣传、也能有效地提高网络曝光率&#…

【Kafka进阶】-- unclean.leader.election.enable参数的内涵

一、背景近期,我们的kafka 消息队列集群(1.x版本)经过了一次事故。某节点意外宕机,导致 log 文件损坏,重启 kafka 失败,最后导致某个 topic 的分区不可用,本文对此做了简单的分析、解决和复现参考,以此为记…

opencv图像处理

CV模块 基本操作 T1家全叫米TF,拍 图像的IO操作,读取和保存方法在图像上绘制几何图形 怎么获取图像的属性 怎么访问图像的像素,进行通道分离,合并等 怎么实现颜色空间的变换 图像的算术运算 掌握图像的读取和保存方法 # 读取图像 cv.imrea…

Spring Boot集成Quartz实现定时任务的动态创建、启动、暂停、恢复、删除

一、整个 Quartz 的代码流程基本基本如下:首先需要创建我们的任务(Job),比如取消订单、定时发送短信邮件之类的,这是我们的任务主体,也是写业务逻辑的地方。创建任务调度器(Scheduler),这是用来调度任务的,主要用于启动…

【Unity细节】RigidBody中Dynamic和Kinematic的区别

👨‍💻个人主页:元宇宙-秩沅 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 本文由 秩沅 原创 收录于专栏:unity细节和bug ⭐Dynamic和Kinematic的区别⭐ 文章目录⭐Dynamic和Kinematic的区别⭐&#x1f3…

恰饭近800w播放,官方涨粉5000,B站用户直呼“巅峰制作”!

开年之际,QQ飞车在B站打造了一场「2023QQ飞车手游新春会」,并宣布首款女性机甲、赛车皮肤即将上线,携手玩家一起狂欢。来源-B站17日当晚,QQ飞车官方号在B站直播间举办「2023QQ飞车手游新春会」直播活动,共有11位UP主参…

二十五、Gtk4-多线程分析

1 回顾 1.1 Gnome相关 首先回顾一下GLib,GObject,GIO,Gtk的不同,因为下面会涉及到这些概念里面的函数。 所有这些都是由Gnome项目开发的库,一般都用于Gnome环境相关的应用程序。 Gtk:GUI界面库。GLib&a…