【王树森】RNN模型与NLP应用(8/9):Attention(个人向笔记)

news2024/11/15 3:10:08

前言

  • 基于RNN的Seq2Seq模型无法记住长序列
  • Attentnion机制可以大幅度提升Seq2Seq模型
    在这里插入图片描述

Seq2Seq Model with Attention

  • Attention可以让句子在逐步变长的时候不忘记前面的输入信息
  • Attention还可以告诉Decoder应该关注哪一个状态
  • 优点:Attention可以大幅度提高准确率
  • 缺点:Attention计算量比较大

Simple RNN + Attention

  • 需要计算最后一个输出的状态和前面所有状态的相关性(权重),把这个权重记为 α i \alpha_i αi,所有的权重总和为1
    在这里插入图片描述
    • 计算方法1(原版):①把 h i h_i hi s 0 s_0 s0 做concatenation,②然后和一个矩阵 W W W(需要被训练的参数)相乘后丢到 tanh 激活函数里面使其范围变为 [ − 1 , 1 ] [-1,1] [1,1] ,③然后再和 v T v^T vT 做内积得到一个实数。④最后把所有的权重做一个Softmax。
      在这里插入图片描述
    • 计算方法2(更流行,和Transformer一致):①将 h i h_i hi W K W_K WK(需要被训练的参数) 相乘得到 k i k_i ki,将 s 0 s_0 s0 W Q W_Q WQ(需要被训练的参数) 相乘得到 q 0 q_0 q0,其中 k i k_i ki q 0 q_0 q0 都是一维的向量。② k i T q 0 k^T_iq_0 kiTq0 得到权重 α i ~ \tilde{\alpha_i} αi~。③对所有的 α i ~ \tilde{\alpha_i} αi~ 做 Softmax即可得到权重。
      在这里插入图片描述
  • 我们对所有的 h i h_i hi 利用刚刚算出的权重计算加权平均得出一个向量 c 0 c_0 c0,其中一个 c c c 对应一个 s s s,计算出的加权平均向量被称为 Context vector。
    在这里插入图片描述
  • 对于更新状态来说,之前的Simple RNN是这样的,它不会去看前面的状态,而是只会看最后一个
    在这里插入图片描述
  • 而有Attention后更新状态还会把之前的信息 c 0 c_0 c0 考虑进去,也就是还会把前面的信息考虑进去,这样就把RNN遗忘的问题解决了
    在这里插入图片描述
  • 而对于后续的状态 s i s_i si 重复前面的步骤即可,注意每次权重 α i \alpha_i αi 都需要重新计算后得出 c i c_i ci
    在这里插入图片描述
  • Question: 有多少权重 α i \alpha_i αi 被计算了?
    • 对于每一个 c i c_i ci ,我们都i需要用 s i s_i si 来计算 m m m 个权重
    • 假设 Decoder 有 t t t 个状态,那么总共就需要计算 m t mt mt
    • 这个时间复杂度是很高的!
  • 权重可视化:在下面的图中,连线表示相关性,连线越粗,相关性越强。而可以看到Area和zone有比较粗的连线,而英语中的Area就对应法语中的zone:权重指导Decoder关注Encoder中正确(如zone会特别关注Area)的状态,从而生成正确的翻译
    在这里插入图片描述

Summary

  • 之前的Seq2Seq模型:Decoder只会关注最后一个状态,容易导致遗忘
  • Attention则会关注Encoder的所有状态
  • Attention还会指导Decoder关注的侧重点
  • 缺点:更高的计算复杂度,之前的模型只需要 O ( m + t ) O(m+t) O(m+t) 的复杂度,而Attention则需要 O ( m t ) O(mt) O(mt) 的复杂度,其中 m m m 是源序列的长度, t t t 是目标序列的长度

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2091195.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

中小企业数字化营销突围秘籍,快来解锁!

​嘿,各位中小企业主们!在如今这个数字化时代,市场竞争那叫一个激烈。传统营销方式渐渐力不从心,而数字化营销则成为咱们中小企业突出重围的关键路径。 现状不容乐观 目前呢,有一部分中小企业已经迈出了数字化营销的步…

【hot100篇-python刷题记录】【最小覆盖子串】

R7-子串篇 class Solution:def minWindow(self, s: str, t: str) -> str:ret_left,ret_right-1,len(s)left0#s子串字母出现的次数cnt_sCounter()#t中字母出现的次数cnt_tCounter(t)for right,c in enumerate(s):cnt_s[c]1while cnt_s>cnt_t:#找到更短的子串if right-left…

破解“目录名称无效”难题:数据恢复实战指南

在数字化生活日益普及的今天,数据存储与管理成为了我们日常不可或缺的一部分。然而,当您尝试访问某个文件夹时,却遇到了“目录名称无效”的错误提示,这无疑会让人感到焦虑和困惑。本文将深入探讨“目录名称无效”这一问题的根源&a…

Unet改进11:在不同位置添加MLCA||轻量级的混合本地信道注意机制

本文内容:在不同位置添加MLCA注意力机制 目录 论文简介 1.步骤一 2.步骤二 3.步骤三 4.步骤四 论文简介 注意机制是计算机视觉中应用最广泛的组成部分之一,它可以帮助神经网络突出重要元素,抑制无关元素。然而,绝大多数通道注意机制只包含通道特征信息,忽略了空间特征…

android gradle阿里云镜像地址,下载速度快,而且几乎是最新的所有版本

阿里云Gradle的镜像地址: macports-distfiles-gradle安装包下载_开源镜像站-阿里云 还是比较全的,最主要是下载速度比较快。 这样可以节省很多时间。 我们可以利用离线的方式来使用这些Gradle就可以了。 android 离线的方式使用下载到本地的gradle-CS…

鸿蒙开发—黑马云音乐之music页面播放音乐(下)

目录 1.暂停播放和恢复播放 2.上一首、下一首功能 1.暂停播放和恢复播放 src/main/ets/services/AvPlayerManager.ets: export interface songItemType {img: stringname: stringauthor: stringurl: stringid: string }//作用:负责管理播放对象的各种…

Windows环境CP Editor安装使用方法

step0:下载软件包,附件有已经下载的安装包 Download CP Editor | CP Editor step1:下载后双击安装即可(记住安装路径) step2:找到安装目录下的cpeditor\mingw64\bin配置环境变量 step3:双击打开即可使用

pikachu 靶场环境搭建 完整版(手把手保姆级教学)

文章目录 一、pikachu靶场简介二、靶场环境准备三、pikachu 靶场搭建过程1、phpstudy 配置2、MySQL环境变量配置(非必要)3、pikachu 靶场配置4、靶场连接测试 四、pikachu靶场搭建时数据库连接问题等其它问题(Warning: mysqli_connect(): (HY000/1049): …

全球城市多边形和点数据集 (GUPPD)

全球城市多边形和点数据集 (GUPPD) 第 1 版是一套包含 123,034 个城市定居点的全球数据集,包含 1975-2030 年期间的地名和人口,每五年更新一次。该数据集建立在欧盟委员会联合研究中心 (JRC) 2015 年全球人类定居点 (GHS) 城市中心数据库 (UCDB) 的基础上…

【手撕数据结构】二叉树oj题

目录 单值二叉树题目描述题目思路及代码 相同的树题目描述题目思路及代码 对称二叉树题目描述题目思路及代码 另一棵树的子树题目描述题目思路及代码 二叉树的前序遍历题目描述题目思路及代码 二叉树的构建与遍历题目描述题目思路及代码 单值二叉树 题目描述 题目思路及代码 …

模型 情境领导力

系列文章 分享 模型,了解更多👉 模型_思维模型目录。灵活变通,因势利导的领导艺术。 1 情境领导力的应用 1.1 软件项目的成功转型 在一家知名的软件开发公司中,有一个由资深工程师李伟领导的团队,负责开发一款新的客…

Mac下的压缩包和Win看到的不一样怎么办 Mac压缩后Win电脑看文件名会乱码

在当今多平台的数字工作环境中,Mac和Windows用户常常需要交换文件,但有时候会遇到一些兼容性问题。特别是在处理压缩文件时,Mac用户创建的压缩包在Windows系统中打开时,常常会遇到文件名乱码的问题。本文将详细讨论“Mac下的压缩包…

基于AI大模型开发上层应用常见的技术栈

基于AI大模型的上层应用开发,技术栈要求通常包括以下几个方面: 编程语言:Python是AI领域的主要编程语言,具有大量的库和框架支持,是大模型开发的首选语言 。TypeScript也是不错的选择,很多模型对外提供类似…

postman学习笔记:从入门到精通

postman入门到精通 一、postman下载安装与更换主题1、下载与安装2、更换主题(Themes) 二、页面详解1、顶部工具栏2、左侧栏3、中部栏3.1 请求部分页签介绍3.2 响应部分页签介绍 三、管理用例四、设置环境变量和全局变量1、添加环境变量2、添加全局变量 五…

编码666

unicode,将每种语言的每种格式都用一个二进制编码来表示,1到3个字节 问题:1.系统怎么知道是ASCII还是Unicode编码,怎么直到一个字符是一字节还是多个字节 2.很多字符需要2字节或更多,存储空间的要求会更高 UTF-8&…

AIGC提示词(3):AI的创造力之谜:相同提示词,不同内容

引言 在这个数字化的时代,人工智能生成内容(AIGC)已经变得无处不在。想象一下,只需输入几个关键词,AI就能创作出各种内容,无论是文字、图片,还是其他形式。但这里有个有趣的问题:如…

简易计算器(源码+程序)

效果演示: 下载地址: 简易计算器(源码程序):https://download.csdn.net/download/wgxds/89696805 vb.net开发安卓软件的方法:[原创]vb.net开发安卓软件的方法_vbnet开发安卓-CSDN博客 免费资源下载&#x…

【系统架构师软考】计算机网络知识(四)

目录 奈奎斯特定理 奈奎斯特速率 ​编辑 香农定理 物联网(IOT) ​编辑 TCP 和 UDP HTTP、HTTPS 和 WebSocket ICMP、IGMP、OSPF协议 SNMP ​编辑 DHCP协议和DNS协议 ​编辑 RAP和ARAP TFTP、FTP和 SFTP POP3, IMAP,SMTP 其他网络协议 无线网络协议 IP地址的格…

【Android】MotionLayout实现动画效果

【Android】MotionLayout实现开场动画 在移动应用开发中,动画不仅仅是美化界面的工具,它更是提升用户体验的关键手段。Android 平台一直以来都提供了丰富的动画框架,但随着应用复杂性的增加,开发者对动画的需求也变得更加复杂和多…

【Navicat最新版简体中文版破解激活永久详细教程】

2024 Navicat Premium最新版简体中文版破解激活永久图文详细教程 1.未安装过的用户可直接跳过该步骤,如果已安装Navicat,记得先卸载干净,防止破解失效,卸载完成后执行补丁压缩包中的Navicat.bat脚本(一闪而过表示正常&…