Attention机制的具体计算过程

news2024/9/27 9:19:30

一、介绍Query、Key、Value的来源

一个输入,经过embedding+位置编码后得到最终的输入X(512维),最终的输入X与矩阵参数WQ(512*64维)相乘,得到Query;与矩阵参数WK(512*64维)相乘,得到Key;与矩阵参数WV(512*64维)相乘,得到Value。

Query-某个词(婴儿)转化后的输入向量-64维

Key-整个句子中,每个词转化的某个向量(Key1,Key2,Key3,Key4)-64维

Value-整个句子中,每个词转化的某个向量(Value1,Value2,Value3,Value4)-64维

二、Attention机制的具体计算过程

    • 根据Query和Key计算两者的相似性和相关性。得到s1,s2,s3,s4

Query和Key点乘(表示一个向量在另一个向量上的长度,是标量,可以反映两个向量之间的相似度,两个向量的点乘越大,相似度越大,表明越关注)

常用方法

(1)求两者的向量点积

(2)求两者的向量【cosine相似性】

(3)引入额外的神经网络来求值,MLP网络。

    • 对原始的分值进行softmax归一化处理(dk=64),得到a1,a2,a3,a4

公式中为甚要除以根号dk?

因为Query和Key的值很大,进行softmax时反向传播使梯度很小,容易出现梯度消失,除以根号dk是为了保持方差为1.

3. 根据权重系数进行加权求和

三、多头注意力机制是什么?

在实际应用中,使用矩阵方便计算。前面提到的矩阵参数WQ、WK、WV为一套参数,在实际应用中,我们会用到多套WQ、WK、WV参数,例如WQ1、WK1、WV1;WQ2、WK2、WV2;......,将经过embedding+位置编码后得到最终的输入X同时流经多套参数,分别得到各自的Q、K、V,经过上述二的计算过程得到各自参数的attention value,最后将多个输出合并在一起并在此投影得到最终输出。这就是多头注意力机制。

多头注意力机制可以得到不同子空间的信息,使得效果很好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/150913.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java反射机制

目录 反射问题的引出 Java程序在计算机中部署的三个阶段 反射的主要相关类 反射机制的优缺点 调优 反射常用类—Class 特点 常用方法 获取映射Class类对象的四种方式 类加载的三个阶段 加载阶段 Loading 链接阶段 Linking 验证 Verification 准备 Preparation 解…

OpenGL示例源码opengl_examples编译

下载好源码并创建编译目录opengl_build 打开CMake-GUI选择源码目录及二进制编译目录:

C#学习记录——【实例】读写ini文件

『知识有两种,一种是你知道的,一种是你知道在哪里能找到的!』—— 塞缪尔约翰逊 1、概念 C#读写ini文件之前要了解的概念:INI就是扩展名为"INI"的文件,其实他本身是个文本文件,可以用记事本打开,主要存放的是用户所做…

axios拦截器使用和知识点补充

axios拦截器使用和知识点补充axios拦截器使用axios基地址ajax知识点补充onreadstatechange事件Ajax组成部分了解get请求与post请求区别其他请求方法了解axios拦截器使用 <link rel"stylesheet" href"./lib/bootstrap-v4.6.0.css" /><style>bod…

农业机器人研究进展

文章目录一、农业机器人二、国际农业机器人现状三、我国农业机器人发展情况四、农业机器人展望五、结束语2022年9月17-18日&#xff0c;第十一届中国智能产业高峰论坛成功在厦门举办。大会主论坛上&#xff0c;CAAI副理事长、中国工程院院士、国家农业信息化工程技术研究中心研…

Java实现二叉树

一、树 1、树简介 树是一种非线性的数据结构&#xff0c;具有n个结点其数据存储形式像一棵倒挂的树&#xff0c;树有一个根结点没有前驱结点&#xff0c;树有多个叶子结点没有后继结点&#xff0c;树有多个中间结点既有前驱结点又有后继结点。 树结构中子树之间不能有交集。 n个…

【Node.js实战】一文带你开发博客项目之联调(导入HTML、Nginx反向代理、CORS解决跨域、与前端联调)

个人简介 &#x1f440;个人主页&#xff1a; 前端杂货铺 &#x1f64b;‍♂️学习方向&#xff1a; 主攻前端方向&#xff0c;也会涉及到服务端 &#x1f4c3;个人状态&#xff1a; 在校大学生一枚&#xff0c;已拿多个前端 offer&#xff08;秋招&#xff09; &#x1f680;未…

Tapdata Cloud 场景通关系列: Oracle → MySQL 异构实时同步

【前言】作为中国的 “Fivetran/Airbyte”, Tapdata Cloud 自去年发布云版公测以来&#xff0c;吸引了近万名用户的注册使用。应社区用户上生产系统的要求&#xff0c;Tapdata Cloud 3.0 将正式推出商业版服务&#xff0c;提供对生产系统的 SLA 支撑。Tapdata 目前专注在实时数…

二叉树的遍历(非递归)

二叉树的遍历 遍历二叉树, 是指按一定的规则和顺序访问二叉树的所有结点, 使每一个结点都被访问一次, 而且只被访问一次. 由于二叉树是非线性结构, 因此, 二叉树的遍历实质上是将二叉树的各个结点排列成一个线性序列. DFS: 前序, 中序及后序. BFS: 是指沿着二叉树的宽度优先遍…

Leetcode.1806 还原排列的最少操作步数

题目链接 Leetcode.1806 还原排列的最少操作步数 题目描述 给你一个偶数 ​n​n​n​​​​​ &#xff0c;已知存在一个长度为 nnn 的排列 permpermperm &#xff0c;其中 perm[i]iperm[i] iperm[i]i​&#xff08;下标 从 0 开始 计数&#xff09;。 一步操作中&#xff0…

OLAP和OLTP的区别

OLAP和OLTP的区别 OLAP&#xff1a; (Online transaction processing):在线/联机事务处理。典型的OLTP类操作都比较简单&#xff0c;主要是对数据库中的数据进行增删改查&#xff0c;操作主体一般是产品的用户。 OLTP&#xff1a; (Online analytical processing):指联机分…

Vue新一代状态管理工具—Pinia—都2023年了,快学起来吧!

Pinia 基本介绍 Pinia 是 Vue.js 的轻量级状态管理库 官方网站&#xff1a;https://pinia.vuejs.org/ 中文文档: https://pinia.web3doc.top/introduction.html 为什么学习pinia? pinia和vuex4一样&#xff0c;也是vue 官方 状态管理工具(作者是 Vue 核心团队成员&#xff…

基于JAVA SSM框架的影院管理系统源码,实现包括影院管理,电影管理,影厅管理,排片管理,选座售票,演员管理,影片评论等功能

介绍 下载地址&#xff1a;基于JAVA SSM框架的影院管理系统源码 该项目是一个电影信息管理、发布、展示平台&#xff0c;终端用户可以浏览、购票、评论。项目主要实现包括影院管理&#xff0c;电影管理&#xff0c;影厅管理&#xff0c;排片管理&#xff0c;选座售票&#xff…

连号区间数(第四届蓝桥杯省赛C++B组,第四届蓝桥杯省赛JAVAB组)

题目详细&#xff1a;解题思路&#xff1a;对于这个题目如果一开始没有思路的话我们可以先想一下暴力写法暴力的话就是不断的枚举每个区间然后判断这个区间是否合法这样写下来用了三重循环而对于题目我们只能通过部分样例所以我们就要想办法取缩减它的时间对于遍历每个区间我们…

【SpringBoot】使用AOP+注解实现请求参数的指定自动填充

首先定义一个加在方法上的注解 import java.lang.annotation.*;/*** 开启自动参数填充*/ Retention(RetentionPolicy.RUNTIME) Target({ElementType.METHOD}) Documented Inherited public interface AutoParameterFill {/*** 要填充的字段名,不写的话默认下面类的子类中的字段…

Redis未授权访问漏洞(一)先导篇

前言 Redis默认情况下&#xff0c;会绑定在0.0.0.0:6379&#xff0c;如果没有进行采用相关的策略&#xff0c;比如添加防火墙规则避免其他非信任来源ip访问等&#xff0c;这样将会将Redis服务暴露到公网上。 如果在没有设置密码认证&#xff08;一般为空&#xff09;的情况下…

InceptionNet与ResNet

以下代码图片思路来源&#xff1a; 北京大学Tensor flow笔记 嗯,最近学了一下神经网络&#xff0c;并没有很难&#xff0c;主要是把代码背下来&#xff0c;然后掌握Tensorflow是怎么搭建网络的&#xff0c;Tensorflow是比pytorch好用的&#xff0c;我直接抄的代码里面&#xff…

UDS诊断系列介绍05-27服务

本文框架1. 系列介绍27服务概述2. 27服务请求与应答2.1 27服务请求2.2 27服务肯定应答2.3 27服务否定应答1. 系列介绍 UDS&#xff08;Unified Diagnostic Services&#xff09;协议&#xff0c;即统一的诊断服务&#xff0c;是面向整车所有ECU的一种诊断通信方式&#xff0c;…

java-操作excel

文章目录java操作Excel数据使用场景excel 03 和 07的区别POIeasyExcel解析excel表中的对象POI使用步骤POI 写数据POI 读数据计算公式easyExcel读写数据写数据读数据java操作Excel数据 在 平时 可以使用IO流对Excle进行操作 但是现在使用更加方便的第三方组件来实现 使用场景 1、…

在rhel7系统使用Mariadb

文章目录一 联系和区别二 需求三 部署安装3.1 环境准备3.2 安装软件包3.3 启动服务3.4 设置防火墙策略四 创建用户和库表4.1 登录数据库4.2 创建用户4.3 创建数据库和表五 备份和恢复5.1 备份 com 数据库5.2 模拟误删除操作5.3 恢复表一 联系和区别 Mariadb是由社区开发的一个…