Attention原理+向量内积+Transformer中的Scaled Dot-Product Attention

news2026/2/14 7:01:10

一、Attention原理

在这里插入图片描述

将 $S o u rce$ 中的构成元素想象成是由一系列的 $< Key, Va l u e >$ 数据对构成，此时给定 $T a r g e t$ 中的某个元素 $Q u ery$ ，通过计算 $Q u ery$ 和各个 $Key$ 的相似性或者相关性，得到每个 $Key$ 对应 $Va l u e$ 的权重系数，然后对 $Va l u e$ 进行加权求和，即得到了最终的 $A tt e n t i o n$ 数值。所以本质上 $A tt e n t i o n$ 机制是对 $S o u rce$ 中元素的 $Va l u e$ 值进行加权求和，而 $Q u ery$ 和 $Key$ 用来计算对应 $Va l u e$ 的权重系数。即可以将其本质思想改写为如下公式：

$Attention(Query,Source)=\sum_{i=1}^{L_{x}}Similarity(Query,Key_{i})*Value_{i}$

二、向量内积

向量内积又叫向量点乘，公式如下：

$\vec{a}\cdot \vec{c}=\parallel\vec{a}\parallel\times \parallel\vec{c}\parallel \times cos \theta$

在这里插入图片描述

向量内积的求导公式如下：

$\frac{\partial(\bar{x}\cdot \bar{w})}{\partial \bar{w}}=\bar{x}^{T}$

三、Transformer中的Scaled Dot-Product Attention

公式如下：

$Attention(Q,K,V)=softmax(\frac{QK^{T}}{\sqrt{d_{k}}})V$

对一组key-value对和n个query,可以使用两次矩阵乘法，并行的计算里面的每个元素。

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/541322.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【腾讯云 Finops Crane 集训营】降本增效利器Crane应用实战

【腾讯云 Finops Crane 集训营】降本增效利器Crane应用实战

文章目录前言一、Crane是什么？二、Crane的特点三、Crane使用1、环境准备安装 kubectl安装 Helm安装 kind安装 Docker 2、安装Crane3、访问dashboard4、页面展示集群总览成本洞察成本分析 5、功能应用智能弹性 EffectiveHPA推荐规则四、Crane的优势总结参考文献前…

阅读更多...

『iperf3 』服务器连接速度测试（2023/02/16 最新版）

『iperf3 』服务器连接速度测试（2023/02/16 最新版）

文章目录一、简介1.1 我的测速需求1.2 iperf 二、安装iperf2.1 windows中下载与构建2.2 Ubuntu中下载与构建三、测速3.1 连接速度测试3.2 服务器网速测试一、简介 1.1 我的测速需求我目前有2个需求： 测试服务器的上传、下载速度；测试与服务器的连…

阅读更多...

hive数据库表基本操作

hive数据库表基本操作

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 分区 [CLUSTERED BY (col_name, col_name, ...) 分桶 [SORTED BY (c…

阅读更多...

ijkplayer音视频同步

ijkplayer音视频同步

接上篇： ijkplayer框架的集成（ 从开始到优化秒开） 补充： ijkplayer - 拓展： 资料收集备用。 1、在弱网时使用 2、ijkplayer播放卡顿 3、如何支持https链接播放 4、如何降低ijkplayer延迟效应 5、ijkplayer中音…

阅读更多...

javaIO流之文件流

javaIO流之文件流

目录简介一、File的构造方法二、File的常用方法1、获取功能的方法2、绝对路径和相对路径3、判断功能的方法4、创建、删除功能的方法5、目录的遍历6、递归遍历三、RandomAccessFile1、主要方法四、Apache FileUtils 类1、复制文件或目录：2、删除文件或目录&#x…

阅读更多...

提高运算放大器输出功率

提高运算放大器输出功率

运算放大器的串联：如何同时实现高精度和高输出功率复合放大器复合放大器由两个单独放大器组合而成，分别具有不同的特性。图1所示就是这种结构。放大器1为低噪声精密放大器ADA4091-2。在本例中，放大器2为AD8397,具有高输出功率&#xff…

阅读更多...

召回/粗排阶段负样本常见构造方法

召回/粗排阶段负样本常见构造方法

文章目录 1、曝光未点击2、全局随机选择负例3、batch内随机选择负例4、曝光数据随机选择负例5、基于popularity随机选择负例6、基于hard选择负例大佬的总结： 大佬的名言：“如果精排是特征的艺术，那么召回就是样本的艺术（负样本为王…

阅读更多...

linux 用mv替代rm将文件移动到回收站，避免误操作

linux 用mv替代rm将文件移动到回收站，避免误操作

有时候在linux上操作rm -rf 删除命令时，不下心就会将不想删除的文件给删除了，删完后，顿时傻眼了，比如 ，文件夹test下面有 a ,a1 ,b ,b2四个文件，本来想删除test文件夹下面的a和a1连个文件， 输入…

阅读更多...

TCP、UDP原理、DNS协议、CDN原理

TCP、UDP原理、DNS协议、CDN原理

1. 如何理解UDP 和 TCP? 区别? 应用场景? 一、UDP UDP（User Datagram Protocol），用户数据包协议，是一个简单的面向数据报的通信协议，即对应用层交下来的报文，不合并，不拆分，只是…

阅读更多...

Win10搭建Docker Desktop

Win10搭建Docker Desktop

Win10搭建Docker Desktop 1 介绍 Docker Desktop是适用于Windows的Docker桌面，是Docker设计用于在Windows 10上运行。它是一个本地 Windows 应用程序，为构建、交付和运行dockerized应用程序提供易于使用的开发环境。Docker Desktop for Windows 使用 Wi…

阅读更多...

ChatGPT 插件，组合后更妙了

ChatGPT 插件，组合后更妙了

ChatGPT 插件，组合后更妙大家好，我是章北海mlpy 昨天极简介绍了一些热门的ChatGPT插件我测试了一些组合玩法，感觉效率、效果都远超预期。今天就演示一下如何利用多个插件，高速阅读、理解一篇论文。备注：一个C…

阅读更多...

HTB靶机013-Poison-WP

HTB靶机013-Poison-WP

013-Poison 靶机IP： 10.10.10.84 Scan Nmap 快速扫描： ┌──(xavier㉿kali)-[~] └─$ sudo nmap -sSV -T4 10.10.10.84 -F Starting Nmap 7.93 ( https://nmap.org ) at 2023-04-30 16:41 CST Nmap scan report for 10.10.10.84 Host is up (0.27s…

阅读更多...

公牛车充拆解 | 拓尔微A+C双口快充方案IM2403+TMI3451

公牛车充拆解 | 拓尔微A+C双口快充方案IM2403+TMI3451

在快节奏的生活中，手机已成为人们不可或缺的工具。对于经常开车出门的人来说，在车上给手机充电已经成为刚需，因此车载充电器是很多车主的不二之选，它能便捷地解决手机在车内充电的问题，让车主在开车途中保持电量充足。…

阅读更多...

MySQL高级_第10章_索引优化与查询优化

MySQL高级_第10章_索引优化与查询优化

MySQL高级_第10章_索引优化与查询优化 1. 数据准备学员表插 50 万条， 班级表插 1 万条。步骤 1 ：建表 CREATE TABLE class ( id INT ( 11 ) NOT NULL AUTO_INCREMENT , className VARCHAR ( 30 ) DEFAULT NULL , address …

阅读更多...

FlinkKafkaProducer 源码分析

FlinkKafkaProducer 源码分析

initializeState 先查询是否开启isCheckpointingEnabled配置，如果没开，但是使用了EXACTLY_ONCE或者AT_LEAST_ONCE语义，就报错。然后从checkpoint中保存的state中读取nextTransactionalIdHintState。 NEXT_TRANSACTIONAL_ID_HINT_DESCRIPTOR…

阅读更多...

表情、特殊字符、字符串截取

表情、特殊字符、字符串截取

码元与码点关于码元和和码点，通过一个例子进行介绍。如图，字符串😊只有一个“笑脸”符号，但是通过length属性发现，“长度”为2，string.length到底表示什么？ 答：码元的个数什么是…

阅读更多...

C语言爬取HTML-爬取壁纸文末附源码

C语言爬取HTML-爬取壁纸文末附源码

前言：这学期计算机软件课程设计的其中一个题目是使用C语言爬取HTML，本打算使用C语言的CSpidr库来实现，但是因为它的依赖liburi没有找到在哪里安装，所以放弃了这个想法，使用的是curl以及libxml2这两个库，能够…

阅读更多...

这几款实用且有趣的软件不容错过

这几款实用且有趣的软件不容错过

软件一：天若ocr 这款Windows平台的天若OCR文字识别工具一定更适合你。软件作者来自天若游心，我爱破解。发布一年半以来一直深受好评，更新速度也非常快。最近，它增加了批次识别功能。软件二：腾讯柠檬精简版除了Q…

阅读更多...

P2233 [HNOI2002]公交车路线

P2233 [HNOI2002]公交车路线

题目描述在长沙城新建的环城公路上一共有 8 个公交站，分别为 A、B、C、D、E、F、G、H。公共汽车只能够在相邻的两个公交站之间运行，因此你从某一个公交站到另外一个公交站往往要换几次车，例如从公交站 A 到公交站 D，你就至少需要…

阅读更多...

keycloak介绍与使用示例，超时时间设置

keycloak介绍与使用示例，超时时间设置

keycloak介绍 Keycloak是一款由Red Hat开源社区开发的开放源代码的身份和访问管理解决方案，它提供了安全的单点登录(SSO)、多因素身份验证、社交登录和基于角色的访问控制等功能Keycloak基于OAuth 2.0和OpenID Connect协议，并支持SAML 2.0，可…

阅读更多...

推荐文章

最新文章