学习transformer模型-矩阵乘法；与点积dot product的关系；计算attention

学习transformer模型-矩阵乘法；与点积dot product的关系；计算attention

news2025/7/9 13:48:00

矩阵乘法：

1、当矩阵A的列数（column）等于矩阵B的行数（row）时，A与B可以相乘。

Ankie的评论：一个人是站着的，一个人是躺着的，站着的高度=躺着的长度。

在计算attention的时候，因为QK是一样的矩阵，所以必须把K转置（躺下），才能相乘。

2、矩阵C的行数等于矩阵A的行数，C的列数等于B的列数。

3、乘积C的第m行第n列的元素等于矩阵A的第m行的元素与矩阵B的第n列对应元素乘积之和。

Ankie的评论：C里面每个值，都是乘积之和（点积）。

矩阵乘法与点积dot product的关系：

因为点积是2个向量做运算：

两个向量a = [a1, a2,…, an]和b = [b1, b2,…, bn]的点积定义为：

a·b=a1b1+a2b2+……+anbn。

Ankie的评论：

跟上面矩阵乘法一对比，就看得出：

矩阵C的第一个元素，其实就是A的第一行和B的第一列做点积。

假如矩阵A只有一行，而B只有一列，矩阵乘法 == 向量点积。

假如矩阵A不止一行，而B也不止一行，矩阵乘法 == 多个向量点积。

这样就可以理解标题叫做dot-product attention，而实际上用的是矩阵乘法。

回到点积的几何作用：

Ankie的评论：因为点积可以计算相似值，或者距离，attention就拿来计算attention的相似值，或者距离。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1552582.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

基于单片机工业生产现场的光照强度控制系统设计

基于单片机工业生产现场的光照强度控制系统设计

**单片机设计介绍，基于单片机工业生产现场的光照强度控制系统设计文章目录一概要二、功能设计设计思路三、软件设计原理图五、程序六、文章目录一概要基于单片机工业生产现场的光照强度控制系统设计概要主要包括以下几个关键部分：硬件设计、…

阅读更多...

Android Studio不显示ADB Wi-Fi和Device Explorer的解决办法

Android Studio不显示ADB Wi-Fi和Device Explorer的解决办法

我一直使用Android Studio。最近发现打开个别项目时，不显示ADB Wi-Fi和Device Explorer的图标，而有的项目就会显示。开始以为是插件错误，于是卸载了ADB Wi-Fi插件，并重新安装。但问题依旧。后来发现，原来是在菜单的“…

阅读更多...

二维双指针，滑动窗口

二维双指针，滑动窗口

二维双指针思路：考虑暴力做法，我们统计前缀和，然后枚举以 ( x 1 , y 1 ) (x_1,y_1) (x1,y1), ( x 2 , y 2 ) (x_2,y_2) (x2,y2)为左上，右下顶点的矩阵有多少是合法的，那么，这样的时间复杂度为 n 4…

阅读更多...

【MySQL】15. 事务管理(重点) -- 1

【MySQL】15. 事务管理(重点) -- 1

1. CURD不加控制，会有什么问题？ 2. CURD满足什么属性，能解决上述问题？ 买票的过程得是原子的 ?买票互相应该不能影响 ?买完票应该要永久有效 ?买前，和买后都要是确定的状态? 3. 什么是事务？ 事务就是…

阅读更多...

ROUYI框架地址

1、原版系统地址与文档 https://gitee.com/dromara/RuoYi-Cloud-Plus?_fromgitee_search 源码地址 https://plus-doc.dromara.org/#/ruoyi-cloud-plus/home 后端地址 https://plus-doc.dromara.org/#/plus-ui/home 前端地址前端代码地址： RuoYi-Vue-Plus: 多租户…

阅读更多...

边缘计算与云计算总结

边缘计算与云计算总结

一. EdgeGallery 简介 MEC场景下的EdgeGallery是让资源边缘化，实时完成移动网络边缘的业务处理，MEC场景下的EdgeGallery让开发者能更便捷地使用 5G 网络能力，让5G能力在边缘触手可及。 EdgeGallery是由华为、信通院、中国移动、中国联通、…

阅读更多...

玫瑰图和雷达图（自备）

玫瑰图和雷达图（自备）

目录玫瑰图数据格式绘图基础绘图升级（文本调整） 玫瑰图下载数据data/2020/2020-11-24 mirrors_rfordatascience/tidytuesday - 码云 - 开源中国 (gitee.com) R语言绘图—南丁格尔玫瑰图 - 知乎 (zhihu.com) 数据格式 rm(list ls()) libr…

阅读更多...

jmockit-01-test 之 jmockit 入门使用案例

jmockit-01-test 之 jmockit 入门使用案例

拓展阅读 jmockit-01-jmockit 入门使用案例 jmockit-02-概览 jmockit-03-Mocking 模拟 jmockit-04-Faking 伪造 jmockit-05-代码覆盖率 mockito-01-入门介绍 mockito-02-springaop 整合遇到的问题，失效 jmockit 说明 jmockit 可以提供基于 mock 的测试能力…

阅读更多...

python学习之变量类型

python学习之变量类型

print单纯输中的十种数据类型只需要用print()函数即可，()里面直接写变量名。下面重点介绍print格式输出： 第一种方法：一个萝卜一个坑，下面的代码中，{0}、{1}、{2}分别表示j,i,j*i，单引号里面是输出格式。…

阅读更多...

【网安小白成长之路】3.MySQL环境配置以及常用命令(增删改查)

【网安小白成长之路】3.MySQL环境配置以及常用命令(增删改查)

🐮博主syst1m 带你 acquire knowledge！ ✨博客首页——syst1m的博客💘 🔞 《网安小白成长之路(我要变成大佬😎！！)》真实小白学习历程，手把手带你一起从入门到入狱🚭 &…

阅读更多...

深度学习语义分割篇——DeepLabV2原理详解篇

深度学习语义分割篇——DeepLabV2原理详解篇

🍊作者简介：秃头小苏，致力于用最通俗的语言描述问题 🍊专栏推荐：深度学习网络原理与实战 🍊近期目标：写好专栏的每一篇文章 🍊支持小苏：点赞👍🏼、…

阅读更多...

R语言做两次分类，再做两两T检验，最终输出均值和pvalue

R语言做两次分类，再做两两T检验，最终输出均值和pvalue

1.输入文件： 2.代码： setwd("E:/R/Rscripts/rG4相关绘图")# 加载所需的库 library(tidyverse)# 读取CSV文件 data <- read.csv("box-cds-ABD-不同类型rg4-2.csv", stringsAsFactors FALSE)# 组合Type1和Type2：通过…

阅读更多...

GeoServer 2.25.0 发布新功能及升级

GeoServer 2.25.0 发布新功能及升级

GeoServer 2.25.0版本现已提供下载（bin、 war、 windows）以及文档和扩展。这是推荐用于生产用途的 GeoServer 的稳定版本。GeoServer 2.25.0 是与 GeoTools 31.0 和 GeoWebCache 1.25.0 结合使用的。安全升级此版本解决了多个安全漏洞&#xff0c…

阅读更多...

3723. 字符串查询：做题笔记

3723. 字符串查询：做题笔记

目录思路代码注意点 3723. 字符串查询思路这道题感觉和常见的前缀和问题不太一样，前缀和的另一种应用：可以统计次数。这道题我们想判断一个单词的其中一段子序列A是否可以通过重新排列得到另一段子序列B。我看到这道题的时候想着可能要判…

阅读更多...

Flutter 中的 ScrollNotification 为啥收不到

Flutter 中的 ScrollNotification 为啥收不到

1. 需求在做智家 APP 悬浮窗优化需求时，需要获取列表的滑动并通知悬浮窗进行收起或全部显示。基础库同事已经把基础逻辑整理好如下： NotificationListener<ScrollNotification>(onNotification: (notification){//1.监听事件的类型if (notif…

阅读更多...

STM32实现三个串口同时开启发送接收数据

STM32实现三个串口同时开启发送接收数据

程序目的： 实现STM32开通三个串口，每个串口都可以实现接收和发送数据。注意事项： 编程时，严禁在中断函数中写入发送串口数据代码，否则会出错，具体原因不清楚（有大佬知道的话帮我指出&#xff…

阅读更多...

C#String的remove的用法

C#String的remove的用法

string test "abc";string temp test;temp.Remove(0, 1);temp temp.Remove(0, 1);Console.WriteLine(temp);Console.WriteLine(test);执行结果

阅读更多...

UE RPC 外网联机（1）

UE RPC 外网联机（1）

技术：RPC TCP通信设计：大厅服务<---TCP--->房间服务<---RPC--->客户端（Creator / Participator） 1. PlayerController 用于RPC通信控制 2.GameMode 用于数据同步 3.类图 4. 注意 （1）RPC&a…

阅读更多...

uniapp h5 touch事件踩坑记录

uniapp h5 touch事件踩坑记录

场景：悬浮球功能当我给悬浮球设置了 position: fixed; 然后监听悬浮球的touch事件，从事件对象中拿到clientY和clientX赋值给悬浮球的left和top属性。当直接赋值后效果应该是这样子： 注意鼠标相对悬浮球的位置，应该就是左上角&a…

阅读更多...

深度学习论文: Attention is All You Need及其PyTorch实现

深度学习论文: Attention is All You Need及其PyTorch实现

深度学习论文: Attention is All You Need及其PyTorch实现 Attention is All You Need PDF:https://arxiv.org/abs/1706.03762.pdf PyTorch: https://github.com/shanglianlm0525/PyTorch-Networks 大多数先进的神经序列转换模型采用编码器-解码器结构，其中编码器将…

阅读更多...

推荐文章

最新文章