注意力机制，本质上是在做什么？

news2025/4/20 15:07:58

本文以自注意机制为例，输入一个4*4的矩阵
如下：

input_data=torch.tensor([[1,2,3,4], [5,6,7,8], [9,10,11,12], [13,14,15,16] ],dtype=torch.float)

得到Q和K的转置如下。

此时，计算Q@K^T ,得到如下结果
第一行第一个位置就是第一条样本和第一条样本对应特征相乘再求和的结果
第一行第二列，就是第一条样本和第二条样本对应特征位置相乘再求和的结果
以此类推...
也就是每条样本分别于其它样本做点乘操作，这个过程的结果被叫做外积。
请注意，这个过程并不是叉乘，叉乘一般用于向量。

最后我们使用该结果做softmax操作，我们将得到如下矩阵。观察下面的矩阵，我们发现，在最后一列几乎都是1，在其它列无限接近0。
但是这并不是说每个样本的最后一个特征得分最高，而是表示，在单个特征位置，其每个样本的概率分布。
所以，如下矩阵表示，在每个特征维度上，最后一条样本的概率分布最高。

所以，我们使用注意力得分和V做点积操作，att @ V ，我们将得到如下输出。

我们会发现，每一行都变成了[13,14,15,16]
这不就是最后一条样本的数值吗？

所以这个过程发生了什么呢？在这个过程中，完成注意力计算后，由于在每个特征维度上，都是最后一条样本的概率分布最高，所以每条样本的每个特征都变成的最后一条样本的值。
但是，实际上并不都这么夸张，因为在实际深度学习中，我们会将样本归一化，使得每条样本的特征值都在0-1区间，这样就不会太受到大值样本的影响。
比如，我们进行如下归一化，将输入数据*0.01。

B=B*0.01
得到如下输出，我们会发现，最后注意力结果就不会都是最后一条样本的值了，只不过呢，最后一条样本的值占据更多数。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2319549.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

注意力机制，本质上是在做什么？

相关文章

使用Python在Word中创建、读取和删除列表 - 详解

右键添加:新建HTML模板文件

Windows10配置OpenJDK11

统一开放世界与开放词汇检测：YOLO-UniOW无需增量学习的高效通用开放世界目标检测框架

如何给商品一键换色？图生生AI，告别繁琐修图

练习-班级活动（map存储键值对）

OpenHarmony 开源鸿蒙北向开发——hdc工具安装

buu-bjdctf_2020_babystack2-好久不见51

【Java SE】抽象类/方法、模板设计模式

Unix 域套接字（本地套接字）

Nordic nRF 蓝牙的 Direct Test Mode (DTM) 测试介绍

LangChain开发（一）介绍和第一个例子

Chrome-Edge-IDEA-Win 常用插件-工具包

电加热产品亚马逊审核标准UL499报告

从实践到创新：低代码驱动教育行业数字化转型

dfs刷题排列问题 + 子集问题 + 组和问题总结

996引擎-接口测试：消息Tips

JavaWeb之WebSocket

算法2--两数相加

Springboot的jak安装与配置教程