浅析Attention

浅析Attention

news2026/2/10 10:53:47

本质：

Attention机制的本质来自于人类视觉注意力机制。人们在看东西的时候一般不会从头看到尾全部都看，往往只会根据需求观察注意特定的一部分。简单来说，就是一种权重参数的分配机制，目标是协助模型捕捉重要信息。

原理：

具体一点就是，给定一组<key,value>，以及一个目标（查询）向量query，attention机制就是通过计算query与每一组key的相似性，得到每个key的权重系数，再通过对value加权求和，得到最终attention数值。

作用：

Attention机制可以增强神经网络输入数据中某些部分的权重，同时减弱其他部分的权重，以此将网络的关注点聚焦于数据中最重要的一小部分。例如，在翻译任务中，Attention机制可以使模型集中于输入序列的相关部分。

优点：

Attention机制的引入主要有三个优点：

参数少：模型复杂度跟CNN、RNN相比，复杂度更小，参数也更少。
速度快：Attention解决了RNN不能并行计算的问题。Attention机制每一步计算不依赖于上一步的计算结果，因此可以和CNN一样并行处理。
效果好：Attention是挑重点，就算文本比较长，也能从中间抓住重点，不丢失重要的信息。

问题：

并行计算导致了丢失位序的问题

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1364094.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

自监督深度学习技术

自监督深度学习技术

一、定义自监督学习（SSL）是机器学习的一种范式，用于处理未标记数据以获取有用的表示，以帮助下游学习任务。SSL方法最显著的特点是它们不需要人类标注的标签，这意味着它的训练完全基于由未标记的数据样本组成的数据集…

阅读更多...

在做题中学习（43）：长度最小的子数组

在做题中学习（43）：长度最小的子数组

LCR 008. 长度最小的子数组 - 力扣（LeetCode） 解法：同向双指针-------滑动窗口算法解释：本是暴力枚举做法，因为全部是正整数，就可以利用单调性和双指针解决问题来节省时间思路： 如上面图&am…

阅读更多...

IIS+SDK+VS2010+SP1+SQL server2012全套工具包及安装教程

IIS+SDK+VS2010+SP1+SQL server2012全套工具包及安装教程

前言今天花了两个半小时安装这一整套配置，这个文章的目标是将安装时间缩短到1个小时正文安装步骤如下： VS2010 —> service pack 1 —>SQL server2012 —> IIS —> SDK 工具包链接如下： https://pan.baidu.com/s/1WQD-KfiUW…

阅读更多...

[Linux] 一文理解HTTPS协议:什么是HTTPS协议、HTTPS协议如何加密数据、什么是CA证书(数字证书)...

[Linux] 一文理解HTTPS协议:什么是HTTPS协议、HTTPS协议如何加密数据、什么是CA证书(数字证书)...

之前的文章中, 已经分析介绍过了HTTP协议. HTTP协议在网络中是以明文的形式传输的. 无论是GET还是POST方法都是不安全的. 为什么不安全呢? 因为: HTTP协议以明文的形式传输数据, 缺乏对信息的保护. 如果在网络中传输数据以明文的形式传输, 网络中的任何人都可以轻松的获取数据…

阅读更多...

Java：File类详解

Java：File类详解

文章目录 1、概述2、创建File实例3、常用方法3.1 获取功能的方法3.2 绝对路径和相对路径3.3 判断功能的方法3.4 创建删除功能的方法3.5 文件过滤功能的方法 4、文件夹的遍历5、综合练习5.1 创建文件夹5.2 查找文件（不考虑子文件夹）5.3 查找文件&#xff…

阅读更多...

RK3568平台开发系列讲解（Linux系统篇）Linux 内核打印

RK3568平台开发系列讲解（Linux系统篇）Linux 内核打印

🚀返回总目录文章目录一、方法一：dmseg 命令二、方法二：查看 kmsg 文件三、方法三：调整内核打印等级一、方法一：dmseg 命令在终端使用 dmseg 命令可以获取内核打印信息，该命令的具体使用方法如下所示：首先在串口终端使用 “dmseg”命令，可以看见相应的内核打印信息…

阅读更多...

静态网页设计——科学家网（HTML+CSS+JavaScript）(dw、sublime Text、webstorm、HBuilder X)

静态网页设计——科学家网（HTML+CSS+JavaScript）(dw、sublime Text、webstorm、HBuilder X)

前言声明：该文章只是做技术分享，若侵权请联系我删除。！！ 感谢大佬的视频：https://www.bilibili.com/video/BV1wg4y1Q7qm/?vd_source5f425e0074a7f92921f53ab87712357b 源码：https://space.bilibili.com…

阅读更多...

[C#]C# OpenVINO部署yolov8-pose姿态估计模型

[C#]C# OpenVINO部署yolov8-pose姿态估计模型

【源码地址】 github地址：https://github.com/ultralytics/ultralytics 【算法介绍】 Yolov8-Pose算法是一种基于深度神经网络的目标检测算法，用于对人体姿势进行准确检测。该算法在Yolov8的基础上引入了姿势估计模块，通过联合检测和姿势…

阅读更多...

HarmonOS 通用组件(Checkbox)

HarmonOS 通用组件(Checkbox)

本文中我们来说通用组件中的 Checkbox 我们先搭起一个基本的架子组件 Entry Component struct Index {build() {Row() {Column() {Row() {}}.width(100%)}.height(100%)} }我们可以在Row 行组件中加入代码 Checkbox({name: "age"}) Text("年龄")这样就…

阅读更多...

JDK 11：崭新特性解析

JDK 11：崭新特性解析

JDK 11：崭新特性解析 JDK 11：崭新特性解析1. HTTP Client（标准化）示例代码 2. 局部变量类型推断的扩展示例代码 3. 新的字符串方法示例代码 4. 动态类文件常量示例代码 5. Epsilon 垃圾收集器使用方式结语 JDK 11：崭新…

阅读更多...

第三十八周周报：文献阅读 +BILSTM+GRU+Seq2seq

第三十八周周报：文献阅读 +BILSTM+GRU+Seq2seq

目录摘要 Abstract 文献阅读：耦合时间和非时间序列模型模拟城市洪涝区洪水深度现有问题提出方法创新点 XGBoost和LSTM耦合模型 XGBoost算法编辑 LSTM（长短期记忆网络） 耦合模型研究实验数据集评估指标研究目的洪…

阅读更多...

stable diffusion 基础教程-文生图

stable diffusion 基础教程-文生图

置顶大模型插件资源链接你如果没有魔法上网，请自取百度云盘链接：链接：https://pan.baidu.com/s/1_xAu47XMdDNlA86ufXqAuQ?pwd=23wi 提取码：23wi 有疑问加微：mincarver 界面介绍参数解释参数解释Sampling method扩散去噪算法的采样模式，不同采样模式会带来不一样的效…

阅读更多...

opencv期末练习题（6）附带解析

opencv期末练习题（6）附带解析

滑动块调整图像灰度 import cv2 import numpy as np """ 滑动块调整图像灰度1. 读取图片，并转为灰度图 2. 定义启动滑块和阈值滑块 3. 只有启动滑块的值为1时，拖动阈值滑块才生效 4. 根据阈值滑块的值实时对图像进行二值化操作 "&qu…

阅读更多...

【文件操作】

【文件操作】

目录为什么使用文件什么是文件二进制文件和文本文件文件的打开和关闭文件的顺序读写文件的随机读写文件读取结束的判定文件缓冲区 1. 为什么使用文件如果没有文件，我们写的程序数据时存储在电脑内存中，如果程序退出，内存回收，…

阅读更多...

VS Code 如何调试Python文件

VS Code 如何调试Python文件

VS Code中有1,2,3处跟Run and Debug相关的按钮， 1 处：调试和运行就不多说了，Open Configurations就是打开workspace/.vscode下的lauch.json文件，而Add Configuration就是在lauch.json文件中添加当前运行Python文件的Configuratio…

阅读更多...

C语言编译器（C语言编程软件）完全攻略（第二十七部分：VS安全函数问题（C语言安全函数）是怎么回事？如何解决？）

C语言编译器（C语言编程软件）完全攻略（第二十七部分：VS安全函数问题（C语言安全函数）是怎么回事？如何解决？）

介绍常用C语言编译器的安装、配置和使用。二十七、VS安全函数问题（C语言安全函数）是怎么回事？如何解决？ 在 VS（Visual Studio）下编译C语言程序，如果使用了 scanf()、gets()、strcpy()、strca…

阅读更多...

在IDEA中使用git分支进行开发然后合并到Master分支，2022.1.x版本

在IDEA中使用git分支进行开发然后合并到Master分支，2022.1.x版本

在实际开发过程中，为了避免因为在开发中出现的问题以及方便发布版本，如果是多版本发布的情况相下，我们通常需要采用分支进行开发，这个时候，我们就需要了解git分支的相关知识点了，本篇博客也是博主在实际公司…

阅读更多...

linux高级管理——Squid代理

linux高级管理——Squid代理

一、squid服务基础： 1.1缓存代理的概述： 代理的工作机制当客户机通过代理来请求Web页面时．指定的代理服务器会先检查自己的缓存，如果缓存中已经有客户机需要的页面，则直接将缓存中的页面内容反馈给客户机:如果缓存中…

阅读更多...

JumpServer3.0版本-资产管理

JumpServer3.0版本-资产管理

资产列表资产列表可展示资产树和类型树，可以查看添加的所有资产新增资产也是在此页面在资产树上面右键可以创建新的子节点比如这里我新建了个“腾讯云”节点选中腾讯云节点，点击中间的“创建”按钮，新增资产选择你的主机类型，我这是Linux 填写你资产的名称、IP必…

阅读更多...

复习sql: 内连接，左外连接，右外连接，全外连接，交叉连接

复习sql: 内连接，左外连接，右外连接，全外连接，交叉连接

数据表准备学生表和课程表内连接 join 或 innner join 筛选出满足条件的列，where也可以实现这种功能。 SELECT * FROM student JOIN course ON student.student_id course.stu_id结果外连接左外连接 left join 或者 left outer join 以第一个表为基础&…

阅读更多...

推荐文章

最新文章