深度学习|注意力机制

深度学习|注意力机制

news2025/4/13 20:13:54

一、注意力提示

随意：跟随主观意识，也就是指有意识。

注意力机制：考虑“随意线索”，有一个注意力池化层，将会最终选择考虑到“随意线索”的那个值

二、注意力汇聚

这一部分也就是讲第一大点中“注意力汇聚”那个池化层如何实现池化操作。

1.非参注意力池化层

为什么叫“非参”呢？因为这里定义的池化层函数，函数中所用到的数据均来源于之前的变量，不需要学习任何参数，K是一个函数。

这里的query、key、value不懂是什么意思，好像和理解的函数对应不上，李沐没讲

1.1平均池化

这是最简单的池化方案，就是求解平均值，然后映射到value（值）上。

1.2NW核回归

就是K这个函数选取高斯核K(u)，然后入代到上面的池化函数中。

2.参数注意力池化层

就是引入了一个可以学习的w作为参数，每次进行迭代。

二、注意力分数

1.基本介绍

就是说池化层的池化函数关键在于如何定义函数a，函数a就是注意力分数，softmax其实就是将其转换到0-1上，都弄成正的小数。

2.函数a的定义方式

2.1可加性的注意力

可加性的注意力，将函数a定义为上面所示的样子，其实就是将key和value合并起来，具体怎么个意思没太懂。

2.2Scaled Dot-Production Attention

三、自注意力

1.基本含义

将Xi当作key，value，query来提取序列特征。

2.位置编码

3.位置编码矩阵

这个矩阵P就是计算的出的矩阵X的位置信息编码矩阵。从图中可以看出，其实就是将位置信息加到了矩阵X输入上去。

4.绝对位置信息

对每个样本都给一个独一无二的位置信息，将这个位置信息加到原矩阵信息上去。

5.相对位置信息

四、Transformer

沐神说：老大的小孩过来看到BERT说，欸这不是芝麻街......

1.架构

2.多头注意力

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2331108.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

京东店铺托管7*16小时全时护航

京东店铺托管7*16小时全时护航

内容概要京东店铺托管服务的*716小时全时护航模式，相当于给商家配了个全年无休的"运营管家"。专业团队每天从早7点到晚11点实时盯着运营数据和商品排名，连半夜流量波动都能通过智能系统秒级预警。这种全天候服务可不是单纯拼人力——系统自动…

阅读更多...

遵循IEC62304YY/T0664：确保医疗器械软件生命周期合规性

遵循IEC62304YY/T0664：确保医疗器械软件生命周期合规性

一、EC 62304与YY/T 0664的核心定位与关系 IEC 62304（IEC 62304）是国际通用的医疗器械软件生命周期管理标准，适用于所有包含软件的医疗器械（如嵌入式软件、独立软件、移动应用等），其核心目标是确保软件的安…

阅读更多...

20250408-报错：pre_state = state同更新现象

20250408-报错：pre_state = state同更新现象

项目场景： 基于强化学习解决组合优化问题问题描述 # POMO Rolloutstate, reward, done self.env.pre_step()# next_state statewith autocast():while not done:# 执行动作并获取新状态和奖励selected, prob self.model(state)# 更新状态:因为self.env.step(s…

阅读更多...

如何在服务器里部署辅助域

如何在服务器里部署辅助域

辅助域（Additional Domain Controller，ADC）是指在现有的Active Directory（活动目录）架构中，新增一个或多个域控制器以提高目录服务的可用性和可靠性。以下是辅助域的定义、功能和应用场景的详细说明&#x…

阅读更多...

GNSS有源天线和无源天线

GNSS有源天线和无源天线

区别需要外部供电的就是有源天线，不需要外部供电的是无源天线。无源天线一般就是一个陶瓷片、金属片等，结构简单，成本低廉，占用空间及体积小，适合于强调紧凑型空间的导航类产品。不需要供电，跟设备直…

阅读更多...

欧税通香港分公司办公室正式乔迁至海港城！

欧税通香港分公司办公室正式乔迁至海港城！

3月20日，欧税通香港分公司办公室正式乔迁至香港油尖旺区的核心商业区海港城!左手挽着内地市场，右手牵起国际航道——这波乔迁选址操作堪称“地理课代表”! 乔迁仪式秒变行业大联欢!感谢亚马逊合规团队、亚马逊云、阿里国际站、Wayfair、coupang、美客多…

阅读更多...

$ETPNav：基于演进拓扑规划的连续环境视觉语言导航模型$

ETPNav：基于演进拓扑规划的连续环境视觉语言导航模型

1、现有工作的缺陷： 最近，出现了一种基于模块化航路点的方法的新兴趋势，该方法将复杂任务分为航路点生成、子目标规划和导航控制： （1）在每个决策循环中，代理使用预训练的网络来预测附近的几个…

阅读更多...

Spring Cloud LoadBalancer负载均衡+算法切换

Spring Cloud LoadBalancer负载均衡+算法切换

目录介绍核心功能负载均衡启动两个支付服务订单模块引入依赖LoadBalanced 注解启动订单服务测试结果负载均衡算法切换总结介绍 Spring Cloud LoadBalancer 是 Spring Cloud 提供的客户端负载均衡解决方案，提供更现代化的 API 和更好的 Spring 生态系统集成。它支…

阅读更多...

游戏引擎学习第210天

游戏引擎学习第210天

回顾并为今天的工作做准备今天我们，进行一些编码工作。这部分的编码内容对那些对代码架构感兴趣的人非常有帮助，我认为今天的编码内容会很有教育意义，尤其是在展示一些代码转化的过程中，希望大家能够从中获得一些启发。接下来…

阅读更多...

UML类图综合实验三补档

UML类图综合实验三补档

1.使用简单工厂模式模拟女娲(Nvwa)造人(Person)，如果传入参数“M”，则返回一个Man对象，如果传入参数“W”，则返回一个Woman对象，用Java语言实现该场景。现需要增加一个新的Robot类，如果传入参数“R”&#…

阅读更多...

WinForm真入门(11)——ComboBox控件详解

WinForm真入门(11)——ComboBox控件详解

WinForm中 ComboBox 控件详解‌ ComboBox 是 WinForms 中一个集文本框与下拉列表于一体的控件，支持用户从预定义选项中选择或直接输入内容。以下从核心属性、事件、使用场景到高级技巧的全面解析： 一、ComboBox 核心属性‌ 属性说明示例‌Items‌下拉…

阅读更多...

DeepSeek底层揭秘——《推理时Scaling方法》技术对比浅析

DeepSeek底层揭秘——《推理时Scaling方法》技术对比浅析

4月初，DeepSeek 提交到 arXiv 上的最新论文正在 AI 社区逐渐升温。笔者尝试对比了“关于推理时Scaling”与现有技术，粗浅分析如下： 与LoRA的对比区别： 应用场景：LoRA是一种参数高效微调方法，主要用于在…

阅读更多...

Android Coli 3 ImageView load two suit Bitmap thumb and formal，Kotlin（四）

Android Coli 3 ImageView load two suit Bitmap thumb and formal，Kotlin（四） 对 Android Coli 3 ImageView load two suit Bitmap thumb and formal，Kotlin（三）-CSDN博客进行完善，注意完善 …

阅读更多...

$Adam优化器研究综述$

Adam优化器研究综述

摘要 Adam优化器（Adaptive Moment Estimation）是一种广泛应用于深度学习的优化算法，通过自适应学习率加速梯度下降过程。本文从Adam的定义、算法原理、优势与局限性、应用场景及变体等方面进行调研，结合学术文献和实践经验&#x…

阅读更多...

在 macOS 上连接 PostgreSQL 数据库（pgAdmin、DBeaver）

在 macOS 上连接 PostgreSQL 数据库（pgAdmin、DBeaver）

在 macOS 上连接 PostgreSQL 数据库 pgAdmin 官方提供的图形化管理工具，支持 macOS。下载地址：https://www.pgadmin.org/ pgAdmin 4 是对 pgAdmin 的完全重写，使用 Python、ReactJs 和 Javascript 构建。一个用 Electron 编写的桌面运行时…

阅读更多...

2018年真题

2018年真题

数学基础一、 （共4分）用逻辑符号表达下列语句（论域为包含一切事物的集合） 1、（2分）集合A的任一元素的元素都是A的元素经过对图片文字的识别与逻辑分析，结果如下： 符号定义&…

阅读更多...

Efficient Burst Raw Denoising：稳定噪声方差和分频率降噪

Efficient Burst Raw Denoising：稳定噪声方差和分频率降噪

Efficient Burst Raw Denoising with Stabilization and Multi-Frequency Denoising Network Burst Raw Denoising必要性Burst Raw Image Denoising流程Main Contributions具体方法介绍集成noise priorCMOS sensor 噪声建模噪声变换（Variance stabilization&#xf…

阅读更多...

mapbox进阶，使用本地dem数据，加载hillshade山体阴影图层

mapbox进阶，使用本地dem数据，加载hillshade山体阴影图层

👨‍⚕️ 主页： gis分享者 👨‍⚕️ 感谢各位大佬点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏：mapbox 从入门到精通文章目录一、🍀前言1.1 ☘️mapboxgl.Map 地图对象1.2 ☘️mapboxgl.Map style属性1.3 ☘️hillshade 山体阴影图层 api1.3.1 ☘️…

阅读更多...

【C++】Stack Queue 仿函数

【C++】Stack Queue 仿函数

📝前言： 这篇文章我们来讲讲STL中的stack和queue。因为前面我们已经有了string、vector和list的学习基础，所以这篇文章主要关注一些stack和queue的细节问题，以及了解一下deque（缝合怪）和priority_queue &am…

阅读更多...

代码随想录_单调栈

代码随想录_单调栈

代码随想录_单调栈 739.每日温度 739. 每日温度给定一个整数数组 temperatures ，表示每天的温度，返回一个数组 answer ，其中 answer[i] 是指对于第 i 天，下一个更高温度出现在几天后。如果气温在这之后都不会升高，…

阅读更多...

推荐文章

最新文章