自注意力机制理解

自注意力机制理解

news2025/4/15 4:50:24

1、精密输入

输入是一个向量，输出表里或类

输入是一组向量（变化的长度），输出表里或类？？？

例子1 句子生成

独热编码，不能包含语义信息

词嵌入，每个词是一个词向量

例子2 声音信号

取一段范围，叫做window，作为frame，25ms，有各式各样的算法来描述

向右移动10ms，1s有100个frames

例子3 图

分子用独热编码表示

2、输出是什么？

每一个向量输出一个标签：词性标注、语音识别、购物与否
整个序列输出一个标签：情感分析、分子性质
机器自己决定输出是什么 sep2seq：语音辨识

3、Sequence labeling

network：对于每个词的输出是一样的，无法理解上下文，两个saw一个是动词，一个是名词

所以应该怎样解决？让它考虑上下文的信息，即开一个window

进一步的问题是如何考虑整个句子，这里存在问题就是window开大一点就可以吗？不行，因为每个句子的长度不同，那这个window的大小就不确定，这需要很大的运算量

考虑自注意机制，自注意机制输入几个向量就输出几个结果，这个输出是考虑了整个句子得来的，自注意机制可以有多层，FC和自注意层交替使用

4、自注意机制

自注意的每个输出都考虑了整个句子

如何确定，b1和a4之间的α值呢？（有多相关）

有多种多样的方法可以用来计算α值

dot-product：向量*Wq 得到 q，q*k得到 α值

如何计算的？

第一个图：被查询的用了wq，得到q1，q1和后面的k相乘，得到α12 α13 α14

第二个图：补充了自己查询这一步，计算了k1=wk*a1，得到k1，k1 * q1 得到 α11

接着，把这一排α进行soft-max，得到的 α’ 表示了a1和其他词的相关性

基于注意力分数抽取信息，加入v，注意力分数*v，再求和，得到b1

最后产生b1~b4，并行计算

5、矩阵角度理解自注意机制的运作

流程整理：

6、多头自注意机制是怎么回事？

7、位置信息-position encoding，人设的

8、transformer的应用，除了自注意机制外：

语音识别：这里要做改动，因为注意力矩阵会变得非常大，难以计算，就可以使用截断注意力机制

影像：5*10*3

9、与cnn有什么不同？

cnn是一种特殊化的self-attention

在训练资料多的时候，self-attention可以从大量资料获得信息，而cnn有所限制

10、与rnn有什么不同？

rnn：可以单向也可以双向，不能平行处理，又先后运算顺序

self-attention：可以并行运算

11、for graph

有相连的边才需要计算注意力分数

课程链接：
11.【李宏毅机器学习2021】自注意力机制 (Self-attention) (下)_哔哩哔哩_bilibili

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1170408.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【深度学习基础】Pytorch框架CV开发（1）基础铺垫

【深度学习基础】Pytorch框架CV开发（1）基础铺垫

📢：如果你也对机器人、人工智能感兴趣，看来我们志同道合✨ 📢：不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】 📢：文章若有幸对你有帮助，可点赞 👍…

阅读更多...

BEM：css命名规范

BEM：css命名规范

BEM BEM(Block-Element-Modifier)，块、元素、修饰符，是一种CSS命名规范，旨在前端开发中创建可重用组件和代码共享的方法，使样式易于扩展，易于维护，易于理解规范： 1、块（Block&am…

阅读更多...

Python|Pyppeteer获取威科先行文章链接(21)

Python|Pyppeteer获取威科先行文章链接(21)

前言本文是该专栏的第21篇，结合优质项目案例持续分享Pyppeteer的干货知识，记得关注。本文以“威科先行”的信息库为例，笔者将详细介绍使用pyppeteer“自动滑动页面并翻页”获取威科先行的文章链接。如果对pyppeteer的使用以及知识点不太熟悉的同学，可往前查看本专栏前面…

阅读更多...

（参考写法）Transformer-Based Visual Segmentation:A Survey

（参考写法）Transformer-Based Visual Segmentation:A Survey

基于Transformer的视觉分割综述南洋理工大学NTU、上海人工智能实验室AI Lab整理300+论文论文地址：https://arxiv.org/pdf/2304.09854.pdf 代码地址：https://github.com/lxtGH/Awesome-Segmentation-With-Transformer 前言 SAM （Segment Anything ）作为一个视觉的分割…

阅读更多...

python创建一个简单的flask应用

python创建一个简单的flask应用

下面用python在本地和服务器上分别创建一个简单的flask应用： 1.在pc本地 1）pip flask后创建一个简单的脚本flask_demo.py from flask import Flaskapp Flask(__name__)app.route(/) def hello_world():return Hello, World!winR进入命令行，…

阅读更多...

https网站加载http资源问题

https网站加载http资源问题

https网站加载http资源问题前言：最近项目对接了一个第三方的平台、我们需要展示第三方平台返回来的图片资源、由于我们的服务器设置为了https、但是第三方平台返回的图片链接是 http 资源。所以就出现了图片无法加载出来的问题，在此记录一下问题的解决…

阅读更多...

数据结构与算法（Java版） | 排序算法的介绍与分类

数据结构与算法（Java版） | 排序算法的介绍与分类

各位朋友，现在我们即将要进入数据结构与算法（Java版）这一系列教程中的排序算法这一章节内容的学习中了，所以还请大家系好安全带，跟随我准备出发吧！ 相信诸位应该都知道排序算法有很多种吧！就算没…

阅读更多...

旋转链表（C++解法）

旋转链表（C++解法）

题目给你一个链表的头节点 head ，旋转链表，将链表每个节点向右移动 k 个位置。示例 1： 输入：head [1,2,3,4,5], k 2 输出：[4,5,1,2,3]示例 2： 输入：head [0,1,2], k 4 输出：[…

阅读更多...

服务号可以转订阅号吗

服务号可以转订阅号吗

服务号和订阅号有什么区别？服务号转为订阅号有哪些作用？首先我们要看一下服务号和订阅号的主要区别。1、服务号推送的消息没有折叠，消息出现在聊天列表中，会像收到消息一样有提醒。而订阅号推送的消息是折叠的，“订阅号…

阅读更多...

软文成功三大要素，媒介盒子分享

软文成功三大要素，媒介盒子分享

今天媒介盒子来和大家分享：软文成功的三大要素。许多企业在进行软文推广时经常会很困惑，明明软文写了也发了，怎么就是没效果，其实是忽略了这三点： 一、创意性创意可以是文案的语言风格、看问题的视角、排版等等&…

阅读更多...

服务器开设新账户，创建账号并设置密码

服务器开设新账户，创建账号并设置密码

实验室又进新同学了，服务器开设新账号搞起来 1、创建用户： 在root权限下，输入命令useradd -m 用户名，如下 sudo useradd -m yonghuming 2、设置密码： 输入命令passwd 用户名回车，接着输入密码操作&…

阅读更多...

SPSS两独立样本的非参数检验

SPSS两独立样本的非参数检验

前言： 本专栏参考教材为《SPSS22.0从入门到精通》，由于软件版本原因，部分内容有所改变，为适应软件版本的变化，特此创作此专栏便于大家学习。本专栏使用软件为：SPSS25.0 本专栏所有的数据文件请点击此链接下…

阅读更多...

Yolov8改进CoTAttention注意力机制，效果秒杀CBAM、SE

Yolov8改进CoTAttention注意力机制，效果秒杀CBAM、SE

1.CoTAttention 论文地址：2107.12292.pdf (arxiv.org) CoTAttention网络是一种用于多模态场景下的视觉问答（Visual Question Answering，VQA）任务的神经网络模型。它是在经典的注意力机制（Attention Mechanism&#xf…

阅读更多...

C++ 算法：区间和的个数

C++ 算法：区间和的个数

涉及知识点归并排序题目给你一个整数数组 nums 以及两个整数 lower 和 upper 。求数组中，值位于范围 [lower, upper] （包含 lower 和 upper）之内的区间和的个数。区间和 S(i, j) 表示在 nums 中，位置从 i 到 j 的元素之和…

阅读更多...

多技术融合提升环境、生态、水文、土地、农业、大气等领域科研技术水平

多技术融合提升环境、生态、水文、土地、农业、大气等领域科研技术水平

专题一、空间数据获取与制图 1.1 软件安装与应用讲解 1.2 空间数据介绍 1.3海量空间数据下载 1.4 ArcGIS软件快速入门 1.5 Geodatabase地理数据库点击查看原文链接https://mp.weixin.qq.com/s?__bizMzg2NDYxNjMyNA&mid2247546998&idx6&sn39342c376b158eff1…

阅读更多...

基于SSM的购物商城网站的设计与实现

基于SSM的购物商城网站的设计与实现

末尾获取源码开发语言：Java Java开发工具：JDK1.8 后端框架：SSM 前端：Vue 数据库：MySQL5.7和Navicat管理工具结合服务器：Tomcat8.5 开发软件：IDEA / Eclipse 是否Maven项目：是目录…

阅读更多...

多测师肖sir_高级金牌讲师__adb命令

多测师肖sir_高级金牌讲师__adb命令

adb指令整理： ADB常用的指令： 查看当前连接设备 ： adb devices 进入到shell ： adb shell 查看日志 ： adb logcat 安装apk文件 ： adb install xxx.apk 卸载APP ： adb uninstall 包名查看包名 &…

阅读更多...

Cadence Virtuoso如何保存spectre仿真在cell view里

Cadence Virtuoso如何保存spectre仿真在cell view里

Launch ADE L 可以选择 Load State 加载上次仿真状态，但是我想保存在cell view和schematic在一起可以直接打开，可以选择Save State旁的Cellview 可以在Library Manager中看到保存成功了

阅读更多...

YOLOv5项目实战（2）— 手把手教你租借云服务器去训练模型

YOLOv5项目实战（2）— 手把手教你租借云服务器去训练模型

前言：Hello大家好，我是小哥谈。近期由于出差在外（在新疆吐鲁番出差呢~），一直远程使用公司服务器进行算法模型训练，但是由于这几天公司VPN故障，导致无法远程训练模型，所以就想着租借服务器来进行训练。近期我研发的算法模型是工业场景烟雾明火检测，本节课就以此为例教大…

阅读更多...

AI 引擎系列 4 - 首次运行 AI 引擎编译器和 x86simulator（2022.1 更新）

AI 引擎系列 4 - 首次运行 AI 引擎编译器和 x86simulator（2022.1 更新）

AI 引擎系列 4 - 首次运行 AI 引擎编译器和 x86simulator（2022.1 更新） 简介在 AI 引擎系列的前 3 篇博文中，我们探讨了 AI 引擎应用所需的不同文件。在本篇中，我们将为 X86 目标运行 AI 引擎编译器，观察它生成的不…

阅读更多...

推荐文章

最新文章