Self-attention自注意力机制——李宏毅机器学习笔记

news2025/7/7 12:47:28

self-attention想要解决的问题

复杂的输入

在这里插入图片描述
每次输入的length不同时，即Vector Set大小不同，该如何处理？
one-hot encoding，缺点：所有的词汇之间没有语义资讯。
word embedding，会给每一个词汇一个向量，一个句子则是一排长度不一
的向量，具有语义资讯。
在这里插入图片描述
1min便有6000个frame

输出是什么？

（1）Each vector has a label
在这里插入图片描述
(2)The whole sequence has a label

（3）Model decides the number of labels itself

Sequence Labeling

在这里插入图片描述

使用fc缺点：假设是词性标记，则无法正确识别。

It is possible to consider the context?

a window covers the whole sequence?
sequence长度有长有短，首先我们需要统计训练资料，查看一下最长的sequence有多长，然后开一个window（大于最长的sequence），这就会导致fc所需参数多，运算量大，容易overfitting。
所以使用self-attention:
知名paper：Attention is all you need.
在这里插入图片描述

在这里插入图片描述

如何计算‘阿尔法’数值：
（1）Dot-product——常用
（2）Additive

Dot-product
w先随机生成，后通过梯度下降训练得出。

为什么要用soft-max？
不一定用soft-max，只是比较常见，也可以用别的。

得到a’后，我们可以知道哪些向量与a1是最有关系的，然后我们开始根据attention score来抽取重要资讯：
在这里插入图片描述

b1-b4是可以并行计算得到

softmax可以使用其他

从I——>O就是做了self-attention
self-attention layer中唯一需要学习的参数是W

Multi-head Self-attention多头注意力机制

翻译、语音辨识用multi-head往往可以得到比较好的结果，至于多少个head也是需要调参的。
在这里插入图片描述

self-attention layer少了一个很重要的资讯——位置资讯，如果需要可以加入positional encoding。（这个问题尚待研究）

self-attention的应用

在这里插入图片描述
使用self-attention 处理语音时，会产生很长的向量，即attention matrix太大，不容易训练，因此使用truncated self-attention，看一部分（自己设定）而不去看整句话。

Self -attention 和 CNN的关系

在这里插入图片描述
self-attention中的receptive field是机器自己学出来的，自己决定需要考虑哪些信息。

在这里插入图片描述

Self-attention VS RNN

(1)self-attention考虑的范围较广
在这里插入图片描述

（2）倘若RNN要考虑最右边黄色vector要考虑最左边蓝色vector，则它需要将蓝色vector存到Memory中，然后不能忘掉一路带到最右边。
在这里插入图片描述
（3）RNN：nonparallel

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/42990.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

02-Docker-常用命令

02-Docker-常用命令

目录一、帮助启动类命令启动docker 停止docker 重启docker 查看docker状态开机启动查看docker概要信息查看docker总体帮助文档查看docker命令帮助文档二、镜像命令 1. 列出本地主机上的镜像 2. 查找镜像 3. 下载镜像 4. 查看镜像/容器/数据卷所占的空间 5.…

阅读更多...

[附源码]SSM计算机毕业设计小说网站的设计与实现1JAVA

[附源码]SSM计算机毕业设计小说网站的设计与实现1JAVA

项目运行环境配置： Jdk1.8 Tomcat7.0 Mysql HBuilderX（Webstorm也行） Eclispe（IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持）。项目技术： SSM mybatis Maven Vue 等等组成，B/S模式 M…

阅读更多...

Java#数据结构----2

Java#数据结构----2

目录一.数据结构(树) 二.二叉树(任意节点的度<2) 二叉查找树又称为二叉排序树/二叉搜索树平衡二叉树平衡二叉树的旋转机制三.红黑树一.数据结构(树) 基本概念: 度: 每一个节点的子节点数量树高: 树的总层数根节点: 最顶层的节点左子节点: 左下方的节点右子节…

阅读更多...

【Java八股文总结】之面试题（二）

【Java八股文总结】之面试题（二）

文章目录面试题一、几种锁的区别1、synchronized 和ReentrantLock的区别二、Java高级1、反射1、反射的应用场合2、Java反射API3、反射使用步骤（获取Class 对象、调用对象方法）4、获取Class对象的3种方法5、创建对象的两种方法 newInstance(）2…

阅读更多...

数据结构和算法——基于Java——3.1链表（单链表）

数据结构和算法——基于Java——3.1链表（单链表）

理论补充概念:链表是以节点的方式存储，是链式存储特性每个节点包含一个data数据域（存放数据），一个next域（指向下一个节点）链表分带头结点和不带头节点（单链表带头）链表的内存分…

阅读更多...

移动端开发：WebView介绍和使用、JSBridge等

移动端开发：WebView介绍和使用、JSBridge等

Android应用层的开发有几大模块，其中WebView是最重要的模块之一。Android系统的WebView发展历史可谓一波三折，系统WebView开发者肯定费劲心思才换取了今天的局面——应用里的WebView和Chrome表现一致。 webview是什么？ WebView是一种控件&a…

阅读更多...

计算机的存储器（详解）

计算机的存储器（详解）

文章目录一，存储器（一）存储器的分类1) 根据功能和特性分类2) 根据存储容量和所在位置分类二，寄存器（一）寄存器的类别三，高速缓冲存储器（一）高速缓存的类别1) 一级高速缓存…

阅读更多...

QT-MySQL QSqlDatabase: QMYSQL driver not loaded

QT-MySQL QSqlDatabase: QMYSQL driver not loaded

使用Qt连接mysql数据库，遇到了一个问题，就是QT5.14.1版本在连接MySQL数据库时候，提示驱动加载失败，“QMYSQL driver not loaded” 编程环境： 　　Qt5.14.1,编译器是MSVC2017_64,是64位的。　　mysql-8.0.30-winx64&am…

阅读更多...

场馆系统的数据分析功能怎么样?

场馆系统的数据分析功能怎么样?

在大数据时代，对人们的消费数据进行分析，对企业发展至关重要。对于正在向智能化靠近的运动球馆来说，收集数据、分析数据来了解和改善场馆的运营已经成了一个新的趋势。场馆系统组建了数据管理分析模块，让球馆通过信息化管理&…

阅读更多...

【IoT】如何快速了解一个行业？如何做市场洞察？

【IoT】如何快速了解一个行业？如何做市场洞察？

如果要做一个新的事情，往往我们也不知道未来会怎么样。我们准备去做一个事情之前一般都是会有个假设，比方说我们学习一项新技术，我们假设学习了以后能够给未来的生活带来提升，能给自己创造更多的机会，这就是个假设。 …

阅读更多...

C++求解汉明距离

C++求解汉明距离

目录汉明距离介绍汉明距离应用解法1：Brian Kernighan算法解法2解法3汉明距离介绍 leetcode 461 汉明距离，难度：简单两个整数之间的汉明距离指的是这两个数字对应二进制位不同的位置的数目。给你两个整数 x 和 y，计算并返回…

阅读更多...

[附源码]计算机毕业设计Springboot电影推荐网站

[附源码]计算机毕业设计Springboot电影推荐网站

项目运行环境配置： Jdk1.8 Tomcat7.0 Mysql HBuilderX（Webstorm也行） Eclispe（IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持）。项目技术： SSM mybatis Maven Vue 等等组成，B/S模式 M…

阅读更多...

APS软件的技术指标与特色

APS软件的技术指标与特色

企业可能经常会因为无法掌握生产制造现场的实际产能状况及物料进货状况，导致物料及产能规划与现场详细作业排程难度增大，从而采取有单就接的接单政策与粗估产能的生产排程方式。这种方式就可能导致企业的生产状况频发：在提高对顾客的服务水平…

阅读更多...

【Android App】实战项目之实现你问我答的智能语音机器人（超详细附源码和演示视频）

【Android App】实战项目之实现你问我答的智能语音机器人（超详细附源码和演示视频）

需要全部代码请点赞关注收藏后评论区留言私信~~~ 一、需求描述想必大家都见过商场里的智能语音机器人，你对它提问时它可以自动回答你的问题，接下来我们也实现这样一个机器人，它依靠语音技术完成问询服务基本功能如下 1：接收人们…

阅读更多...

锦江酒店（中国区）：在变革中拥抱未来实现高质量发展

锦江酒店（中国区）：在变革中拥抱未来实现高质量发展

过去十年，中国酒店业经历了规模急剧扩张的黄金时期。后疫情时代，酒店行业正在发生深刻变革。 2022年，面对诸多外部不确定性，国内企业均感受到挑战。如何做到在国内大循环为主体、国内国际双循环相互促进的全新格局下高质量发展&a…

阅读更多...

Java+JSP基于ssm共享充电宝管理系统-计算机毕业设计

Java+JSP基于ssm共享充电宝管理系统-计算机毕业设计

项目介绍本共享充电宝管理系统主要包括系统用户管理模块、维护人员模块、投放信息管理、区域信息管理、使用记录管理、登录模块、和退出模块等多个模块,系统采用SSM(springMvcspringMybatis)框架进行开发,本系统使用mysql,开发工具支持eclipse idea myeclipse等主流开发工具i…

阅读更多...

点云库PCL学习——点云的格式、PCD文件的打开和显示

点云库PCL学习——点云的格式、PCD文件的打开和显示

1、主要参考 (1)格式说明： 点云库PCL学习——点云的格式、PCD文件的打开和显示 ROS知识：点云文件.pcd格式_无水先生的博客-CSDN博客_pcd文件 （2）点云滤波，对nan的滤波 Python点云数据处理(三)滤波与RANSAC分割 - …

阅读更多...

Bootstrap学习从一个模板开始

开源代码： BootstrapDash/celestialAdmin-free-admin-template: Celestial Free Bootstrap Admin Dashboard Template (github.com)https://github.com/BootstrapDash/celestialAdmin-free-admin-template 作为一个新手，知识还停留在简单的HTMLJSCSS的h…

阅读更多...

2022王道计组 chap1 计算机系统概述

2022王道计组 chap1 计算机系统概述

2022王道计组 chap1计算机系统概述 1.1 计算机发展历程本节思维导图知识点 [计算机系统] 计算机系统硬件软件计算机性能的好坏取决于“软”“硬”件功能的总和硬件：计算机的实体，如主机、外设等发展变化：见思维导图软件&#xf…

阅读更多...

智能计量系统配套设备有哪些

智能计量系统配套设备有哪些

智能计量系统配套设备地磅区域安装配套设备包含：微波定位仪、视频监控、道闸、LED显示屏、车号识别、语音对讲、音响设备、红绿灯、刷卡机箱、雷达、补光灯。硬件设备 1、微波定位仪：通过微波定位仪设备，可以判断车辆是否完全上磅。 2、…

阅读更多...

推荐文章

最新文章