李宏毅2021春季机器学习课程视频笔记13-自注意力机制

news2024/11/24 13:25:59

 【(强推)李宏毅2021/2022春机器学习课程】

Slide地址

一、问题引入 

1.模型的输入

        无论是预测视频观看人数、视频处理、语言识别,这些所有的model中,输入数据都可以视作为一个向量(vector),模型的输出为一个数值或者一个类别。考虑一种情况下,模型输入的向量(序列)的长度不会一直保持不变,因此就可以将句子中的每个单词描述为一个向量,整个句子就是一组向量的集合,并且每个向量集合的大小都不相同:

        一般在文字处理任务中,采用One-Hot Encoding(独热编码)方法。每个向量的长度为世界上所有词汇的数目,永不同位置为1表示不同的单词,可以表示为如下:

  • apple = [ 1   0   0   0   0 …… ]
  • bag    = [ 0   1   0   0   0 …… ]
  • cat    = [ 0   0   1   0   0 …… ]
  • dog   = [ 0   0   0   1   0 …… ]
  • elephant   = [ 0   0   0   0   1 …… ]

        这类方法虽然可以实现对所有的单词的表示,但是其向量的长度过长不利于后续数据处理,其次其也没有包含单词间关系的其他任何有意义的信息。

        另外一种方法采用word Embedding,其可以包括更多有效的信息,可以描述词汇类别间的关系。其实际上也是一种语义向量,一个句子可以被描述为长度不一的向量。利用word Embedding描述的词汇之间会展现出词汇类别间的关系,因此可以被描述为:

         同类别间的词汇信息相互靠近。

除此以外,语音信号和图像信号都可以被描述为一组向量:

语音信号

对一段语音信号进行处理,可以选取一个固定长度的滑动窗口,把一个滑动窗口内部的数据可以称为语音数据的一个帧,按照预定的步长移动这个窗口就可以得到这一段语音信号对应的向量集。

图论数据

1.在社交网络中,每个人可以代表社交网络的一个节点,根据每个人的个人与社交网络其他节点的关系,可以将每个人描述一个向量。

2.在分子的构成中,分子中的每个原子与社交网络中的每个个体一样可以被描述为向量,因此每个分子实际上就是一个向量集合。

2.模型的输出

 输出类型分别有三种

1.一对一:每个向量会对应一个输出

  • 文字处理:词性标注(标注每一个单词实际为动词、名词or形容词etc...)
  • 语音处理:一段声音中有一系列的向量,每个向量会对应语音的一个音标
  • 图像识别:在进行图像识别分类时,每张图片会对应一个相应的类别

2.多对一:多个向量对应一个输出

  • 语义分析:语言的正负面评价
  • 语音识别:识别某人的音色
  • 图网络:给出当前分子的属性

3.多对多:多个向量对应多个向量,输出向量的长度由机器自行确定

  • 翻译:语言A翻译为语言B
  • 语言识别:多个frame转换为一段话

3.序列表注问题(Sequence Labeling)

        在对Sequence进行标注的时候,会出现这样的问题。采用FC网络结构,输入一个句子,输出对应的单词数据的标签。当一个句子中出现相同的单词时,同时相同的单词具有不同词性的时候(I saw a saw.)此时如果不考虑上下文信息,就无法对两个saw进行区分。利用滑动窗口,考虑每个向量其向量其他向量的性质。

         但这一类方法有极限,不能考虑整个Sequence的信息,同时Sequence的长度也不是固定的,其也是有长有短的。同时大的window的参数会很多,对计算能力提出了挑战。在这样的背景之下Self-attention应运而生。

二、Self-Attention自注意力机制

        将考虑整个Sequence信息的向量输入到Self-Attention中,输出对应个数的向量,并将其输出的向量作为全连接层的输出,最后输出标签,多次重复此过程即可。

 1.自注意力机制的工作原理

        在工作中实际上只需要确定三个向量:Query、Key和Value。

 

 

 自注意力机制实际的计算过程可以分解为一下三步:

  1. 输入矩阵I分别乘以三个W得到三个矩阵Q ,K, V
  2. A=QK^T,经过处理可以计算得到注意力矩阵A^{'}=softmax(\frac{QK^T}{\sqrt{d_k}})
  3. 输出O=A^{'}V

即:

Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V

 其中d_k表示向量的长度。

 

 

 2.多头注意力机制(Multi-head Self-attention)

 

 

 \\MutiHead(Q,K,V) = W^0 \cdot Concat(head_1,head_2,...,head_h)\\ \\head_i=Attention(QW^{Q}_i,KW^{K}_i,VW^{V}_i)

         在上述公式中,在MutiHead的情况下,输入还是Q,K,V,输出为不同Head的输出结果,接着将结果投影到W^O。其中对每一个Head,可以将Q,K,V通过不同的可学习参数W^Q,W^K,W^V投影到一个低维面上,再做注意力机制Attention,最后输出结果。

对于Self-attention来说,并没有序列中字符位置的信息。例如动词是不太可能出现在句首的,因此可以降低动词在句首的可能性,但是自注意力机制并没有该能力。因此需要加入 Positional Encoding 的技术来标注每个词汇在句子中的位置信息。

为什么要在Self-Attention中进行缩放?

        维度较大时,向量内积容易使得 SoftMax 将概率全部分配给最大值对应的 Label,其他 Label 的概率几乎为 0,反向传播时这些梯度会变得很小甚至为 0,导致无法更新参数。因此,一般会对其进行缩放,缩放值一般使用维度 dk 开根号,是因为点积的方差是 dk,缩放后点积的方差为常数 1,这样就可以避免梯度消失问题。

3.位置编码(Position Encoding)

有时候位置信息对Sequence也很重要,因此需要对这个信息也进行考虑。在实验中为每一个位置设定一个vector,定义为Position Vector (e_i),不同位置具有不同的vector。尽管如此,位置编码也可以通过学习来得出。

三、其他相关的应用

1.语音辨识(只看前后一部分的信息Truncated Self-attention)

 

2.图像识别

将不同通道的每一个像素点(pixel)视作为一个vector,这样图片就可以被视为vector set,就可以采用self-attention。

 使用案例:

 

        Self-Attention考虑所有的pixel,CNN只要在receptive Fields内的pixel,CNN可以被视作为一种简化版的Self-Attention。

         使用Self-Attention可以让模型自己去得到相应的Receptive Fields,而不像CNN需要人为指定receptive fields的大小。

 

 

Self-Attention与RNN的对比

 RNN不能并行计算,RNN只考虑过去的已经输入的vector的信息,双向的RNN就都可以考虑进去。

Self-Atterntion 使用中在Graph中

 在计算不同节点的Attention时,只需要计算存在Edge存在的节点之间的attention。

扩展:self-attention的各种变形

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/422081.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

UDP的报文结构及注意事项

UDP的报文结构及注意事项🔎UDP的报文结构源端口和目的端口报文长度校验和🔎UDP的注意事项端口号报文长度校验和🔎结尾🔎UDP的报文结构 图片来自网络 源端口和目的端口 如果将 源IP 和 目的IP 看作是两台计算机在网络中的地址 那么…

完美解决丨#在python中,如果引用的变量未定义,则会报告NameError: name ‘变量名‘ is not defined。

NameError 在python中,如果引用的变量未定义,则会报告NameError: name 变量名 is not defined。 如下代码抛出了一个异常: !/usr/bin/env python -- coding:utf-8 -- print hello world print hello %s % name 报错信息如下: Trac…

基于springboot和ajax的简单项目 02 代码部分实现,思路 (上)

01.由于是对功能的实现&#xff0c;应该是按照功能的需要去写代码&#xff0c;所以&#xff0c;先看前端html文件的代码。 02.项目的开始界面是starter.html文件。 关键的script标签 <script type"text/javascript">$(function(){//页面加载完成之后执行doLo…

VS中解决方案和项目的区别

总目录 文章目录总目录一、概述1、解决方案2、项目3、项目文件4、解决方案文件夹二、图解1、图解解决方案和项目的关系2、图解sln文件3、图解项目文件结语一、概述 1、解决方案 解决方案是一个容器&#xff0c;通常包含多个项目&#xff0c;这些项目通常相互引用。 解决方案中…

CSDN粉丝首破一千关,有你名字

2023-4-11&#xff0c;CSDN粉丝首破一千关。 感谢词版本1,哈哈哈哈哈哈哈哈 在编程世界里&#xff0c;人们可以像创造生命一样创造程序&#xff0c;而我对这种创造和创新的热情&#xff0c;从我的csdn博客社区粉丝首次突破一千人的消息中得到了极大的满足和激励。作为一个Pyth…

Spring中Bean初始化和销毁的多种方式

Spring中Bean初始化和销毁的多种方式一、Bean的多种初始化方式1.PostConstruct注解2.实现InitializingBean接口3.声明init-method方法二、Bean的多种销毁方式1.PreDestroy注解2.实现DisposableBean接口3.声明destroy-method方法三、总结Spring中支持在Bean的加载时声明初始化方…

跑得快的不止是程序丄【掌握自动化测试让你过五关斩六将】

拥有自动化测试技能的软件测试人员更具竞争力&#xff0c;这是当下面试过的人都非常认同的一句话。 作为一名软件测试人员&#xff0c;我们都知道“时间就是金钱”&#xff0c;尤其是在快速迭代的敏捷开发模式下&#xff0c;更是如此。在传统的软件测试流程中&#xff0c;手工…

【MySQL】JDBC编程

摄影分享 目录 数据库编程的必备条件 Java的数据库编程&#xff1a;JDBC JDBC的使用步骤 1. 创建数据源DataSourece 2.连接数据库 3.构造并执行sql语句 4.遍历结果集合 5.释放资源 数据库编程的必备条件 编程语言&#xff0c;如Java&#xff0c;C、C、Python等数据库&am…

谁说35岁是程序员的中年危机?那是他还不知道这些新路子

文章目录一、年纪大能不能进大厂&#xff1f;二、为什么说35是危机&#xff1f;1.精力衰退2.脑力衰退3.知识/技术迭代三、年龄大的程序员有哪些出路&#xff1f;1.技术管理2.创业3.技术外包4.做老师5.做自媒体6.写书四、结语我自己今年已有44了&#xff0c;从2021年开始就已经不…

详解自动化测试之 Selenium 与 Junit

文章目录1. 什么是自动化2. 自动化测试的分类3. selenium&#xff08;web 自动化测试工具&#xff09;4. 一个简单的自动化例子5. selenium 常用方法5.1 查找页面元素 findElement ()5.2 元素的定位 By 类5.3 xpath 路径语言6. 常见的元素操作6.1 输入文本 sendKeys6.2 点击 cl…

什么是Android FrameWork,请你介绍一下?

Framework是什么 Framework的中文意思是“框架”&#xff0c;在软件开发中通常指开发框架&#xff0c;在一个系统中处于内核层之上&#xff0c;为顶层应用提供接口&#xff0c;被设计用来帮助开发者快速开发顶层应用&#xff0c;而不必关心系统内核运行机制&#xff0c;通常Fr…

zabbix报警配置

一、前言 这里用的是zabbix6.0LTS版本&#xff0c;这里记录自定义配置报警&#xff0c;因为邮件报警基本已经很少有人使用了&#xff0c;大部分是&#xff0c;短信、飞书、钉钉等等工具&#xff0c;所有需要定制化报警 二、定义脚本存放路径 cd /usr/local/zabbix/etc[rootn…

MODBUS 转 EtherNet/IP 网关连接希望森兰变频器案例

Modbus转Ethernet/Ip网关&#xff0c;用于将多个 MODBUS 从站设备接入 ETHERNET/IP 主站网络&#xff0c;实现 MODBUS 转 ETHERNET/IP 功能。配上 MODBUS 转 EtherNet 网关专用的 EDS 文件,实现 ETHERNET/IP 主 站对 MODBUS 从站设备的控制。 需要设备 .24v电源模块 罗克韦尔PL…

【城市污水处理过程中典型异常工况智能识别】(基于迁移学习,拓扑结构卷积神经网络的污水异常工况识别)

基于迁移学习拓扑结构卷积神经网络的污水异常工况识别 **摘 要&#xff1a;针对城市污水处理过程的异常工况识别问题&#xff0c;本文提出了基于图像纹理性分析的工况识别方法。首先总结了几种典型的异常工况的特点&#xff0c;并且分析了卷积神经网络特征提取异常工况的几种纹…

月薪20k的性能测试必备技能:发现性能瓶颈掌握性能调优

背景 当下云计算、大数据盛行的背景下&#xff0c;大并发和大吞吐量的需求已经是摆在企业面前的问题了&#xff0c;其中网络的性能要求尤为关键&#xff0c;除了软件本身需要考虑到性能方面的要求&#xff0c;一些硬件上面的优化也是必不可少的。 作为一名测试工作者&#xf…

ubuntu将主文件夹的文件夹中文名称改为英文

许多人在使用ubuntu时使用汉语的&#xff0c;但是主文件夹下的文件夹也随之变成了中文&#xff0c;导致命令行下输入文件夹名称非常的困难&#xff0c;那么怎么简单的把名字改成英文的呢&#xff1f;&#xff08;也不知道哪个版本开始不出现下面这个图示提示了&#xff09; 方法…

Vue2-黑马(十二)

目录&#xff1a; &#xff08;1&#xff09;vue2-登录-store-user.js &#xff08;2&#xff09;实战-登录-store-user.js &#xff08;3&#xff09;登录-实战--permission.js-获取角色 &#xff08;1&#xff09;vue2-登录-store-user.js 我们进入store中的actions查看它…

MySQL - 基于SSL安全连接的主从复制

目录 &#x1f341;主从复制的原理 &#x1f341;部署master &#x1f341;部署slave &#x1f341;测试SSL主从复制 &#x1f990;博客主页&#xff1a;大虾好吃吗的博客 &#x1f990;MySQL专栏&#xff1a;MySQL专栏地址 生产环境中一台mysql主机存在单点故障&#xff0c;所…

c/c++:二维数组,数组的行数和列数求法sizeof,数组初始化不同形式,5个学生,3门功课,求学生总成绩和功课总成绩

c/c&#xff1a;二维数组&#xff0c;数组的行数和列数求法sizeof&#xff0c;数组初始化不同形式&#xff0c;5个学生&#xff0c;3门功课&#xff0c;求学生总成绩和功课总成绩 2022找工作是学历、能力和运气的超强结合体&#xff0c;遇到寒冬&#xff0c;大厂不招人&#x…

【从零开始学Skynet】实战篇《球球大作战》(十一):测试登录流程

终于可以测试work协议了。只要走得通&#xff0c;就代表完成了整套底层框架。 1、主服务修改 我们重新修改主服务&#xff0c;让它智能一些&#xff0c;根据配置文件自动开启服务&#xff0c;无须手动设置。如下代码所示&#xff1a; local skynet require "skynet"…