self-attention|李宏毅机器学习21年

self-attention|李宏毅机器学习21年

news2025/1/16 12:44:58

来源：https://www.bilibili.com/video/BV1Bb4y1L7FT?p=1&vd_source=f66cebc7ed6819c67fca9b4fa3785d39

文章目录

引言
self-attention
- 运作机制
- - b1是如何产生的
  - 怎么求关联性数值 $\alpha$
- 从矩阵乘法的角度再来一次
- - 从A得到Q、K、V
  - 从Q、K得到 $\alpha$ 矩阵
  - 由V和A'得到b1-b4
  - 总结：从I到O就是在做self-attention
Muti-head Self-attention
位置编码

self-attention要解决的问题：输入的sequence是变长的、长度不等。

引言

如何解决输入同样的saw，第一个输出v.第二个输出n.？
使用FC可以考虑上下文的资讯。

如何考虑一整个sequence的资讯呢？
把Windows开到sequence中最大的长度。
在这里插入图片描述

self-attention

在这里插入图片描述
可以将self-attention与FC交替使用：
self-attention处理整个句子的资讯
FC专注于处理某一个位置的资讯、

运作机制

在这里插入图片描述

b1是如何产生的

1、计算出attention score $\alpha$ ：在这个长长的sequence里找出和a1有关联的vector，每个向量与a1的关联性用数值 $\alpha$ 表示。
在这里插入图片描述

2、根据attention score抽取sequence里的重要资讯，即可计算出b1

注：b1-b4是同时被产生的

怎么求关联性数值 $\alpha$

两种方法：
在这里插入图片描述

最常用的是向量点积法，也是用在transformer里的方法。

从矩阵乘法的角度再来一次

从A得到Q、K、V

在这里插入图片描述

从Q、K得到 $\alpha$ 矩阵

在这里插入图片描述

由V和A’得到b1-b4

在这里插入图片描述

总结：从I到O就是在做self-attention

在这里插入图片描述

Muti-head Self-attention

几个head，是一个需要调的超参。
为什么要用Muti-head？
使用不同的q代表不同种类的相关性。
在这里插入图片描述

位置编码

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1299361.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

IT行业最被低估的六项技术，再加上一项尚未消亡的技术

IT行业最被低估的六项技术，再加上一项尚未消亡的技术

2023年，生成式人工智能——更具体地说是ChatGPT——吸引了业界的广泛关注，深得董事会、首席执行官和其他高管的一致赞赏（也不乏害怕情绪）。当然，他们的热情是有道理的，多项研究发现，人工智能正在…

阅读更多...

Nginx缓存及HTTPS配置小记

Nginx缓存及HTTPS配置小记

缓存基础缓存分类某些场景下，Nginx需要通过worker到上有服务中获取数据并将结果响应给客户端，在高并发场景下，我们完全可以将这些数据视为热点数据，并将其缓存到Nginx服务上。客户端缓存：将缓存数据放到客户端。 …

阅读更多...

Linux和Windows环境下如何使用gitee？

Linux和Windows环境下如何使用gitee？

1. Linux 1.1 创建远程仓库 1.2 安装git sudo yum install -y git 1.3 克隆远程仓库到本地 git clone 地址 1.4 将文件添加到git的暂存区（git三板斧之add） git add 文件名 # 将指定文件添加到git的暂存区 git add . # 添加新文件和修改过的…

阅读更多...

DTCC2023大会-DBdoctor-基于eBPF观测数据库-附所有PPT下载链接

DTCC2023大会-DBdoctor-基于eBPF观测数据库-附所有PPT下载链接

DTCC2023大会-DBdoctor-基于eBPF观测数据库-附所有PPT下载链接 8月16日—18日,第14届中国数据库技术大会(DTCC-2023)在北京国际会议中心举行。聚好看在大会上首次发布基于eBPF观测数据库性能的产品DBdoctor，受到了业界广泛的关注。近期几位业内同仁过来要大会的PPT…

阅读更多...

NLP项目实战01--电影评论分类

NLP项目实战01--电影评论分类

介绍： 欢迎来到本篇文章！在这里，我们将探讨一个常见而重要的自然语言处理任务——文本分类。具体而言，我们将关注情感分析任务，即通过分析电影评论的情感来判断评论是正面的、负面的。展示： 训练展示如下…

阅读更多...

消息队列使用指南

消息队列使用指南

介绍消息队列是一种常用的应用程序间通信方法，可以用来在不同应用程序或组件之间传递数据或消息。消息队列就像一个缓冲区，接收来自发送方的消息，并存储在队列中，等待接收方从队列中取出并处理。在分布式系统中，消…

阅读更多...

Git的安装以及SSH配置

Git的安装以及SSH配置

前言近期工作需要，所以版本管理工具要用到Git，某些操作需要ssh进行操作，在某次操作中遇到：git bash报错：Permission denied, please try again。经排查是ssh没有配置我的key，所以就借着这篇文章整理了一下…

阅读更多...

【小白专用】使用PHP创建和操作MySQL数据库，数据表

【小白专用】使用PHP创建和操作MySQL数据库，数据表

php数据库操作 php连接mysql数据库 <?php $hostlocalhost; // 数据库主机名 $username"root"; // 数据库用户名 $password"al6"; // 数据库密码 $dbname"mysql"; // 数据库名 $connIDmysqli_connect($host,$username,$password,$dbn…

阅读更多...

Electron[4] Electron最简单的打包实践

Electron[4] Electron最简单的打包实践

1 背景前面三篇已经完成通过Electron搭建的最简单的HelloWorld应用了，虽然这个应用还没添加任何实质的功能，但是用来作为打包的案例，足矣。下面再分享下通过Electron-forge来将应用打包成安装包。 2 依赖在Electron[2] Electron使用准备…

阅读更多...

AXURE地图获取方法

AXURE地图获取方法

AXURE地图截取地址 https://axhub.im/maps/ 1、点击上方地图或筛选所需地区的地图，点击复制到 Axure 按钮，到 Axure 粘贴就可以了 2、复制到 Axure 后，转化为 svg 图形，就可以随意更改尺寸/颜色/边框，具体操作如下&am…

阅读更多...

RocketMQ-源码架构二

RocketMQ-源码架构二

梳理一些比较完整，比较复杂的业务线消息持久化设计 RocketMQ的持久化文件结构消息持久化也就是将内存中的消息写入到本地磁盘的过程。而磁盘IO操作通常是一个很耗性能，很慢的操作，所以，对消息持久化机制的设计，是…

阅读更多...

使用Java8的Stream流的Collectors.toMap来生成Map结构

使用Java8的Stream流的Collectors.toMap来生成Map结构

问题描述在日常开发中总会有这样的代码，将一个List转为Map集合，使用其中的某个属性为key，某个属性为value。常规实现 public class CollectorsToMapDemo {DataNoArgsConstructorAllArgsConstructorpublic static class Student {private…

阅读更多...

基于YOLOv8深度学习的舰船目标分类检测系统【python源码+Pyqt5界面+数据集+训练代码】目标检测、深度学习实战

基于YOLOv8深度学习的舰船目标分类检测系统【python源码+Pyqt5界面+数据集+训练代码】目标检测、深度学习实战

《博主简介》小伙伴们好，我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源，可关注公-仲-hao:【阿旭算法与机器学习】，共同学习交流~ 👍感谢小伙伴们点赞、关注！ 《------往期经典推…

阅读更多...

【pycharm】Pycharm中进行Git版本控制

【pycharm】Pycharm中进行Git版本控制

本篇文章主要记录一下自己在pycharm上使用git的操作，一个新项目如何使用git进行版本控制。文章使用的pycharm版本PyCharm Community Edition 2017.2.4，远程仓库为https://gitee.com/ 1.配置Git（File>Settings） 2.去Gitee创建…

阅读更多...

【C语言】位运算实现二进制数据处理及BCD码转换

【C语言】位运算实现二进制数据处理及BCD码转换

文章目录 1．编程实验：按short和unsigned short类型分别对-12345进行左移2位和右移2位操作，并输出结果。2．编程实验：利用位运算实现BCD码与十进制数之间的转换，假设数据类型为unsigned char。3．编…

阅读更多...

边缘计算系统设计与实践：引领科技创新的新浪潮

边缘计算系统设计与实践：引领科技创新的新浪潮

文章目录一、边缘计算的概念二、边缘计算的设计原则三、边缘计算的关键技术四、边缘计算的实践应用《边缘计算系统设计与实践》特色内容简介作者简介目录前言/序言本书读者对象获取方式随着物联网、大数据和人工智能等技术的快速发展，传统的中心化计算模式已经无法…

阅读更多...

用php和mysql制作一个网站

用php和mysql制作一个网站

当使用PHP和MySQL制作网站时，我们可以利用PHP的强大功能来与MySQL数据库进行交互，从而实现动态网页的创建和数据存取。下面是一个关于如何使用PHP和MySQL制作网站的简单说明，以及一些示例代码。 1、R5Ai智能助手 chatgpt国内版本 :R5Ai智…

阅读更多...

P7 Linux C三种终止进程的方法

P7 Linux C三种终止进程的方法

前言 🎬 个人主页：ChenPi 🐻推荐专栏1: 《C_ChenPi的博客-CSDN博客》✨✨✨ 🔥 推荐专栏2: 《Linux C应用编程（概念类）_ChenPi的博客-CSDN博客》✨✨✨ 🛸推荐专栏3: 《链表_Chen…

阅读更多...

C语言——字符函数和字符串函数（一）

C语言——字符函数和字符串函数（一）

📝前言： 这篇文章对我最近学习的有关字符串的函数做一个总结和整理，主要讲解字符函数和字符串函数（strlen，strcpy和strncpy，strcat和strncat）的使用方法，使用场景和一些注意事项&…

阅读更多...

机器人、智能小车常用的TT电机/310电机/370电机选型对比

机器人、智能小车常用的TT电机/310电机/370电机选型对比

在制作智能小车或小型玩具时，在电机选型上一些到各种模糊混淆的概念，以及各种错综复杂的电机参数，本文综合对比几种常用电机的参数及特性适应范围，以便快速选型，注意不同生产厂家的电机参数规则会有较大差异。普通TT…

阅读更多...

推荐文章

最新文章