attention中为啥multi-head输出结果进行concat,得到x,x还要乘上一个WO矩阵?

news2025/1/11 12:56:18

刚刚在敲vit模型代码,突然一个疑问,就是multi-head输出结果进行concat,得到x,x的维度是预期维度,然后再乘以一个WO矩阵,为啥要乘上一个WO矩阵,x的维度已经是预期的了???,其实这里WO就是参数,我们是把提取的特征再乘以一个WO,然后得到的结果输出,然后与GT进行比较,算loss,然后反向梯度更新参数,这里的参数就包含WO,WO的存在就是为了更好的提取x特征,这样x乘以WO输出结果就更接近GT。那如果没有WO,那反向梯度更新啥?只有x,梯度更新不了x,因为x是特征,要更新的是模型的参数,而WO就是模型的参数,WO其实就是一个全连接。

虽然写出来了,但是自己感觉还是有点不是完全理解。只要记住,为了让模型能提取图像特征更准确,提取图像特征靠的就是模型中的参数,只有有了可以更新的参数才可以训练好模型,特征x的维度虽然跟预期一样,但是没用,它只是一个计算结果,更新不了,不更新,下次提取还是跟这次一样,与GT差多少还是多少,没啥效果!

chatgpt解释:

在Transformer的Encoder部分,经过MultiHead Attention 结束后,每个Head计算得到的Attention输出结果会进行拼接操作,通过将各个Head的结果在最后一个维度上进行拼接,得到最终的Attention输出张量。

接着,将拼接后的张量进行线性变换(全连接层),通过将每个位置的特征乘以一个权重矩阵W,并加上一个偏置向量b,最终得到一个新的特征表示。这个线性变换的目的是引入非线性变换和特征融合,以进一步丰富和提取特征表示。

通过拼接和线性变换操作,可以让各个Head提取的不同信息得到充分的整合,并且引入非线性变换来增加模型的表达能力。这样可以提升Transformer模型对输入序列的建模能力和特征提取能力。

总结来说,拼接操作和线性变换的组合能够在保持多头自注意力的并行计算和特征提取优点的同时,增加模型的灵活性和表示能力,更好地捕捉序列中的相关信息和特征。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/725245.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C#基础学习_类的方法

C#基础学习_类的方法 概念:描述对象的动态特征 类型:实例方法、静态方法等 方法的定义: 访问修饰符(默认为private) 返回值类型 方法名(类型 参数1,类型 参数2,...) {//这里编写方法的主体(功能实现的具体过程)return 返回值; //若没有返回值,则不需要写该语句 }

2023年第四届“华数杯”全国大学生数学建模竞赛(附历年赛题和论文)

目录 华数杯简介大赛资料获取方式 华数杯简介 国赛前的预热”华数杯“第四届正在报名中,看到咨询我们的同学不少,挺多同学都非常感兴趣,但是又不清楚比赛的相关情况,这里将会给同学们一一答疑。 比赛难度:难度适中&am…

【面试常见】JS继承与原型、原型链

前后端面试题库 (面试必备) 推荐:★★★★★ 地址:前端面试题库 web前端面试题库 VS java后端面试题库大全 在 JavaScript 中,继承是实现代码复用和构建对象关系的重要概念。本文将讨论原型链继承、构造函数继承以及…

QML Canvas 制作动画

作者: 一去、二三里 个人微信号: iwaleon 微信公众号: 高效程序员 终于要介绍动画了,这意味着我们快要把 Canvas 学完了,所以是时候庆祝一下了… 要在 Canvas 上实现动画,需要间隔一定的时间重绘动画的下一帧,而且频率要足够快,这样才能在图像切换时看起来像动画一样。…

一篇文章让你搞懂字符指针,数组指针,指针数组,数组传参和指针传参,函数指针

回顾 首先我们来大概回顾一下指针初阶的知识 内存会划分为一个个的内存单元,每个内存单元都有一个独立的编号—编号也被称为地址,地址在C语言中也被称为指针,指针(地址)需要存储起来—存储到变量中,这个变…

【Redis】缓存穿透、缓存击穿、缓存雪崩的原因及解决方案

文章目录 一、缓存穿透1.1 产生原因1.2 解决方法接口校验对空值进行缓存使用布隆过滤器实时监控 二、缓存雪崩2.2 解决方法将失效时间分散开给业务添加多级缓存构建缓存高可用集群使用锁或者队列的方式设置缓存标记 三、缓存击穿3.2 解决方法使用互斥锁”提前“使用互斥锁 / 逻…

QT开发技巧之QTableWidget设置表头颜色字体

1.默认的表头和内容背景字体一样不好区别,可以通过qss设置修改表头样式 2.修改后效果如下 qss代码: /*表格头背景色*/ QHeaderView::section { background: rgb(128, 255, 255); font-family: "宋体"; font-weight:bold; font-size:16px; }

网站弱口令爆破小脚本

介绍 weakpass_exploit,网站弱口令爆破小脚本 优点: 绕过图形验证码 绕过前端数据加密 不足: ddddocr识别不够精确 单线程 注: 本项目所有文件仅供学习和研究使用,请勿使用项目中的技术源码用于非法用途,任何人造成的任何负面影响,与…

什么是linux内存节点?为什么要有内存节点?

什么是内存节点 在Linux中,内存节点指的是NUMA(Non-Uniform Memory Access)架构中的逻辑内存节点,也被称为内存域(Memory Domain)。NUMA是一种多处理器体系结构,其中每个处理器都有自己的本地内…

FP32、FP16 和 INT8

文章目录 FP32、FP16 和 INT81. FP322. FP163. INT8 FP32、FP16 和 INT8 当涉及到深度学习和计算任务时,FP32、FP16、INT8 和 INT4 是常用的数据类型,用于表示不同的数值精度和存储需求。 1. FP32 单精度浮点数:提供了较高的精度和动态范围…

彻底解决IJ IDEA 代码运行时中文乱码 | 完美解决方案

前言: 在我们刚接触到IDEA时,想美滋滋的敲一个“hello world”来问候这个世界,但难免会遇到这种问题 乱码!乱码!乱码! 内心的崩溃就在一瞬间,下面我就来分享几个实用的解决方法 1.调整系统语…

Plant Physiology:DAP-seq技术在毛白杨PtoWRKY68等位基因变异调控干旱胁迫响应机制研究中的应用

干旱胁迫限制了树木的生长,并影响其地域性分布。为了应对干旱胁迫,植物进化出了一系列的生理生化反应机制,以保护植物细胞免受损害。因此,研究干旱胁迫下树木生理和光合作用变化的分子机制,将有助于培育耐旱性树木新品…

excel 表格多行自动合并

在现实生活中常常遇到这样的一些需求 使用的是三方的插件来实现的 参考: 慧办公-官网 (hbg666.com) (支持 Office 及 WPS)下载地址: https://www.hbg666.com/ 使用方法系统都有教导

单片机第一季:零基础4——数码管

1,第七章:静态数码管和动态数码管 工作原理: (1)亮灭原理(其实就是内部的照明LED); (2)显示数字(甚至文字)原理:利用内部的LED的亮和灭让外部的组成数字的笔画显示或者不显示&#…

IDEA 错误:找不到或无法加载主类Main 完美解决方法

今天在运行项目的时候 Rebuild Prodject 后突然出了这样一个错误:IDEA 错误 找不到或无法加载主类,相信只要是用过IDEA的朋友都遇到过它吧,把我自己搞的焦头烂额!!csdn翻遍了没解决 1,未能成功编译; 尝试&a…

pycharm的一些常用设置

pycharm的一些常用设置 1、最新安装pycharm ,怎么设置解释器如图: 2、可通过鼠标放大缩小配置: 进入setting>Editor>File and Code Templates,点击python script,进行设置: """Author : A Tim…

【C语言初阶】带你轻松掌握指针基础知识完结篇——野指针,指针运算,指针和数组,二级指针

君兮_的个人主页 勤时当勉励 岁月不待人 C/C 游戏开发 Hello,这里是君兮_,今天继续给大家更新0基础入门C语言的内容,我们这次主要更新的依然是初阶指针的基础知识 废话不多说咱们直接开始吧!! 指针基础 一. 野指针1.…

运输层:TCP报文段的首部格式

1.运输层:TCP报文段的首部格式 笔记来源: 湖科大教书匠:TCP报文段的首部格式 声明:该学习笔记来自湖科大教书匠,笔记仅做学习参考 为了实现可靠传输,TCP采用了面向字节流的方式。 但TCP在发送数据时&#…

CSS:选择器的各种类型和用法(含有例子和部分动态效果)

目录 css 基本语法一、基本选择器元素选择器 E{}特殊的 * 所有元素选择器属性选址器 E[attr]{}# id选择器. class选择器也可以结合着用selector1 selector2 包含选择器> 子选择器~兄弟选择器选择器组合 二、伪元素选择器第一个字加样式:第一行加样式:…

基于深度学习的高精度猴子检测识别系统(PyTorch+Pyside6+YOLOv5模型)

摘要:基于深度学习的高精度猴子检测识别系统可用于日常生活中或野外来检测与定位猴子目标,利用深度学习算法可实现图片、视频、摄像头等方式的猴子目标检测识别,另外支持结果可视化与图片或视频检测结果的导出。本系统采用YOLOv5目标检测模型…