深度学习中Transformer的简单理解

news2025/1/3 17:15:36

Transformer

网络结构

Transformer也是由编码器解码器组成的。

每一层Encoder编码器都由很多层构成的,编码器内又是self-attention前馈网络构成的。Self-attention是用来做加权平均,前馈网络用来组合。

但是decoder有点不同,多了一层Encoder-Decoder Attention。这一层的作用是关注全局,也就是不仅仅要关注编码,还要关注解码过程。在翻译中,也就是不仅仅关注翻译后的内容,还要关注翻译前的上下文内容

Self-attention又可以拆解成多个部分,就变成了Multi-Head Attention

最终得到了,整个网络结构。

数据流程

首先,把单词做统一长度的向量化,再嵌入位置信息,这样方便单词的统一,最终是同一长度(比如都是512位)

然后,再通过一个编码器,生成下一个编码。这里的Self-attention就是个零件(比如单词)自查表,它的作用就是通过权重标明相互之间的关系并且嵌入上下文信息

具体的方法是,每个向量先嵌入位置信息

再乘以三个训练好的向量Q、K和V矩阵

(我感觉,看上去像是一个数据库的查询操作)Q就是我提出了一个查询语句,K就是查询时候键值,两个相乘就得到了一个特征向量。V就像是数据库里面的值,所以,就像利用前面计算得到的特征向量分别计算V的相关性。

一个单词的K向量所有单纯的Q向量相乘,得到的权重就是Attention

然后,通过归一化后,利用softmax函数过滤掉不相干的单词。再乘以V向量,加权求和。最终得到输出向量

所有的步骤,就只需要知道,反正最后得到了单词的权重计算

用矩阵描述就是,先把X乘以三个矩阵。

然后,利用得到的Q和K,计算Z矩阵。

如果是Multihead-Attention,就会使用多个不同权重的矩阵,计算多次,得到多个Z。Multihead的作用是,消除QKV初始值的影响。那就像是八个不同的人做,更能够排除意外的影响。

最后通过一个加权平均,合成一个Z矩阵。

梳理

变形金刚要变形,从小车到机器人。

  1. 编码器一开始,先拆成零件。

  1. Self-attention就是给出一个变形说明书,说明零件之间的关系和权重。

  1. 左边编码把输入转换成了降维的向量零件说明书,K和V;右边解码,还需要看两个东西,一个自己的拆解说明书和与其他零件的项目关系;一个零件一个零件的组装。

  1. 最后,线性层把向量投影到一个很长的序列中,包含所有单词的序列。

  1. softmax做归一化,得到一个最大的概率。

参考资料:

【【Transformer模型】曼妙动画轻松学,形象比喻贼好记】 https://www.bilibili.com/video/BV1MY41137AK/?share_source=copy_web&vd_source=91d02e058149c97e25d239fb93ebef76

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1147455.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vue 3 响应式对象:ref 和 reactive 的使用和区别

🎉🎉欢迎来到我的CSDN主页!🎉🎉 🏅我是尘缘,一个在CSDN分享笔记的博主。📚📚 👉点击这里,就可以查看我的主页啦!👇&#x…

私有云:【11】win10安装Agent客户端组件

私有云:【11】win10安装Agent客户端组件 1、配置IP及加入域2、安装Agent客户端组件3、生成win10快照 1、配置IP及加入域 配置ip及dns 修改计算机名且加入域 进行验证 加入成功 将cloudadmin用户加入管理员组 输入cloudadmin户名密码验证 2、安装Agent客户端组件 …

第八周实验记录

10月20日-10月22日工作: 复现S-NeRF代码,按照github的步骤进行,首先使用一个RTX3090显卡, 在下图步骤中:运行最后一步 python scripts/run.py 出现问题 继续使用两张RTX3090显卡尝试,依旧在这一步出现问…

如何防范AI等技术带来的诈骗风险?从技术、法律、教育等多方面入手

文章目录 前言什么是AI诈骗案例案例一案例二 AI诈骗的特点如何预防和应对AI诈骗建议后记 前言 互联网是一把双刃剑,这是我们常说的一个问题。 随着人工智能技术的快速发展,AI诈骗成为当今社会面临的新兴威胁。不法分子利用人工智能技术,以更…

趣互联app一分购地推网推拉新上线平台啦,简单流程

趣互联一手渠道 “聚量推客” 上架趣互联啦,适合地推和网推进行推广,社群私域也可以推广,比较简单。 如果你在做拉新推广 地推或者网推都可以通过“聚量推客”获取最大收益

SDXL简介

SDXL是一个文生图模型。相比旧版的stable diffusion,SDXL主要的不同有三点: 有一个refinement model,通过image-to-image的方式来提高视觉保真度。使用了两个text encoder,OpenCLIP ViT-bigG和CLIP ViT-L。增加了图片大小和长宽比…

解决:getReader() has already been called for this request

问题现场: 原因: HttpServletRequest 的 getInputStream() 和 getReader() 都只能读取一次。 因为 我们使用RequestBody 注解,读取body参数;而 又 写了拦截器,也需要将post请求,body数据拿出来。 由于RequestBody 也是…

JVM第二十三讲:Java动态调试技术原理

Java动态调试技术原理 本文是JVM第二十三讲,Java动态调试技术原理。转载自 美团技术团队胡健的Java 动态调试技术原理及实践,通过学习java agent方式进行动态调试,了解目前很多大厂开源的一些基于此的调试工具 (例如来自阿里开源的Arthas)。 …

工作组与域

目录 内网环境 内网环境分类 工作组 域 域的组成 域中的信任关系 父域与子域 域的结构 林中信任关系特点 域中的域名 活动目录(AD) 域中活动目录下的账号登录域中计算机过程 组织单位(OU) 组策略(GPO&am…

【C++】priority_queue模拟实现+仿函数+反向迭代器

priority_queue模拟实现仿函数反向迭代器 1.priority_quyue1.1priority_queue的使用1.2priority_queue模拟实现1.2.1无参构造一段区间构造1.2.2push1.2.3pop1.2.4empty1.2.5size1.2.6top 2.仿函数2.1什么是仿函数2.2增加仿函数的priority_queue模拟实现完整代码 3.反向迭代器3.…

私有云:【13】用户授权及访问

私有云:【13】用户授权及访问 1、AD域中为云桌面用户2、用户授权及访问3、本地物理机访问云桌面 1、AD域中为云桌面用户 创建用户 密码永不过期,自行选择设置 完成 2、用户授权及访问 添加授权 添加 - 搜索名称【刚创建的dev_01用户】 选择dev_01用户…

MinIO 高性能分布式存储最新版单机与分布式部署

文章目录 一、概述二、单机部署(单主机,多硬盘模式)1)磁盘初始化2)创建服务启动用户并设置磁盘属主3)下载 minio 安装包4)修改配置5)配置 systemctl 启动6)客户端工具 mc…

拜耳阵列(Bayer Pattern)和解马赛克简介

拜尔阵列 典型的图像传感器(例如我们在数码相机中使用的图像传感器,主要有CCD, CMOS)由许多单独的光电传感器组成,所有这些传感器都会捕获光线。这些光电传感器本身能够捕获光的强度,但不能捕获其波长(颜色…

BUUCTF_练[PASECA2019]honey_shop

[PASECA2019]honey_shop 文章目录 [PASECA2019]honey_shop掌握知识解题思路关键paylaod 掌握知识 页面信息收集,根据下载的图片找到下载链接,确定url的参数进行利用;session字段的解密和解密,session伪造的考点。 解题思路 打开…

科技驱动教育!将名师智慧资产固定在系统中

文章目录 每日一句正能量前言未来教育教育趋势一、在线教育:打破时间和空间的限制二、混合式学习:结合线上和线下的优势三、项目式学习:以问题为导向,以项目为载体 科技驱动教育模式在线教育人工智能教育虚拟现实/增强现实教育游戏…

电子器件 二极管

二极管主要是利用其单向导电性,通常用于整流、检波、限幅、元件保护等,在数字电路中常作为开关元件。 一、常用二极管类型 高频二极管 1N4148 等 肖特基二极管 SS14 SS34 SS54 等 快恢复二极管(FRD) 可以用快恢复二极管代替肖特…

Redis 原理缓存过期、一致性hash、雪崩、穿透、并发、布隆、缓存更新策略、缓存数据库一致性

redis过期策略 redis的过期策略可以通过配置文件进行配置 一、定期删除 redis会把设置了过期时间的key放在单独的字典中,定时遍历来删除到期的key。 1).每100ms从过期字典中 随机挑选20个,把其中过期的key删除; 2).…

TELUS Ventures(泰勒斯)

TELUS Ventures(泰勒斯)高峰论坛于2023年10月28日在南京第5站正式开幕。该论坛是由泰勒斯风险投资公司主办的一项重要活动,旨在促进创新和创业精神的发展 。 这次高峰论坛将汇集来自全球各地的创业者、投资者和行业专家,共同探讨…