从头理解transformer，注意力机制（上）

从头理解transformer，注意力机制（上）

news2026/2/9 13:21:17

深入理解注意力机制和Transformer架构，及其在NLP和其他领域的突破。

要想理解transformer，先从编码器解码器结构开始理解

基于transformer发展起来的llm

右边：只有解码器，强项是生成内容

左边：只有编码器，强项是学习和理解语言的内容

编码和解码的码究竟是什么码

图像领域 CNN

文字领域 RNN

从数学角度看，transformer和RNN是一致的，和CNN也是一致的

transformer和RNN从结构上都保留了编码和解码结构

码就是把语言中符号发音等形式不同剥离后的语义关系

编码的两个标准

1.可以数字化

2.数字化的数值可以体现语义之间的相对关系

tokenizer标记器（分词器）和one hot 独热编码

作用都是对最基础的语义单元token进行数字化

标记器和独热编码都能很好达到第一个标准，但第二个标准会出现问题

标记器信息密度过高一维
独热编码密度过低高维

潜空间

所以找一个维度高，但是又没那么高的空间，协助完成编码和解码的工作。他就是一个纯粹的语义空间

有两个方向

基于分词后的ID去升维
基于独热编码降维、

显然降维是更易操作的。这里会用到向量和矩阵相乘的相关知识 https://blog.csdn.net/qq_36372352/article/details/138669909?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22138669909%22%2C%22source%22%3A%22qq_36372352%22%7D以及神经网络与空间变换的关系https://blog.csdn.net/qq_36372352/article/details/138671246?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22138671246%22%2C%22source%22%3A%22qq_36372352%22%7D

词嵌入embedding

编码就是先把一个文本里的token都先编成独热码，然后进行降维，相当于是把输入额一句话根据语义投射到一个潜空间中，把高维空间对象投射到低维空间

使用矩阵乘法实现embedding，所以把token投入到潜空间的矩阵叫做嵌入矩阵。

一个token被嵌入以后，就变成了多维的向量，每一个维度都代表一个独立的基础语义

这个token具体的语义是什么要看各个维度分配的值是多少

Word2Vec

像是编词典，里面不需要激活函数，因为只涉及向量求和与向量分解，计算起来更简单。生成的潜空间就是用其他词向量合成目标词向量。只是提供了一个对语义的最初理解，体现了单个token之间的联系。这个潜空间里面词向量对应的词意不依赖作者主观意图。

不同词和不同顺序体现了主观性，这就需要注意力机制了

编码和解码原理：

token经过矩阵编码位词向量，词向量可以解码回token

但采取这种形式是不能训练的

训练有两种方式

CBOW

准备奇数个token，拿掉一个，剩下的分别给同一个嵌入矩阵相乘，把他们变成词向量之后，再把四个向量加在一起合成一个向量.再对和向量进行解码，损失函数会定量去看，和向量解码后得到的token和挖掉的中间token是不是一样的。如果不一样需要修改参数.

目的是训练出体现语义的嵌入矩阵

skip-gram

与CBOW反过来，已知一个token根据他的词向量求出上下文对应的token分量，看是不是和训练数据一致

这两种方法可以自监督学习，不需要人为打标签，只要给文本就可以用文本自己挖掉一些空自己训练

注意力

transformer架构

现在的各大模型都是为了适应各种需求对他进行了各种变化和优化

把词和词组合后的语义进行理解，靠的就是注意力机制，图中的multi-head attention

一组词向量经过三个矩阵相乘以后，分别得到Q，K， V三个矩阵，再进行运算最后还是会输出一组词向量。词嵌入已经解决了单个词的语义问题，

输入一组词向量，词向量组成了数据矩阵，输入的是t行的矩阵，输出也是t行矩阵，输出的列数是一个词向量上它的维度的个数。

Wq，Wk，Wv这三个矩阵按照注意力机制的要求，输入的词向量矩阵都需要先和这三个矩阵相乘之后，才会得到QKV 。

Dout决定了输出的词向量是多少列，也就是多少维度。

注意力机制最值得关注的是得到QKV之后的操作

先把K进行转置，然后让Q和K的转置相乘，也可以是Q转置和K相乘，会得到一个T行T列的矩阵A，A被称作注意力得分

向量内积a12的大小某种程度能体现出q1和k2两个向量的关系，也就是说Q和K的转置相乘存在A里的数值代表这两组向量他们互相之间的关系是大还是小

每一个词向量都要和包括自己在内的所有其他词向量进行内积运算，如果是垂直他们之间无关。

对A的每一项进行缩放，除以根号下Dout，让这些数值尽量分散一点，而不是集中在0和1的饱和区。为什么要除是从概率分布考虑的

每一项都除以根号Dout，方差就又变成1，A里面每一项又变成标准正态分布了

按行计算softmax，得到按行归一的注意力得分A’,再和V进行矩阵相乘。V其实就是表示从词典里查出的token的客观语义，A‘相当于是因为上下文关联而产生的修改系数

能对v22’产生影响的是所有词向量的一个维度。

总结：

Q和K是得到了这一组词向量自己和自己之间的相互关系，再用这个相互关系来修正词向量，让词向量的每一个维度都能得到修正，和V相比，这里修正之后得到的词向量，都会根据上下文进行修正，这些词向量，除了词典里那个客观的语义外，还会根据上下文对语义本身进行一些校准

而以上也就为一句话一段话多个词向量叠在一起这些内容增加了主观性，让你说的话和我说的话可以表达不同意思

这些计算的意义

在没有使用注意力机制之前，词向量虽然具备了词意，词意是字典里的词意，客观词意

当按自己想法将客观词意按不同顺序组合到一起以后，就变成了表达不同语义的文章了，这个时候具备了主观性

注意力需要识别出那些因为上下文关联，而对词典中客观的语义进行调整和改变的幅度。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1662837.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

每日OJ题_贪心算法四②_力扣435. 无重叠区间

每日OJ题_贪心算法四②_力扣435. 无重叠区间

目录力扣435. 无重叠区间解析代码力扣435. 无重叠区间 435. 无重叠区间难度中等给定一个区间的集合 intervals ，其中 intervals[i] [starti, endi] 。返回需要移除区间的最小数量，使剩余区间互不重叠。示例 1: 输入: intervals [[1,2]…

阅读更多...

完整版解答！2024年数维杯数学建模挑战赛B题

完整版解答！2024年数维杯数学建模挑战赛B题

B题生物质和煤共热解问题的研究技术文档第一问1.1问题一分析1.2数据预处理1.3问题一Spearman相关性分析数据代码资料获取技术文档第一问 1.1问题一分析对于问题一，题目要求分析出正己烷不溶物对焦油产率、水产率、焦渣产率这三个指标是否有显著影响&#x…

阅读更多...

1689 ssm社区老人危机干预系统myeclipse开发mysql数据库springMVC模式java编程计算机网页设计

1689 ssm社区老人危机干预系统myeclipse开发mysql数据库springMVC模式java编程计算机网页设计

一、源码特点 java ssm社区老人危机干预系统是一套完善的web设计系统（系统采用SSM框架进行设计开发，springspringMVCmybatis），对理解JSP java编程开发语言有帮助，系统具有完整的源代码和数据库，系统主…

阅读更多...

解决 git 因输入密码错误而导致的报错无法推送问题

解决 git 因输入密码错误而导致的报错无法推送问题

报错内容如下： > git push origin master:master fatal: unable to access https://gitee.com/spring-in-huangxian-county/web-tts-vue.git/: OpenSSL SSL_connect: Connection was reset in connection to gitee.com:443 出错原因根本原因是本机存储的账户…

阅读更多...

面试中算法（删去n个数字后的最小值）

面试中算法（删去n个数字后的最小值）

有一个整数，从该整数中去掉n个数字，要求剩下的数字形成的新整数尽可能小。分析：使用栈的特性，在遍历原整数的数字时，让所有数字一个一个入栈，当某个数字需要被删除时，（即栈顶数字&g…

阅读更多...

麦肯锡专访 Mistral AI CEO：三五年后的工作，要比现在更有意义

麦肯锡专访 Mistral AI CEO：三五年后的工作，要比现在更有意义

【编者按】总部位于巴黎的人工智能初创公司 Mistral AI 成立仅一年，就被誉为现有大模型巨头的有力挑战者。今年 2 月，Mistral AI 正式发布了旗舰级大模型 Mistral Large，直接对标 OpenAI 的 GPT-4；几周前，Mistral AI…

阅读更多...

报表控件Stimulsoft指南：在 JavaScript 报告工具中使用节点计划

我们最近发布了一篇关于使用Quartz.NET 库自动执行报告任务的文章。继续这个主题，今天我们将深入探讨我们的报告如何与 Node Schedule 作业调度程序集成。 Stimulsoft Ultimate （原Stimulsoft Reports.Ultimate）是用于创建报表和仪表板的通用…

阅读更多...

环保访谈|浙江双视专注红外机器视觉及智能化应用，保障安全生产

环保访谈|浙江双视专注红外机器视觉及智能化应用，保障安全生产

近期，中联环保圈希姐采访了浙江双视科技股份有限公司环保行业销售总监孙波，深入了解了双视科技的发展历程、产品和解决方案、合作流程、核心竞争力以及未来规划。双视于2014年创立，专注于红外机器视觉、人工智能技术与应用开发，…

阅读更多...

信息化系统建设运维服务方案(投标)Word原件

信息化系统建设运维服务方案(投标)Word原件

《信息化系统运维服务方案》（原件可获取） 1.项目情况 2.服务简述 2.1服务内容 2.2服务方式 2.3服务要求 2.4服务流程 2.5工作流程 2.6业务关系 2.7培训 3.资源提供 3.1项目组成员 3.2服务保障软件全套精华资料包清单部分文件列表： 工作安排任…

阅读更多...

Python作业三：扫描目录文件，发送到指定邮箱

Python作业三：扫描目录文件，发送到指定邮箱

问： 作业任务：编写python代码，扫描指定的目录下的所有文件，将这些扫描的文本内容邮件发送到指定邮箱(如：自己的qq邮箱) 发送邮箱：yagmail 以 163 邮箱为例，在编码之前，我们需要开…

阅读更多...

MMdetection在Featurize服务器运行时相关问题

MMdetection在Featurize服务器运行时相关问题

写点闲话： 之前因为毕业，想写代码再也没有稳定的机子跑了，自己电脑有时候也带不动，所以开始使用Featurize，这里可以租一些显卡来用，价格总体来说对我们这种偶尔有大规模算力需求的打工人非常友好。使用方法…

阅读更多...

10.轮转数组

10.轮转数组

文章目录题目简介题目解答解法一：使用额外的数组代码：复杂度分析： 解法二：数组反转代码：复杂度分析： 题目链接大家好，我是晓星航。今天为大家带来的是轮转数组相关的讲解！&#…

阅读更多...

大数据Scala教程从入门到精通第六篇：Scala源文件编写和运行

大数据Scala教程从入门到精通第六篇：Scala源文件编写和运行

一：Scala源文件编写和运行 1：源代码比较 public class HelloJava{public static void main(String[] args){System.out.println("hello scala")} } object HelloScala{//用于声明方法入参是一个String类型的数组。返回值类型为空def main…

阅读更多...

Funkey游戏机新作，基于全志T113的全新版本

Funkey游戏机新作，基于全志T113的全新版本

不同于配置高端、性能强劲的Windows、安卓掌机，有一部分的爱好者往往对拥有复古外形的开源掌机更加感兴趣。作为开源掌机的热门产品，小巧便携的FunKeys掌机是各位开源爱好者争相复刻的对象。因热爱开源掌机DIY而聚集的“双核掌机开发组”开发者团队&…

阅读更多...

【送书福利第六期】Java开发的150多个坑，你踩过几个？（文末送书）

【送书福利第六期】Java开发的150多个坑，你踩过几个？（文末送书）

文章目录做Java开发别掉坑里还不知道程序员为什么会掉到坑里却不自知？第一是意识不到坑的存在。第二是有些 bug 或问题只在特定情况下暴露。第三是变化不明显的性能问题。《Java开发坑点解析：从根因分析到最佳实践》Java 开发完美避坑指南结语 &#…

阅读更多...

ubantu安装docker以及docker-compose

ubantu安装docker以及docker-compose

ubantu安装docker以及docker-compose 安装docker1、从官方存储库中安装Docker2、启动Docker服务3、验证安装docker compose使用docker部署服务1、需要再opt文件夹下创建以下文件夹，/opt文件夹目录说明2、可将已备份对应文件夹拷至对应文件夹下3、在/opt/compose目录…

阅读更多...

【Axure高保真原型】中继器版输入表单——多种输入方式

【Axure高保真原型】中继器版输入表单——多种输入方式

今天和大家分享中继器版输入表单——多种输入方式的原型模板，这个模板方便我们快速制作表单，里面包含了输入框、下拉列表、选择器共9种常用的元件，后续也可以根据需要自行添加到中继器里。这个原型模板是用中继器制作的，所以使用也…

阅读更多...

基于Springboot+Vue的Java项目-宠物商城网站系统开发实战(附演示视频+源码+LW)

基于Springboot+Vue的Java项目-宠物商城网站系统开发实战(附演示视频+源码+LW)

大家好！我是程序员一帆，感谢您阅读本文，欢迎一键三连哦。 💞当前专栏：Java毕业设计精彩专栏推荐👇🏻👇🏻👇🏻 🎀 Python毕业设计 &am…

阅读更多...

腾讯互娱面经，希望别凉

腾讯互娱面经，希望别凉

面试题详解 Go接口接口在Golang中扮演着连接不同类型之间的桥梁，它定义了一组方法的集合，而不关心具体的实现。接口的作用主要体现在以下几个方面： 多态性: 接口允许不同的类型实现相同的方法，从而实现多态性。这意味着我们可…

阅读更多...

Qt5 互动地图，实现无人机地面站效果

Qt5 互动地图，实现无人机地面站效果

一、概述本文主要通过Qt5opmapcontrol实现一个简单的无人机地面站效果。opmapcontrol是一个比较古老的QT开源地面站库，可选择谷歌地图，必应地图， 雅虎地图，GIS等。可直接使用源码，也可以编译生成库进行调用。实现效果…

阅读更多...

推荐文章

最新文章