transformer - 注意力机制

news2024/11/26 5:31:40

在这里插入图片描述

Transformer 的注意力机制

Transformer 是一种用于自然语言处理任务的模型架构,依赖于注意力机制来实现高效的序列建模。注意力机制允许模型在处理一个位置的表示时,考虑输入序列中所有其他位置的信息,而不仅仅是前面的几个位置。这种机制能够捕捉远距离的依赖关系,是 Transformer 的核心组件。

注意力机制的核心组件

在 Transformer 中,注意力机制的核心组件包括查询(Query,Q)、键(Key,K)和值(Value,V)。这些组件的具体作用和生成过程如下:

  1. 查询(Query,Q): 表示需要查找的信息。
  2. 键(Key,K): 表示可以提供的信息。
  3. 值(Value,V): 表示每个位置的实际信息或特征。

这些组件通过以下步骤实现注意力机制:

1. 输入嵌入和线性变换

原理解释: 输入序列首先通过嵌入层转化为嵌入向量,然后通过线性变换生成查询、键和值向量。假设输入序列为 X X X,线性变换生成 Q、K 和 V 的公式如下:

Q = X W Q , K = X W K , V = X W V Q = XW^Q, \quad K = XW^K, \quad V = XW^V Q=XWQ,K=XWK,V=XWV

生活中的例子: 想象你在图书馆寻找书籍。每本书都有其特定的主题标签(嵌入向量)。你通过查询标签(Q)寻找与你想读的书(K)匹配的标签,然后提取相应书籍的内容(V)。

目的: 通过线性变换生成查询、键和值向量,确保模型能够在统一的特征空间中进行相似度计算。

原因解释: 将输入转化为统一的特征表示后,模型能够更有效地计算相似度,并进行后续的注意力计算。

2. 计算点积注意力

原理解释: 点积注意力(Dot-Product Attention)的计算包括以下几个步骤:

  1. 计算查询和键的点积: 计算查询向量 Q Q Q 和键向量 K K K 的点积,得到相似度矩阵。

    Q K T QK^T QKT

  2. 缩放点积: 将点积结果除以键向量维度的平方根 d k \sqrt{d_k} dk 进行缩放。

    Q K T d k \frac{QK^T}{\sqrt{d_k}} dk QKT

  3. 应用 Softmax 函数: 对缩放后的点积结果应用 softmax 函数,得到注意力权重。

    A = softmax ( Q K T d k ) A = \text{softmax}\left( \frac{QK^T}{\sqrt{d_k}} \right) A=softmax(dk QKT)

  4. 加权求和值向量: 使用注意力权重对值向量 V V V 进行加权求和,得到最终的注意力输出。

    Z = A V Z = AV Z=AV

生活中的例子: 你在图书馆用一个关键词(Q)搜索书籍。图书馆系统会根据每本书的主题标签(K)计算与关键词的相似度(点积),然后按照相似度高低(softmax)推荐书籍,并根据这些推荐给你提取书籍的内容(V)。

目的: 计算每个查询与键的相似度,分配注意力权重,并根据这些权重对值进行加权求和,得到最终的注意力输出。

原因解释: 通过计算相似度,模型能够识别输入序列中哪些部分相关,从而根据相关性分配注意力。缩放操作确保数值稳定,softmax 函数将相似度转化为概率分布,加权求和则整合了相关信息。

缩放点积的数学推导

为什么使用 d k \sqrt{d_k} dk 进行缩放?这是因为点积的期望和方差。假设 Q Q Q K K K 的每个元素是零均值单位方差的随机变量:

  • 点积的期望为0。
  • 点积的方差为 d k d_k dk

通过缩放,使得点积的期望和方差标准化,防止数值过大导致梯度消失和数值不稳定。

生活中的例子: 想象你在图书馆搜索书籍时,系统会根据标签(K)的数量调整搜索结果的相似度计算。例如,如果标签很多,系统会将相似度分数进行缩放,避免过大的数值影响推荐。

目的: 缩放点积结果,确保数值稳定,避免梯度消失和数值不稳定问题。

原因解释: 点积的方差随着维度增加而变大,缩放操作将其标准化,确保计算的数值范围合理,从而提高模型训练的稳定性和效果。

3. 多头注意力机制

原理解释: 为了捕捉输入序列中的不同特征,Transformer 使用多头注意力机制(Multi-Head Attention)。具体步骤如下:

  1. 线性变换生成多个头的 Q、K 和 V: 对输入进行多次线性变换,生成多个头的查询、键和值。

  2. 独立计算每个头的注意力: 对每个头独立计算注意力。

  3. 拼接多个头的输出: 将所有头的输出拼接在一起。

  4. 线性变换融合多个头的输出: 对拼接后的输出进行线性变换,得到最终输出。

生活中的例子: 想象你在图书馆用不同的关键词(多个头)搜索书籍。每个关键词会得到一组推荐书籍(每个头的输出),然后你将所有推荐结果综合考虑,得到最终的书籍列表(拼接和线性变换)。

目的: 捕捉输入序列中的多种特征,增强模型的表达能力。

原因解释: 不同的头能够关注输入序列中的不同部分,通过多头注意力机制,模型能够更全面地理解输入序列中的信息。

4. 位置编码

原理解释: 由于 Transformer 不包含递归或卷积结构,因此需要引入位置编码(Positional Encoding)来保留输入序列中元素的位置信息。位置编码是添加到输入嵌入中的固定或可学习的向量。

常用的正弦和余弦位置编码公式如下:

P E ( p o s , 2 i ) = sin ⁡ ( p o s 1000 0 2 i / d model ) PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{2i/d_{\text{model}}}}\right) PE(pos,2i)=sin(100002i/dmodelpos)
P E ( p o s , 2 i + 1 ) = cos ⁡ ( p o s 1000 0 2 i / d model ) PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{2i/d_{\text{model}}}}\right) PE(pos,2i+1)=cos(100002i/dmodelpos)

生活中的例子: 想象你在图书馆借书时,图书馆会记录每本书的位置(位置编码),即使书籍内容相同,位置不同也会影响你找到书的效率。

目的: 保留输入序列中元素的位置信息,使模型能够捕捉顺序信息。

原因解释: 位置信息对于语言理解非常重要,通过位置编码,模型能够更好地理解序列中元素的相对位置和顺序。

5. 残差连接和层归一化

原理解释: 每个注意力层和前馈神经网络层后面都有残差连接(Residual Connection)和层归一化(Layer Normalization),以确保梯度流动更顺畅,并加速模型训练。

生活中的例子: 想象你在图书馆阅读书籍时,有一个记录你阅读进度的系统(残差连接),确保你不会丢失之前的阅读进度。同时,图书馆会定期整理和归类书籍(层归一化),确保书籍的排列整齐有序。

目的: 确保梯度流动更顺畅,加速模型训练,保持输入和输出的数值稳定。

原因解释: 残差连接能够避免梯度消失问题,层归一化则确保输入和输出的数值范围一致,增强模型的训练效果。

6. 前馈神经网络

原理解释: 注意力机制的输出通过前馈神经网络(Feedforward Neural Network, FFN),每个位置独立地通过相同的网络。FFN 包括两个线性变换和一个激活函数:

FFN ( x ) = max ⁡ ( 0 , x W 1 + b 1 ) W 2 + b 2 \text{FFN}(x) = \max(0, xW_1 + b_1)W_2 + b_2 FFN(x)=max(0,xW1+b1)W2+b2

生活中的例子: 想象你在图书馆选择了几本书(注意力输出),然后你决定逐本阅读,并将每本书的内容进行总结和理解(前馈神经网络处理)。

目的: 对注意力输出进行进一步的特

征提取和处理。

原因解释: 前馈神经网络能够对每个位置的特征进行深度处理,提取更高层次的表示。

7. Transformer 编码器和解码器

原理解释: Transformer 包括编码器和解码器两个部分:

  • 编码器(Encoder): 由多个相同的层组成,每层包括多头注意力机制和前馈神经网络。
  • 解码器(Decoder): 与编码器类似,但每层包括额外的一个用于处理编码器输出的多头注意力层。

编码器和解码器的交互通过注意力机制,解码器中的多头注意力机制利用编码器的输出来生成新的序列。

生活中的例子: 想象你在图书馆借书(编码器),你阅读这些书并记下笔记(解码器),然后用这些笔记写一篇文章(生成新的序列)。

目的: 实现序列到序列的任务,如机器翻译和文本生成。

原因解释: 编码器提取输入序列的特征,解码器根据这些特征生成新的序列,完成语言理解和生成任务。

结合具体实例

假设我们有一个句子 “I love NLP”,输入嵌入如下:
X = ( 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 ) X = \begin{pmatrix} 0.1 & 0.2 & 0.3 \\ 0.4 & 0.5 & 0.6 \\ 0.7 & 0.8 & 0.9 \end{pmatrix} X= 0.10.40.70.20.50.80.30.60.9

通过线性变换生成 Q、K 和 V:
Q = X W Q , K = X W K , V = X W V Q = XW^Q, \quad K = XW^K, \quad V = XW^V Q=XWQ,K=XWK,V=XWV

假设 W Q W^Q WQ W K W^K WK W V W^V WV 是:
W Q = ( 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 ) , W K = ( 0.1 0.3 0.5 0.2 0.4 0.6 0.3 0.5 0.7 ) , W V = ( 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 ) W^Q = \begin{pmatrix} 0.1 & 0.2 & 0.3 \\ 0.4 & 0.5 & 0.6 \\ 0.7 & 0.8 & 0.9 \end{pmatrix}, \quad W^K = \begin{pmatrix} 0.1 & 0.3 & 0.5 \\ 0.2 & 0.4 & 0.6 \\ 0.3 & 0.5 & 0.7 \end{pmatrix}, \quad W^V = \begin{pmatrix} 0.1 & 0.2 & 0.3 \\ 0.4 & 0.5 & 0.6 \\ 0.7 & 0.8 & 0.9 \end{pmatrix} WQ= 0.10.40.70.20.50.80.30.60.9 ,WK= 0.10.20.30.30.40.50.50.60.7 ,WV= 0.10.40.70.20.50.80.30.60.9

计算结果:
Q = ( 0.14 0.32 0.5 0.32 0.77 1.22 0.5 1.22 1.94 ) , K = ( 0.26 0.44 0.62 0.62 1.07 1.52 0.98 1.7 2.42 ) , V = ( 0.14 0.32 0.5 0.32 0.77 1.22 0.5 1.22 1.94 ) Q = \begin{pmatrix} 0.14 & 0.32 & 0.5 \\ 0.32 & 0.77 & 1.22 \\ 0.5 & 1.22 & 1.94 \end{pmatrix}, \quad K = \begin{pmatrix} 0.26 & 0.44 & 0.62 \\ 0.62 & 1.07 & 1.52 \\ 0.98 & 1.7 & 2.42 \end{pmatrix}, \quad V = \begin{pmatrix} 0.14 & 0.32 & 0.5 \\ 0.32 & 0.77 & 1.22 \\ 0.5 & 1.22 & 1.94 \end{pmatrix} Q= 0.140.320.50.320.771.220.51.221.94 ,K= 0.260.620.980.441.071.70.621.522.42 ,V= 0.140.320.50.320.771.220.51.221.94

通过点积和 softmax 计算得到注意力权重矩阵 A A A
A = ( 0.2 0.3 0.5 0.1 0.7 0.2 0.4 0.4 0.2 ) A = \begin{pmatrix} 0.2 & 0.3 & 0.5 \\ 0.1 & 0.7 & 0.2 \\ 0.4 & 0.4 & 0.2 \end{pmatrix} A= 0.20.10.40.30.70.40.50.20.2

将注意力权重应用于值向量,得到最终输出矩阵 Z Z Z
Z = A V Z = AV Z=AV
Z = ( 0.2 0.3 0.5 0.1 0.7 0.2 0.4 0.4 0.2 ) ( 0.14 0.32 0.5 0.32 0.77 1.22 0.5 1.22 1.94 ) = ( 0.342 0.81 1.278 0.21 0.658 1.106 0.256 0.612 0.968 ) Z = \begin{pmatrix} 0.2 & 0.3 & 0.5 \\ 0.1 & 0.7 & 0.2 \\ 0.4 & 0.4 & 0.2 \end{pmatrix} \begin{pmatrix} 0.14 & 0.32 & 0.5 \\ 0.32 & 0.77 & 1.22 \\ 0.5 & 1.22 & 1.94 \end{pmatrix} = \begin{pmatrix} 0.342 & 0.81 & 1.278 \\ 0.21 & 0.658 & 1.106 \\ 0.256 & 0.612 & 0.968 \end{pmatrix} Z= 0.20.10.40.30.70.40.50.20.2 0.140.320.50.320.771.220.51.221.94 = 0.3420.210.2560.810.6580.6121.2781.1060.968

总结

Transformer 中的注意力机制通过查询(Q)、键(K)和值(V)捕捉输入序列中元素之间的相关性,利用多头注意力机制增强模型的表达能力。通过缩放点积、应用 softmax、加权求和值向量,模型能够有效地调整输入序列中的信息权重。位置编码确保了位置信息的保留,残差连接和层归一化加速了训练,前馈神经网络进一步处理了注意力输出。编码器和解码器的结合使得 Transformer 能够高效地进行序列到序列的任务,如机器翻译和文本生成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1805732.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

学会python——九九乘法表+斐波那契数列(python实例一)

目录 1、认识Python 2、环境与工具 2.1 python环境 2.2 pycharm编译 2、九九乘法表 2.1 代码构思 2.2 代码示例 2.3 运行结果 3、斐波那契数列 3.1 代码构思 3.2 代码示例 3.3 运行结果 1、认识Python Python 是一个高层次的结合了解释性、编译性、互动性和面向对…

Mac清洁神器CleanMyMac2024一键轻松解决电脑垃圾问题

【CleanMyMac】苹果mac电脑垃圾清理软件 大家好!今天我要给大家种草一个超级好用的苹果mac电脑垃圾清理软件,那就是 CleanMyMac。相信很多人都遇到过电脑运行速度变慢、存储空间不足的问题,而这款软件就是解决这些问题的救星!让我…

UML交互图-协作图

概述 协作图和序列图都表示出了对象间的交互作用,但是它们侧重点不同。序列图清楚地表示了交互作用中的时间顺序,但没有明确表示对象间的关系。协作图则清楚地表示了对象间的关系,但时间顺序必须从顺序号获得。序列图常常用于表示方案&#…

物理机宕机后,虚拟机出现(无响应),虚拟机无法开机

物理机宕机后,虚拟机出现(无响应),虚拟机无法开机 解决方案;看存储池中,文件是否还存在;如果存在,新建虚拟机,加载存储池中的磁盘,重启虚拟机就可以了 重新创…

matlab---app

一 基础 标签和信号灯没有回调函数 clc,clear,close all %清理命令区、工作区,关闭显示图形 warning off %消除警告 feature jit off %加速代码运行 ysw{i}i %循环赋值 celldisp(ysw) %显示元胞数组ysw.y1{1}[1,2] …

【机器学习300问】108、什么是多项式回归模型?

一、多项式回归是什么 (1)举例说明 假设你经营着一家农场,想要根据土地面积来预测作物的产量。如果你只用线性模型(即),你可能会发现它并不足以描述实际的产量情况,因为实际产量可能会随着土地…

美国演员工会SAG-AFTRA 要求人工智能在广告中使用演员声音需征得同意并付费

SAG-AFTRA 的新豁免允许在人工智能生成的广告中使用演员的声音,但需要同意、补偿和安全措施 美国演员工会(SAG-AFTRA)推出了一项新的豁免,以保护会员免受未经授权的人工智能在广告中使用其声音的影响。动态人工智能音频广告豁免定…

添加Microsoft.VisualStudio.TestTools.UnitTesting命名空间

创建“单元测试项目”,则自动添加 Microsoft.VisualStudio.TestTools.UnitTesting 命名空间

《Brave New Words 》2.1 学生为什么要写作

Part II: Giving Voice to the Social Sciences 第二部分:为社会科学发声 Art is a collaboration between God and the artist, and the less the artist does the better. —Andr Gide 艺术是上帝与艺术家的合作,艺术家做得越少越好。 —安德烈纪德 A …

Docker 常用命令以及镜像选择

目录 1.Docker基本组成 2.镜像选择 2.1、镜像推荐选择方案 2.2版本选择 3.Docker 命令 3.1镜像管理 拉取镜像: 列出镜像: 删除镜像: 构建镜像: 3.2容器管理 运行容器 列出运行中的容器和所有容器 停止容器 启动重启…

微服务开发与实战Day04

一、网关路由 网关&#xff1a;就是网络的关口&#xff0c;负责请求的路由、转发、身份校验。 在SpringCloud中网关的实现包括两种&#xff1a; 1. 快速入门 Spring Cloud Gateway 步骤&#xff1a; ①新建hm-gateway模块 ②引入依赖pom.xml(hm-gateway) <?xml version…

(2024,自监督 ViT,全监督 ViT,损失可视化,MAE,RC-MAE,自蒸馏,EMA)可视化自监督 ViT 的损失景观

Visualizing the loss landscape of Self-supervised Vision Transformer 公和众和号&#xff1a;EDPJ&#xff08;进 Q 交流群&#xff1a;922230617 或加 VX&#xff1a;CV_EDPJ 进 V 交流群&#xff09; 目录 0 摘要 2 基础&#xff1a;MAE 和 RC-MAE 3 损失景观 3.1 分…

matlab GUI界面设计

【实验内容】 用MATLAB的GUI程序设计一个具备图像边缘检测功能的用户界面&#xff0c;该设计程序有以下基本功能&#xff1a; &#xff08;1&#xff09;图像的读取和保存。 &#xff08;2&#xff09;设计图形用户界面&#xff0c;让用户对图像进行彩色图像到灰度图像的转换…

【java、lucene、python】互联网搜索引擎课程报告二:建立搜索引擎

一、项目要求 建立并实现文本搜索功能 对经过预处理后的500个英文和中文文档/网页建立搜索并实现搜索功能对文档建立索引&#xff0c;然后通过前台界面或者已提供的界面&#xff0c;输入关键字&#xff0c;展示搜索结果前台可通过网页形式、应用程序形式、或者利用已有的界面…

SQLserver通过CLR调用TCP接口

一、SQLserver启用CLR 查看是否开启CRL&#xff0c;如果run_value1&#xff0c;则表示开启 EXEC sp_configure clr enabled; GO RECONFIGURE; GO如果未启用&#xff0c;则执行如下命令启用CLR sp_configure clr enabled, 1; GO RECONFIGURE; GO二、创建 CLR 程序集 创建新项…

【Java】单例设计模式

单例设计模式简介 目录 1.单例设计模式是什么&#xff1f;2.单例设计模式设计方法饿汉式懒汉式 3.单例设计模式的应用任务管理器(仅有一个页面&#xff0c;不可多开)Runtime运行环境 1.单例设计模式是什么&#xff1f; 设计模式 是解决 特定问题的优秀设计方式之一。 单例设计…

mathematica中针对三维图中的颜色和填充透明度进行指定

颜色指定使用的命令为&#xff1a;PlotStyle 填充的透明度使用的命令为&#xff1a;FillingStyle 示例代码&#xff1a; Clear["Global*"] Plot3D[{Sin[x^2 y], Sin[x^2 - y]}, {x, -2, 2}, {y, -2, 2}, PlotStyle -> {Directive[Red, Specularity[White, 100…

人体部位眼耳手腿分类数据集4376张4类别

数据集类型&#xff1a;图像分类用&#xff0c;不可用于目标检测无标注文件 数据集格式&#xff1a;仅仅包含jpg图片&#xff0c;每个类别文件夹下面存放着对应图片 图片数量(jpg文件个数)&#xff1a;4376 分类类别数&#xff1a;4 类别名称:["Ears","Eyes&quo…

win设置ftp服务器~java通过ftp下载文件

1.先设置ftp 2.打开服务 3.设置站点 4.起名字 这样就可以了 5.剩下的就是设置权限和账号了&#xff0c;找到对应的按钮就可以了 6.下载文件的代码 public byte[] downloadFile(File file) throws IOException{ByteArrayOutputStream out new ByteArrayOutputStream();toDi…

算法家族之一——二分法

目录 算法算法的打印效果如果算法里的整型“i”为1如果算法里的整型“i”为11 算法的流程图算法的实际应用总结 大家好&#xff0c;我叫 这是我58&#xff0c;现在&#xff0c;请看下面的算法。 算法 #define _CRT_SECURE_NO_WARNINGS 1//<--预处理指令 #include <stdi…