讲透一个强大的算法模型,Transformer

news2025/1/10 23:45:43

Transformer 模型是一种基于注意力机制的深度学习模型,广泛应用于自然语言处理(NLP)任务,如机器翻译、文本生成和语义理解。

它最初由 Vaswani 等人在2017年的论文《Attention is All You Need》中提出。它突破了传统序列模型(如RNN和LSTM)的局限,能够并行处理序列数据,从而大大提高了训练效率和模型性能。

Transformer 模型的基本结构

Transformer 模型由两个主要部分组成:编码器(Encoder)和 解码器(Decoder)。

编码器将输入序列编码为一个固定长度的上下文向量,解码器则根据这个上下文向量生成输出序列。

编码器和解码器各由多个层(Layer)堆叠而成。

  1. 编码器(Encoder)

    编码器的主要作用是将输入序列转换为一组上下文向量,供解码器使用。

    每个编码器层包括两个主要的子层:

    每个子层之后都会使用残差连接(Residual Connection)和层归一化(Layer Normalization),这有助于避免梯度消失问题并加快训练收敛速度。

  • 多头自注意力机制(Multi-Head Self-Attention)

    捕捉输入序列中不同位置之间的依赖关系。

    通过不同的注意力头(Attention Heads),模型可以从多个不同的角度来看待输入序列。

  • 前馈神经网络(Feed-Forward Neural Network, FFN)

    对经过注意力机制处理的序列进行进一步的非线性变换。

  1. 解码器(Decoder)

    与编码器类似,解码器也由多个层组成,每个解码器层包含三个子层:

    每个子层同样有残差连接和层归一化。

  • 掩码多头自注意力机制

    与编码器中的多头自注意力机制类似,但在解码器中,解码器的多头自注意力机制是掩蔽(Masked)的,防止在预测下一个单词时看到未来的信息。

  • 编码器-解码器多头注意力机制(Encoder-Decoder Attention)

    该注意力机制允许解码器访问编码器的输出,这样解码器就可以根据编码器生成的上下文向量来生成输出序列。

  • 前馈神经网络(Feed-Forward Neural Network, FFN)

    与编码器中的FFN相同,用于对注意力机制的输出进行非线性变换。

核心组件

下面,我们来详细描述一下 Transformer 中的核心组件。

1.输入嵌入

输入嵌入是将输入文本序列中的单词或符号映射为高维向量的过程。

在 Transformer 模型中,文本首先被标记化为单词或子词,然后每个标记被映射为一个固定长度的向量。

这些向量通常是通过查找嵌入矩阵(embedding matrix)得到的,该矩阵是在训练过程中学习得到的。

输入嵌入的作用是将离散的符号转换为连续的、可以直接输入到神经网络中的向量表示,使得模型能够处理和理解输入数据。

在这里插入图片描述

2.位置编码

位置编码(Positional Encoding)是 Transformer 模型中的一个关键组件,用于在模型中引入序列位置信息。

由于 Transformer 模型不使用传统的循环神经网络(RNN)结构,它无法像这些传统模型那样通过其结构直接捕获输入数据的位置信息。因此,需要通过位置编码来显式地提供序列中的位置信息。

位置编码通常使用正弦和余弦函数来生成。

对于位置 pos 和嵌入维度中的第 个维度

对于位置 pos 和嵌入维度中的第 2i + 1 个维度:

其中:

  • pos 是位置索引。

  • i 是维度索引。

  • 是嵌入向量的维度。

3.自主力机制

自注意力机制是 Transformer 的核心创新之一。

它允许模型在计算某个位置的输出时,考虑输入序列中所有其他位置的信息。

具体地,对于每个输入位置,自注意力机制会计算该位置与其他所有位置的相似度(通过点积操作),并使用这些相似度作为权重来加权求和其他位置的输入表示。

自注意力机制的关键步骤包括:

  • Query、Key、Value 向量的生成

    对输入嵌入进行线性变换,生成三个不同的向量,即查询向量(Query)、键向量(Key)和值向量(Value)。

    每个输入向量 ,通过三个线性变换分别映射为查询向量 、键向量 和值向量 。

    这些向量用于后续的注意力计算。

    其中,、 和 是可学习的权重矩阵。

  • 注意力得分的计算

    通过点积计算查询向量与所有键向量之间的相似度,得到注意力得分矩阵。

    对于每个查询向量 ,通过点积的方式计算它与所有键向量 的相似度,得到注意力分数。

    为了稳定训练过程,这些分数会除以 ,其中 是键向量的维度。

  • 加权求和

    使用Softmax函数将注意力得分转换为权重,然后对所有值向量进行加权求和,得到最终的输出表示。

4.多头注意力机制

多头注意力机制是对自注意力机制的扩展。

通过并行地执行多次自注意力机制,可以让模型从不同的角度(即不同的“头”)学习输入序列中的信息。

每个头都有自己独立的查询、键和值的线性变换,然后分别执行自注意力操作,最后将这些头的输出进行拼接,并通过线性变换生成最终的多头注意力输出。

具体来说,假设有 h 个注意力头,每个头分别计算如下:

其中, , , 是第 i 个头的查询、键和值的权重矩阵。

然后,将所有头的输出连接起来,并通过线性变换:

其中, 是输出的权重矩阵。

多头注意力机制的优点在于它能够捕捉到不同的语义关系和特征,从而增强模型的表达能力。

5.前馈神经网络

每个编码器和解码器层中的前馈神经网络是一个两层的全连接神经网络,作用是对每个位置的表示进行独立的非线性变换。

公式表示如下:

其中, 和 是权重矩阵, 和 是偏置向量。

6. 层归一化和残差连接

为了防止深层网络的梯度消失问题,Transformer 在每个子层后使用了残差连接,并紧跟层归一化。

其中, 可以是多头注意力机制或前馈神经网络的输出。

7.掩码多头自注意力

在标准的多头注意力机制中,每个位置的查询(Query)会与所有位置的键(Key)进行点积计算,得到注意力分数,然后与值(Value)加权求和,生成最终的输出。

然而,在解码器中,生成序列时不能访问未来的信息。因此需要使用掩码(Mask)机制来屏蔽掉未来位置的信息。

具体来说,在计算注意力得分时,对未来的位置进行屏蔽,将这些位置的得分设为负无穷大,使得 Softmax 归一化后的权重为零。

在这里插入图片描述

8.编码器-解码器多头注意力

在解码器中的 Multi-head Attention 也叫做 Encoder-Decoder Attention,它的 Query 来自解码器的 self-attention,而 Key、Value 则是编码器的输出。

案例代码

下面是一个使用 PyTorch 实现 Transformer 模型的简单示例代码。

该示例展示了如何构建一个基本的 Transformer 模型并使用它进行序列到序列的任务,例如机器翻译。

import torch  
import torch.nn as nn  
import torch.optim as optim  
import math  
  
class PositionalEncoding(nn.Module):  
    def __init__(self, d_model, max_len=5000):  
        super(PositionalEncoding, self).__init__()  
        pe = torch.zeros(max_len, d_model)  
        position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)  
        div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))  
        pe[:, 0::2] = torch.sin(position * div_term)  
        pe[:, 1::2] = torch.cos(position * div_term)  
        pe = pe.unsqueeze(0).transpose(0, 1)  
        self.register_buffer('pe', pe)  
  
    def forward(self, x):  
        x = x + self.pe[:x.size(0), :]  
        return x  
  
class TransformerModel(nn.Module):  
    def __init__(self, input_dim, output_dim, d_model=512, nhead=8, num_encoder_layers=6, dim_feedforward=2048, dropout=0.1):  
        super(TransformerModel, self).__init__()  
        self.model_type = 'Transformer'  
        self.embedding = nn.Embedding(input_dim, d_model)  
        self.pos_encoder = PositionalEncoding(d_model)  
        encoder_layers = nn.TransformerEncoderLayer(d_model, nhead, dim_feedforward, dropout)  
        self.transformer_encoder = nn.TransformerEncoder(encoder_layers, num_encoder_layers)  
        self.d_model = d_model  
        self.decoder = nn.Linear(d_model, output_dim)  
        self.init_weights()  
  
    def init_weights(self):  
        initrange = 0.1  
        self.embedding.weight.data.uniform_(-initrange, initrange)  
        self.decoder.bias.data.zero_()  
        self.decoder.weight.data.uniform_(-initrange, initrange)  
  
    def forward(self, src, src_mask):  
        src = self.embedding(src) * math.sqrt(self.d_model)  
        src = self.pos_encoder(src)  
        output = self.transformer_encoder(src, src_mask)  
        output = self.decoder(output)  
        return output  
  
def generate_square_subsequent_mask(sz):  
    mask = (torch.triu(torch.ones(sz, sz)) == 1).transpose(0, 1)  
    mask = mask.float().masked_fill(mask == 0, float('-inf')).masked_fill(mask == 1, float(0.0))  
    return mask  
  
# Example usage:  
input_dim = 1000  # Vocabulary size  
output_dim = 1000  # Output size  
seq_length = 10  # Length of the sequence  
  
# Create the model  
model = TransformerModel(input_dim=input_dim, output_dim=output_dim)  
  
# Example data  
src = torch.randint(0, input_dim, (seq_length, 32))  # (sequence_length, batch_size)  
src_mask = generate_square_subsequent_mask(seq_length)  
  
# Forward pass  
output = model(src, src_mask)  
print(output.shape)  # Expected output: [sequence_length, batch_size, output_dim]  
  
# Define a simple loss and optimizer for training  
criterion = nn.CrossEntropyLoss()  
optimizer = optim.Adam(model.parameters(), lr=0.001)  
  
# Example training loop  
for epoch in range(10):  # Number of epochs  
    optimizer.zero_grad()  
    output = model(src, src_mask)  
    loss = criterion(output.view(-1, output_dim), src.view(-1))  
    loss.backward()  
    optimizer.step()  
    print(f"Epoch {epoch+1}, Loss: {loss.item()}")

零基础如何学习大模型 AI

领取方式在文末

为什么要学习大模型?

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术,如自然语言处理和图像识别,正在推动着人工智能的新发展阶段。通过学习大模型课程,可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术,从而提升自己在数据处理、分析和决策制定方面的能力。此外,大模型技术在多个行业中的应用日益增加,掌握这一技术将有助于提高就业竞争力,并为未来的创新创业提供坚实的基础。

大模型典型应用场景

AI+教育:智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据,提供量身定制的学习方案,提高学习效果。
AI+医疗:智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像,辅助医生进行早期诊断,同时根据患者数据制定个性化治疗方案。
AI+金融:智能投顾和风险管理系统帮助投资者做出更明智的决策,并实时监控金融市场,识别潜在风险。
AI+制造:智能制造和自动化工厂提高了生产效率和质量。通过AI技术,工厂可以实现设备预测性维护,减少停机时间。

AI+零售:智能推荐系统和库存管理优化了用户体验和运营成本。AI可以分析用户行为,提供个性化商品推荐,同时优化库存,减少浪费。

AI+交通:自动驾驶和智能交通管理提升了交通安全和效率。AI技术可以实现车辆自动驾驶,并优化交通信号控制,减少拥堵。


这些案例表明,学习大模型课程不仅能够提升个人技能,还能为企业带来实际效益,推动行业创新发展。

学习资料领取

如果你对大模型感兴趣,可以看看我整合并且整理成了一份AI大模型资料包,需要的小伙伴文末免费领取哦,无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

在这里插入图片描述

部分资料展示

一、 AI大模型学习路线图

整个学习分为7个阶段
在这里插入图片描述

二、AI大模型实战案例

涵盖AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,皆可用。
在这里插入图片描述

三、视频和书籍PDF合集

从入门到进阶这里都有,跟着老师学习事半功倍。
在这里插入图片描述

在这里插入图片描述

四、LLM面试题

在这里插入图片描述

如果二维码失效,可以点击下方链接,一样的哦
【CSDN大礼包】最新AI大模型资源包,这里全都有!无偿分享!!!

😝朋友们如果有需要的话,可以V扫描下方二维码联系领取~
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2085067.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

搬运5款实用工具,帮你更好地完成各种任务

​ 在日常工作和生活中,使用各种工具来提升效率和简化任务变得尤为重要。本文将介绍几款实用的工具,帮助你更好地完成各种任务。 1. 自动化脚本——AutoHotkey ​ AutoHotkey是一款功能强大的自动化脚本编写工具,可以用来自动执行日常任务&…

【网络安全】漏洞挖掘

漏洞描述 Spring框架为现代基于java的企业应用程序(在任何类型的部署平台上)提供了一个全面的编程和配置模型。 Spring Cloud 中的 serveless框架 Spring Cloud Function 中的 RoutingFunction 类的 apply 方法将请求头中的“spring.cloud.function.routing-expression”参数…

餐饮_零售_麻辣烫_水果店_零食店_生鲜店等收银系统

介绍 多商户多门店的Sass收银系统。适用于餐饮_零售_麻辣烫_水果店_零食店_生鲜店等收银系统,包含windows收银pos端、商家小程序管理端、商家运营端、电子会员、电子小票 软件架构 收银Pos:vue2、node、electron、sqlite、antd 后端服务:spri…

【如何用本机的Navicat远程连接到ubuntu服务器上的mysql】

文章目录 版本一、ubuntu服务器安装mysql5二、远程连接——mysql配置1.创建新mysql用户2.修改配置文件3.查看端口是否开启 三、远程连接——Navicat 版本 mysql:5.7.32 服务器:ubuntu20.04 PC:win10 一、ubuntu服务器安装mysql5 因为ubuntu20.04默认mysql其实是my…

Windows超好用的命令行工具--Cmder 赶紧把cmd丢了吧!

简介 Cmder 是一个现代化的命令行工具可以智能提示,高亮显示文件夹… 1. 官网地址:Cmder下载地址 2. 滑倒最下面可以看到以下按钮 3. 解压到自己想要保存的地址(⚠️记住这个路径) 比如我解压到了C:\Cmder\Cmder.exe(⚠️不推…

变天了!24岁硕士年薪50万元,博士年薪200万起!人才缺口100万

从上海交大硕士毕业的00后表示,“24岁硕士毕业时年薪50万元,到了30岁大概能升到P7(注:职级名称),那时就能年薪百万了。” 他今年入职腾讯,担任AI算法工程师,成为AI风口下第一批就业的年轻人。 …

CUDA 内核函数

文章目录 一、简介二、实现代码三、实现效果参考资料 一、简介 CUDA为我们提供了可扩展的编程模型:它的核心是三个关键的抽象——线程组的层次结构、共享内存和阻塞同步——它们只是作为一组最小的语言扩展暴露给外部使用人员。这些抽象提供细粒度数据并行性和线程并…

MyBatis的学习————上篇

目录 一、MyBatis简介 1、MyBatis的历史 2、MyBatis的特性 3、和其它持久化层技术的比较 二、搭建MyBatis 1、开发环境 ​编辑2、创建Maven工程 3、创建MyBatis核心配置文件 4、创建mapper接口 5、创建Mybatis的映射文件 6、测试功能 7、功能优化 8、修改和删除方…

重生奇迹MU最合适PK的几个职业

重生奇迹MU是一款备受玩家青睐的经典游戏,其中的PK系统更是吸引了众多玩家的关注。在众多职业中,哪些职业最适合PK呢? PK作为重生奇迹MU的一种娱乐方式,已成为该游戏核心系统之一,并在多年的流行中仍能带给玩家许多乐…

python正则表达式的一些问题

🏆本文收录于《CSDN问答解惑-专业版》专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收…

Matplotlib中twinx() 函数的用法

ax1.twinx() 是 Matplotlib 库中的一个函数,用于在同一个图中创建一个共享 x 轴但具有独立 y 轴的双 y 轴图表。这个函数非常适合用来在同一张图中绘制两组具有不同 y 轴度量的变量,使得它们可以共享 x 轴,但彼此之间有不同的 y 轴尺度。 ax…

SpringBoot日常:Spring扩展接口之InitializingBean

文章目录 简介源码分析应用场景代码示例运行示例 简介 这篇文章主要介绍了Spring中InitializingBean的使用详细解析,InitializingBean是Spring提供的拓展性接口,提供了属性初始化后的处理方法,它只有一个afterPropertiesSet方法,凡是继承该接…

中断的引入

中断系统是为使CPU具有对外界紧总事件的实时处理能力而设置的 当中央处理机CPU正在处理某件事的时候外界发生了紧急事件请求,要求CPU暂停当前的工作,转而去处理这个紧急事件,处理完以后,再回到原来被中断的地方,继续原…

进程间的同步与互斥

1、计数信号量及其初始化 由于事件发生的次数可能不止一次,或者资源可用的数量可能不止一个,因此,信号量内部会维护一个计数器,用于表示某种事件发生的次数或者某种资源可用的数量。 信号量至少提供两种操作:一种等待…

flutter 手写时钟

前言: 之前看过别人写的 js实现的 时钟表盘 挺有意思的,看着挺好 这边打算自己手动实现以下。顺便记录下实现过程:大致效果如下: 主要技术点: 表盘内样 倒角: 表盘下半部分是有一点倒角的感觉,…

YOLOv8独家改进:轻量化改进 | 高效移动应用的卷积加性自注意Vision Transformer

💡💡💡本文独家改进:轻量化改进之高效移动应用的卷积加性自注意Vision Transformer,构建了一个新颖且高效实现方式——卷积加性相似度函数,并提出了一种名为卷积加性标记混合器(CATM) 的简化方法来降低计算开销 💡💡💡性能比较:计算量参数量均有一定程度降低…

别盲目选择!2024年超级兔子与TOP3数据恢复,效率比拼全记录

在现在这个数字化的社会里,数据对我们来说太重要了。不管是家里的照片、工作文件,还是那些记录着美好时光的视频,要是弄丢了,肯定特别着急。不过别担心,今天咱们就来聊聊几款Windows系统上的数据恢复好帮手——超级兔子…

布局容器Grid、StackPanel、GroupBox、DockPanel、WrapPanel

Grid——网格布局,其中控件或容器需指定位置 StackPanel——堆叠面板,其中的控件水平布局、竖直布局 DockPanel——停靠面板,内部控件或容器可以放置在上、下、左、右 WrapPanel——可以看作是具有自动换行功能的StackPanel容器。窗体太小…

360杀毒恢复查杀的软件

360的查杀恢复区不太好找,特此记录: 主界面/管理中心面板/安全操作中心 安全操作中心/可恢复区:

UE5蓝图 抽卡出货概率

SSR概率0.1 SR概率0.2 R概率0.7 ps:数组内相加为1。且从小到大排序。