神经网络算法 - 一文搞懂Transformer

news2025/1/25 9:05:55

本文将从Transformer的本质、Transformer的原理、Transformer架构改进三个方面,带您一文搞懂Transformer。

**__**一、**_**_Transformer_**的本质_****__**

Transformer架构:主要由输入部分(输入输出嵌入与位置编码)、多层编码器、多层解码器以及输出部分(输出线性层与Softmax)四大部分组成。****

Transformer架构

  • 输入部分:

  • 源文本嵌入层: 将源文本中的词汇数字表示转换为向量表示,捕捉词汇间的关系。

  • 位置编码器: 为输入序列的每个位置生成位置向量,以便模型能够理解序列中的位置信息。

  • 目标文本嵌入层(在解码器中使用):将目标文本中的词汇数字表示转换为向量表示。

  • 编码器部分:

  • 由N个编码器层堆叠而成。

  • 每个编码器层由两个子层连接结构组成:第一个子层是一个多头自注意力子层,第二个子层是一个前馈全连接子层。每个子层后都接有一个规范化层和一个残差连接。

  • 解码器部分:

  • 由N个解码器层堆叠而成。

  • 每个解码器层由三个子层连接结构组成:第一个子层是一个带掩码的多头自注意力子层,第二个子层是一个多头注意力子层(编码器到解码器),第三个子层是一个前馈全连接子层。每个子层后都接有一个规范化层和一个残差连接。

  • 输出部分:

  • 线性层: 将解码器输出的向量转换为最终的输出维度。

  • Softmax层: 将线性层的输出转换为概率分布,以便进行最终的预测。

Encoder-Decoder(编码器-解码器): 左边是N个编码器,右边是N个解码器,Transformer中的N为6。

Encoder-Decoder(编码器-解码器)

  • Encoder编码器

  • Transformer中的编码器部分一共6个相同的编码器层组成。

    每个编码器层都有两个子层,即多头自注意力层(Multi-Head Attention)层和逐位置的前馈神经网络(Position-wise Feed-Forward Network)。 在每个子层后面都有残差连接(图中的虚线)和层归一化(LayerNorm)操作,二者合起来称为Add&Norm操作。

Encoder(编码器)架构

  • Decoder解码器

  • Transformer中的解码器部分同样一共6个相同的解码器层组成。

    每个解码器层都有三个子层, 掩蔽自注意力层(Masked Self-Attention)、 Encoder-Decoder注意力层、逐位置的前馈神经网络。 同样,在每个子层后面都有残差连接(图中的虚线)和层归一化(LayerNorm)操作,二者合起来称为Add&Norm操作。

Decoder(解码器)架构

_**二、**_Transformer_**_**_**_**_****_的原理_****_**_**_**_**_

Transformer工作原理

Multi-Head Attention(多头注意力)它允许模型同时关注来自不同位置的信息。通过分割原始的输入向量到多个头(head),每个头都能独立地学习不同的注意力权重,从而增强模型对输入序列中不同部分的关注能力。

Multi-Head Attention(多头注意力)

  1. 输入线性变换:对于输入的Query(查询)、Key(键)和Value(值)向量,首先通过线性变换将它们映射到不同的子空间。这些线性变换的参数是模型需要学习的。

  2. 分割多头:经过线性变换后,Query、Key和Value向量被分割成多个头。每个头都会独立地进行注意力计算。

  3. 缩放点积注意力:在每个头内部,使用缩放点积注意力来计算Query和Key之间的注意力分数。这个分数决定了在生成输出时,模型应该关注Value向量的部分。

  4. 注意力权重应用:将计算出的注意力权重应用于Value向量,得到加权的中间输出。这个过程可以理解为根据注意力权重对输入信息进行筛选和聚焦。

  5. 拼接和线性变换:将所有头的加权输出拼接在一起,然后通过一个线性变换得到最终的Multi-Head Attention输出。

**Scaled Dot-Product Attention缩放点积注意力)**:它是Transformer模型中多头注意力机制的一个关键组成部分。

Scaled Dot-Product Attention(缩放点积注意力)

  • Query、Key和Value矩阵:

  • Query矩阵(Q):表示当前的关注点或信息需求,用于与Key矩阵进行匹配。

  • Key矩阵(K):包含输入序列中各个位置的标识信息,用于被Query矩阵查询匹配。

  • Value矩阵(V):存储了与Key矩阵相对应的实际值或信息内容,当Query与某个Key匹配时,相应的Value将被用来计算输出。

  • 点积计算:

  • 通过计算Query矩阵和Key矩阵之间的点积(即对应元素相乘后求和),来衡量Query与每个Key之间的相似度或匹配程度。

  • 缩放因子:

  • 由于点积操作的结果可能非常大,尤其是在输入维度较高的情况下,这可能导致softmax函数在计算注意力权重时进入饱和区。为了避免这个问题,缩放点积注意力引入了一个缩放因子,通常是输入维度的平方根。点积结果除以这个缩放因子,可以使得softmax函数的输入保持在一个合理的范围内。

  • Softmax函数:

  • 将缩放后的点积结果输入到softmax函数中,计算每个Key相对于Query的注意力权重。Softmax函数将原始得分转换为概率分布,使得所有Key的注意力权重之和为1。

  • 加权求和:

  • 使用计算出的注意力权重对Value矩阵进行加权求和,得到最终的输出。这个过程根据注意力权重的大小,将更多的关注放在与Query更匹配的Value上。

在这里插入图片描述

BERT:BERT是一种基于Transformer的预训练语言模型,它的最大创新之处在于引入了双向Transformer编码器,这使得模型可以同时考虑输入序列的前后上下文信息。

BERT架构

  1. 输入层(Embedding):
  • Token Embeddings:将单词或子词转换为固定维度的向量。

  • Segment Embeddings:用于区分句子对中的不同句子。

  • Position Embeddings:由于Transformer模型本身不具备处理序列顺序的能力,所以需要加入位置嵌入来提供序列中单词的位置信息。

  1. 编码层(Transformer Encoder):BERT模型使用双向Transformer编码器进行编码。

  2. 输出层(Pre-trained Task-specific Layers):

  • MLM输出层:用于预测被掩码(masked)的单词。在训练阶段,模型会随机遮盖输入序列中的部分单词,并尝试根据上下文预测这些单词。

  • NSP输出层:用于判断两个句子是否为连续的句子对。在训练阶段,模型会接收成对的句子作为输入,并尝试预测第二个句子是否是第一个句子的后续句子。

GPT:GPT也是一种基于Transformer的预训练语言模型,它的最大创新之处在于使用了 单向Transformer编码器,这使得模型可以更好地捕捉输入序列的上下文信息。

GPT架构

  1. 输入层(Input Embedding):
  • 将输入的单词或符号转换为固定维度的向量表示。

  • 可以包括词嵌入、位置嵌入等,以提供单词的语义信息和位置信息。

  1. 编码层(Transformer Encoder):GPT模型使用单向Transformer编码器进行编码和生成。

  2. 输出层(Output Linear and Softmax):

  • 线性输出层将最后一个Transformer Decoder Block的输出转换为词汇表大小的向量。

  • Softmax函数将输出向量转换为概率分布,以便进行词汇选择或生成下一个单词。

如何学习AI大模型?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

学习路线

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2058517.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

神经网络算法--文搞懂LSTM(长短期记忆网络)

本文将从LSTM的本质、LSTM的原理、LSTM的应用 三个方面,带您一文搞懂长短期记忆网络Long Short Term Memory | LSTM。 RNN 面临问题:RNN(递归神经网络)在处理长序列时面临的主要问题:短时记忆和梯度消失/梯度爆炸。 梯…

智慧导览系统主要在哪些场景有应用

随着信息化和智能化的快速发展,智慧导览系统作为一种新型导览工具,在多个领域展现出其独特的应用价值。该系统通过集合互联网、人工智能、大数据分析等技术,为用户提供更加便捷、高效的导览服务。以下将详细给大家介绍智慧导览系统主要在哪些…

获取阿里云Docker镜像加速器地址

注册并登录阿里云账号:首先,你需要有一个阿里云账号。如果还没有,可以在阿里云官网注册。 访问容器镜像服务:登录后,进入“产品与服务”,找到“容器服务”或“容器镜像服务”。阿里云容器服务 找到镜像加…

Kolmogorov-Arnold Networks——高效、可解释的神经网络的新前沿

引言 神经网络一直处于人工智能发展的前沿,从自然语言处理和计算机视觉到战略游戏、医疗保健、编码、艺术甚至自动驾驶汽车,无所不包。然而,随着这些模型的规模和复杂性不断扩大,它们的局限性正成为重大缺陷。对大量数据和计算能…

gazebo下使用Fast-planner配置(包含mpc局部规划+控制Gazebo小车以及FastPlanner配置)

源码链接: https://github.com/USE-jx/NMPC_CASADI_CPP?tabreadme-ov-file #这是NMPC的 里面有Fast-Planner,但编译可能缺少东西,所以再放一个Fast-Planner的,可以装装缺少的库 https://github.com/HKUST-Aerial-Robotics/Fast-P…

centos7.9系统安装cloudpods

1. 简介: Cloudpods 是一款简单、可靠的企业IaaS资源管理软件。帮助未云化企业全面云化IDC物理资源,提升企业IT管理效率。 Cloudpods 帮助客户在一个地方管理所有云计算资源。统一管理异构IT基础设施资源,极大简化多云架构复杂度和难度&…

1553B总线电缆网络

1553B总线电缆网络 MIL-STD-1553B总线全称为飞行器内部时分命令/响应多路数据总线(Aircraft Internal Time Division Command/Response Multiplex Data Bu),它是由美国SAE的AE-9E委员会在军方和工业界的支持下,我国与之对应的标准…

Ubuntu清除缓存的方法--防止系统崩溃

前情提要:虚拟机出现过好几次的崩溃,终于同事发给了一个可以清除缓存的 1)崩溃1:之前将虚拟机放置在某盘中,该盘后续一直有别的东西存入,导致ubuntu直接打不开,后续就将虚拟机直接放在电脑单独…

洛谷 P1094 [NOIP2007 普及组] 纪念品分组

题目背景 NOIP2007 普及组 T2 题目描述 元旦快到了,校学生会让乐乐负责新年晚会的纪念品发放工作。为使得参加晚会的同学所获得 的纪念品价值相对均衡,他要把购来的纪念品根据价格进行分组,但每组最多只能包括两件纪念品, 并且…

RAG Foundry:一个用于增强大语言模型以实现检索增强生成的框架

一、结论写在前面 论文来自Intel Labs。 论文标题:RAG Foundry: A Framework for Enhancing LLMs for Retrieval Augmented Generation 论文链接:https://arxiv.org/pdf/2408.02545 代码:https://github.com/IntelLabs/RAGFoundry 实现检…

这一定是魔法!5个绝招解决苹果微信照片删除了怎么恢复问题

情景一:更新苹果手机系统后,重新打开微信却发现聊天记录中的照片不见了。 情景二:清理微信缓存数据以释放手机空间,再次打开微信发现聊天中的微信照片找不到了。 …… …… 类似于上述的情景在日常生活中时有发生,但…

【数据分享】1929-2024年全球站点的逐日降水量数据(Shp\Excel格式\1万多个站点)

气象数据是在各项研究中都经常使用的数据,气象指标包括气温、风速、降水、湿度等指标,说到常用的降水数据,最详细的降水数据是具体到气象监测站点的降水数据! 有关气象指标的监测站点数据,之前我们分享过1929-2024年全…

AI时代的价值盈利②:人工智能将如何改变SaaS应用的定价指标

介绍 随着行业和企业走上人工智能之旅,对每个投资者和商业领袖来说,最紧迫的问题之一是这种变革性技术将如何重塑他们的商业模式。GenAI有望释放巨大的价值,并有可能彻底改变消费者与服务或应用程序的交互方式。虽然它可能会带来巨大的成本&…

热门的蓝牙耳机中,哪种类型更受欢迎?四款热度高的开放式耳机

在如今的耳机市场中,开放式耳机异军突起,成为了众多消费者的新宠。如果你还在为传统入耳式耳机带来的不适而烦恼,那么开放式耳机绝对值得你一试。它不仅能让你在享受音乐的同时,依然可以清晰感知周围环境,保障你的安全…

函数与二元关系在编程中的应用

目录 引言 函数的基本概念与编程应用 二元关系与其在编程中的实现 函数与关系的高级编程应用 总结与应用 引言 函数与二元关系是计算机科学中描述元素间相互作用的核心工具。它们在算法设计、数据库管理、图论及各种建模任务中发挥着不可或缺的作用。掌握函数与二元关系的…

【代码】Swan-Transformer 代码详解(待完成)

1. 局部注意力 Window Attention (W-MSA Module) class WindowAttention(nn.Module):r""" Window based multi-head self attention (W-MSA) module with relative position bias.It supports both of shifted and non-shifted window.Args:dim (int): Number…

汽车的UDS诊断01

UDS(Unified Diagnostic Services):ISO14229中定义了汽车通用诊断协议;ISO15765规定了帧的格式; 1)UDS中的四种帧 UDS中的四种帧:单帧、首帧、流空帧、连续帧 图1 …

美团面试题:new Integer(“127“)和Integer.valueOf(“128“)有什么

🍅 作者简介:哪吒,CSDN2021博客之星亚军🏆、新星计划导师✌、博客专家💪 🍅 哪吒多年工作总结:Java学习路线总结,搬砖工逆袭Java架构师 🍅 技术交流:定期更新…

Windosw下Visual Studio2022编译安装VTK(支持QT),ITK

VTK(Visualization Toolkit)是一个开源的、跨平台的三维可视化开发库,用于处理和可视化三维数据。它提供了一系列算法和工具,用于创建、操作和渲染复杂的三维图形,并支持多种数据表示方式,包括点、线、面、…

桔子哥/基于云快充协议1.5版本的充电桩系统软件-充电桩系统 -新能源车充电平台源码

基于云快充协议1.5版本的充电桩系统软件 介绍 SpringBoot 框架,充电桩平台充电桩系统充电平台充电桩互联互通协议云快充协议1.5-1.6协议新能源汽车二轮车公交车二轮车充电-四轮车充电充电源代码充电平台源码Java源码 软件功能 小程序端:城市切换、附…