Transformer动画讲解

news2024/9/23 20:16:38

**Transformer工作原理****

**一、**** ******GPT的核心是Transformer********

*GPT* **GPT(Generative Pre-trained Transformer)**** ****是一种基于单向Transformer解码器的预训练语言模型,它通过在大规模语料库上的无监督学习来捕捉语言的统计规律,从而具备强大的文本生成能力。******
在这里插入图片描述
在这里插入图片描述

[神经网络算法 - 一文搞懂GPT(Generative Pre-trained Transformer)]
****GPT******

在GPT(Generative Pre-trained Transformer)模型中,字母G、P、T各自有其特定的含义:

  • G (Generative):

“Generative”意味着这个模型是生成式的。 与判别式模型不同,生成式模型试图捕捉数据的分布,并能够生成新的、看似真实的数据样本。

  • G (Generative):

“Pre-trained”表示GPT模型在大量的无监督文本数据上进行了预训练 ,使模型学习到文本中的语言结构和语义信息。

  • T (Transformer):

“Transformer”是GPT模型的核心架构。 Transformer是一种基于自注意力机制的神经网络架构,包括编码器和解码器两部分。
在这里插入图片描述

**GPT的核心是Transformer****

神经网络算法 - 一文搞懂Transformer

Transformer模型在多模态数据处理中同样扮演着重要角色 ****,其能够高效、准确地处理包含不同类型(如图像、文本、音频、视频等)的多模态数据。******

在这里插入图片描述

****Transformer的多模态******

Transformer动画讲解 - 多模态

**二、**** ******Transformer的工作原理********

Transformer工作原理四部曲 Embedding(向量化)、Attention(注意力机制)、MLPs(多层感知机)和Unembedding(模型输出)。

在这里插入图片描述

**Embedding -> Attention -> MLPs -> Unembedding****

Transformer动画讲解 - 数据处理的四个阶段

阶段一:Embedding(向量化)

*“Embedding”在字面上的翻译是“嵌入”,* *但在机器学习和自然语言处理的上下文中,我们更倾向于将其理解为* *一种“向量化”或“向量表示”的技术。*

(1)Tokenization(词元化):

  • 对于文本数据:

在自然语言处理(NLP)中,将输入的文本内容(如句子、段落或整个文档)拆分成更小的片段或元素, 这些片段通常被称为词元(tokens)。

  • 对于非文本数据(如音频、图像或视频):

在音频处理中,音频信号可以被分割成帧(frames)作为音频词元; 在图像处理中, 图像可以被分割成图像块(patches) 作为图像词元; 在视频处理中, 视频可以被分割成视频块(patches)作为视频词元。

在这里插入图片描述

******Tokenization********

(2)Embedding(向量化):

  • ****Tokens转换为向量:******

******Embedding层负责将输入的Tokens转换为向量,****将文本中的Tokens(如单词或字符)映射为固定大小的实数向量来捕捉这些Tokens的语义信息。************

****在这里插入图片描述
*****
*

******Tokens转换为向量********

  • Embedding框架:*****TensorFlow、PyTorch、Transformers*****
  1. TensorFlow:一个广泛使用的开源机器学习框架 TensorFlow可以使用内置的 Embedding层来将输入的tokens转换为向量。这个层通常接受输入词汇表的大小、嵌入向量的维度等参数。
  2. PyTorch:另一个流行的深度学习框架 PyTorch同样提供了 Embedding层来支持向量语义表示,与TensorFlow中的类似,也接受词汇表大小和嵌入向量维度等参数。
  3. Hugging Face’s Transformers: Transformers库是由Hugging Face开发的,它基于PyTorch和TensorFlow,提供了大量预训练的Transformer模型,如BERT、GPT等。这些预训练的模型已经包含了Embedding层,可以直接用于将输入的tokens转换为向量。
  • 向量语义相似度: 在训练过程中,算法学会了将含义相似的词汇映射到高维空间中相近的向量上。这使得我们可以通过计算向量间的相似度来评估词汇间的语义关系。

在这里插入图片描述

****向量语义相似度******

Transformer动画讲解 - 向量化

阶段二:Attention(注意力机制)

*Attention模块帮助嵌入向量形成相关性,即确定它们如何相互关联以构建出有意义的句子或段落。*

在这里插入图片描述

******注意力计算公式********

Transformer动画讲解 - 注意力机制

(1)Attention的目的:

  • 更新嵌入向量: 通过利用查询(Q)、键(K)和值(V)来计算注意力权重,我们能够对嵌入向量进行深入分析。这个过程使得不同的嵌入向量能够相互“交流”并基于彼此的信息来更新自身的值,从而实现嵌入向量间的有效互动和信息融合。

*在这里插入图片描述
*

**更新嵌入向量****

  • 建立语义相关性: 嵌入向量(Embedding Vector)作为单词或文本片段的数值化表示,主要捕捉了这些文本单元的语义信息,但在原始状态下并不直接体现它们之间的相关性。Attention在特定的上下文环境中,识别哪些嵌入向量与当前任务最为相关,并据此调整或更新这些嵌入向量的表示,以强化它们之间的关联性。

在这里插入图片描述

****建立语义相关性******

(2)Attention的工作流程(注意力计算Q、K、V):

  • 计算Q、K的点积(注意力分数): Attention机制会计算Query向量与序列中所有单词的Key向量之间的点积(或其他相似度度量),得到一个分数。 这个分数反映了Query向量与每个Key向量之间的相似度,即每个单词与当前位置单词的关联程度。
  • Softmax函数归一化(注意力权重): 这些分数会经过一个Softmax函数进行归一化,得到每个单词的注意力权重。这些权重表示了在理解当前单词时,应该给予序列中其他单词多大的关注。
  • 注意力权重加权求和(加权和向量): 这些注意力权重与对应的Value向量进行加权求和,得到一个加权和向量。这个加权和向量会被用作当前单词的新表示,包含了更丰富的上下文信息。

在这里插入图片描述

****注意力计算Q、K、V******

Transformer动画讲解 - 注意力计算Q、K、V

阶段三:MLPs( *多层感知机或前馈网络*

*Transformer的编码器和解码器中的每一层都包含一个全连接的前馈神经网络。FFNN通常包含两个线性变换,中间使用ReLU激活函数进行非线性处理。*

(1)MLPs在Transformer中的位置:

  • Transformer的编码器: 包含两个主要的子层, **一个**** **多头自注意力(Multi-Head Self-Attention)机制和一个全连接的前馈神经网络(MLP)。****
  • Transformer的解码器: 包含三个主要的子层:

*一个Masked Multi-Head Self-Attention机制(用于编码器的输出),一个Multi-Head Encoder-Decoder Attention机制(用于结合编码器的输出和解码器的当前位置信息),以及一个全连接的前馈神经网络(MLP)。*

在这里插入图片描述

****MLPs在Transformer中的位置******

Transformer动画讲解 - 单头注意力和多头注意力

Transformer动画讲解 - Cross Attention

(2)MLPs在Transformer中的作用:

  • *非线性变换:*

MLPs通过引入激活函数(如ReLU)提供非线性变换, *这有助于模型捕获输入数据中的复杂模式。*

  • *特征提取与整合:*

MLPs进一步处理和转换注意力机制提取的特征, *提取和整合更多有用的信息,**使其能够学习更加复杂的函数关系。***

在这里插入图片描述

****MLPs在Transformer中的作用******

Transformer动画讲解 - 多层感知机

阶段四:Unembedding(模型输出)

*Transformers通过Softmax在生成输出时,****将原始注意力分数转换为输入标记的概率分布。******这种概率分布将较高的注意力权重分配给更相关的标记,并将较低的权重分配给不太相关的标记。***********

(1)Softmax在Transformer的位置:

  • Attention(注意力): 使用Softmax函数对这些相似度分数进行归一化,生成一个权重分布,该分布表示了在计算当前位置(query)的表示时,应赋予其他位置(keys)多大的关注程度。
  • 输出层(Output Layer): 产生一个未经归一化的分数向量(logits),其中每个元素对应于词汇表中一个词的概率。Softmax函数被应用于这个分数向量,将其转换为概率分布,其中每个元素表示生成对应词汇的概率。

在这里插入图片描述

Softmax在Transformer的位置

(2)Softmax在Transformer的作用:

  • *归一化:* Softmax函数将原始分数转换为概率分布,确保所有概率之和为1,使得输出结果可以解释为概率。
  • *可解释性:* 输出的概率分布使得模型预测结果更加直观和可解释,我们可以直接查看模型为每个可能输出分配的概率。

在这里插入图片描述

****Softmax在Transformer中的作用******

如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2158367.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MatrixOne 助力某电信运营商构建低成本高性能车联网管理系统

客户基本情况 该电信运营商在物联网领域深耕多年,致力于为企业和个人提供全面的物联网解决方案,包括智能连接、设备管理、数据采集与分析等核心服务。凭借其强大的网络覆盖和技术优势,该运营商为各行业提供高效、安全、可靠的物联网服务&…

风速传感器一文浅谈 了解自然的力量

产品概述 本产品主要采用优质聚合物碳纤维为原材料,具有良好的防腐、防侵蚀等特点,能够保证仪器长期使用不起锈,同时配合内部顺滑的轴承系统,确保了信息采集的准确性。外型小巧轻便,便于携带和组装,三杯设…

MCU和YT9218交换机通过RMII连接

1、可以通过带RMII的MCU和EXT1端口连接,将MCU配置为RMII 100M/全双工就可以通 2、原先在这里改SW配置, 一直不通 3、后来通过api调用可以通 这样改: 在初始化后,添加下面代码 //使能RMII,phy模式 #define Port5 …

【LeetCode】动态规划—使用最小花费爬楼梯(附完整Python/C++代码)

动态规划—#746. 使用最小花费爬楼梯 前言题目描述基本思路1. 问题定义:2. 理解问题和递推关系:3. 解决方法:4. 进一步优化:5. 小总结: 代码实现Python3代码实现Python 代码解释C代码实现C 代码解释 总结: 前言 在这个问题中,我们有一个数组 c o s t [ ] cost[] c…

单细胞SCENIC简单可视化分析学习和整理

SCENIC教程中给出三个方法进行下游的可视化分析,分别可以选择网页(SCope)平台,R或者python进行分析。 1、网页版:https://scope.aertslab.org/ 把数据从左侧工具栏处上传之后就可以个性化分析了~ 2、R和Python就殊途同归啦~ 笔者基于githu…

linux/CentOS 开机启动程序

前言 TencentOS Server 3.1 (TK4)适用于自己编写启动脚本的情况 编写启动脚本 比如启动tomcat,kaijiqidong_tomcat.sh #!/bin/bashecho "kaijiqidong_tomcat on date ." >> kaijiqidong_tomcat.log 2>&1cd /x/xx/xxx sh /x/tomcat/bin/s…

老照片修复软件有哪些?6个工具轻松搞定

在回忆的长廊中,老照片承载着岁月的痕迹和珍贵的记忆。 然而,时间的流逝往往让这些宝贵的瞬间变得模糊不清。幸运的是,现代科技赋予了我们修复这些老照片的能力。 面对市场上众多的老照片自动修复软件,选择一个合适的工具变得尤…

Apache APISIX学习(1):介绍、docker启动

一、介绍 Apache APISIX 是一个动态、实时、高性能的 API 网关, 提供负载均衡、动态上游、灰度发布、服务熔断、身份认证、可观测性等丰富的流量管理功能。你可以把 Apache APISIX 当做流量入口,来处理所有的业务数据,包括动态路由、动态上游…

得物自建 Redis 无人值守资源均衡调度设计与实现

目录: 一、为什么要做资源均衡调度 二、为什么要做自动化资源均衡调度 三、如何合理选择迁移节点 四、如何保障迁移过程中可靠性1. 添加从节点2. 检查同步数据正常3. 执行主从切换4. 检查主从切换正常5. 删除待迁移节点6. 消息通知 五、迁移任务管理展示 六、总结 …

户用光伏项目难管理,到底该怎么办?

一、鹧鸪云光伏业务管理软件:一站式管理利器 鹧鸪云光伏业务管理软件,作为一款专为光伏行业量身定制的智能化管理工具,集成了项目管理、运维管理、数据分析、用户服务等多功能模块于一体,旨在通过数字化手段,实现户用…

Nature Genetics|三代测序微量建库技术:媲美WGBS的直接甲基化检测

DNA修饰和甲基化是理解基因调控机制的关键。以往,我们的经验表明,使用三代测序从未经扩增的长DNA模板中同时读取序列信息和碱基修饰,需要投入大量的DNA样本来构建文库。 今天,小编带大家看一篇2024年发表于《Nature Genetics》的…

【MAUI】FlexLayout

文章目录 概述属性方向和对齐方式DirectionWrapJustifyContentAlignItemsAlignContent 圣杯布局来源 概述 FlexLayout弹性布局,和前端的Flex弹性布局,几乎一样。FlexLayout是容器,可以定义Direction/主轴方向、Wrap/子元素在主轴方向上是否换…

Vue使用Vue Router路由:开发单页应用

1、路由基础 在单页 Web 应用中,整个项目只有一个 HTML 文件,不同视图(组件的模块)的内容都是在同一个页面中渲染的。当用户切换页面时,页面之前的跳转都是在浏览器端完成的,这时就需要使用前端路由。 路…

蒙古语有方言差异吗?

蒙古语存在方言差异,主要分为西部方言和东部方言两大类。西部方言,即蒙古方言或喀尔喀方言,主要在蒙古国使用,是该国的官方语言。东部方言,又称布里亚特方言或巴尔虎-布里亚特方言,主要在中国内蒙古自治区和…

deepin桌面版连接windows远程桌面

在Linux系统中,要登录到Windows系统,通常可以使用远程桌面协议(RDP)。你需要在Linux系统上安装RDP客户端。 使用如下命令安装rdp协议: sudo apt-get install xrdp 安装成功后,启动rdp服务。 sudo systemctl start xrdp 有了r…

vscode缩进 和自动格式化

如下图,缩进太大了。 检查2个地方 prettierrc.cjs文件。此处决定缩进几个tab vscode 的设置。 保存的时候 格式化。

Apache Druid命令执行(CVE-2021-25646)

漏洞详情: Apache Druid 是用Java编写的面向列的开源分布式数据存储系统,旨在快速获取大量事件数据,并在数据之上提供低延迟查询。 Apache Druid含有能够执行嵌入在各种类型请求中由用户提供的JavaScript代码功能。此功能适用于高度信任环境…

Java_Day04学习

类继承实例 package com.dx.test03; public class extendsTest {public static void main(String args[]) {// 实例化一个Cat对象,设置属性name和age,调用voice()和eat()方法,再打印出名字和年龄信息/********* begin *********/Cat cat ne…

李飞飞创业公司World Labs:引领AI新方向的“大世界模型”

引言 随着人工智能的不断进步,AI领域涌现了许多新兴技术和研究方向。在这其中,李飞飞创办的World Labs凭借其独特的“空间智能”和“大世界模型”(Large World Model, LWM)理念,迅速成为焦点。尤其是在获得了2.3亿美元…

python 斑马打印模板

打印代码逻辑如下; 包括样式、表格 import win32printdef print_zpl_from_usb_printer(printer_name, zpl_content):# 打开打印机hPrinter win32print.OpenPrinter(printer_name)if hPrinter is None:print(f"Failed to open printer: {printer_name}")…