transform详解

news2025/1/10 16:15:03

在这里插入图片描述

参考:https://zhuanlan.zhihu.com/p/690055241
https://zhuanlan.zhihu.com/p/685724799
https://zhuanlan.zhihu.com/p/609523552
cnn是通过卷积核的方式实现权重偏置的计算,y=wk+b,激活,前馈神经网络,反向传播。
transform的attention也是需要用权重代表重要程度,输入*权重=输出,再用输出和label计算loss,transform的权重是通过自注意力机制(Q,K,V)计算得到的。
transformer:输入,位置编码,编码器(attention,前馈网络),解码器(attention,前馈网络,mask),loss,反向传播,优化器。
cnn:输入,卷积核,前馈网络,loss,反向传播,优化器。
Self-attention 关键点在于,规定K-Q-V三者都来源于 X。通过 X 找到 X 中的关键点。可以看作 QKV 相等,都是由词向量线性变换得到的,并不是 Q=V=K=X,而是 X 通过 Wk、Wq、Wv 线性变换而来。 2. Attention 是通过一个查询变量 Q 找到 V 里面重要信息,K 由 V 变幻而来,QK=A ,AV = Z(注意力值) ,Z 其实是 V 的另一种表示,也可以称为词向量,具有句法和语意特征的 V 3. 也就是说,self-attention 比 attention 约束条件多了两个: (1) Q=K=V(同源) (2) Q,K,V需要遵循attention的做法

下图是Transform 的整体架构,由decoder和encoder构成。构件可以拆解为:

  1. 输入嵌入(Input Embedding): 输入序列首先被转换成固定维度的嵌入向量,这里的embedding是可训的。
  2. 位置编码(Positional Encoding): 由于Transformer不像循环神经网络(RNN)那样自然地处理序列的顺序信息,所以需要添加位置编码以保持序列中单词的位置信息,在Transformer中位置编码不是可训的,是根据位置直接计算的。
  3. 多头自注意力机制(Multi-Head Self-Attention): 允许模型在处理每个序列元素时,同时考虑序列中的所有其他元素,这是通过注意力权重实现的,其中更重要的元素将获得更高的权重。
  4. 前馈网络(Feed-Forward Network): attention模块后接着是一个前馈网络,该网络对每个位置应用相同的全连接层。
  5. 残差连接(Residual Connection)和归一化(Normalization): 在每个子层的输出上,都会进行残差连接,然后在做蹭归一化(Layer-Norm)。
  6. 解码器:Transformer模型中的解码器会根据编码器的输出以及之前已生成的输出序列来生成下一个输出。解码器的架构与编码器类似,但它包含一个额外的子层来进行编码器-解码器注意力操作。同时解码器和编码器一样,解码器通常由多个相同的解码层堆叠而成。解码器的遮掩注意力: 防止解码器在生成输出序列时提前“看到”正确答案(后面结合mask原理解释)。
  7. 线性层和Softmax: 解码器的最后输出通过一个线性层和Softmax层,将解码器输出转换为预测的下一个词的概率分布。
    输入+位置编码:
    在这里插入图片描述
    Self-Attention 的过程如下图所示:
    在这里插入图片描述
    attention参考:https://zhuanlan.zhihu.com/p/685724799
    Attention的基本原理
    Attention机制本质上是一个加权机制。对于给定的输入序列,模型会学习一个权重分布,用于表征每个元素对当前任务的重要程度。这些权重随后被用来计算加权平均(或加权和),生成一个固定大小的“上下文向量”(context vector),该向量蕴含了当前任务最为关键的信息。

Attention的数学表达
一般情况下,Attention可以表示为一个查询(Query)、一系列键(Key)和值(Value)的函数。对于一个输入序列,我们可以将其编码得到一系列的键和值对 (K,V) ,然后针对一个查询 Q来计算Attention:
在这里插入图片描述
计算了查询和各个键之间的相似度。
4. Attention内部计算细节(Dot-product Attention)
4.1 输入文本,获取embeddding
假定我们的输入长度为3,分别用input #1,input #2,input #3表示
embedding层维度是4,通过embedding层对上面的每个token进行编码
通过embedding层得到三个token的embedding,假定分别为:[1, 0, 1, 0],[0, 2, 0, 2],[1, 1, 1, 1]
X = [
[1, 0, 1, 0], # Input 1
[0, 2, 0, 2], # Input 2
[1, 1, 1, 1] # Input 3
]

输入token Embedding
由上面的信息可知:输入序列长度
,元素的维度也就是embeeding维度
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
以上的图片来自colab的一个动图实现,想要更清晰的了解其中的细节,可以参考其中的内容:
https://accounts.google.com/v3/signin/identifier?authuser=0&continue=https%3A%2F%2Fcolab.research.google.com%2Fdrive%2F1q7cxbPScN3HlHfnqK7ERAGey23T0EpJh%23scrollTo%3DwOkXKd60Q_Iu&hl=zh-CN&ifkv=AdF4I765q8xnuQWqGixy-OhlFU_bowgO6KsfsQ4SEkgkApb6hilFObfsQQF9_0V5Ty_2S-XFb-xHjQ&flowName=GlifWebSignIn&flowEntry=ServiceLogin&dsh=S655081045%3A1722498630272445&ddm=0

解码器
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1969312.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

P31结构体初阶

结构体的声明 结构体的基础知识 结构是一些值的集合,这些值成为成员变量。结构的每个成员可以是不同类型的变量。 结构体的声明 结构成员的类型 结构的成员可以是标量、数组、指针,甚至是其他结构体 结构体变量的定义和初始化 结构体成员的访问 结构…

AI技能提升学习-免费24年最新甲骨文(OCI)开卷AI证书(有答案)+代码调用OCI生成式AI服务教程

之前好多小伙伴和我反馈错过了24年甲骨文的AI专家级证书免费考试,这次小李哥就给大家带来了24年最新的OCI另外一门AI基础级考试,主要目的是帮助大家提升AI/ML的基础知识和技能,给大家带来免费的学习福利,赶紧关注小李哥不要再错过…

大数据技术原理-spark编程与应用

摘要 本实验总结了在"大数据技术原理"课程中进行的Spark编程实验。实验环境基于Apache Spark,旨在通过实践加深对Spark数据处理能力的理解。实验的主要内容包括开启Spark shell、导入必要的包、读入数据集、数据预处理、聚类模型训练、确定数据模型的中心…

STM32内部Flash存贮数据的应用(STM32F446)

目录 概述 1 STM32内部Flash介绍 1.1 MCU简介 1.2 存储空间 1.3 主要特性 1.4 嵌入式闪存 2 库函数介绍 2.1 编程接口函数 2.2 锁和解锁函数 3 功能实现 3.1 写数据函数:FlashDrv_Write 3.2 读数据函数: FlashDrv_read 3.3 源代码 4 测试…

carla unreal engine源码:如何自定义开发传感器

文章目录 前言一、目标二、代码内容三、工程搭建1、更改点总览2、工程修改1)代码文件拷贝至目标路径2)SafeDistanceSensor.cpp 修改3)SafeDistanceSerializer.h 修改4)SafeDistanceEvent.h 修改5)Sensor.h 修改6&#…

大数据技术原理-NoSQL数据库的应用

摘要 本实验报告聚焦于"大数据技术原理"课程中的NoSQL数据库实验。实验环境包括MySQL、Redis、MongoDB、Java以及Hadoop。实验内容涉及Redis和MongoDB的安装、配置和基本操作,包括数据的插入、删除和查询。此外,实验还包括使用Java API对Mong…

【统计全为 1 的正方形子矩阵】python刷题记录

R3-分治篇 class Solution:def countSquares(self, matrix: List[List[int]]) -> int:rowlen(matrix)collen(matrix[0])dp[[0]*(col1) for _ in range(row1)]ret0for i in range(row):for j in range(col):if matrix[i][j]1:dp[i1][j1]min(dp[i][j1],dp[i1][j],dp[i][j])1re…

umi-request全局响应拦截器

文章目录 介绍思路实现方法1.直接修改 umi-request方法2.自定义 request 实例,通过 umi-request 库进行配置 介绍 后端设计统一返回比如BaseResponse对象,前端也需要接收这个对象,从data取出想要的返回值。 前端请求比如之前返回的是numbe…

windows子系统wsl完成本地化设置locale,LC_ALL

在 Windows 的子系统 Linux(WSL)环境中,解决本地化设置问题可以采取以下步骤: 1. **检查本地化设置**: 打开你的 WSL 终端(比如 Ubuntu、Debian 等),运行以下命令来查看当前的本…

大数据技术基础编程、实验和案例----大数据课程综合实验案例

一、实验目的 (1)熟悉Linux系统、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系统和软件的安装和使用; (2)了解大数据处理的基本流程; (3)熟悉数据预处理方法; (4)熟悉在不同类型数据库之…

湖南(用户洞察)源点咨询 论用户画像于精准营销之意义作用

湖南源点市场调研咨询认为,精准描摹用户画像是实现有效获客的重要方法。 因为只有通过用户画像,我们才能够持续不断了解用户现阶段的需求,痛点以及偏好。 用户画像不是简单的理解为对人群打标签,而是要通过大量的数据采集和分析…

螺旋文字滚动特效源码解析

如图所示,今天看到一个很炫酷的双文字螺旋滚动特效,两行文字呈螺旋状变化,在网站中这样的效果对用户很有吸引力。本文将基于原网站解析如何实现这个炫酷的效果,基于这个动图可以分析出需要实现的要点: 文字呈螺旋状滚…

管理流创建schema流程源码解析

一、简析 schema是pulsar重要的功能之一,现在就一起从源码的视角看下管理流创建schema时客户端和服务端的表现 客户端 客户端主要经历以下四个步骤 创建Schema实例 根据数据类型创建相对应的实例,例如Avro创建AvroSchema、JSON创建JSONSchema等 获取…

1.1、centos stream 9安装Kubernetes v1.30集群 环境说明

最近正在学习kubernetes,买了一套《Kubernetes权威指南 从Docker到Kubernetes实践全接触(第六版)》这本书讲得很好,上下两册,书中k8s的版本是V1.29,目前官网最新版本是v1.30。强烈建议大家买一套看看。 Kubernetes官网地址&#x…

jenkins使用docker api配置自签证书 +发布项目

配置证书 1、创建目录/etc/docker/certs, 在该目录下执行下列命令 openssl genrsa -aes256 -out ca-key.pem 4096 openssl req -new -x509 -days 3650 -key ca-key.pem -sha256 -out ca.pemopenssl genrsa -out server-key.pem 4096 \ openssl req -subj "/…

常见的应急救援设备有哪些_鼎跃安全

在我们的生活中,应急事件的发生常常是突如其来的,它们对人民的生命财产安全构成重大威胁,同时也对社会稳定提出严峻挑战。在这样的紧急情况下,迅速开展有效的救援工作显得尤为重要。而在整个救援过程中,应急设备的使用…

【简历】湘南某二本学院:前端简历指导,秋招面试通过率低

注:为保证用户信息安全,姓名和学校等信息已经进行同层次变更,内容部分细节也进行了部分隐藏 简历说明 这是一份25届二本同学的前端简历,但是这个简历,因为学校是个二本的专业,虽然说主体是在小公司&#x…

计算机基础(Windows 10+Office 2016)教程 —— 第6章 电子表格软件Excel 2016(下)

电子表格软件Excel 2016 6.4 Excel 2016的公式与函数6.4.1 公式的概念6.4.2 公式的使用6.4.3 单元格的引用6.4.4 函数的使用6.4.5 快速计算与自动求和 6.5 Excel 2016的数据管理6.5.1 数据排序6.5.2 数据筛选6.5.3 分类汇总6.5.4 分组显示6.5.5 合并计算 6.6 Excel 2016的图表6…

什么品牌的开放式耳机好用?南卡、韶音、漫步者 三款口碑超群机型横评

现如今耳机几乎成为了日常标配,因为选择合适的耳机成为我们不可忽视的需求。开放式耳机凭借其既能沉浸于高品质音乐,又能保持对周围环境的敏锐感知的独特优势,在市场中脱颖而出,尤其受到运动爱好者及追求生活品质的朋友们的喜爱。…

风吸杀虫灯采用新型技术 无公害诱虫捕虫

TH-FD2S】风吸杀虫灯利用害虫的趋光性和对特定波长的光源(如紫外光、蓝光)的敏感性,通过光波引诱害虫成虫扑灯。同时,内置的风扇产生强烈的气流,形成负压区,将害虫迅速吸入到收集器中。害虫在收集器内被风干…