Transformer论文理解

Transformer论文理解

news2026/2/16 2:38:53

学习一个东西之前首先要明白要去了解什么？

概念（组成），性质，特点，作用（用处）

概念：

transformer是一种自然语言处理(NLP)和其他序列到序列（seq2seq)任务（如文本翻译）的深度学习架构。它是2017你那由Vaswani等人首次提出。

其创新点在于引入了自注意力机制，同时还用好了残差连接和层归一化。

其他补充：

softmax是一种逻辑函数，将一组实数转化为概率分布，即输出一个实数向量，‌其中每个元素的值都在0到1之间，‌且所有元素之和等于1。‌ 与hardmax不同的是，hardmax直接选择最大值，而softmax是给每个赋予概率值，对于处理复杂问题更为合理。此外，‌Softmax的使用还有助于解决梯度问题，‌因为在神经网络中使用Softmax可以避免梯度稀疏性问题，‌使得训练过程更加稳定和有效

scales：指的是多尺度特征的集合，这些特征是从不同尺度的卷积核中提取出来的（用于提高模型的鲁棒性和精度），这种多尺度的处理方法在深度学习的多个领域中都有应用，‌旨在提高模型对不同尺寸对象的识别和处理能力。

matmul通常指的是矩阵乘法操作.matmul函数用于执行这种计算。‌矩阵乘法是神经网络中不可或缺的操作，‌因为它允许网络层之间的信息传递和变换。‌(matmul是矩阵相乘，本文作用是对不同的key赋予不同quary值）

mask:通常指的是一种技术或方法，对图像或数据进行特定区域遮挡或处理，进而让感兴趣（有用）的部分更加凸显。常用作屏蔽不重要部分，提取有用部分，结构特征的提取等。

tensor（张量）：高维度的数据容器，多维数组。标量就是0维张量，向量就是1维张量，矩阵就是二维张量。他们区别如下图：

参考：

原英文论文地址：https://arxiv.org/abs/1706.03762

Transformer详解-CSDN博客（含代码）https://github.com/Meituan-AutoML/Twins

【超详细】【原理篇&实战篇】一文读懂Transformer-CSDN博客

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1943895.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

大数据技术--实验01-Hadoop的安装与使用【实测可行】

大数据技术--实验01-Hadoop的安装与使用【实测可行】

使用下面表中的软件版本进行配置： 准备好后，按照下面的步骤进行配置。配置VMware网络在VMWare主界面，点击“编辑”>“虚拟网络编辑”菜单进入虚拟网卡参数设置界面。选择VMnet8条目，点击“NAT设置”按钮后可以看到我们的VM…

阅读更多...

遇到not allow unquoted fieldName怎么办

遇到not allow unquoted fieldName怎么办

前言 Exception in thread "main" com.alibaba.fastjson2.JSONException: not allow unquoted fieldName, offset 2, character , line 1, column 3, fastjson-version 2.0.25 { "data":null, "code":200, "msg":"成功"…

阅读更多...

使用Django Rest Framework构建API

使用Django Rest Framework构建API

Django Rest Framework (DRF) 是一个强大且灵活的工具集，用以构建Web API。它基于Django，一个非常流行的Python Web框架。在本文中，我们将深入探讨如何使用DRF来构建一个高效、结构化的API。目录使用Django Rest Framework构建API 一、环…

阅读更多...

c#Action委托和Func委托

c#Action委托和Func委托

using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks;namespace Action委托 {internal class Program{static void PrintString(){Console.WriteLine("hello world.");}static void PrintInt(int …

阅读更多...

我的Google Vertex AI实践经验分享

我的Google Vertex AI实践经验分享

我的Google Vertex AI实践经验分享前言作为一名忙碌的开发者，我时常希望能减少睡眠时间以完成更多工作。在这个过程中，我尝试了多种方法，并设计了多个概念验证项目。本文分享了我在使用Google的生成式AI服务Vertex AI时的实践经验。需要注…

阅读更多...

秋招突击——7/22——复习{堆——前K个高频元素}——新作{回溯——单次搜索、分割回文串。链表——环形链表II，合并两个有序链表}

秋招突击——7/22——复习{堆——前K个高频元素}——新作{回溯——单次搜索、分割回文串。链表——环形链表II，合并两个有序链表}

文章目录引言复习堆堆——前K个高频元素个人实现复习实现二参考实现新作单词搜索个人实现参考实现分割回文串个人实现参考实现环形链表II个人实现参考实现两个有序链表个人实现总结引言又是充满挑战性的一天，继续完成我们的任务吧！继续往下刷&a…

阅读更多...

学习React(状态管理)

学习React(状态管理)

随着你的应用不断变大，更有意识的去关注应用状态如何组织，以及数据如何在组件之间流动会对你很有帮助。冗余或重复的状态往往是缺陷的根源。在本节中，你将学习如何组织好状态，如何保持状态更新逻辑的可维护性，以及如何…

阅读更多...

【SpingCloud】客户端与服务端负载均衡机制，微服务负载均衡NacosLoadBalancer，拓展：OSI七层网络模型

【SpingCloud】客户端与服务端负载均衡机制，微服务负载均衡NacosLoadBalancer，拓展：OSI七层网络模型

客户端与服务端负载均衡机制可能有第一次听说集群和负载均衡，所以呢，我们先来做一个介绍，然后再聊服务端与客户端的负载均衡区别。集群与负载均衡负载均衡是基于集群的，如果没有集群，则没有负载均衡这一个说法。 …

阅读更多...

CSS：顶部导航栏固定位置、分类标题栏、底部提示文案固定位置

CSS：顶部导航栏固定位置、分类标题栏、底部提示文案固定位置

一、效果图页面body的css代码 body {position: absolute;width: 100%;height: 100vh;padding: 0;margin: 0;top: 0;left: 0;bottom: 0;background-color #eee;/* overflow: auto;overflow-y: scroll; *//* ::-webkit-scrollbar {display: none;} */ }.content-root {width: 1…

阅读更多...

python多进程加速函数运行

python多进程加速函数运行

python多进程运行可以使函数运行在程序主进程以外，减少主进程的调用，并且可以加速子进程的运行速度为了测试多进程的加速效果，我们可以通过创建一个包含计算密集型任务的函数，并使用多进程来并行执行这些任务。我们将对比单进…

阅读更多...

Telegram曝零日漏洞，可伪装成视频攻击安卓用户

Telegram曝零日漏洞，可伪装成视频攻击安卓用户

ESET Research在一个地下论坛上发现了一个针对Android Telegram的零日漏洞广告。 ESET将该漏洞命名为“EvilVideo”，并将其报告给Telegram，Telegram于7月11日更新了该应用程序。 EvilVideo允许攻击者发送恶意的有效载荷，这些载荷以视频文件…

阅读更多...

《白话机器学习的数学》第2章——学习回归

《白话机器学习的数学》第2章——学习回归

2.1设置问题 1.机器学习所做的事情正是从数据中进行学习，然后给出预测值。 2.2定义模型 1.一次函数的表达式： 其中θ叫做参数。在统计学领域，人们常常使用 θ 来表示未知数和推测值。采用 θ加数字下标的形式，是为了防止当未知数…

阅读更多...

熟悉set/map了解KV模型和pair结构

熟悉set/map了解KV模型和pair结构

set基本介绍 set是key模型,本质是确定一个元素在不在此容器中,也就是说 set中存储的是一个单一数据 1. set是按照一定次序存储元素的容器 2. 在set中，元素的value也标识它(value就是key，类型为T)， 并且每个value必须是唯一的。set中的元素不…

阅读更多...

PHP教程001：PHP介绍和环境配置

PHP教程001：PHP介绍和环境配置

文章目录 1、php是什么2、php能做什么3、php程序执行流程4、需要什么基础5、环境介绍5.1、WEB环境5.2、环境集成包3、phpStudio软件下载 1、php是什么通用：跨平台，如windows、Linux、MacOS开源免费服务器端脚本语言 2、php能做什么可以快速动态的生…

阅读更多...

群管机器人官网源码

群管机器人官网源码

一款非常好看的群管机器人html官网源码搭建教程： 域名解析绑定源码文件上传解压访问域名即可演示图片： 群管机器人官网源码下载：客户端下载 - 红客网络编程与渗透技术原文链接： 群管机器人官网源码

阅读更多...

很酷的仿真翻页书HTML源码，书本页面是加载的图片，基于JQuery实现的翻页特效，结合一些js插件，看起来很酷，在实现在线翻书项目。

仿真翻页书HTML源码https://www.bootstrapmb.com/item/14742 创建一个仿真的翻页书效果在HTML和CSS中可以通过多种方式实现，但通常这也会涉及到JavaScript（或jQuery）来处理交互和动画。以下是一个简单的示例，展示如何使用HTML、…

阅读更多...

openssl 加密

openssl 加密

使用tar命令在Linux中加密文件可以通过两种方式实现：使用gzip压缩的同时加密，或者使用加密选项。 1. 使用gzip压缩的同时加密： “ tar cz file1 file2 | openssl enc -e -aes256 -out archive.tar.gz.enc “ – cz：创建tar压缩文…

阅读更多...

【数学建模】基于贪心算法的电力市场的输电阻塞管理（附论文及matlab、lingo代码）

【数学建模】基于贪心算法的电力市场的输电阻塞管理（附论文及matlab、lingo代码）

适合数学建模新手研究的题目，备战国赛的同学可以拿这道题目练手，本文含论文代码，帮助解题理解思路。题目： （1）题目信息： 某电网有若干台发电机组和若干条主要线路，每条线路上的有…

阅读更多...

k8s中部署nacos

k8s中部署nacos

1 部署nfs # 在k8s的主节点上执行 mkdir -p /appdata/download cd /appdata/download git clone https://github.com/nacos-group/nacos-k8s.git 将nacos部署到middleware的命名空间中 kubectl create namespace middleware cd /appdata/download/nacos-k8s # 创建角色 kub…

阅读更多...

鸿蒙界面开发

鸿蒙界面开发

界面开发 //构建 → 界面 build() {//行Row(){//列Column(){//文本函数名(参数) 对象.方法名（参数） 枚举名.变量名Text(this.message).fontSize(40)//设置文本大小.fontWeight(FontWeight.Bold)//设置文本粗细.fontColor(#ff2152)//设置文本颜色}.widt…

阅读更多...

推荐文章

最新文章