Transformer论文理解

news2024/11/23 23:58:29

学习一个东西之前首先要明白要去了解什么?

概念(组成),性质,特点,作用(用处)

概念:

        transformer是一种自然语言处理(NLP)和其他序列到序列(seq2seq)任务(如文本翻译)的深度学习架构。它是2017你那由Vaswani等人首次提出。

        其创新点在于引入了自注意力机制,同时还用好了残差连接和层归一化。

其他补充:

softmax是一种逻辑函数,将一组实数转化为概率分布, 即输出一个实数向量,‌其中每个元素的值都在0到1之间,‌且所有元素之和等于1。‌ 与hardmax不同的是,hardmax直接选择最大值,而softmax是给每个赋予概率值,对于处理复杂问题更为合理。此外,‌Softmax的使用还有助于解决梯度问题,‌因为在神经网络中使用Softmax可以避免梯度稀疏性问题,‌使得训练过程更加稳定和有效

scales:指的是多尺度特征的集合,这些特征是从不同尺度的卷积核中提取出来的(用于提高模型的鲁棒性和精度),这种多尺度的处理方法在深度学习的多个领域中都有应用,‌旨在提高模型对不同尺寸对象的识别和处理能力。

matmul通常指的是矩阵乘法操作.matmul函数用于执行这种计算。‌矩阵乘法是神经网络中不可或缺的操作,‌因为它允许网络层之间的信息传递和变换。‌(matmul是矩阵相乘,本文作用是对不同的key赋予不同quary值)

mask:通常指的是一种技术或方法,对图像或数据进行特定区域遮挡或处理,进而让感兴趣(有用)的部分更加凸显。常用作屏蔽不重要部分,提取有用部分,结构特征的提取等。

tensor(张量):高维度的数据容器,多维数组。标量就是0维张量,向量就是1维张量,矩阵就是二维张量。他们区别如下图:

      

参考:

原英文论文地址:https://arxiv.org/abs/1706.03762

Transformer详解-CSDN博客(含代码)https://github.com/Meituan-AutoML/Twins

【超详细】【原理篇&实战篇】一文读懂Transformer-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1943895.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大数据技术--实验01-Hadoop的安装与使用【实测可行】

使用下面表中的软件版本进行配置: 准备好后,按照下面的步骤进行配置。 配置VMware网络 在VMWare主界面,点击“编辑”>“虚拟网络编辑”菜单进入虚拟网卡参数设置界面。选择VMnet8条目,点击“NAT设置”按钮后可以看到我们的VM…

遇到not allow unquoted fieldName怎么办

前言 Exception in thread "main" com.alibaba.fastjson2.JSONException: not allow unquoted fieldName, offset 2, character , line 1, column 3, fastjson-version 2.0.25 { "data":null, "code":200, "msg":"成功"…

使用Django Rest Framework构建API

Django Rest Framework (DRF) 是一个强大且灵活的工具集,用以构建Web API。它基于Django,一个非常流行的Python Web框架。在本文中,我们将深入探讨如何使用DRF来构建一个高效、结构化的API。 目录 使用Django Rest Framework构建API 一、环…

c#Action委托和Func委托

using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks;namespace Action委托 {internal class Program{static void PrintString(){Console.WriteLine("hello world.");}static void PrintInt(int …

我的Google Vertex AI实践经验分享

我的Google Vertex AI实践经验分享 前言 作为一名忙碌的开发者,我时常希望能减少睡眠时间以完成更多工作。在这个过程中,我尝试了多种方法,并设计了多个概念验证项目。本文分享了我在使用Google的生成式AI服务Vertex AI时的实践经验。需要注…

秋招突击——7/22——复习{堆——前K个高频元素}——新作{回溯——单次搜索、分割回文串。链表——环形链表II,合并两个有序链表}

文章目录 引言复习堆堆——前K个高频元素个人实现复习实现二参考实现 新作单词搜索个人实现参考实现 分割回文串个人实现参考实现 环形链表II个人实现参考实现 两个有序链表个人实现 总结 引言 又是充满挑战性的一天,继续完成我们的任务吧!继续往下刷&a…

学习React(状态管理)

随着你的应用不断变大,更有意识的去关注应用状态如何组织,以及数据如何在组件之间流动会对你很有帮助。冗余或重复的状态往往是缺陷的根源。在本节中,你将学习如何组织好状态,如何保持状态更新逻辑的可维护性,以及如何…

【SpingCloud】客户端与服务端负载均衡机制,微服务负载均衡NacosLoadBalancer, 拓展:OSI七层网络模型

客户端与服务端负载均衡机制 可能有第一次听说集群和负载均衡,所以呢,我们先来做一个介绍,然后再聊服务端与客户端的负载均衡区别。 集群与负载均衡 负载均衡是基于集群的,如果没有集群,则没有负载均衡这一个说法。 …

CSS:顶部导航栏固定位置、分类标题栏、底部提示文案固定位置

一、效果图 页面body的css代码 body {position: absolute;width: 100%;height: 100vh;padding: 0;margin: 0;top: 0;left: 0;bottom: 0;background-color #eee;/* overflow: auto;overflow-y: scroll; *//* ::-webkit-scrollbar {display: none;} */ }.content-root {width: 1…

python多进程加速函数运行

python多进程运行可以使函数运行在程序主进程以外,减少主进程的调用,并且可以加速子进程的运行速度   为了测试多进程的加速效果,我们可以通过创建一个包含计算密集型任务的函数,并使用多进程来并行执行这些任务。我们将对比单进…

Telegram曝零日漏洞,可伪装成视频攻击安卓用户

ESET Research在一个地下论坛上发现了一个针对Android Telegram的零日漏洞广告。 ESET将该漏洞命名为“EvilVideo”,并将其报告给Telegram,Telegram于7月11日更新了该应用程序。 EvilVideo允许攻击者发送恶意的有效载荷,这些载荷以视频文件…

《白话机器学习的数学》第2章——学习回归

2.1设置问题 1.机器学习所做的事情正是从数据中进行学习,然后给出预测值。 2.2定义模型 1.一次函数的表达式: 其中θ叫做参数。 在统计学领域,人们常常使用 θ 来表示未知数和推测值。采用 θ加数字下标的形式,是为了防止当未知数…

熟悉set/map了解KV模型和pair结构

set基本介绍 set是key模型,本质是确定一个 元素在不在此容器中,也就是说 set中存储的是一个单一数据 1. set是按照一定次序存储元素的容器 2. 在set中,元素的value也标识它(value就是key,类型为T), 并且每个value必须是唯一的。set中的元素不…

PHP教程001:PHP介绍和环境配置

文章目录 1、php是什么2、php能做什么3、php程序执行流程4、需要什么基础5、环境介绍5.1、WEB环境5.2、环境集成包3、phpStudio软件下载 1、php是什么 通用:跨平台,如windows、Linux、MacOS开源免费服务器端脚本语言 2、php能做什么 可以快速动态的生…

群管机器人官网源码

一款非常好看的群管机器人html官网源码 搭建教程: 域名解析绑定 源码文件上传解压 访问域名即可 演示图片: 群管机器人官网源码下载:客户端下载 - 红客网络编程与渗透技术 原文链接: 群管机器人官网源码

很酷的仿真翻页书HTML源码,书本页面是加载的图片,基于JQuery实现的翻页特效,结合一些js插件,看起来很酷,在实现在线翻书项目。

仿真翻页书HTML源码https://www.bootstrapmb.com/item/14742 创建一个仿真的翻页书效果在HTML和CSS中可以通过多种方式实现,但通常这也会涉及到JavaScript(或jQuery)来处理交互和动画。以下是一个简单的示例,展示如何使用HTML、…

openssl 加密

使用tar命令在Linux中加密文件可以通过两种方式实现:使用gzip压缩的同时加密,或者使用加密选项。 1. 使用gzip压缩的同时加密: “ tar cz file1 file2 | openssl enc -e -aes256 -out archive.tar.gz.enc “ – cz:创建tar压缩文…

【数学建模】基于贪心算法的电力市场的输电阻塞管理(附论文及matlab、lingo代码)

适合数学建模新手研究的题目,备战国赛的同学可以拿这道题目练手,本文含论文代码,帮助解题理解思路。 题目: (1)题目信息: 某电网有若干台发电机组和若干条主要线路,每条线路上的有…

k8s中部署nacos

1 部署nfs # 在k8s的主节点上执行 mkdir -p /appdata/download cd /appdata/download git clone https://github.com/nacos-group/nacos-k8s.git 将nacos部署到middleware的命名空间中 kubectl create namespace middleware cd /appdata/download/nacos-k8s # 创建角色 kub…

鸿蒙界面开发

界面开发 //构建 → 界面 build() {//行Row(){//列Column(){//文本 函数名(参数) 对象.方法名(参数) 枚举名.变量名Text(this.message).fontSize(40)//设置文本大小.fontWeight(FontWeight.Bold)//设置文本粗细.fontColor(#ff2152)//设置文本颜色}.widt…