Transformer ZOO

Transformer ZOO

news2025/4/6 3:43:14

Natural Language Processing

Transformer:Attention is all you need URL(46589)2017.6

提出Attention机制可以替代卷积框架。
引入Position Encoding，用来为序列添加前后文关系。
注意力机制中包含了全局信息
自注意力机制在建模序列数据中的长期依赖关系方面表现出色，因为它能够在序列中的每个位置上计算所有其他位置的注意力权重，并且能够通过这些权重来捕获全局的语义信息。但其无法显式地建模序列中的局部结构。这意味着自注意力机制在处理某些序列数据时可能会出现一些问题，比如处理具有很强局部结构的序列时可能无法捕获这种结构的信息。
详细见transformer
【Transformer】10分钟学会Transformer | Pytorch代码讲解 | 代码可运行 - 知乎 (zhihu.com)

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding URL(24662)2018.10

Input/Output Representations

采用WordPiece编码，又为了解决前后句子问题，BERT采用了两种方法去解决:
- 在组合的一序列tokens中把**分割token（[SEP]）**插入到每个句子后，以分开不同的句子tokens。
- 为每一个token表征都添加一个Segment Embedding来指示其属于句子A还是句子B。
在每个序列队首位置添加一个**[CLS]标记，该分类token对应的最后一个Transformer层输出被用来起到聚集整个序列表征信息的作用(在之后的下游**任务中，对于句子级别的任务，就把C输入到额外的输出层中，对于token级别的任务，就把其他token对应的最后一个Transformer的输出输入到额外的输出层)

训练策略

Masked Language Model(MLM)改进了原始Transformer在预测时只能获取当前时刻前的信息，通过引入cloze(完形填空)的训练思路，让模型获得双向语言特征(部分语言问题本身需要通过获取双向信息才能达到更好的效果)。
Next Sentence Prediction(NSP)，普通MLM任务只是倾向于对每个token层次的特征进行表征，但不能对相关token的句子层次特征进行表示，为了使得模型能理解句子间的关系，采用了NSP任务来进行训练。

具体的做法是：对于每一个训练样例，我们在语料库中挑选出句子A和句子B来组成，50%的时候句子B就是句子A的下一句*（标注为IsNext），剩下50%的时候句子B是语料库中的随机句子（标注为NotNext）*。接下来把训练样例输入到BERT模型中，用**[CLS]对应的C信息**去进行二分类的预测。

Transformer-XL: Attentive Language Models beyond a Fixed-Length Context URL(1103)2019.1

Segment-Level Recurrence,对于每个被segment的序列，将前一个序列计算的隐状态序列进行缓存，并利用到当前状态下的前向计算中(可以缓存多个序列)
提出相对位置编码：将序列每个位置信息表示为由位置偏移量和时间步数组成的向量，然后映射到固定的维度空间输入到注意力机制中

XLNet: Generalized Autoregressive Pretraining for Language URL (3062)2019.6

Permutation Language Modeling(随机置换语言模型)，通过对序列进行permutation，让序列在以AR¹模型进行输入的同时具备AE²模型能对上下文信息的优点，但此时位置编码需要修改，从而引入了Two-Stream Self-Attention。
- 由于AR模型在处理序列时只能从左到右或从右到左，即使双向叠加效果也差于BERT，但是BERT的AE模型在推理过程又是看不到的，这导致性能丢失，从而通过PLM来平衡两个步骤。
Two-Stream Self-Attention,引入query stream和content stream，其中query stream是用来对随机置换的序列位置进行编码，以此具有位置关系信息。

Computer Vision

VIT:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale URL (976) 2020.10

采用将图片分为多个patch，再将每个patch投影为固定向量作为输入，为了更好的进行下游任务进行图像分类等操作，采用和[BERT](#Input/Output Representations)相似的操作，在输入序列最前面加一个**[CLS]**标记。从而，通过patch embedding将一个视觉问题转换为了一个seq2seq问题。
ViT（Vision Transformer）解析 - 知乎 (zhihu.com)

Pyramid Vision Transformer:A Versatile Backbone for Dense Prediction without Convs

[2102.12122] Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions (arxiv.org)

2023-11-17_10-51-15

2023-11-19_16-48-20

利用了progressive shrinking pyramid，可以输出多分辨率的feature map，方便进行更多下游任务,通过人为限制kv的尺寸大小限制计算量
使用层级式架构，能输出不同stage后的特征图，方便进行下游任务。

Swin Transformer : Hierarchical Vision Transformer using Shifted Windows URL (351) 2021.3

下采样的层级设计，能够逐渐增大感受野，从而使得注意力机制也能够注意到全局的特征
滑窗操作包括不重叠的 local window，和重叠的 cross-window。不重叠的local windows将注意力计算限制在一个窗口（window size固定），而cross-windows则让不同窗口之间信息可以进行关联，达到更好的效果。
论文详解：Swin Transformer - 知乎 (zhihu.com)

Object Detection

DETR: End-to-End Object Detection with Transformers URL(108) 2020.5

绕过proposals、anchors、window center的传统目标检测方法，直接使用transformer的全局注意力实现对目标的预测，避免了一些人为因素影响的先验框。
小物体不太好，其运行在分辨率最低的feature map上
set-based loss(实现端到端),采用匈牙利匹配
decoder中出现了cross attention，输入包含了object query 以及encoder的输出
Object queries是一个可学习的向量(num, b,dim)Num是人为给的值，这个东西的作用和cls token类似，也是在整合信息，远大于图片内物体数量。
end2end 丢弃Transformer，FCN也可以实现E2E检测 - 知乎 (zhihu.com)
(6) DETR - End to end object detection with transformers (ECCV2020) - YouTube

Deformable DETR: Deformable Transformers for End-to-End Object Detection URL(183)2020.10

引入多尺度特征，解决了DETR在小物体上检测的问题。

Footnotes

AutoRegressive language model ↩︎
AutoEncoder language model ↩︎

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1226981.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

嵌入式开发--赛普拉斯cypress的铁电存储器FM25CL64B

嵌入式开发--赛普拉斯cypress的铁电存储器FM25CL64B

嵌入式开发–赛普拉斯cypress的铁电存储器FM25CL64B 简介 FM25CL64B是赛普拉斯cypress出品的一款铁电存储器，这种存储器最大的优势是可以像RAM一样随机存储，和按字节写入，也可以像ROM一样掉电仍然可以保存数据，是一种相当优秀的…

阅读更多...

宠物信息服务预约小程序的效果如何

宠物信息服务预约小程序的效果如何

宠物的作用越来越重要，因此铲屎官们对自己爱宠的照顾也是加倍提升，而市场围绕宠物展开的细分服务近些年来逐渐增多，且市场规模快速增长。涉及之广，涵盖宠物衣食住行、医疗、美容、婚丧嫁娶等，各品牌争相抢夺客户及抢占…

阅读更多...

java游戏制作-拼图游戏

java游戏制作-拼图游戏

一.制作主界面首先创建一个Java项目命名为puzzlegame。再在src中创建一个包，用来制作主界面代码： 结果： 二.设置界面代码： 三.初始化界面代码： 优化代码： 结果： 四.添加图片先在Java项…

阅读更多...

思维模型留白效应

思维模型留白效应

本系列文章主要是分享思维模型 ，涉及各个领域，重在提升认知。因留白而遐想。 1 留白效应的应用 1.1 留白效应在艺术领域的应用欧洲的艺术和设计领域有很多经典的实际案例，其中荷兰画家文森特梵高的作品《星夜》是一幅非常著名的油画&am…

阅读更多...

正则表达式去掉代码末尾的数字

正则表达式去掉代码末尾的数字

[\n](\d)[\n]

阅读更多...

【沐风老师】3DMAX一键云生成器插件使用教程

【沐风老师】3DMAX一键云生成器插件使用教程

3DMAX云生成器插件使用教程 3DMAX云生成器插件，是一款将物体变成云的简单而富有创意的工具。该工具通过在物体周围创建粒子结合材质，最终形成渲染后的云的效果。【支持版本】 3dMax2018 – 2023 默认的扫描线渲染器【安装方法】 1.复制“安装文件”…

阅读更多...

4、FFmpeg命令行操作10

4、FFmpeg命令行操作10

音视频处理流程先看两条命令 ffmpeg -i test_1920x1080.mp4 -acodec copy -vcodec libx264 -s 1280x720 test_1280x720.flv ffmpeg -i test_1920x1080.mp4 -acodec copy -vcodec libx265 -s 1280x720 test_1280x720.mkv ffmpeg音视频处理流程

阅读更多...

Mysql之单行函数

Mysql之单行函数

Mysql之单行函数单行函数数值类型函数字符串类型的函数日期和时间函数加密与解密函数信息函数单行函数函数的定义函数在计算机语言的使用中贯穿始终，函数的作用是什么呢？它可以把我们经常使用的代码封装起来， 需要的时候直接调用即可。这…

阅读更多...

Hive 定义变量变量赋值引用变量

Hive 定义变量变量赋值引用变量

Hive 定义变量变量赋值引用变量变量 hive 中变量和属性命名空间命名空间权限描述hivevar读写用户自定义变量hiveconf读写hive相关配置属性system读写java定义额配置属性env只读shell环境定义的环境变量语法 Java对这个除env命名空间内容具有可读可写权利； …

阅读更多...

MySQL 的执行原理（三）

MySQL 的执行原理（三）

5.4. InnoDB 中的统计数据我们前边唠叨查询成本的时候经常用到一些统计数据，比如通过 SHOW TABLE STATUS 可以看到关于表的统计数据，通过 SHOW INDEX 可以看到关于索引的统计数据，那么这些统计数据是怎么来的呢？它们是以什么方…

阅读更多...

4种经典的限流算法

4种经典的限流算法

0、基础知识 1000毫秒内，允许2个请求，其他请求全部拒绝。不拒绝就可能往db打请求，把db干爆~ interval 1000 rate 2； 一、固定窗口限流固定窗口限流算法（Fixed Window Rate Limiting Algorithm）是…

阅读更多...

pm2在Windows环境中的使用

pm2在Windows环境中的使用

pm2 进程管理工具可以Windows操作系统上运行，当一台Windows电脑上需要运行多个进程时，或者运维时需要运行多个进程以提供服务时。可以使用pm2，而不再是使用脚本。 1. 使用PM2管理进程 1.1. 启动PM2项目 1.1.1. 直接启动项目参数说明&…

阅读更多...

c++ list容器使用详解

c++ list容器使用详解

list容器概念 list是一个双向链表容器，可高效地进行插入删除元素。 List 特点： list不可以随机存取元素，所以不支持at.(position)函数与[]操作符。可以对其迭代器执行，但是不能这样操作迭代器：it3使用时包含 #includ…

阅读更多...

C++ 运算符重载详解

C++ 运算符重载详解

本篇内容来源于对c课堂上学习内容的记录通过定义函数实现任意数据类型的运算假设我们定义了一个复数类，想要实现两个复数的相加肯定不能直接使用“”运算符，我们可以通过自定义一个函数来实现这个功能： #include <iostream> using…

阅读更多...

RabbitMQ消息的可靠性

RabbitMQ消息的可靠性

RabbitMQ消息的可靠性一生产者的可靠性生产者重试有时候由于网络问题，会出现连接MQ失败的情况，可以配置重连机制注意：SpringAMQP的重试机制是阻塞式的，重试等待的时候，当前线程会等待。 spring:rabbitmq:conne…

阅读更多...

MySQL 的执行原理（四）

MySQL 的执行原理（四）

5.5. MySQL 的查询重写规则对于一些执行起来十分耗费性能的语句，MySQL 还是依据一些规则，竭尽全力的把这个很糟糕的语句转换成某种可以比较高效执行的形式，这个过程也可以被称作查询重写。 5.5.1. 条件化简我们编写的查询语句的搜索条件…

阅读更多...

【STM32】ADC(模拟/数字转换)

【STM32】ADC(模拟/数字转换)

一、ADC的简介 1.什么是ADC 1）将【电信号】-->【电压】-->【数字量】 2）ADC可以将引脚上连续变化的模拟电压转换为内存中存储的数字量，建立模拟电路到数字电路的桥梁。 3）12位逐次逼近型ADC，1us转换时间&#xf…

阅读更多...

iOS_折叠展开 FoldTextView

iOS_折叠展开 FoldTextView

1. 显示效果 Test1：直接使用： Test2：在 cell 里使用： 2. 使用 2.1 直接使用 // 1.1 init view private lazy var mooFoldTextView: MOOFoldTextView {let view MOOFoldTextView(frame: .zero)view.backgroundColor .cyanvie…

阅读更多...

Node.js之fs文件系统模块

Node.js之fs文件系统模块

什么是fs文件系统模块？又如何使用呢？让我为大家介绍一下！ fs 模块是 Node.js 官方提供的、用来操作文件的模块。它提供了一系列的方法和属性，用来满足用户对文件的操作需求注意：如果要在JavaScript代码中&#xff0c…

阅读更多...

Linux 网络：PMTUD 简介

Linux 网络：PMTUD 简介

文章目录 1. 前言2. Path MTU Discovery(PMTUD) 协议2.1 PMTUD 发现最小 MTU 的过程 3. Linux 的 PMTUD 简析3.1 创建 socket 时初始化 PMTUD 模式3.2 数据发送时 PMTUD 相关处理3.2.1 源头主机发送过程中 PMTU 处理3.2.2 转发过程中 PMTUD 处理 4. PMTUD 观察5. 参考链接 1. 前…

阅读更多...

推荐文章

最新文章