2023年4月份上新的Transformer模型设计系列论文（附下载链接）

news2024/12/23 18:03:07

来源：投稿作者：王老师
编辑：学姐

论文1

论文标题：
Slide-Transformer: Hierarchical Vision Transformer with Local Self-Attention**
滑动Transformer：具有局部自注意的分层视觉Transformer

论文链接：https://arxiv.org/pdf/2304.04237.pdf
代码链接：https://github.com/LeapLabTHU/Slide-Transformer

发表在CVPR 2023

自注意机制是视觉Transformer（ViT）最近进展的一个关键因素，它能够从全局上下文中进行自适应特征提取。然而，现有的自注意方法要么采用稀疏全局注意，要么采用窗口注意来降低计算复杂度，这可能会影响局部特征学习，或者受到一些手工设计的影响。相比之下，局部注意力将每个查询的感受野限制在其自己的相邻像素，它同时享受卷积和自注意力的好处，即局部归纳偏差和动态特征选择。

然而，当前的局部注意力模块要么使用低效的Im2Col函数，要么依赖于特定的CUDA内核，这些内核很难推广到没有CUDA支持的设备。在本文中，我们提出了一种新的局部注意力模块Slide attention，它利用常见的卷积运算来实现高效率、灵活性和可推广性。具体来说，我们首先从一个新的基于行的角度重新解释基于列的Im2Col函数，并使用深度卷积作为一种有效的替代。在此基础上，我们提出了一种基于重新参数化技术的变形移位模块，该模块将固定的键/值位置进一步放宽到局部区域中的变形特征。通过这种方式，我们的模块以高效和灵活的方式实现了局部注意力范式。大量实验表明，我们的滑动Transformer模块适用于各种先进的Vision Transformer模型，并与各种硬件设备兼容，并在Benchmark上实现了持续改进的性能优势。

论文2

论文标题：
Token Boosting for Robust Self-Supervised Visual Transformer Pre-training
用于鲁棒自监督视觉Transformer预训练的Token提升

论文链接：https://arxiv.org/pdf/2304.04175v1.pdf
代码链接：暂未开源

发表在CVPR 2023

使用大规模未标记数据进行学习已成为预训练视觉Transformer（VT）的强大工具。然而，先前的工作往往忽略了在现实世界的场景中，输入数据可能被破坏和不可靠。在这种损坏的数据上预训练VT可能具有挑战性，尤其是当我们通过掩蔽自动编码方法进行预训练时，在这种情况下，输入和掩蔽的“地面实况”目标都可能不可靠。为了解决这一限制，我们引入了Token提升模块（TBM）作为VT的即插即用组件，它有效地允许VT在掩蔽自动编码预训练期间学习提取干净和稳健的特征。我们提供了理论分析，以表明TBM如何通过更稳健和可推广的表示来改进模型预训练，从而有利于下游任务。我们进行了大量实验来分析TBM的有效性，在四个损坏的数据集上的结果表明，TBM持续提高了下游任务的性能

论文3

论文标题：
PSLT: A Light-weight Vision Transformer with Ladder Self-Attention and Progressive Shif

论文链接：https://arxiv.org/pdf/2304.03481.pdf
代码链接：https://isee-ai.cn/wugaojie/PSLT.html.

发表于TPAMI 2023

视觉Transformer（ViT）由于其建模长期依赖性的能力，在各种视觉任务中显示出巨大的潜力。然而，ViT需要大量的计算资源来计算全局自注意。在这项工作中，我们提出了一种具有多个分支和渐进移位机制的梯形自注意块，以开发一种需要较少计算资源（例如，相对较少的参数和FLOP）的轻量级变换器主干，称为渐进移位梯形变换器（PSLT）。首先，梯形自注意块通过对每个分支中的局部自注意进行建模来降低计算成本。同时，提出了渐进转移机制，通过为每个分支建模不同的局部自我注意并在这些分支之间相互作用，来扩大梯形自我注意块中的感受野。第二，梯形自注意块的输入特征沿着每个分支的通道维度被平均分割，这显著降低了梯形自关注块的计算成本（参数和FLOP的数量接近13），然后通过像素自适应融合来协作这些分支的输出。因此，具有相对少量参数和FLOP的梯形自注意块能够对长距离相互作用进行建模。基于梯形自注意块，PSLT在图像分类、目标检测和人物重新识别等视觉任务上表现良好。在ImageNet 1k数据集上，PSLT以9.2M个参数和1.9G FLOP实现了79.9%的前1精度，这与现有的几个具有超过20M个参数和4G FLOP的模型相当。