LaViT：Less-Attention Vision Transformer的特性与优点

news2025/4/8 22:14:41

引言

https://arxiv.org/pdf/2406.00427
随着计算机视觉领域的发展，视觉Transformer（ViTs）逐渐成为一项重要技术。尽管ViTs在捕捉图像中的长距离依赖关系方面表现出色，但其沉重的计算负担和潜在的注意力饱和问题一直是实际应用的障碍。为解决这些问题，微软提出了Less-Attention Vision Transformer（LaViT），旨在通过引入一种新的注意力机制来提升视觉Transformer的效率和性能。

LaViT的特性

**1. Less-Attention 机制

LaViT的核心特性在于其提出的Less-Attention机制。与传统ViTs中的每一层都计算自注意力得分不同，LaViT仅在每个阶段的初始几个层中计算传统自注意力，并通过存储这些得分来在后续层中生成注意力矩阵。这种设计大幅减少了计算负担，并且解决了深层网络中的注意力饱和问题。

**2. 残差连接和注意力下采样

为了在下采样过程中保留关键上下文信息，LaViT引入了残差连接和注意力下采样模块。残差连接通过从前一阶段传递注意力得分来辅助当前阶段的注意力计算，确保重要信息的保留。而注意力下采样模块则通过深度卷积和卷积层，有效压缩前一阶段的注意力矩阵，以适配当前阶段的尺寸。

**3. 对角线保持损失

为确保转换后的注意力矩阵保留基本属性，LaViT设计了一种对角线保持损失函数。该函数有助于在转换过程中保持注意力矩阵的对角线特性和标记间的相对重要性，从而保持模型的语义完整性。

在这里插入图片描述

LaViT的优点

**1. 显著降低计算成本

由于Less-Attention机制的使用，LaViT显著降低了计算成本。相比于传统ViTs，LaViT能够在不牺牲性能的前提下，显著减少浮点运算次数（FLOPs）和内存消耗，从而适用于资源受限的场景。

**2. 提高性能表现

LaViT在各种视觉任务上均表现出色，包括图像分类、目标检测和语义分割。其提出的Less-Attention机制有效缓解了注意力饱和问题，使得深层网络能够捕获更多语义信息，提高模型的整体性能。

**3. 灵活的架构设计

LaViT的架构设计灵活，可以轻松融入各种现有ViT模型中。无论是层次结构还是非层次结构的ViT，LaViT的Less-Attention模块都能显著提高其性能。这种可扩展性使得LaViT成为一种具有广泛应用前景的视觉Transformer模型。

**4. 优秀的跨模态应用潜力

虽然当前LaViT主要应用于视觉任务，但其独特的注意力机制和高效的架构设计也为跨模态应用提供了可能性。未来，LaViT有望在图像与文本、语音等其他模态的融合中发挥重要作用，进一步推动AI技术的发展。

实验结果

为了评估LaViT模型的有效性，作者在各种基准数据集上进行了全面的实验，包括ImageNet-1K上的图像分类、COCO2017上的目标检测以及ADE20K上的语义分割。以下是具体的实验结果：

1. ImageNet-1K 图像分类

设置：

实验协议遵循DeiT中的流程，使用AdamW优化器从头开始训练模型300个周期（包含5个周期的预热）。
初始学习率设置为0.005，使用余弦调度器进行调整。
全局批量大小设置为1024，分布在4个GTX-3090 GPU上。
测试时将输入图像调整到256像素，然后进行224x224像素的中心裁剪以评估分类准确性。

结果：
在ImageNet-1K上的分类结果显示，LaViT模型在保持显著降低的计算成本的同时，取得了与现有最先进ViT模型相竞争的性能。具体来说：

在微小模型群组中，LaViT模型至少超过了所有其他现有模型0.2%。
在小型模型群组中，LaViT模型至少超过了所有其他现有模型0.5%。
在基础尺寸模型中，LaViT-B（基于PVT的基础结构但包含Less-Attention组件）的性能优于两种基于PVT的模型（PVT-M和PVT-L）。

2. COCO2017 目标检测

设置：

使用RetinaNet作为检测框架，使用从ImageNet-1K获得的预训练权重初始化主干网络。
使用AdamW优化器，在8个GPU上以批量大小为16训练网络。

结果：
LaViT模型在COCO2017数据集上的检测性能显著优于其他CNN和Transformer模型。具体来说：

LaViT-T相对于ResNet实现了9.9-12.5 AP的提升。
LaViT-S相对于其CNN对应版本提高了8.1-10.3 AP。
LaViT模型在检测性能上始终优于Swin Transformer，同时训练负担较小。

在这里插入图片描述

3. ADE20K 语义分割

设置：

使用Semantic FPN和UperNet作为分割的主干网络。
遵循已建立的训练设置，将图像大小调整为进行训练。
使用多项式调度器进行学习率衰减，在GTX3090 GPU上进行训练。

结果：
LaViT模型在ADE20K数据集上的语义分割性能优于Swin Transformer和其他主流模型。具体来说：

在Semantic FPN上，LaViT-S相对于Baseline（PVT-S）实现了mIoU +0.9的提升，同时显著减少了计算量。
在UperNet架构中，LaViT实现了mIoU +2.7、+1.0和+1.4的显著提升。
使用测试时间增强时，这些有竞争力的结果也能保持。

消融研究

消融研究进一步证明了LaViT模型中各个组件的重要性和贡献：

Less-Attention模块：将Less-Attention层替换为MHSA的Baseline，预测准确度显著下降。
注意力残差模块：移除注意力残差模块会导致预测准确度下降。
对角线保持损失：仅依赖CE损失时，模型的预测会恶化，表明对角线保持损失对于保留注意力矩阵中的基本属性至关重要。

在这里插入图片描述

结论

LaViT作为微软提出的一种新型视觉Transformer模型，凭借其Less-Attention机制、残差连接、注意力下采样以及对角线保持损失等特性，在显著降低计算成本的同时提高了模型性能。其灵活的架构设计和广泛的适用性使其成为当前计算机视觉领域的一项重要技术。未来，随着LaViT的持续优化和应用拓展，我们有理由相信它将在更多领域展现出强大的潜力。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2077962.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！