目录
- 【目标检测】
- 【Transformer】
【目标检测】
[2024小目标检测] A DeNoising FPN With Transformer R-CNN for Tiny Object Detection
论文链接:https://arxiv.org/abs/2406.05755
代码链接:https://github.com/hoiliu-0801/DNTR
尽管计算机视觉领域取得了显著进展,但精确检测微小物体仍然是一个重大挑战,这主要是因为这些物体在图像数据中的像素表示非常微小。这一挑战在地球科学和遥感领域尤为突出,高保真地检测微小物体可以促进从城市规划到环境监测的各种应用。文中提出了一种新的框架,即DeNoising FPN with Trans R-CNN (DNTR),以提升微小物体检测的性能。DNTR由一个易于插入的设计模块DeNoising FPN (DN-FPN)和一个高效的基于Transformer的检测器Trans R-CNN组成。具体来说,特征金字塔网络中的特征融合对于检测多尺度对象非常重要。然而,由于不同尺度特征之间缺乏正则化,融合过程中可能会产生噪声特征
。因此,引入了DN-FPN模块,利用对比学习来抑制FPN自上而下路径中每个层级特征的噪声。其次,基于双阶段框架,用新颖的Trans R-CNN检测器替代了过时的R-CNN检测器,以自注意力机制聚焦于微小物体的表示。实验结果表明,DNTR在AI-TOD数据集上的APvt至少比基线提高了17.4%,在VisDrone数据集上的AP至少提高了9.6%。
[ICLR 2022] FP-DETR: DETECTION TRANSFORMER ADVANCED BY FULLY PRE-TRAINING
论文链接:https://openreview.net/pdf?id=yjMQuLLcGWK
代码链接:https://github.com/encounter1997/FP-DETR
大规模预训练已被证明在下游任务的视觉表示学习中是有效的,尤其是在提高鲁棒性和泛化能力方面。然而,最近开发的检测转换器(detection transformers)只在其主干网络上进行预训练,而关键的组件,即12层转换器,却是从头开始训练的,这阻碍了模型获得上述好处
。这种分离的训练范式主要是由于上游和下游任务之间的差异造成的。为了缓解这个问题,文中提出了FP-DETR,它对仅编码器的转换器进行全面预训练,并通过任务适配器(task adapter)对其进行平滑微调以用于目标检测。受到自然语言处理中文本提示(textual prompts)成功的启发,将查询位置嵌入视为视觉提示,帮助模型关注目标区域(提示)并识别对象。为此,提出了任务适配器,该适配器利用自注意力来建模对象查询嵌入之间的上下文关系。在具有挑战性的COCO数据集上的实验表明,FP-DETR实现了有竞争力的性能。此外,与最先进的检测转换器相比,它在抵御常见干扰和对小型数据集的泛化方面表现更好。
【Transformer】
[ICML 2024] SLAB: Efficient Transformers with Simplified Linear Attention and Progressive Re-parameterized Batch Normalization
论文链接:https://arxiv.org/abs/2405.11582
代码链接:https://github.com/xinghaochen/SLAB
Transformers 已成为自然语言和计算机视觉任务的基础架构。然而,高计算成本使其在资源受限的设备上部署变得相当具有挑战性。本文研究了高效 Transformer 的计算瓶颈模块,即归一化层和注意力模块。LayerNorm 通常用于 Transformer 架构中,但由于推理期间的统计计算,其计算效率并不友好。然而,用更高效的 BatchNorm 替换 Transformer 中的 LayerNorm 往往会导致性能下降和训练崩溃
。为了解决这个问题,文中提出了一种名为 PRepBN 的新方法,以在训练过程中逐步用重参数化的 BatchNorm 替换 LayerNorm。此外,还提出了一个简化的线性注意力(SLA)模块,该模块简单但有效,能够实现强大的性能。广泛的图像分类和目标检测实验证明了提出方法的有效性。例如,SLAB-Swin 在 ImageNet-1K 上的 top-1 准确率达到了 83.6%,延迟为 16.2ms,比 Flatten-Swin 减少了 2.4ms,并且准确率提高了 0.1%。还评估了该方法在语言建模任务中的表现,并获得了相当的性能。
[CVPR 2024] ViTamin: Designing Scalable Vision Models in the Vision-Language Era
论文链接:https://arxiv.org/abs/2404.02132
代码链接:https://github.com/Beckschen/ViTamin
近期在视觉-语言模型(VLMs)方面的突破为视觉社区开启了新的篇章。与基于 ImageNet 预训练的模型相比,VLMs 提供了更强且更具泛化性的特征嵌入,这归功于其在大规模互联网图像-文本对上进行的训练。然而,尽管 VLMs 取得了令人惊叹的成就,传统的视觉变换器(ViTs)仍然是图像编码的默认选择。尽管纯变换器在文本编码领域证明了其有效性,但在图像编码方面是否同样适用仍然存疑,尤其是考虑到在 ImageNet 基准测试中提出了各种类型的网络,遗憾的是这些网络在 VLMs 中很少被研究。由于数据/模型规模较小,ImageNet 上的原始模型设计结论可能受到限制和偏见。本文旨在构建一个在对比语言-图像预训练(CLIP)框架下的视觉模型评估协议。文中提供了一种全面的方法来评估不同的视觉模型,涵盖它们的零样本性能以及在模型和训练数据大小方面的可扩展性。为此,作者引入了 ViTamin,一种专为 VLMs 量身定制的新视觉模型。在使用相同的公开可用 DataComp-1B 数据集和相同的 OpenCLIP 训练方案时,ViTamin-L 的 ImageNet 零样本准确率显著优于 ViT-L,提高了 2.0%。ViTamin-L 在包括分类、检索、开放词汇检测和分割在内的 60 个多样化基准测试中呈现了有希望的结果,并适用于大型多模态模型。当进一步扩展模型规模时, ViTamin-XL 仅有 436M 参数,达到了 82.9% 的 ImageNet 零样本准确率,超过了拥有十倍更多参数(4.4B)的 EVA-E 所达到的 82.0%。