【论文速看】DL最新进展20240927-目标检测、Transformer

news2024/9/28 2:09:31

目录

    • 【目标检测】
    • 【Transformer】

【目标检测】

[2024小目标检测] A DeNoising FPN With Transformer R-CNN for Tiny Object Detection

论文链接:https://arxiv.org/abs/2406.05755

代码链接:https://github.com/hoiliu-0801/DNTR

尽管计算机视觉领域取得了显著进展,但精确检测微小物体仍然是一个重大挑战,这主要是因为这些物体在图像数据中的像素表示非常微小。这一挑战在地球科学和遥感领域尤为突出,高保真地检测微小物体可以促进从城市规划到环境监测的各种应用。文中提出了一种新的框架,即DeNoising FPN with Trans R-CNN (DNTR),以提升微小物体检测的性能。DNTR由一个易于插入的设计模块DeNoising FPN (DN-FPN)和一个高效的基于Transformer的检测器Trans R-CNN组成。具体来说,特征金字塔网络中的特征融合对于检测多尺度对象非常重要。然而,由于不同尺度特征之间缺乏正则化,融合过程中可能会产生噪声特征。因此,引入了DN-FPN模块,利用对比学习来抑制FPN自上而下路径中每个层级特征的噪声。其次,基于双阶段框架,用新颖的Trans R-CNN检测器替代了过时的R-CNN检测器,以自注意力机制聚焦于微小物体的表示。实验结果表明,DNTR在AI-TOD数据集上的APvt至少比基线提高了17.4%,在VisDrone数据集上的AP至少提高了9.6%。

在这里插入图片描述


[ICLR 2022] FP-DETR: DETECTION TRANSFORMER ADVANCED BY FULLY PRE-TRAINING

论文链接:https://openreview.net/pdf?id=yjMQuLLcGWK

代码链接:https://github.com/encounter1997/FP-DETR

大规模预训练已被证明在下游任务的视觉表示学习中是有效的,尤其是在提高鲁棒性和泛化能力方面。然而,最近开发的检测转换器(detection transformers)只在其主干网络上进行预训练,而关键的组件,即12层转换器,却是从头开始训练的,这阻碍了模型获得上述好处。这种分离的训练范式主要是由于上游和下游任务之间的差异造成的。为了缓解这个问题,文中提出了FP-DETR,它对仅编码器的转换器进行全面预训练,并通过任务适配器(task adapter)对其进行平滑微调以用于目标检测。受到自然语言处理中文本提示(textual prompts)成功的启发,将查询位置嵌入视为视觉提示,帮助模型关注目标区域(提示)并识别对象。为此,提出了任务适配器,该适配器利用自注意力来建模对象查询嵌入之间的上下文关系。在具有挑战性的COCO数据集上的实验表明,FP-DETR实现了有竞争力的性能。此外,与最先进的检测转换器相比,它在抵御常见干扰和对小型数据集的泛化方面表现更好。

在这里插入图片描述


【Transformer】

[ICML 2024] SLAB: Efficient Transformers with Simplified Linear Attention and Progressive Re-parameterized Batch Normalization

论文链接:https://arxiv.org/abs/2405.11582

代码链接:https://github.com/xinghaochen/SLAB

Transformers 已成为自然语言和计算机视觉任务的基础架构。然而,高计算成本使其在资源受限的设备上部署变得相当具有挑战性。本文研究了高效 Transformer 的计算瓶颈模块,即归一化层和注意力模块。LayerNorm 通常用于 Transformer 架构中,但由于推理期间的统计计算,其计算效率并不友好。然而,用更高效的 BatchNorm 替换 Transformer 中的 LayerNorm 往往会导致性能下降和训练崩溃。为了解决这个问题,文中提出了一种名为 PRepBN 的新方法,以在训练过程中逐步用重参数化的 BatchNorm 替换 LayerNorm。此外,还提出了一个简化的线性注意力(SLA)模块,该模块简单但有效,能够实现强大的性能。广泛的图像分类和目标检测实验证明了提出方法的有效性。例如,SLAB-Swin 在 ImageNet-1K 上的 top-1 准确率达到了 83.6%,延迟为 16.2ms,比 Flatten-Swin 减少了 2.4ms,并且准确率提高了 0.1%。还评估了该方法在语言建模任务中的表现,并获得了相当的性能。

在这里插入图片描述


[CVPR 2024] ViTamin: Designing Scalable Vision Models in the Vision-Language Era

论文链接:https://arxiv.org/abs/2404.02132

代码链接:https://github.com/Beckschen/ViTamin

近期在视觉-语言模型(VLMs)方面的突破为视觉社区开启了新的篇章。与基于 ImageNet 预训练的模型相比,VLMs 提供了更强且更具泛化性的特征嵌入,这归功于其在大规模互联网图像-文本对上进行的训练。然而,尽管 VLMs 取得了令人惊叹的成就,传统的视觉变换器(ViTs)仍然是图像编码的默认选择。尽管纯变换器在文本编码领域证明了其有效性,但在图像编码方面是否同样适用仍然存疑,尤其是考虑到在 ImageNet 基准测试中提出了各种类型的网络,遗憾的是这些网络在 VLMs 中很少被研究。由于数据/模型规模较小,ImageNet 上的原始模型设计结论可能受到限制和偏见。本文旨在构建一个在对比语言-图像预训练(CLIP)框架下的视觉模型评估协议。文中提供了一种全面的方法来评估不同的视觉模型,涵盖它们的零样本性能以及在模型和训练数据大小方面的可扩展性。为此,作者引入了 ViTamin,一种专为 VLMs 量身定制的新视觉模型。在使用相同的公开可用 DataComp-1B 数据集和相同的 OpenCLIP 训练方案时,ViTamin-L 的 ImageNet 零样本准确率显著优于 ViT-L,提高了 2.0%。ViTamin-L 在包括分类、检索、开放词汇检测和分割在内的 60 个多样化基准测试中呈现了有希望的结果,并适用于大型多模态模型。当进一步扩展模型规模时, ViTamin-XL 仅有 436M 参数,达到了 82.9% 的 ImageNet 零样本准确率,超过了拥有十倍更多参数(4.4B)的 EVA-E 所达到的 82.0%。

在这里插入图片描述


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2171917.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

信息学奥赛复赛复习05-CSP-J2020-01优秀的拆分-对数函数、自然对数、以2为底的对数、幂函数、打表

PDF文档回复:20240927 1 2020 CSP-J 题目1 优秀的拆分 [题目描述] 一般来说,一个正整数可以拆分成若干个正整数的和 例如,11,101234 等。对于正整数 n的一种特定拆分,我们称它为“优秀的”,当且仅当在这种拆分下&am…

【Redis】安装redis-plus-plus

目录 安装redis-plus-plus 安装hiredis 安装redis-plus-plus本体 具体步骤 ​编辑编写一个hello程序 安装redis-plus-plus C操作redis的第三方库有很多,咱们此处使用redis-plus-plus,安装链接如下: GitHub - sewenew/redis-plus-plus: …

gitee windows/linux配置使用

1、安装git工具 地址:git工具安装地址 1.2在gitee上创建仓库 在浏览器中打开Gitee网站,并登录到您的账户。点击页面右上方的加号图标,然后选择“新建仓库”。输入仓库的名称、描述和其他相关信息,然后点击“创建仓库”按钮。添…

大势Inside | “郧县人”重大考古成果写入人教版初中历史教科书

近日,发掘于湖北十堰郧阳的“郧县人”考古成果被写入2024年秋人教版历史教科书(七年级上册)第一课“远古时期的人类活动”,与闻名中外的“元谋人”、“蓝田人”、“北京人”、“山顶洞人”并列。 人教版七年级上册中国历史教科书 …

基于SSM的图书管理管理系统的设计与实现 (含源码+sql+视频导入教程)

👉文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1 、功能描述 基于SSM的图书管理管理系统4拥有两种角色,用户可以浏览评论图书、登录注册,管理员可以进行图书馆管理、用户管理、分类管理等功能 1.1 背景描述 图书书店销售管理…

基于Hadoop的NBA球员大数据分析及可视化系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码 精品专栏:Java精选实战项目…

Meta的LLaMA 3.2系列大模型打败OpenAI,Orion的原型AR眼镜更是引领科技新时代!

Meta公司推出的LLaMA 3.2系列模型在人工智能领域引起了广泛关注。这些模型包括了多种尺寸,从适合移动应用和边缘设备的轻量级模型(1B和3B参数版本)到功能强大的90B视觉模型,后者支持文本和图像处理任务,如图像字幕、文…

腾讯邮箱上传附件卡、慢、无法上传,下载慢问题处理

1、检查文件中转站容量是否已满 2、建议用户打开链接https://exmail.qq.com/qy_mng_logic/wasmHelper?typehashv2,看是否可以正常访问。(能打开下载就表示可以正常访问) 3、让用户切换到4G或者其他网络再重新上传附件是否会重现问题&#xf…

Mac制作Linux操作系统启动盘

前期准备 一个 Mac 电脑 一个 U 盘(8GB 以上) 下载好 Linux 系统镜像(iso 文件) 具体步骤 挂载 U 盘 解挂 U 盘 写系统镜像到 U 盘 完成 一、挂载 U 盘 首先插入 U 盘,打开终端输入下面的命令查看 U 盘是否已经 m…

python -tkinter

在Button的command绑定中,如果给的一个函数,则表示执行一次。 import tkinter as Tkfrom tkinter import messageboxi 0def myLabel():global root,is Tk.Label(root,text"the import thing is :" )s.pack()root Tk.Tk()def fun1():if mess…

一文系统了解软件检测实验室CNAS认可,文件依据、资源准备、流程、预算

软件检测实验室获取CNAS认可不但可以提升实验室的权威度和社会认可度,在部分区域还可以拿到相关补贴资金。 一、软件检测实验室CNAS认可依据 CNAS-R01:2023《认可标识使用和认可状态声明规则》 CNAS-R02:2023《公正性和保密规则》 CNAS-R…

C语言线程

线程 多个进程中通过轮流使用CPU来完成自己的任务,如果多个进程的操作都一模一样那么CPU的开销就会很大,因为进程的地址都是私有的,如果CPU对相同的操作只执行一次,后面再遇到直接去获取即可,这样大大降低了CPU的开销…

WIN系统 -> CMD命令

查看哪个PID(进程ID)--8001 netstat -ano | findstr :8001,然后查看哪个PID(进程ID)正在使用8001端口 手动结束进程

容器编排工具Docker Compose

目录 一、Docker Compose概述 1、主要功能 2、工作原理 二、常用命令参数 1、服务管理 2、构建和重新构建服务 三、Docker Compose的yml文件 1、服务 2、网络 3、存储卷 四、容器编排实现haproxy和nginx负载均衡 一、Docker Compose概述 1、主要功能 定义服务&#xf…

Linux系统进程控制

目录 一、进程创建 1.进程创建过程 2.写时拷贝 3.fork函数的两种常规用法 二、进程终止 1.进程终止的三种情况 2.进程退出信息 (1)退出码 (2)退出信号 3.进程终止的方式 三、进程等待 1.为什么要有进程等待&#xff1f…

成都睿明智科技有限公司赋能商家高效变现

在这个日新月异的数字时代,抖音电商正以不可阻挡之势崛起,成为众多品牌与商家竞相角逐的新战场。在这片充满机遇与挑战的蓝海中,成都睿明智科技有限公司如同一颗璀璨新星,凭借其专业的服务、创新的策略和敏锐的市场洞察&#xff0…

C++你不得不知道的(1)

C你不得不知道的&#xff08;1&#xff09; 【1】引例&#xff1a; 1、C语言在使用的过程中存在冲突问题&#xff01; 解决办法&#xff1a;使用域将想要使用的变量包括进去。 #include<stdio.h> int rand10; int main() {printf("%d\n",rand);return 0; }此…

VS Code激活python虚拟环境常见报错

VS Code激活python虚拟环境常见报错 问题1&#xff1a;执行激活 activate 报错 问题1&#xff1a;执行激活 activate 报错 解决&#xff1a; Win X *执行 set-executionpolicy remotesigned 再输入 Y

【智慧城市】新中地GIS开发实训项目:华农优秀学生学习成果展示(3)智游江城

华农GIS开发实训项目答辩③-智游江城/一个月学习成果展示 项目名称&#xff1a;智游江城 项目功能 主页面展示 菜单功能 控制台 3D城市 查询 导航 游览路线推荐 测量 资讯

Colorful/七彩虹将星X15 AT 23 英特尔13代处理器 Win11原厂OEM系统 带COLORFUL一键还原

安装完毕自带原厂驱动和预装软件以及一键恢复功能&#xff0c;自动重建COLORFUL RECOVERY功能&#xff0c;恢复到新机开箱状态。 【格式】&#xff1a;iso 【系统类型】&#xff1a;Windows11 原厂系统下载网址&#xff1a;http://www.bioxt.cn 注意&#xff1a;安装系统会…