DETRs with Collaborative Hybrid Assignments Training论文笔记

news2025/1/10 2:26:18
Title:[DETRs with Collaborative Hybrid Assignments Training
Code

文章目录

  • 1. Motivation
  • 2. one to one VS one to many
  • 3. Method
    • (1)Encoder feature learning
    • (2)Decoder attention learning

1. Motivation

当前的DETR检测器中,为了实现端到端的检测,使用的标签分配策略是二分匹配,使得一个ground-truth只能分配到一个正样本。分配为正样本的queries太少,从而导致对encoder的输出监督过于稀疏(sparse)。

与二分匹配相反,在传统的检测器(如Faster-RCNN、ATSS)中,一个ground-truth会根据位置关系分配到多个anchor作为正样本。这种标签分配方式能够为特征图上的更多区域提供位置监督,就能让检测器的特征学习得更好。

Co-DETR的关键就是利用通用的one-to-many label assignments来提高DETR检测器训练encoder和decoder的有效性及效率。

2. one to one VS one to many

为了比较这两种不同的标签分配方法在Encoder特征图上的差异,论文直接把Deformable-DETR的decoder换成了ATSS head,使用相同的可视化方法进行了比较,效果如下:
在这里插入图片描述
很明显,一些显著区域中的特征在one to many matching方法中被充分激活,但在one to one matching中很少被激活。因此,论文认为正是这两种分配方式的差异使得DETR模型中的encoder特征表达能力减弱了。

在这里插入图片描述
同时,作者还对encoder生成的特征表示和decoder中的attention进行了定量分析:

  • 左边的IoF-IoB曲线表明ATSS相较于Defomable DETR更容易区分前景和背景;
  • 右边的IoF-IoB曲线表明Group DETR(其将更多的正样本query引入到decoder中)和Co-Deformable-DETR拥有更多的正样本query,其更有利于cross attention的学习。

最终的结论同样是:一对一匹配相比于一对多匹配会分别损害encoder特征和decoder中attention的学习。

3. Method

在这里插入图片描述

为了能够让DETR检测器利用到一对多匹配的优势,论文基于DETR的训练框架引入了两点改进,分别对应到上文提到的encoder feature learning和decoder attention learning。

Co-DETR只在训练阶段加入辅助检测头,因此仅在训练阶段中引入额外的计算开销,不会影响到模型推理的效率。

(1)Encoder feature learning

在上文的分析中,我们发现在encoder后插入一个传统的ATSS检测头就能让encoder的特征更加显著。

受到这个的启发,为了增强encoder的学习能力,论文首先利用multi-scale adapter,将encoder输出的特征转化为多尺度的特征。

对于使用单尺度特征的DETR,这个adapter的结构就类似于simple feature pyramid。而对于多尺度特征的DETR,这个结构就是恒等映射。之后我们将多尺度的特征送入到多个不同的辅助检测头,这些检测头都使用一对多的标签分配。

由于传统检测器的检测头结构轻量,因此带来的额外训练开销较少。

(2)Decoder attention learning

为了增强decoder的attention学习,我们提出了定制化的正样本query生成。

在上文的分析中,我们发现传统检测器中的anchor是密集排列的,且能够提供dense且尺度敏感的监督信息。

那么我们能不能把传统检测器中的anchor作为query来为attention的学习提供足够的监督呢?当然是可以的,在上一步中,辅助的检测头已经分配好了各自的正样本anchor及其匹配的ground-truth。

我们选择直接继承辅助检测头的标签分配结果,将这些正样本anchor转化为正样本query送到decoder中,在loss计算时无需二分匹配,直接使用之前的分配结果。

与其他引入辅助query的方法相比,这些工作会不可避免地引入大量的负样本query,而我们只在decoder引入了正样本,因此带来的额外训练代价也较小。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/918230.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

关于异数OS服务器CPU效能分析工具

该工具发布背景 近年来,国产服务器CPU产业的逐渐发展,但由于专业性较差,与国外存在40年以上技术差距,一些服务器CPU厂商利用信息差来制造一些非专业的数据夸大并虚假宣传混淆视听,成功达到劣币驱良币的目标&#xff0…

关于vCenter 503报错

现象: 打开我们的服务器界面(虚拟机)报错: 503 服务器问题 当前服务不可用。web服务器不能处理HTTP请求,可能是临时超载或者是服务器进行停机维护。 错误提示是由 VMware vCenter Server(vCen…

Java学习笔记——继承(包括this,super的使用总结)

继承: 使用情景:当类与类之间,存在相同(共性)的内容,并满足子类是父类的一种,就可以考虑使用继承,来优化代码 Java中提供一个关键字extends,用这个关键字,我…

requests模板成功下载,但是不能在pycharm中运行

在做实验的过程中,需要用到requests,但是在pycharm中成功下载,仍然无法使用,找了很久,解决方法如下: 进入win中的命令提示符 下载requests模块 pip install requests输入python显示你的python的基本信息&…

《动手学深度学习》-21卷积层里的多输入多输出通道

沐神版《动手学深度学习》学习笔记,记录学习过程,详细的内容请大家购买书籍查阅。 b站视频链接 开源教程链接 卷积层里的多输入多输出通道 大家通常最在意的一个超参数: RGB图像不仅仅是单纯的矩阵,是3 x h x w的形状&#xf…

基于Python的图像信息隐藏技术的设计与实现

博主介绍:✌csdn特邀作者、博客专家、java领域优质创作者、博客之星,擅长Java、微信小程序、Python、Android等技术,专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推…

使用高斯滤波器进行表面开放轮廓过滤研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

『已解决』VMware 打开运行一段时间后卡死,CPU占比增至100%

📣读完这篇文章里你能收获到 通过图文方式解决VMware 打开运行一段时间后卡死,CPU占比增至100%的问题 文章目录 一、系统环境二、问题描述三、解决办法1. 检查Hyper-V没有开启2. 禁止HV主机服务3. 设置Hyper-V服务为关闭状态4. 重启电脑 一、系统环境 …

开源跨境电商ERP的优缺点分析,你知道几个?

作为电子商务领域的专家,我们不得不关注开源跨境电商ERP的崛起。在这篇文章中,我们将深入探讨开源跨境电商ERP的优点和缺点,帮助您更好地了解这一新兴技术的潜力与挑战。 1. 开源跨境电商ERP的优点 开源跨境电商ERP相较于传统的商业ERP系统…

概念解析 | 全极化雷达成像

注1:本文系“概念解析”系列之一,致力于简洁清晰地解释、辨析复杂而专业的概念。本次辨析的概念是:全极化雷达成像。 全极化雷达成像** 高分辨全极化昆虫雷达极化校准与昆虫体轴方向估计 一、背景介绍 雷达是20世纪的一项伟大发明&#xff0…

pip安装torch_scatter, torch_sparse报错

在安装torch_geometric时还需要安装torch_scatter和torch_sparse,但是直接使用pip install安装会报错,报错内容是缺乏依赖项。查了好久发现直接下载whl到本地再使用pip安装时最不容易出错的,这里记录一下,避免再次掉坑。 首先需要…

软文稿件写作方法有哪些?

软文稿件是一种以软性推广为目的的文章,旨在通过正面、有吸引力的方式向读者传递信息和促进品牌或产品的推广。 接下来伯乐网络传媒给大家分享一些常见的软文稿件写作方法,通过运用这些技巧和策略,可以帮助你撰写出更具吸引力和实用性的软文…

国产化-达梦数据库安装2

目录 DM8数据库下载地址 安装一路狂飙next 启动服务 随着国家政府的推广、越来越多的政府项目、在系统部署需要采购国产服务器、数据库等 DM8数据库下载地址 https://eco.dameng.com/download/ 安装一路狂飙next windos安装比较简单直接next即可 仅仅记录几个关键疑问地方k…

Nature:LK-99 不是超导体

研究人员似乎已经解开了 LK-99 之谜。科学探测工作发现了这种材料不是超导体的证据,并澄清了它的实际特性。 这一结论打破了人们对 LK-99 —— 一种铜、铅、磷和氧的化合物(标志着发现了第一种在室温和环境压力下工作的超导体)的希望。相反&a…

Jmeter分布式性能压测-常见问题+解决

前言 安装常见问题问题1: [rootiZwz95j86y235aroi85ht0Z bin]# ./jmeter-server Created remote object: UnicastServerRef2 [liveRef: [endpoint:[:39308](local),objID:[24e78a63:16243c70661:-7fff, 7492480871343944173]]] Server failed to start: java.rmi.…

大学生创业出路【第二弹】科创训练营

目录 🚀一、我从哪里了解到的训练营 🚀二、训练营里学习和日常 🔎学习 🔎环境和设备 🔎遇到的人 🔎团队记录视频 🚀三、感悟 ​​​​个人主页:一天三顿-不喝奶茶&#x1f39…

性能测试没那么难!RunnerGo,简单、好用

在当前软件测试行业,熟练掌握性能测试已经是测试工程师们面试的敲门砖了,当然还有很多测试朋友们每天的工作更多的是点点点,性能方面可能也只是做过简单的并发测试,对于编写脚本,搭建环境方面也比较陌生。今天这篇文章…

Stable Diffusion 系列教程 | 快速入门

目录 1.基本原理 2.主流方式 3.配置要求 3.1 显卡方面 4.基本界面 4.1 模型设置区 4.2 菜单栏区域 4.3 提示词区 4.4 出图设置区 5.文生图基本操作流程 5.1 选用模型,撰写提示词 5.2 进行出图设置 5.3 再次出图! 5.4 保存 1.基本原理 在20…

友思特干货|如何克服边缘视觉的带宽限制?

引言 在追求更高像素、帧率和空间分辨率的视觉行业,边缘视觉与图像采集面临巨大挑战。其中,1GigE相机输出已不足,传输问题有待解决。与此同时,图像传感器的快速发展也使接口带宽成为瓶颈。 友思特提出创新解决方案,通…

中国最大规模量子计算云平台重磅发布!

8月18日下午,2023中国算力大会第二届“西部数谷”算力产业大会算领未来“8大成果”环节中,中国电科与中国移动携手发布“全国规模最大的量子计算云平台”,这是国内首个央企合作量子计算云平台,也是业界第一次实现“量子与通用算力…