DEYOv2: Rank Feature with Greedy Matchingfor End-to-End Object Detection

news2024/11/15 12:05:53

摘要

与前代类似, DEYOv2 采用渐进式推理方法 来加速模型训练并提高性能。该研究深入探讨了一对一匹配在优化器中的局限性,并提出了有效解决该问题的解决方案,如Rank 特征和贪婪匹配 。这种方法使DEYOv2的第三阶段能够最大限度地从第一和第二阶段获取信息,而 无需 NMS ,实现端到端优化 。通过组合密集查询、稀疏查询、一对多匹配和一对一匹配,DEYOv2 充分利用了每种方法的优势。与端到端模型DINO 相比, DEYOv2 在两个 epoch 设置中提供了 2.1AP 1.4AP 的显著性能提升。据我们所知,DEYOv2是第一个完全端到端的对象检测器,它结合了经典检测器和基于查询的检测器的各自优势。

1、介绍

经典检测器有一个共同点,它们严重依赖手工制作的组件,如非极大值抑制( NMS )。因为这些检测算法通常输出多个候选边界框,每个边界框对应于可能存在对象的区域。然而,这些候选框之间往往存在重叠或冗余,需要进行筛选和优化。
尽管 NMS 是一种有用的对象检测算法,但它确实有一些局限性。有一个问题是,他 可能会无意中删除与 得分最高的边界框明显重叠的边界框 尤其是在对象密集或大小相似的区域 。此外, NMS 的有效性可能会受到所选IoU 阈值的影响,这可能会导致检测结果的显著变化。在稀疏场景中,它可能会成为经典检测器的性能瓶颈。
检测转换器 DETR 提出了一种创新的基于转换器的对象检测器,该检测器利用了基于转换器的编码器 - 解码器框架。DETR 不依赖 NMS 的手动组件,而是使用匈牙利损失来预测一对一的对象集 ,带来端到端优化。NMS 在拥挤场景中表现不佳,因为它只根据 IoU 和类别简单信息对对象进行集群, 可能会将大小相 似的不同对象分组为一组 。相反, DETR 利用查询之间的交互来利用更复杂的信息并区分它们之间的关系。与NMS 相比,这种方法使 DETR 预测一对一对象集的策略更加合理, 从而在拥挤场景中比使用 NMS 的经典检测器具有更好的性能。
尽管 DETR 引起了研究界的极大兴趣,但它也存在许多问题。首先,应该注意的是, DETR 的收敛速度很慢,需要500 个训练 epoch 才能获得可接受的性能。然而, DEYO 算法从循序渐进的思想中获得了灵感,
为改进 DETR 提供了一个新的视角。 DEYO 使用低成本和高质量 YOLO 预测作为第二阶段 DETR-like 模型 的输入,以降低 DETR-like 模式预测一对一对象集的难度。 DEYO 结合了经典检测和基于查询的检测器各自的优势,从而提高了整体性能。同时, DEYO 也发现了一对一标签分配的局限性 。由于 DETR 使用一对一匹配,因此采用了建立分数差距的策略来抑制冗余的边界框 。这意味着 解码器需要对查询之间的关系 进行建模,并区分最佳和冗余边界框 DEYO 的实验表明,解码器在处理大量几乎相似的冗余边界框方面非常弱。随着proposal 查询的拥塞增加,性能逐渐降低,甚至在不使用 NMS 时训练崩溃。如图 3 所示,随着IoU 阈值的升高,这意味着拥塞增加的查询被输入解码器,性能也会下降,并且当不使用 NMS时,AP 会骤降至 0 。我们发现,在后处理中使用具有低 IoU 阈值的 NMS 并不能缓解这种性能下降。这表明影响最终性能的不仅仅是冗余边界框,但是丰富的bounding box 也严重阻碍了探测器在训练过程中的训练和优化。上述现象表明,基于查询的检测器的过滤能力有限,其对边界框的抑制策略不好,并且对查询初始化有严格要求,这在一定程度上限制了基于查询检测器的设计。DEYO 简单地通过使用 NMS 滤掉冗余的边界框来解决这个问题 ,但如图 9 所示,由于 NMS-IoU 阈值的降低,第一阶段的有效信息损失更大,这不仅破坏了DETR 的端到端优势,还限制了第一阶段的高效信息传输。就像经典的探测器一样,这个问题在拥挤的场景中会加剧。那么,有没有一种方法可以减少信息丢失,实现更优雅,并避免冗余边界框引起的优化?DEYOv2 通过引入 Rank 特征和贪婪匹配 来解决上述问题。 Rank 特征是指通过 置信度对边界框进行排序并通过嵌入进行编码后的 Rank 特征 。将其添加到解码器的查询中,可以使检测器更容易地学习到非极大值抑制策略,从而使检测器面临拥挤的环境。边界框仍然可以保持良好的过滤 效果。贪婪匹配可以不使用额外的标签,使用 GT 作为基准,对每个边界框进行聚类和监督,并引导模型 从每个类中选择具有最大 Rank 的边界框来保留 Rank 特征和贪婪匹配启用 DEYOv2 在从一对多标签分配到一对一标签分配的过度过程中摆脱对NMS 的依赖,它解决了 Transformer 编码器在过滤冗余边界框以实现端到端优化时遇到的优化问题。
在本文中,我们提出了一种称为 DEYOv2 的三阶段对象检测网络的新范式,据我们所知,它是第一个完全端到端的检测器,它结合了经典检测器和基于查询的对象检测器的各自优势。因此,我们的DEYOv2成为端到端目标检测器的新技术。
贡献
1 )我们 提出了第一个完全端到端的对象检测器 ,该检测器结合了经典检测器和基于查询的对象检测器各自的优点,它不仅优于目前最好的端到端检测器,而且不需要依赖手动组件NMS 来过滤掉阶段 1 的冗余边界框,因此推理速度不会延迟并保持稳定。
2 )我们深入分析了冗余 bounding boxes 对端到端优化的影响,并 提出了 Rank 特征和贪婪匹配 ,以使用更合理的策略来过滤掉大量密集的冗余bounding box

2、动机

结合前面的讨论,我们认为 DETR 的解码器在建立每个边界框之间的关系非常成功,和拥挤的边界框相比,应该更难区分稀疏边界框,并且DEYO 在低 IoU 阈值上实现了良好的性能,这表明 DETR 可以很好的处理稀疏边界盒的聚类,因此,DETR 也应该能够很好地处理拥挤的边界框的聚类,后者的难度明显低于前者。这启发我们重新审视当前的滤波策略,分析拥挤的边界盒阻碍检测器优化的原因,并提出有效的解决方案。我们猜测,对于几乎相似的边界框,尽管检测器可以很好地对他们进行聚类,但很难学习到从聚类中选择并保留边界框的有效策略。在极端情况下,对于n 个相同的边界框,使用一对一的标签分配,DETR 不可能从原始数据中学习有效的过滤策略。同时,当边界框过于相似时,也可能导致二进制匹配的不稳定性。进一步阻碍优化,DEYO 简单地使用 NMS 来通过建立 IoU 间隙来避免优化问题。我们认为,建立分数差距也应该取得类似的效果。

3、方法

3.1 Rank 特征

如图 4 所示,当遇到几乎相同的边界框时,检测器很难学习有效的策略来选择要保留的边界框,而这正是NMS擅长的。非极大值策略可以使 NMS 从大量几乎相同的冗余边界框中选择一个边界框,而不会导致性能损失。我们尝试了几种策略,让模型直接从原始数据中学习非最大值抑制策略 ,但都以 失败 告终。为了降低模型的训练难度,受[12] 的启发,引入了 Rank 特征来解决这个问题。研究发现, 添加 Rank 特征 比直接将置信度传递给模型表现得更好 。我们认为性能更好的原因是 Rank 特征可以使模型更容易地学习 非最大值抑制策略 。这是 因为 Rank 特征可以迫使几乎相同的边界框之间存在差距 ,因为即使置信度相同,排名仍然存在顺序差距。根据这个阶差模型,很容易学会选择排名靠前的边界框来保持,这样对于n个相同的边界框,模型仍然可以根据rank 特征区分它们之间的区别,并选择保留的顶级边界框。

3.2 贪婪匹配

在处理几乎相同的冗余边界框时,由于一对一匹配的局限性,与一对一的匹配一样, 基于最小化二分匹 配矩阵的代价来确定边界框保留是不合理的 。我们 提出了一种称为贪婪匹配的标签分配方法 ,其中为每个边界框分配一个具有最小匹配损失的基本事实标签,并且成本矩阵计算方法与阶段3 的一对一匹配一致。我们根据基本事实对边界框进行聚类,并只保留每个聚类中排名最高的边界框,为保留的边界框分配标签1 ,为过滤掉的边界框指定标签 0 。由于很难用电流检测器实现置信度和 IoU 之间的严格正相关,这导致了如图5 所示的情况,其中高 rank 并不一定意味着良好的定位。仅仅靠 rank 进行选择会影响模型选择更好边界框的能力,导致选择位置不佳的高分红色边界框,最终损害模型性能。为了解决这一现象,引入了一个 \theta值来调整标签分配。具体来说,我们将rank-1 分配给 IoU 小于 y rank 小于的对象, 并且只保留rank 大于 1 的对象。这种方法允许更合理的标签分配和更高的性能。此外,通过基于边界框各自的基本事实对其进行聚类。我们的方法引导模型放弃局部对象较差的聚类,降低了任务难度大,加强了过滤策略的学习。

4DEYOv2

4.1 model概述

我们的模型使用 YOLOv5x 作为第一阶段, DINO 作为第三和第二阶段,提供了一个新的基于渐进推理的三阶段模型。YOLOv5x 是经典 YOLO 系列的探测器;它包含一个主干,一个包含 FPN+PAN 的颈部,以及一个输出三尺度预测的头部。作为一个类似DETR 的模型, DINO 包含主干、多层变换编码器、多层变换解码器和多个预测头。它使用锚边界框的静态查询和动态初始化,并涉及用于比较去噪训练的额外CDN分支。DEYOv2 DINO 最大的区别在于, DEYOv2 的第三阶段使用来自第二阶段的高质量建议查询来初 始化查询,整个DEYOv2 模型如图 6 所示。

4.2 密集查询到稀疏查询

由于变换器的计算复杂度随着查询数量的增加而二次增加,因此基于查询的数量通常为 300900 ,并以YOLOv5为例,它可以提供数以万计的查询,这比基于查询的检测器多了几个数据集,并且与基于查询的检测设备相比,维护单个查询的成本要低。我们认为,密集查询中包含的信息可以大大减轻后续稀疏查询检测的负担,从而使stage2 stage3 在密集场景中可以实现更好的性能。然而,由于转换器的计算复杂度与序列呈二次关系,这限制了第2 阶段和第 3 阶段的查询数量。因此,我们使用查询选择器来选择高质量的查询,并在有限的查询中尽可能多地保留原始密集查询中包含的信息。因此,我们使用查询选择器来选择高质量的查询,并在有限的查询中尽可能保留原始密集查询中包含的信息。第3 阶段的查询比第1 阶段少,这使得我们可以对查询之间的关系进行建模,并且我们可以像稀疏查询中注入更多信息;即使维护单个稀疏查询的成本高于密集查询的成本,该成本也可以是准确性和速度之间的良好权衡。我们使用一个简单的top-k 和适配器模块来完成从密集查询到稀疏查询的转换。我们相信适配器模块可以最大限度地保留原始密集查询的信息,并是不同输出层查询的维度与稀疏查询的维度一致。

4.3查询选择器

对于端到端优化,我们只需要使用 top-k 来完成从密集查询到稀疏查询的替换。然而,应该注意的是,NMS仍然是最大程度地保留阶段 1 信息的过渡方法。如图 7 所示,由于 stage1 中存在大量冗余边界框,因 此直接使用top-k 选择策略会导致所选查询中存在大量信息溶于。 NMS 可以解决这个问题, DEYOv2 中采用NMS 的动机与 DEYOv2 不同,只是为了尽可能地过滤掉冗余信息。由于查询过滤器的存在,我们不必担心IoU 阈值的设置不合理,这使得模型的优化变得困难。这使我们能够基于 PRE-Matching 快速调整IoU阈值参数,而不像 DEYO 那样只有在得道训练的最终结果后才能评估 IoU 阈值的质量。

4.4 查询筛选器

DEYOv2 使用查询过滤器,放弃了 NMS 对过滤冗余边界框的依赖,完全实现了端到端。查询筛选器只需要设置一个置信阈值过滤候选边界框像大多数端到端检测器一样,以完成冗余边界框的过滤。在DEYOv2中,我们将置信阈值设置为 0.1 ,我们使用贪婪匹配为查询过滤器的输出分配标签。我们使用焦点损失来监督查询过滤器对冗余边界框的过滤。通过一个简单的策略:0 表示过滤掉的, 1 表示保留的,
并将大量高置信度的类似冗余对象返回到低置信度。基于这种策略,可以将建立的分数差距传递给阶段
3 ,这便于阶段 3 进一步过滤边界框。由于过滤查询的数量不是恒定的,如图 8 所示,我们将过滤查询插入解码器的init 查询中,可以保证批量培训。

4.5一对多与一对一匹配

正如本文前面多分析的, IoU 和置信度之间的严格正相关是当前检测器的一个困难条件。在贪婪匹配中,我们用实际边界框过滤掉IoU<0.6 的所有边界框,使模型获得更好的性能。其次,贪婪匹配聚类围绕基本事实,这两者都会导致一些定位不佳的边界框进行过滤。查询过滤过滤掉一些冗余的边界框,代价是一些定位不好的边界框的召回率,这在一定程度上影响了最终的性能,所以我们使用具有一对一匹配的stage3来补偿这部分性能损失。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1527532.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

工控MCGS触摸屏Hacking勒索部署

https://github.com/MartinxMax/Mo0n_V1.2 !!不关注点赞收藏,以后没好东西了奥!! 端口扫描-获取信息 $python Mo0n.py -scan x.x.x.0/24 or $nmap -sS -Pn -T4 x.x.x.0/24 -p 127 MCGS编程软件 发现触摸屏受到密码保护 Oops&#xff01;&#xff01;&#xff01; echo /\_…

鸿蒙Harmony应用开发—ArkTS声明式开发(绘制组件:Circle)

用于绘制圆形的组件。 说明&#xff1a; 该组件从API Version 7开始支持。后续版本如有新增内容&#xff0c;则采用上角标单独标记该内容的起始版本。 子组件 无 接口 Circle(options?: {width?: string | number, height?: string | number}) 从API version 9开始&…

Flutter-底部弹出框(Widget层级)

需求 支持底部弹出对话框。支持手势滑动关闭。支持在widget中嵌入引用。支持底部弹出框弹出后不影响其他操作。支持弹出框中内容固定头部和下面列表时&#xff0c;支持触摸头部并在列表不在头部的时候支持滑动关闭 简述 通过上面的需求可知&#xff0c;就是在界面中可以支持…

Smart Light Random Memory Sprays Retinex 传统图像增强 SLRMSR

文章目录 前言1、Smart Light Random Memory Sprays Retinex概况2、Smart Light Random Memory Sprays Retinex的实现2.1、SLRMSR算法的伪代码2.2、初始化记忆喷雾&#xff08;CreateInitialMemorySpray&#xff09;2.3、更新记忆喷雾 (UpdateMemorySpray)2.4、计算颜色校正因子…

到底什么时候该使用MongoDB

NoSQL是什么 NoSQL &#xff1a; Not Only SQL , 本质也是一种数据库的技术&#xff0c;相对于传统数据库技术&#xff0c;它不会遵循一些约束&#xff0c;比如 &#xff1a; sql 标准、 ACID 属性&#xff0c;表结构等。 NoSQL分类 类型应用场景典型产品Key-value存储缓存&…

【Excel自动化办公】使用openpyxl对Excel进行读写操作

目录 一、环境安装 1.1 创建python项目 1.2 安装openpyxl依赖 二、Excel数据读取操作 三、Excel数据写入操作 3.1 创建空白工作簿 3.2 写数据 四、设置单元格样式 4.1 字体样式 4.2 设置单元格背景填充色 4.3 设置单元格边框样式 4.4 单元格对齐方式 4.5 数据筛选…

体系化全面认识 Nginx !

高并发、高性能&#xff1b;模块化架构使得它的扩展性非常好&#xff1b;异步非阻塞的事件驱动模型这点和 Node.js 相似&#xff1b;相对于其它服务器来说它可以连续几个月甚至更长而不需要重启服务器使得它具有高可靠性&#xff1b;热部署、平滑升级&#xff1b;完全开源&…

代码随想录算法训练营第46天 | 完全背包,139.单词拆分

动态规划章节理论基础&#xff1a; https://programmercarl.com/%E5%8A%A8%E6%80%81%E8%A7%84%E5%88%92%E7%90%86%E8%AE%BA%E5%9F%BA%E7%A1%80.html 完全背包理论基础&#xff1a; https://programmercarl.com/%E8%83%8C%E5%8C%85%E9%97%AE%E9%A2%98%E7%90%86%E8%AE%BA%E5%9…

数字化社会的新纪元:揭秘 Web3 的社交网络

随着区块链技术的不断发展和普及&#xff0c;Web3作为其重要组成部分&#xff0c;正逐渐改变着社交网络的面貌。Web3的出现不仅为社交网络带来了新的技术和理念&#xff0c;还为用户提供了更加开放、透明和安全的社交体验。本文将深入探讨Web3的社交网络&#xff0c;揭示其在数…

计算机网络:性能指标

计算机网络&#xff1a;性能指标 速率带宽吞吐量时延时延带宽积往返时间利用率丢包率 本博客介绍计算机网络的性能指标&#xff0c;我们可以从不同的方面来度量计算机网络的性能。常用的计算机网络性能指标有以下 8 个&#xff0c;他们是&#xff1a;速率、带宽、吞吐量、时延、…

47.全排列II

// 定义一个Solution类&#xff0c;用于解决给定不重复整数数组的全排列问题 class Solution {// 初始化结果集&#xff0c;用于存放所有不重复的全排列组合List<List<Integer>> result new ArrayList<>();// 初始化路径变量&#xff0c;用于暂存当前递归生…

ESP32实现(MQTT Client)连接物联网平台(EMQX)

目录 概述 1 配置EMQX服务器 1.1 搭建EMQX服务器 1.2 配置服务器参数 2 ESP32实现MQTT Client 2.1 创建MQTT Client项目 2.2 实现MQTT Client 2.3 ESP32连接EMQX 3 ESP32Client实现广播和订阅消息 3.1 广播消息 3.1.1 编写广播消息函数 3.1.2 下载和验证 3.1.3 订阅…

Windows11安装Msql8.0版本详细安装步骤!

文章目录 前言一、下载Mysql二、安装Mysql三、登录验证三、环境变量配置总结 前言 每次搭建新环境的时候&#xff0c;都需要网上搜寻安装的步骤教程&#xff01;为了以后方便查阅&#xff01;那么本次就记录一下Windows11安装Msql8.0的详细步骤&#xff01;也希望能帮助到有需…

蓝桥杯物联网竞赛_STM32L071_12_按键中断与串口中断

按键中断&#xff1a; 将按键配置成GPIO_EXTI中断即外部中断 模式有三种上升沿&#xff0c;下降沿&#xff0c;上升沿和下降沿都会中断 external -> 外部的 interrupt -> 打断 trigger -> 触发 detection -> 探测 NVIC中将中断线ENABLE 找接口函数 在接口函数中写…

Apache Doris 2.1 核心特性 Variant 数据类型技术深度解析

在最新发布的 Apache Doris 2.1 新版本中&#xff0c;我们引入了全新的数据类型 Variant&#xff0c;对半结构化数据分析能力进行了全面增强。无需提前在表结构中定义具体的列&#xff0c;彻底改变了 Doris 过去基于 String、JSONB 等行存类型的存储和查询方式。为了让大家快速…

redis-黑马点评-商户查询缓存

缓存&#xff1a;cache public Result queryById(Long id) {//根据id在redis中查询数据String s redisTemplate.opsForValue().get(CACHE_SHOP_KEY id);//判断是否存在if (!StrUtil.isBlank(s)) {//将字符串转为bean//存在&#xff0c;直接返回Shop shop JSONUtil.toBean(s, …

Linux课程四课---Linux第一个小程序(进度条)

作者前言 &#x1f382; ✨✨✨✨✨✨&#x1f367;&#x1f367;&#x1f367;&#x1f367;&#x1f367;&#x1f367;&#x1f367;&#x1f382; ​&#x1f382; 作者介绍&#xff1a; &#x1f382;&#x1f382; &#x1f382; &#x1f389;&#x1f389;&#x1f389…

Windows影子账户

Windows影子账户 先检查administrator账户有没有被禁用&#xff0c;如果administrator账户被禁用 所属组内的账户都会被禁用&#xff0c;导致影子账户无法登录 创建隐藏用户 加入管理员组 隐藏用户创建方法&#xff1a; net user 用户名$ 密码 /add 输入 regedit打开注册表…

微信小程序简单实现手势左右滑动和点击滑动步骤条功能

使用微信小程序实现左右滑动功能&#xff0c;自定义顶部图案&#xff0c;点击文字滑动和手势触屏滑动&#xff0c;功能简单&#xff0c;具体实现代码如下所示&#xff1a; 1、wxss代码&#xff1a; /* 步骤条 */ .tab-box {display: flex;flex-direction: row;position: fix…

springboot整合springsecurity,从数据库中认证

概述&#xff1a;springsecurity这个东西太容易忘了&#xff0c;这里写点东西&#xff0c;避免忘掉 目录 第一步&#xff1a;引入依赖 第二步&#xff1a;创建user表 第三步&#xff1a;创建一个用户实体类&#xff08;User&#xff09;和一个用于访问用户数据的Repository…