一文打尽目标检测NMS(1): 精度提升篇

news2025/1/11 21:06:01

文章来自于:曲終人不散丶@知乎,
连接:https://zhuanlan.zhihu.com/p/151914931, 本文仅用于学术分享,如有侵权,前联系后台做删文处理。

在这里插入图片描述
众所周知,非极大值抑制NMS是目标检测常用的后处理算法,用于剔除冗余检测框,本文将对可以提升精度的各种NMS方法及其变体进行阶段性总结。

总体概要

对NMS进行分类,大致可分为以下六种,这里是依据它们在各自论文中的核心论点进行分类,这些算法可以同时属于多种类别。

  • 1.分类优先:传统NMSSoft-NMS (ICCV 2017)
  • 2.定位优先:IoU-Guided NMS (ECCV 2018)
  • 3.加权平均:Weighted NMS (ICME Workshop 2017)
  • 4.方差加权平均:Softer-NMS (CVPR 2019)
  • 5.自适应阈值:Adaptive NMS (CVPR 2019)
  • 6.+中心点距离:DIoU-NMS (AAAI 2020)

分类优先

传统NMS有多个名称,据不完全统计可以被称为:Traditional / Original / Standard / Greedy NMS,为统一起见,下称Traditional NMS

Traditional NMS算法是最为经典的版本,伪代码如下:
在这里插入图片描述
作为最为人所知晓的版本,Traditional NMS不仅有CPU版本,并且现已有GPU版本,GPU版本为Ross Girshick大神编写,俗称CUDA NMS。多个深度学习框架也已将CUDA NMS纳入,作为基本函数使用,如Pytorch在Torchvision 0.3中正式集成了CUDA NMS。

缺点:

  • 顺序处理的模式,计算IoU拖累了运算效率。
  • 剔除机制太严格,依据NMS阈值暴力剔除。
  • 阈值是经验选取的。
  • 评判标准是IoU,即只考虑两个框的重叠面积,这对描述box重叠关系或许不够全面。

Soft-NMS是Traditional NMS的推广,主要旨在缓解Traditional NMS的第二条缺点。
数学上看,Traditional NMS的剔除机制可视为

在这里插入图片描述
显然,对于IoU≥NMS阈值的相邻框,Traditional NMS的做法是将其得分暴力置0。这对于有遮挡的案例较不友好。因此Soft-NMS的做法是采取得分惩罚机制,使用一个与IoU正相关的惩罚函数对得分 s s s
进行惩罚。

线性惩罚:

在这里插入图片描述
显然,对于IoU≥NMS阈值的相邻框,Traditional NMS的做法是将其得分暴力置0。这对于有遮挡的案例较不友好。因此Soft-NMS的做法是采取得分惩罚机制,使用一个与IoU正相关的惩罚函数对得分 s 进行惩罚。

  • 其中 M M M代表当前的最大得分框。
  • 线性惩罚有不光滑的地方,因而还有一种高斯惩罚:
    在这里插入图片描述
    在迭代终止之后,Soft-NMS依据预先设定的得分阈值来保留幸存的检测框,通常设为0.0001

该文对两种惩罚方法的超参数也进行了实验,结果验证了超参数的不敏感性。经本人实测,Soft-NMS在Faster R-CNN中的提升约有0.5-0.8个点的AP提升。

缺点:

  • 仍然是顺序处理的模式,运算效率比Traditional NMS更低。
  • 对双阶段算法友好,而在一些单阶段算法上可能失效。
  • 如果存在定位与得分不一致的情况,则可能导致定位好而得分低的框比定位差得分高的框惩罚更多(遮挡情况下)
  • 评判标准是IoU,即只考虑两个框的重叠面积,这对描述box重叠关系或许不够全面。

定位优先

IoU-Guided NMS出现于IoU-Net一文中,研究者认为框的定位与分类得分可能出现不一致的情况,特别是框的边界有模棱两可的情形时。因而该文提出了IoU预测分支,来学习定位置信度,进而使用定位置信度来引导NMS。

在这里插入图片描述
具体来说,就是使用定位置信度作为NMS的筛选依据,每次迭代挑选出最大定位置信度的框 M M M
,然后将IoU≥NMS阈值的相邻框剔除,但把冗余框及其自身的最大分类得分直接赋予 M M M
,这样一来,最终输出的框必定是同时具有最大分类得分与最大定位置信度的框。

优点

IoU-Guided NMS有助于提高严格指标下的精度,如AP75, AP90

缺点:

  • 顺序处理的模式,运算效率与Traditional NMS相同。
  • 需要额外添加IoU预测分支,造成计算开销。
  • 评判标准是IoU,即只考虑两个框的重叠面积,这对描述box重叠关系或许不够全面。

加权平均

在这里插入图片描述

框共同决定一框

Weighted NMS出现于ICME Workshop 2017《Inception Single Shot MultiBox Detector for object detection》一文中。论文认为Traditional NMS每次迭代所选出的最大得分框未必是精确定位的,冗余框也有可能是定位良好的。那么与直接剔除机制不同,Weighted NMS顾名思义是对坐标加权平均,加权平均的对象包括 M M M自身以及IoU≥NMS阈值的相邻框。

在这里插入图片描述
在这里插入图片描述

优点:

Weighted NMS通常能够获得更高的Precision和Recall,以本人的使用情况来看,只要NMS阈值选取得当,Weighted NMS均能稳定提高AP与AR,无论是AP50还是AP75,也不论所使用的检测模型是什么。

缺点:

  • 顺序处理模式,且运算效率比Traditional NMS更低。
  • 加权因子是IoU与得分,前者只考虑两个框的重叠面积,这对描述box重叠关系或许不够全面;而后者受到定位与得分不一致问题的限制。

方差加权平均

Softer-NMS同样是坐标加权平均的思想,不同在于权重
发生变化,以及引入了box边界的不确定度。

关于目标检测box不确定度,可参考笔者的另一篇文章《一文了解目标检测边界框概率分布》

加权公式如下:
在这里插入图片描述
在加权平均的过程中,权重越大有两种情形:1. 与 M M M 的IoU越大;2. 方差越小,代表定位不确定度越低。
在这里插入图片描述

优点:

  • 可以与Traditional NMS或Soft-NMS结合使用。
  • 通常可以稳定提升AP与AR。

缺点:

  • 顺序处理模式,且运算效率比Traditional NMS更低。
  • 需要修改模型来预测方差。
  • 加权因子是IoU与方差,前者依然只考虑两个框的重叠面积,这对描述box重叠关系或许不够全面。

自适应阈值

以上这些NMS都基于这样的假设:与当前最高得分框重叠越大,越有可能是冗余框。

Adaptive NMS的研究者认为这在物体之间有严重遮挡时可能带来不好的结果。我们期望当物体分布稀疏时,NMS可选用小阈值以剔除更多冗余框;而在物体分布密集时,NMS选用大阈值,以获得更高的召回。既然如此,该文提出了密度预测模块,来学习一个框的密度。

在这里插入图片描述
在这里插入图片描述

优点:

  • 可以与前面所述的各种NMS结合使用。
  • 对遮挡案例更加友好。

缺点:

  • 与Soft-NMS结合使用,效果可能倒退 (受低分检测框的影响)。
  • 顺序处理模式,运算效率低。
  • 需要额外添加密度预测模块,造成计算开销。
  • 评判标准是IoU,即只考虑两个框的重叠面积,这对描述box重叠关系或许不够全面。

+中心点距离

DIoU-NMS出现于Distance-IoU一文,研究者认为若相邻框的中心点越靠近当前最大得分框
的中心点,则其更有可能是冗余框。也就是说,考虑IoU相同的情况,如下所示
在这里插入图片描述
第一种相比于第三种越不太可能是冗余框。基于该观点,研究者使用所提出的DIoU替代IoU作为NMS的评判准则,公式如下:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
研究者进一步比较了Traditional NMS和DIoU-NMS的性能,在YOLOv3和SSD上,选取NMS阈值为[0.43,0.48]。可以看到DIoU-NMS在每个阈值上都优于Traditional NMS,此外还值得一提的是,即便是性能最差的DIoU-NMS也比性能最好的Traditional NMS相当或更优,说明即便不仔细调整NMS阈值,DIoU-NMS也通常能够表现更好。
在这里插入图片描述
这里顺便一提,既然都比了[0.43, 0.48]的阈值,就让人比较好奇更宽的阈值范围会怎样?Traditional NMS会不会有反超DIoU-NMS的情况?当然我个人比较认同DIoU-NMS更优的范围会大一些,也就是NMS阈值不必精调也可放心使用DIoU-NMS。

优点:

  • 从几何直观的角度,将中心点考虑进来有助于缓解遮挡案例。
  • 可以与前述NMS变体结合使用。
  • 保持NMS阈值不变的情况下,必然能够获得更高recall (因为保留的框增多了),至于precision就需要调
    来平衡了。
  • 个人认为+中心点距离的后处理可以与DIoU/CIoU损失结合使用,这两个损失一方面优化IoU,一方面指引中心点的学习,而中心点距离学得越好,应该对这种后处理思想的执行越有利。

缺点:

  • 依然是顺序处理模式,运算效率低。
  • DIoU的计算比IoU更复杂一些,这会降低运算效率。
  • 在保持NMS阈值不变的情况下,使用DIoU-NMS会导致每次迭代剩余更多的框,这会增加迭代轮数,进一步降低运算效率。(经本人实测,DIoU-NMS是Traditional NMS 起码1.5倍耗时)

总结:

  • 加权平均法通常能够稳定获得精度与召回的提升。
  • 定位优先法,方差加权平均法与自适应阈值法需要修改模型,不够灵活。
  • 中心点距离法可作为额外惩罚因子与其他NMS变体结合。
  • 得分惩罚法会改变box的得分,打破了模型校准机制。
  • 运算效率的低下可能会限制它们的实时应用性。

参考文献

  • Soft-NMS --Improving Object Detection With One Line of Code. ICCV 2017
  • Acquisition of Localization Confidence for Accurate Object Detection. ECCV 2018
  • Inception Single Shot MultiBox Detector for object detection. ICME Workshop 2017
  • Bounding Box Regression with Uncertainty for Accurate Object Detection. CVPR 2019
  • Adaptive NMS: Refining Pedestrian Detection in a Crowd. CVPR 2019
  • Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression. AAAI 2020

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/477868.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

黑客如何在攻击中使用生成式人工智能以及我们能做些什么?

生成式人工智能 (AI) 最近备受关注。AI 驱动的聊天机器人 ChatGPT 和 VALL-E 等其他支持自然语言处理的系统已将生成 AI 带给了公众,并释放了它的好处和坏处。 关于生成式 AI 的核心担忧之一是它可用于升级恶意攻击并提出更复杂的网络攻击。 那么,黑客…

简单有趣的轻量级网络 Shufflenet v1 、Shufflenet v2(网络结构详解+详细注释代码+核心思想讲解)——pytorch实现

这期博客咱们来学习一下Shufflenet系列轻量级卷积神经网络,Shufflenet v1 、Shufflenet v2。 首先学习一下,Shufflenet v1网络: 论文下载链接: Shufflene系列轻量级卷积神经网络由旷世提出,也是非常有趣的轻量级卷积神经网络,它提出了通道混合的概念,改善了分组卷积存…

IPsec中IKE与ISAKMP过程分析(主模式-消息3)

IPsec中IKE与ISAKMP过程分析(主模式-消息1)_搞搞搞高傲的博客-CSDN博客 IPsec中IKE与ISAKMP过程分析(主模式-消息2)_搞搞搞高傲的博客-CSDN博客 阶段目标过程消息IKE第一阶段建立一个ISAKMP SA实现通信双发的身份鉴别和密钥交换&…

【Java笔试强训 15】

🎉🎉🎉点进来你就是我的人了博主主页:🙈🙈🙈戳一戳,欢迎大佬指点! 欢迎志同道合的朋友一起加油喔🤺🤺🤺 目录 一、选择题 二、编程题 🔥查找输入…

Vue中 引入使用 patch-package 为依赖打补丁 (以修改 vue-pdf 打包后 [hash].worker.js 路径问题为例)

1. patch-package 简介 patch-package npm地址 patch-package github文档 npm i patch-package如果不需要在生产中运行 npm (如:正在制作 web 前端,则可使用 --save dev) 1.2 使用方法 制作修补程序 首先更改 node_modules 文件夹中特定包…

大数据之Spark集群角色

文章目录 前言一、Spark集群角色介绍(一)Spark集群简介(二)集群角色介绍 总结 前言 #博学谷IT学习技术支持# 上篇文章主要介绍了Spark的运行流程,可以通过链接复习以加深印象:Spark运行流程,本…

redis面试重点------源于黑马

缓存问题三兄弟 是因为不同的原因让请求全部打到了数据库而造成的问题 什么是缓存穿透? 缓存穿透是指查询一个数据,在redis和MySQL中都不存在。也就是查询一个数据不存在的数据,导致每次请求都会到达数据库,给数据造成很大的压力…

如何选择最适合你的商城小程序开发公司

随着电子商务的快速发展,越来越多的企业开始认识到商城小程序的重要性。作为一个准备开发商城小程序的企业,你一定会面临一个重要的问题:商城小程序开发哪家好?如何选择最适合你的商城小程序开发公司? 在选择商城小程…

【Java笔试强训 17】

🎉🎉🎉点进来你就是我的人了博主主页:🙈🙈🙈戳一戳,欢迎大佬指点! 欢迎志同道合的朋友一起加油喔🤺🤺🤺 目录 一、选择题 二、编程题 🔥杨辉三角…

趣说数据结构 —— 3.线性表中的循环链表与双向链表

本节介绍线性表中的循环链表与双向链表,主要包括基本结构,主要特点以及适用场景三部分内容。 3.1 循环链表与双向链表 循环链表(Circular Linked List) 是另一种形式的链式存储结构。其特点是表中 最后一个结点的指针域指向头结…

sklearn.metrics 中的f1-score介绍

1 f1_score,averagebinary, macro, micro, weighted F1得分可以解释为精确度和召回率的调和平均值,其中F1得分达到其最佳值为1,最差得分为0。精确度和召回率对F1得分的相对贡献相等。F1得分的公式为: 在多类别和多标签的情况下,这…

4.30学习周报

文章目录 前言文献阅读摘要简介数据源和预处理理论基础与模型构建结果和讨论结论和未来工作 时间序列预测总结 前言 本周阅读文献《Water Quality Prediction Based on LSTM and Attention Mechanism: A Case Study of the Burnett River, Australia》,文献主要提出…

SOLIDWORKS培训|弧长如何标注

大家在使用SolidWorks软件时,如果想对不同形状的弧长度进行标注,可以试试以下方法。 ◉ 标注圆弧 点四下鼠标,需要点击弧线和两个端点。 我们先使用圆心起点圆弧工具绘制一个圆弧。 然后点击智能尺寸,点击圆弧,没错…

【Python_Opencv图像处理框架】信用卡数字识别项目

写在前面 本篇文章是opencv学习的第六篇文章,前面主要讲解了对图像的一些基本操作,这篇文章我们就开始大展身手,将前面所学的基础操作活学活用。既能复习基础操作,又能学到一些新的知识。作为初学者,我尽己所能&#…

Change Buffer详解

change Buffer基本概念 Change Buffer:写缓冲区,是针对二级索引(辅助索引) 页的更新优化措施 作用: 在进行DML(写)操作(insert/update/delete)时,如果请求的是 辅助索引(非唯一键索引)没有在缓冲池 中时,并不会立刻将…

多态

一、多态性概述 1、静态多态实现的两种方式:模板和函数重载 2、动态多态(一般上所说的多态都是指动态多态) 示例: 若执行pa->f(pa),则由动态编联找到派生类,而pa静态类型为A*,所以输出3若执行…

notepad++安装HexEditor插件查看二进制文件

文章目录 前言一、下载 HexEditor 插件二、解压文件三、将插件放置到 plugins 目录下四、重启软件测试 前言 有时候我们需要分析二进制文件,但是分析二进制文件直接用编辑器查看会出现乱码的情况,本文在 notepad 软件上安装一个 HexEditor 插件&#xf…

【Java笔试强训 19】

🎉🎉🎉点进来你就是我的人了博主主页:🙈🙈🙈戳一戳,欢迎大佬指点! 欢迎志同道合的朋友一起加油喔🤺🤺🤺 目录 一、选择题 二、编程题 🔥汽水瓶 …

各大“排序”特性及稳定性总结

一、各个排序特性 二、各个排序的稳定性分析及例子 稳定性如何定义:排序算法的稳定性并不是指它在对数组进行排序的时候的时间复杂度是否变化,而是对于相同数值的数据进行排序了之后它们的相对位置是否发生了变化,比如说在考试的时候…

【Java笔试强训 18】

🎉🎉🎉点进来你就是我的人了博主主页:🙈🙈🙈戳一戳,欢迎大佬指点! 欢迎志同道合的朋友一起加油喔🤺🤺🤺 目录 一、选择题 二、编程题 🔥统计每…