Copy-Paste

news2025/2/6 17:39:37

在2D视觉目标检测领域,由相似目标之间的重叠引起的拥挤是普遍存在的挑战。

文章地址:https://arxiv.org/pdf/2211.12110.pdf

研究者首先强调了拥挤问题的两个主要影响:1)IoU置信度相关干扰(ICD)和2)混淆重复数据消除(CDD)。然后,研究者从数据扩充的角度探索破解这些。

首先,针对拥挤的场景提出了一种特殊的复制粘贴方案。基于此操作,研究者首先设计了一种“共识学习”策略,以进一步抵抗ICD问题,然后发现粘贴过程自然地揭示了场景中目标的伪“深度”,这可能用于缓解CDD困境。这两种方法都源自对复制粘贴的神奇使用,无需额外的处理。

实验表明,在典型的拥挤检测任务中,新提出方法可以轻松地将最先进的检测器提高2%以上。此外,这项工作可以在拥挤场景中胜过现有的数据增强策略。

目标检测的任务已经被仔细研究了相当长的时间。在深度学习时代,近年来,已经提出了许多精心设计的方法,并将检测性能提高到了令人惊讶的高水平。尽管如此,仍然存在许多根本性问题没有得到根本解决。其中之一是“拥挤问题”,这通常表示属于同一类别的目标高度重叠在一起的现象。在几何方式中,基本困难源于2D空间的语义歧义。如下图所示,在我们的3D世界中,每个体素都有其“独特的语义”,并位于“特定目标”上。然而,投影到2D平面后,一个像素可能落在几个碰撞的对象上。在将概念从“像素”演变为“框”之后,拥挤场景中的语义模糊导致了重叠的概念。

为了探究这个问题的影响,研究者现在深入到检测范式的本质。通常,目标检测器读取图像并输出一组边界框,每个边界框与置信度分数相关。对于理想执行的检测器,得分值应反映预测框与GT的重叠程度。换句话说,这两个框之间的交集(IoU)应与置信度得分呈正相关。在下图中可视化了与IoU相关的得分的平均值和标准差后,结果表明,即使是像(Mask r-cnn)这样的现成检测器,这种正相关也会逐渐受到拥挤度增加的干扰。 

这项实验研究清楚地表明了当前检测算法在面对超重重叠时的困难。我们将这种效应体现为IoU置信度相关干扰(ICD)。另一方面,典型的检测管道通常以重复数据消除模块结束,例如,广泛采用的非极大抑制(NMS)。由于前面提到的2D语义模糊,这些模块经常被严重重叠的预测所混淆,这导致在人群中严重缺失。我们将这种效果称为混乱的重复数据消除(CDD)。 

Copy-Paste Augmentation:

Copy-Paste增强技术于2017年首次提出。通过从源图像中剪切目标块并粘贴到目标图像,可以轻松获取组合数量的合成训练数据,并显著提高检测/分割性能。这一惊人的魔力随后被后续作品所验证,并通过上下文改编进一步完善了该方法。Ghiasi等人声称只要训练足够,简单的Copy-Paste可以带来相当大的改进。他们的实验进一步表明了这种增强策略在实例级图像理解上的潜力。需要注意的是Copy-Paste的最初动机是使样本空间多样化,特别是对于稀有类别或缓解复杂的掩模标签。然而,研究者利用这种操作来精确地解决拥挤问题。尽管在以前的工作中有过简单的实践,但从未系统地设计和研究过这种策略在处理拥挤场景方面的实际效果。

Consensus Learning:

通过Copy-Paste工具包,使用专门的策略来抵抗ICD问题,从而增强检测器训练。考虑到上图所示的观察结果,预测分数的不稳定性来源于拥挤,一种新的解决方案是将拥挤环境中的一个目标的分数(被其他目标覆盖)与未覆盖时的分数对齐。由于Copy-Paste方法可以很容易地生成这种类型的目标对,其中两个相同的目标位于不同的环境中。下图说明了研究者的想法。

在前面的数据扩充之后,研究者选择了一组由其他目标覆盖的目标。然后,将与中的目标patch相同的目标patch重新粘贴到图像上,而不进行覆盖,从而构建另一组。在训练期间,强制执行每个目标的预测分数分布与其对应的保持一致。将这一过程称为共识学习,通过对每一对中的“达成共识”进行类比。具体来说,具体来说,让是与匹配的建议集,是匹配的建议集,首先计算每个目标得分的平均值和标准差:

 

Analyze the IoU-Confidence Disturbances:

现在,分析了方法在减轻上述ICD问题上的有效性。为了重新审视提出的原始动机,在下图中绘制了分数的标准差(STD)。

清楚地表明,用提出的Crowdedness-oriented Copy-Paste(CCP)训练的模型的 STDs明显低于基线模型(BL),并且通过提高拥挤程度(从图(a)到(d))。其次,虽然CCP和CCP+CL的曲线似乎没有明显的区别,但通过计算它们的平均std(图中的4个直方图),研究者发现后者的值实际上低于前者。

Alleviate the Confused De-Duplications:

增强策略有一个自然的副产品:对于粘贴的这些重叠目标,相对的“深度顺序”是先验的。换句话说,我们知道哪个在前面,哪个在后面。

基本上,2D空间中的歧义是由真实(3D)世界中缺少一维造成的。从这个角度来看,深度顺序可以被视为额外第三维度的一些薄弱知识,这有助于减轻模糊性。作为一种可行的实践,在这项工作中利用深度顺序信息来解决混淆的重复数据消除(CDD)问题。  whaosoft aiot http://143ai.com

引入一个名为“overlay depth”(OD)的变量,该变量描述了目标在视觉上被其他目标覆盖的程度。上图显示了计算OD的过程。首先假设一个目标的覆盖深度等于1.0,如果没有其他目标覆盖它。设是由目标覆盖的目标的区域,表示区域的大小。 

实验及可视化

Results on CrowdHuman val set

  OD prediction可视化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/102798.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

桥接模式

文章目录桥接模式1.桥接模式的本质2.何时选用桥接模式3.优缺点4.桥接模式的结构5.实现模拟消息发送MVC在桥接模式的体现桥接模式 桥接模式实质就是分离抽象和实现,抽象部分有多种,实现部分有多种,耦合在一起很难扩展,将其分离开来…

excel如何排序?两个方法汇总

排序是Excel中最常用的功能之一,也是数据分类和汇总操作的重要前提。excel如何排序?本文介绍如何给Excel里面的数据进行排序,方法很简单。感兴趣的朋友,赶紧来看看吧! 操作环境: 演示机型:Dell …

PostgreSQL 导入 SLS,从业务到监控数据

日志服务SLS数据导入简介 日志服务SLS是云原生观测和分析平台,为Log、Metric、Trace等数据提供大规模、低成本、实时的平台化服务。日志服务是提供一站式数据采集、加工、查询与分析、可视化、告警、消费与投递等功能。全面提升在研发、运维、运营、安全等场景的数…

web常见的攻击方式有哪些,以及如何进行防御?

一、是什么 Web攻击(WebAttack)是针对用户上网行为或网站服务器等设备进行攻击的行为 如植入恶意代码,修改网站权限,获取网站用户隐私信息等等 Web应用程序的安全性是任何基于Web业务的重要组成部分 确保Web应用程序安全十分重…

python中的模块与包详解

目录 一.什么是模块 二.模块的导入 1.import 模块名 2.from 模块名 import 功能名 3.from 模块名 import * 4.as定义别名 模块导入总结 三.自定义模块 制作自定义模块 用pycharm演示 测试模块_ _main_ _变量的作用 演示 ‘_ _all_ _’变量 自定义模块小结 四.python中的包…

Flink集成Seatunnel

安装包下载 相关包的下载地址 Apache SeaTunnel | Apache SeaTunnel Apache Flink: Downloads 解压(注意下载scala_2.11) tar -zxvf flink-1.13.6-bin-scala_2.11.tgz -C ../module/ Yarn模式部署 环境准备 sudo vi /etc/profile.d/my_env.sh 修…

中国清洁清洗行业等级资质

中国商业企业管理协会清洁服务商专业委员会——“中清委”(以下简称评定单位)承担组织等级清洁清洗服务机构评定工作。 申请资料 (1)专业清洁清洗服务机构等级评定申请表(附录B); (2)法人代表资格证明&#xff1…

小林Coding阅读笔记:操作系统篇之硬件结构,伪共享问题及CPU的任务执行

前言 参考/导流: 小林coding - 2.5 CPU 是如何执行任务的?学习意义 底层基础知识,了解CPU执行过程,让上层编码有效并发问题处理、思考理解调度策略、思想借鉴分析 相关说明 该篇博文是个人阅读的重要梳理,仅做简单参…

Transformer实现以及Pytorch源码解读(一)-数据输入篇

目标 以词性标注任务为例子,实现Transformer,并分析实现Pytorch的源码解读。 数据准备 所选的数据为nltk数据工具中的treebank数据集。treebank数据集的样子如以下两幅图所示: 该数据集中解释变量为若干句完整的句子: 被解释变…

Docker-DockerFile制定镜像

什么是DockerFile? DockerFile是一个用来编写Docker镜像的文本文件,文本内容包含了一条条构建镜像所需要的指令和说明。DockerFile就想要一个脚本文件一样。把我们想要执行的操作放到文本文件里,一键执行。这样我们就可以复用这个DockerFile…

读论文:Learning to Compare: Relation Network for Few-Shot Learning

Abstract 我们提出了一个概念上简单、灵活且通用的少镜头学习框架,其中分类器必须学习识别每个只给出少量示例的新类。我们的方法称为关系网络(RN),从头到尾进行训练。在元学习过程中,它学习学习一个深度距离度量来比较插曲中的少量图像&…

RNA-seq 详细教程:时间点分析(14)

学习内容 了解如何使用 DESeq2 进行时间的分析LRT 使用 LRT 进行 Time course 分析尽管基因表达的静态测量很受欢迎,但生物过程的时程捕获对于反映其动态性质至关重要,特别是当模式复杂且不仅仅是上升或下降时。在处理此类数据时,似然比检验 …

doris入门后遇到的几个问题总结

文章目录1. Access denied for user anonymnull (using password: NO)2. timeout when waiting for send fragments RPC. Wait(sec): 5, host: xxx(ip)3. Failed to initialize JNI: Failed to find the library libjvm.so.4. 从mysql库导出的json文件大于100M时报错5. csv格式…

OA办公系统:颠覆企业办公模式,激活组织潜能打造新模式

企业的生命力在于生存,而想要在竞争日益激烈的市场环境下生存,就必须不断革新自己的内部条件,否则将会在发展的洪流中被社会所淘汰。如今社会的发展正在信息化世界中进行,企业搭建信息化平台是一条必经之道,而OA办公自…

太爽了!看酷开系统帮你沉浸式带娃!

现如今,OTT大屏涉及的线上内容与娱乐方式与日俱增,不仅常规的电视节目、网剧影视能够随心选择,还发展出以大屏为载体的短视频、健身、云游戏等丰富内容。在人们的居家生活走向常态化的当下,更长的开机使用时间自然对电视操作系统的…

codeforces:C. Another Array Problem【分类讨论 + 找规律】

目录题目截图题目分析ac code总结题目截图 题目分析 做cf题目别老想着套算法模版 找规律才是正道,这就是所谓的「思维」 n 2很简单 n > 4: # 肯定有一个最大值,不妨设它的位置在第三个或以后的x# 前两个值经过两次操作,都变为0# 第0…

Vue.js 目录结构

当我们初始化一个项目后目录结构是这样的: 目录解析 目录/文件说明build项目构建(webpack)相关代码config配置目录,包括端口号等。我们初学可以使用默认的。node_modulesnpm 加载的项目依赖模块src这里是我们要开发的目录,基本上要做的事情都…

# 关于“table“中更新传参回填form

关于"table"中更新传参回填form 一、id查询数据库回填form 使用阶段:Javaweb/ssm/Springboot出现场景:jsp页面(el表达式)、thymeleaf页面(thymeleaf表达式,具体使用方法请前往百度)…

Python成求职中最吃香的三大编程语言之一

程序员培训公司 CodinGame 发布的一份开发人员调查报告显示,在开发人员招聘中,拥有 JavaScript、Java 和 Python 三大编程语言技能的开发人员最受招聘经理欢迎。 该报告基于对全球近 15,000 名开发人员和人力资源专业人员的调查。报告显示,每…

【IO流】JAVA基础篇(一)

文章目录一、字节流和字符流的区别1、字节和字符换算关系2、字节、位、二进制之间的关系3、在64位的操作系统中,一个字等于多少字节?4、字节流和字符流区别二、InputStream1、FileInputStream2、FilterInputStream3、ObjectInputStream4、PipedInputStre…