目标检测创新:一种基于区域的半监督方法,部分标签即可(附原论文下载)...

news2024/12/28 22:52:22

关注并星标

从此不迷路

计算机视觉研究院

eab4c18be04643a0f75b8457e97dfe8a.gif

efba27ead3be7af99909713ee2c44d10.gif

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

论文地址:https://arxiv.org/pdf/2201.04620v1.pdf

计算机视觉研究院专栏

作者:Edison_G

研究表明,当训练数据缺少注释(即注释稀疏的数据)时,目标检测器的性能会显着下降。

一、前言

研究表明,当训练数据缺少注释(即注释稀疏的数据)时,目标检测器的性能会显着下降。现在的方法侧重于以伪标签的形式或通过在训练期间重新加权未标记框的梯度来解决缺失真实标注的问题。

在这项工作中,研究者重新审视了稀疏注释目标检测的公式。研究者观察到稀疏注释的目标检测可以被认为是区域级别的半监督目标检测问题。基于这一见解,研究者们提出了一种基于区域的半监督算法,该算法可以自动识别包含未标记前景对象的区域。然后,提出的算法以不同方式处理标记和未标记的前景区域,这是半监督方法中的常见做法。为了评估所提出方法的有效性,对PASCAL-VOC和COCO数据集上稀疏注释方法常用的五个分割进行了详尽的实验,并实现了最先进的性能。除此之外,还表明新提出的方法在标准半监督设置上实现了竞争性能,证明了新方法的强度和广泛适用性。

二、背景

传统的目标检测方法假设训练数据集被详尽地标记。这种检测器的性能对标记数据的质量很敏感。用于训练目标检测器的数据中的噪声可能是由于噪声类标签或不正确/丢失的边界框而产生的。在这项工作中,研究者处理了缺少类标签和边界框注释的更难的问题,即稀疏注释的存在。稀疏注释目标检测(SAOD)是在训练数据中存在缺失注释的情况下提高目标检测鲁棒性的问题。这个问题在当前至关重要,因为获取众多数据集可能既昂贵又费力。另一种方法是使用计算机辅助协议来收集注释。然而,这些方法受到嘈杂/缺失标签的影响。因此,必须调整当前的目标检测器来解决稀疏注释的问题。

258584930138c3c3c72970f8eef8927a.png

问题的症结在于训练期间分配标签的方式。稀疏注释减少了真正的正样本并将假负样本引入训练,从而降低了网络性能。虽然这过于简单化了,但它可以更好地了解正在处理的问题。研究者建立在一个简单的观察之上,即SAOD是区域级别的半监督目标检测(SSOD)。然而,未标记的数据,在我们的例子中是包含前景对象的区域,是先验未知的,必须被识别。因此,SSOD方法不能直接应用于SAOD,因为当前的方法假设一个已知的未标记集以及一个详尽标记的训练集。同样,最近提出的SAOD方法在训练期间丢弃所有没有单个注释的图像,并且不能像SSOD方法那样真正利用未标记数据的力量。分别在上图的第1行和第2行中说明了SSOD和SAOD。

假设稀疏注释的目标检测方法应该是一个很好的半监督学习器,因为SSOD中的未标记图像可以被视为SAOD的缺失注释。我们在上图的第3行展示了这个公式。

三、新框架分析

所提出的方法如下图所示,由一个标准的骨干网络组成,该网络从图像的原始视图和增强视图中提取特征。

6f978402b304dd1a87ce02f381a74e37.png

一个通用的RPN将骨干网络提取的特征连接起来,生成一组通用的候选区域。候选区域b可以属于三个组之一,即:

  • 标记区域b∈ Bl

  • 未标记区域b∈Bul

  • 背景区域b∈ Bbg

对于给定的一组真实标注,可以自动识别第一组,即标记区域。然后问题就变成了从背景区域中识别和分离第二组,即未标记区域。给定所有候选区域,pseudo-positive mining(PPM)步骤识别未标记区域并将它们与背景区域分离。受半监督方法的启发,标记和未标记区域分别受到监督和非监督损失的监督。我们在下面详细描述每个阶段。

Feature Extraction

给定图像I,计算表示为A(I)的I的增强版本。在这项工作中,我们使用随机对比度、亮度、饱和度、光照和边界框以级联方式擦除以生成A(I)。 一个检测器骨干网络用于分别从I和A(I)中提取两个特征fo和fa。

Common RPN (C-RPN)

传统的两阶段目标检测器使用区域提议网络(RPN)来生成感兴趣区域(ROI)。fo和fa这两个特征使用RPN生成两组不同的ROI。对两组ROI进行操作增加了识别标记区域、未标记区域和背景区域的难度,同时增加了处理时间。此外,对于关联,必须执行匹配算法,如基于IoU)分数的Kuhn-Munkres算法,以获得输入图像的一组通用标记、未标记和背景框。由于不完美的匹配,此过程可能会很嘈杂。为了避免这种情况,提出了一种连接fo和fa以获得ROI的C-RPN。

b672ded3b892047fc2a4cfaa88fcb489.png

Pseudo Positive Mining

给定来自C-RPN的ROI,下一步是从标记区域和背景区域中识别未标记区域。基于我们的观察,即使在使用稀疏注释进行训练时,RPN也可以可靠地区分前景和背景区域,我们广泛依赖RPN的分数来识别未标记区域。

首先,根据可用的Ground Truth,所有分配为正的ROI都从C-RPN的输出中删除。接下来,所有具有大于阈值(本工作中为0.5和IoU小于阈值(本工作中为0.2)且具有任何GT的ROI都被视为未标记区域。剩余的ROI分配给负样本。我们稍后会证明这个简单的步骤可以提高RPN的召回率。请注意,由于阈值不同,一些未标记的区域可能会被错误地分配给负样本。这些地区将在后续阶段得到照顾。

Losses

在pseudo positive mining步骤之后,来自C-RPN的ROI被分为标记、未标记和背景区域。首先,ROI池化层从特征fo中提取标记区域和背景区域的区域特征,然后将其馈送到检测头。检测头预测每个区域的类别概率和边界框。稀疏GT用于监督这些预测,方法是将交叉熵损失应用于标记和背景区域的分类,以及平滑L1用于标记区域的边界框回归:

80bd4087bb9cfd0b21da47a83ea9b2b3.png

最后,对未标记区域执行与类别无关的NMS,以删除导致Nu唯一区域的重复项。Nu未标记区域与fo和fa一起通过ROI池化层和检测头,分别获得fdo和fda。应用了如下所示的一致性正则化损失,它强制原始区域和增强区域的特征彼此一致。

7eb36c7ed191bafbfd89e7583eee5f05.png

四、实验

Sparsely annotated object detection在COCO的结果

a52ec5f796e92f0f152e23112f9a1482.png

Sparsely annotated object detection在VOC结果

0c2d51f2c979d0de78889fb49d5dbbc8.png

48c62d30274c9b2b9f0cd4935d92449c.png

Qualitative results showing the unlabeled regions identified by the pseudo-positive mining step. The red boxes correspond to the available ground truth. A class agnostic NMS was performed on the regions and the result is shown in white.‍

0ac9a16434ec4ae54a79e6fedf44e47c.png

将使用可用的GT(顶部)训练的“普通”模型的输出与使用新提出的方法训练的模型(底部)进行比较的定性结果。显示类别置信度分数大于0.9的预测。红色:人,青色:狗,紫色:马,黄色:时钟,绿色:停车标志,蓝色:停车计时器,紫色:长颈鹿,橙色:盆栽,黑色:冲浪板,深绿色:船。

© The Ending

转载请联系本公众号获得授权

cf0e67803ab21d6ca94457d65ec76ddb.gif

计算机视觉研究院学习群等你加入!

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

89faddc3c2339024e414df8ccb0b48fd.jpeg

扫码关注

计算机视觉研究院

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

 往期推荐 

🔗

  • 粉丝新年福利:人类视觉计算理论经典著作,豆瓣评分9.7!(免费赠送关注者)

  • 利用先进技术保家卫国:深度学习进行小目标检测(适合初学者入门)

  • 用于精确目标检测的多网格冗余边界框标注

  • 华为诺亚方舟实验室品:加法神经网络在目标检测中的实验研究

  • 多尺度特征融合:为检测学习更好的语义信息(附论文下载)

  • CVPR2020最佳目标检测 | AdderNet(加法网络)含论文及源码链接

  • 代码实践 | CVPR2020——AdderNet(加法网络)迁移到检测网络(代码分享)

  • 人脸专集1 | 级联卷积神经网络用于人脸检测

  • 人脸专集知识巩固2 | 人脸关键点检测汇总(文末有相关文章链接)

  • 纯干货:Box Size置信度偏差会损害目标检测器(附源代码)

  • 优于FCOS:在One-Stage和Anchor-Free目标检测中以最小的成本实现最小的错位(代码待开源)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/535099.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

招募:AICG内容联合创作计划 | AIGC实践

AIGC(AI Generated Content,人工智能自动生成内容)必将成为小微创业团队进行低成本内容运营的最佳实践。 你同意这个观点吗? 如果我们恰好想法一致,或许可以一起搞点事情,探索一下商业场景下,应…

ChatGPT prompt指令大全

ChatGPT prompt指令大全 更多Prompt自动使用,可以在chrome插件中搜索 WebChatGPT,没有账号的,可以拉到文章最下面。 目录 担任雅思写作考官 写小说 充当 Linux 终端 充当英语翻译和改进者 充当论文润色者(拿摘要部分举例&am…

企业实践 | 如何从VMWare ESXi Shell中挂载以及拷贝NTFS或者FAT32分区格式的USB闪存驱动器...

欢迎关注「WeiyiGeek」公众号 点击 👇 下方卡片 即可关注我哟! 设为「星标⭐」每天带你 基础入门 到 进阶实践 再到 放弃学习! 涉及 网络安全运维、应用开发、物联网IOT、学习路径 、个人感悟 等知识 “ 花开堪折直须折,莫待无花空折枝。 ”…

K_A39_004 基于STM32等单片机驱动AT24C02模块 串口+OLED0.96显示

K_A39_004 基于STM32等单片机驱动AT24C02模块 串口OLED0.96显示 所有资源导航一、资源说明二、基本参数参数引脚说明 三、驱动说明时序对应程序: 四、部分代码说明1、接线引脚定义1.1、STC89C52RCAT24C02模块1.2、STM32F103C8T6AT24C02模块 五、基础知识学习与相关资料下载六、…

〖技术人必学的职业规划白宝书 - 职业规划篇②〗- 进入职场前必须要考虑的问题

历时18个月,采访 850 得到的需求。 不管你是在校大学生、研究生、还是在职的小伙伴,该专栏有你想要的职业规划、简历、面试的答案。说明:该文属于 技术人必学的职业规划白宝书 专栏,购买任意白宝书体系化专栏可加入TFS-CLUB 私域社…

如何优雅的使用各类LLM

近几个月,随着ChatGPT的风靡,大型语言预训练模型也如雨后春笋般地涌现,虽然效果差强人意,好在不受限制。配置稍好的电脑也能跑个7B、13B参数的大语言模型。 虽然模型众多,但是如果给每一个模型都单独去配置环境&#x…

Go语言的条件判断和循环语句

目录 【if语句】 if语句的内部变量 if语句的优雅写法 【switch语句】 switch语句的特点 switch语句的表达式类型 switch获取变量类型 x.(type) 【for语句】 for语句的变体 for...range break 和 continue goto for 语句的常见“坑”与避坑方法 Go语言的条件判断有…

数组map用法以及特殊值的情况

数组map用法以及特殊值的情况 一、map用法的说明 map(callbackFn, thisArg); // callbackFn回调函数,thisArg可选 callbackFn是个回调函数,该回调函数的参数按照顺序为element(当前正在处理的元素),index&#xff0…

深化企业数据智能应用 用友敢当“急先锋”

面对扑面而来的数字经济时代,一场轰轰烈烈的企业数智化转型正进行得如火如荼。 然而许多企业虽然明知道数智化转型势在必行,但是又担忧自己不具备相关能力。这些企业在数据和智能上面临哪些挑战?如何才能如何加速数智化创新?AIGC和…

人机融合智能与哲学

GPT系列的大型语言模型(LLM)在初步成功之后,需要人们重新审视图灵的计算理论,重新认识计算的本质和形式,重新思考计算机和计算机理论,以及深入思考计算的家族、广义的计算和计算的哲学等问题。这是因为GPT系…

从面对代码下不去的文章,到DBA群讨论

开头还是介绍一下群,如果感兴趣polardb ,mongodb ,mysql ,postgresql ,redis 等有问题,有需求都可以加群群内有各大数据库行业大咖,CTO,可以解决你的问题。加群请联系 liuaustin3 ,在新加的朋友会分到2群(共…

小米加速技术突破,为充电生态赋能,领航未来

5月13日,中国电工技术学会电力电子专业委员会第十八届学术年会在上海召开。小米公司作为快充技术领域代表,手机部基带总监杨玉巍出席本次年会并发表以《小米下一个十年的“助推器”——硬件技术创新与应用》为主题的报告,介绍小米最新的充电技…

简单做一下 银川第九届数模A题

A题 随着三年新冠疫情结束后第一个五一假期的到来,许多人选择出门旅游,在有限的几天假期怎样玩好就是一件值得考虑的事。小明是一位旅游爱好者,想在五一期间到宁夏一些著名景点旅游。由于跟着旅游团会受到若干限制,所以他&#xf…

Google Bard 对战 ChatGPT4

话题之一:如何降低血压 我家老爷子血压有点高,所以我挑了这么个话题。 如果用中文来问 Bard, 有点欺负它,那么索性用英文 1. Bard 在速度上占有绝对优势 2. GPT4 在最后一条监测就医建议上,完胜。 很多老人得过且过,不…

OpenCV实战(24)——相机姿态估计

OpenCV实战(24)——相机姿态估计 0. 前言1. 相机姿态估计2. 3D 可视化模块 cv::Viz3. 完整代码小结系列链接 0. 前言 校准相机后,就可以将捕获的图像与物理世界联系起来。如果物体的 3D 结构是已知的,那么就可以预测物体如何投影…

【Shell脚本】Linux安装Nexus的两种方式以及开机自启

目录 一、Linux安装Nexus的两种方式1、直接把下载好的安装包上传到服务器①、打开Nexus页面后,登录时会出现以下提示,根据路径提示可找到初始密码②、找到初始登录Nexus的初始密码 2、通过wget安装Nexus①、修改Nexus端口号②、默认的端口号为8081&#…

华为OD机试真题 Java 实现【找数字】【2023Q2 100分】

一、题目描述 给一个二维数组nums,对于每一个元素nums[i],找出距离最近的且值相等的元素,输出横纵坐标差值的绝对值之和,如果没有等值元素,则输出-1。 例如 输入数组nums为 0 3 5 4 2 2 5 7 8 3 2 5 4 2 4 对于 n…

Java每日一练(20230517) 重复元素、链表重复元素、旋转数组

目录 1. 存在重复元素 🌟 2. 删除排序链表中的重复元素 🌟 3. 旋转数组 🌟🌟 🌟 每日一练刷题专栏 🌟 Golang每日一练 专栏 Python每日一练 专栏 C/C每日一练 专栏 Java每日一练 专栏 1. 存在重…

让孩子们零基础也能学习人工智能,这家科技企业是这样做的

在偏远地区的孩子,即便没有任何人工智能知识和理论基础,也可以一步步迈入人工智能科技的殿堂? 你没有看错,这就是亚马逊云科技推出的“AI在未来”公益计划项目,如今已经进入了第二个学年。 “AI在未来”公益计划走进宁…

案例分享|地弹现象导致DCDC电源芯片工作不正常

很多读者都应该听过地弹,但是实际遇到的地弹的问题应该很少。本案例就是一个DCDC电源芯片的案例。 1. 问题描述 如下图1 ,产品其中一个供电是12V转3.3V的电路,产品发货50K左右以后,大约有1%的产品无法启动,经过解耦定…