【论文阅读】Frustratingly Simple Few-Shot Object Detection

news2024/10/2 16:30:14

从几个例子中检测稀有物体是一个新出现的问题。 先前的工作表明Meta-Learning是一种有希望的方法。 但是,微调技术很少引起注意。 我们发现,在稀有类上只对现有探测器的最后一层进行微调对于 Few-Shot Object Detection至关重要。 这样一种简单的方法在当前基准上比元学习方法高出大约2~20个百分点,有时甚至比以前的方法提高了一倍的准确率。 然而,少数样本中的高方差(high variance)往往导致现有基准的不可靠性。 我们通过对多组训练样本的抽样来修正评估协议,以获得稳定的比较,并基于三个数据集:Pascal VOC、COCO和LVIS建立新的基准。 同样,我们的微调方法在修订后的基准上效果也更好。

引入

The ability to generalize from only a few examples (so called few-shot learning) has become a key area of interest in the machine learning community.
But, current evaluation protocols suffer from statistical unreliability, and the accuracy of base-line methods, especially simple fine-tuning, on few-object detection are not consistent in the literature.

在基于微调的模型设计和训练中,我们重点研究了目标检测器的训练调度和实例级特征归一化。

现有评估协议的几个问题阻碍了相关模型的比较:精度测量有很高的方差,使结果不可靠。 另外,以往的评价只报告了新类的检测精度,而没有对基类进行评价。 为了解决这些问题,我们在三个数据集上构建新的基准:Pascal VOC、COCO和LVIS(Gupta et al.,2019)。 我们对不同组的few-shot training examples进行多次实验,以获得稳定的精度估计,并定量分析不同评估指标的方差。 新的评估报告了基类和新类的平均精度(AP),以及所有类的平均精度,referred to as the generalized few-shot learning setting in the few-shot classification literature.

我们的微调方法在基准上建立了新的技术状态。 在具有挑战性的LVIS数据集上,我们的两阶段训练方案将稀有类(<10幅图像)的平均检测精度提高了大约4点,将常见类(10~100幅图像)的平均检测精度提高了大约2点,而对频繁类(>100幅图像)的检测精度损失可以忽略不计。

Related Work

Meta-learning

元学习的目标是获取任务级的元知识(task-level meta knowledge),帮助模型快速适应新的任务和环境with very few labeled examples.
Some learn to 微调并旨在获得一个良好的参数初始化,该参数初始化可以适应新任务with a few scholastic gradient updates。 关于元学习的另一个流行研究路线是在适应新任务时使用参数生成。 Gidaris&Komodakis(2018)提出了一种基于注意力的权重生成器来生成新类的分类器权重。 王等人(2019a)通过为特征层生成参数来构造task-aware feature embeddings。 这些方法已被用于用于few-shot 图像分类,not目标检测等更具挑战性的任务。

Metric-learning

Intuitively, if the model can construct distance metrics to estimate the similarity between two input images, it may generalize to novel categories with few labeled instances.
最近,一些(Chen et al.,2019;Gidaris&Komodakis,2018;Qi et al.,2018)采用了基于余弦相似度的分类器来减少few-shot 分类任务的内部方差,与许多基于Meta-Learning的方法相比,这导致了更好的性能。 我们的方法还采用了一个余弦相似分类器来对region proposals的类别进行分类。 然而,我们将重点放在实例级的距离测量上,而不是图像级的距离测量。

Few-shot object detection

元学习: 文献1(2019)和 Meta rcnn (2019)在元学习器的帮助下,将 feature reweighting 方案应用于单级对象检测器(YOLO V2)和两级对象检测器(Faster R-CNN),该元学习器将支持图像(即少量新/基类的标记图像)以及bounding box annotations作为输入。 王等人(2019b)提出了一个权重预测元模型,从少量样本中学习category-specific的例子,同时从基类样本中学习类别不可知(category-agnostic)的例子。

在所有这些工作中,基于微调的方法被认为是比基于元学习的方法性能更差的基线。 他们考虑联合优化 (jointly finetuning:指基类和新类一起训练),并微调整个模型(检测器首先只在基类上训练,然后在一个既有基类又有新类的平衡集上微调)。 相比之下,我们发现只对平衡子集上的目标检测器的最后一层进行微调,并保持模型的其余部分不变,可以显著提高检测精度,优于现有的所有基于元学习的方法。 这表明,从基类学习的特征表示可能能够转移到新的类,对box predictor的简单调整可以提供强大的性能增益。

Algorithms for Few-Shot Object Detection

用于训练的新集合是平衡的,即每个类具有相同数量的annotated objects(即,k-shot)
The few-shot object detector is evaluated on a test set of both the base classes and the novel classes, which is different from the N-way-K-shot setting commonly used in few-shot classification

Two-stage fine-tuning approach

two-stage fine-tuning approach (TFA):
在这里插入图片描述

The feature learning components, referred to as F F F, of a Faster R-CNN model include the backbone (e.g.,ResNet, VGG16), the region proposal network (RPN), as well as a two-layer fully-connected (FC) sub-network as a proposal-levelfeature extractor.

直观地说,主干特性和RPN特性都是类无关的(class-agnostic)。 因此,从基类学习的特性很可能转移到新的类,而不需要进一步的参数更新。 该方法的关键部分是将the feature representation learning
and the box predictor learning分为两个阶段。

Base model training 在第一阶段,我们只在基类 C b C_b Cb上训练特征提取器和盒预测器,共同损失是,
在这里插入图片描述
Few-shot fine-tuning 在第二阶段,我们创建一个小的平衡训练集,每个类有k shots,包含基础类和新类。 在保持整个特征提取器固定不变的情况下,我们对新类的box prediction网络随机初始化权值,只对分类和回归网络(即检测模型的最后一层)进行微调。 我们在方程1中使用相同的损失函数和较小的学习速率。 在我们所有的实验中,学习率比第一阶段降低了20。
Cosine similarity for box classifier the weight matrix W W W
The output of the box classifier C C C is scaled similarity scores S S S of the input feature F ( x ) F(x) F(x) and the
weight vectors of different classes.
在这里插入图片描述
实验结果表明,与基于FC的分类器相比,基于余弦相似度的分类器采用实例级特征归一化的方法可以减少类内方差,提高新类的检测精度,而基类的检测精度下降较小,特别是在训练样本数较少的情况下。

Meta-learning based approaches

在本节中,我们描述了现有的基于元学习的少镜头目标检测网络,包括FSRW(Kang et al.,2019)、Meta R-CNN(Yan et al.,2019)和MetaDet(Wang et al.,2019b),以与我们的方法进行比较。 图2说明了这些网络的结构。
在这里插入图片描述

在元学习方法中,除了采用单阶段或两阶段的基本对象检测模型外,还引入了元学习器meta-learner,通过feature re-weighting(如FSRW和Meta R-CNN)或class-specific 权重生成(如MetaDet)来获取class-leval meta knowledge,并帮助模型推广到新的类。 元学习器的输入是一小组带有目标对象边界框注释的支持图像。

The base object detector和meta-learner通常使用情景训练(episodic training)共同训练。 Each episode由N个对象的支持集和一组查询图像组成。 在FSRW和Meta R-CNN中,支持图像和标注对象的二进制掩码被用作元学习器的输入,元学习器生成类重加权向量来调制查询图像的特征表示。 如图2所示
训练过程还分为元训练阶段和元微调阶段,元训练阶段只在基类的数据上训练模型,元微调阶段中支持集包括新类的少数示例和基类的子集。

元学习方法和我们的方法都有两个阶段的训练方案。 然而,我们发现,在元学习方法中使用的情节学习(episodic learning)可能会随着支持集中类的数量的增加而非常缺乏记忆效率。 我们的微调方法只对网络的最后几层进行微调,这是一个正常的批训练方案,which is much more memory efficient.

实验

Implementation details. We use Faster R-CNN as our base detector and Resnet-101 with a Feature Pyramid Network as the backbone.

Existing few-shot object detection benchmark

我们将我们的方法与Meta-Learning方法如FSRW、Meta-RCNN和MetaDet以及基于微调的方法进行了比较。 jointly training, denoted by F R C N / Y O L O + j o i n t FRCN/YOLO+joint FRCN/YOLO+joint, where the base and novel class examples are jointly trained in one stage, and fine-tuning the entire model, denoted by F R C N / Y O L O + f t − f u l l FRCN/YOLO+ft-full FRCN/YOLO+ftfull, where both the feature extractor F F F and the box predictor ( C C C and R R R) are jointly fine-tuned until convergence in the second fine-tuning stage. FRCN is Faster R-CNN for short. Fine-tuning with less iterations, denoted by FRCN/YOLO+ft.
在这里插入图片描述
We also compare the cosine similarity based box classifier (TFA+w/cos) with a normal FC-based classifier (TFA +w/fc) and find that TFA +w/cos is better than TFA +w/fc on extremely low shots (e.g., 1-shot), but the two are roughly similar when there are more training shots, e.g., 10-shot.

Generalized few-shot object detection benchmark

我们发现现有基准存在几个问题。 首先,以前的评估协议只关注新类的性能。 这忽略了基类中潜在的性能下降,从而忽略了网络的整体性能。 其次,由于训练样本较少,样本方差较大。 这使得很难从与其他方法的比较中得出结论,因为性能差异可能不大。

我们报告基类的AP(BAP)和整体AP以及新类的AP(NAP)。 这使我们可以观察基础类和新类的性能趋势,以及网络的整体性能。

另外,我们在训练镜头的不同随机样本上训练我们的模型进行多次运行,以获得平均值和置信区间。 在图3中,我们显示了在Pascal VOC的第一次分裂时,在K=1,3,5,10的40次重复运行中的累积均值和95%置信区间。 尽管在第一个随机样本上性能很高,但随着使用更多样本,平均值显著下降。 此外,前几次运行的置信区间很大,尤其是在低镜头场景中。 当我们使用更多的重复运行时,平均值稳定,置信区间变小,这允许更好的比较。

在这里插入图片描述

Ablation study and visualization

Weight initialization 在少镜头微调前,我们探讨了两种不同的初始化方法:(1)随机初始化和(2)微调a predictor on the novel set 并使用分类器的权值作为初始化。我们比较了两种方法在K=1,3,10,Pascal VOC和COCO的分裂3上的结果,如表5所示。 在Pascal VOC上,简单的随机初始化可以优于使用微调的新权重的初始化。 在COCO上,使用新的权值可以改善随机初始化的性能。 这可能是由于与Pascal VOC相比,COCO的复杂性和类的数量增加了。 我们对所有Pascal VOC实验使用随机初始化,对所有COCO和LVIS实验使用新颖初始化。
Scaling factor of cosine similarity
可视化
失败情况包括将新对象错误地分类为类似的基本对象,例如,行2列1、2、3和4,错误地定位对象,例如,行2列5,以及丢失检测,例如,行4列1和5。
在这里插入图片描述
Meta-learning的一些基本概念
文献1:Few-shot Object Detection via Feature Reweighting论文阅读

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/352496.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Yaklang XSS 检测启发式算法(被动扫描插件)

背景 上一篇介绍了XSS 启发式检测基础设施&#xff0c;本篇通过yak提供的基础设施编写一个xss检测插件。 本次xss靶场使用pentesterlab的xss靶场。 环境部署 git clone https://github.com/yaklang/vulinone cd php-web-for-pentester docker-compose up -d编写思路 参考上…

matlab-汽车四分之一半主动悬架模糊控制

1、内容简介汽车四分之一半主动悬架模糊控制651-可以交流、咨询、答疑2、内容说明半主动悬架汽车 1/4 动力学模型建立 本章主要对悬架类型进行简要介绍&#xff0c;并对其进行对比分析&#xff0c;提出半主动悬架的优越性&#xff0c;论述半主动悬架的工作原理&#xff0c;并对…

语音播报警示器技术要求

功能概述&#xff1a; 本系统采用30W太阳能板给12AH铅酸胶体电池充电&#xff1b;通过人体红外探测传感器&#xff0c;能感应到12米范围内有人有车经过&#xff0c;就触发播报防火宣传的语音&#xff0c;并且大红闪灯同步闪烁警示&#xff1b;高清双侧宣传牌&#xff0c;宣传内…

XSS注入基础入门篇

XSS注入基础入门篇1.XSS基础概念2. XSS的分类以及示例2.1 反射型XSS2.1.1 示例1&#xff1a;dvwa low 级别的反射型XSS2.1.2 攻击流程2.2 DOM型XSS2.2.1 示例2&#xff1a;DOM型XSS注入1.环境部署2.基础版本3.进阶绕过2.3 存储型XSS2.3.1 示例1&#xff1a;dvwa low示例2.3.2 攻…

WebADI - 参数的使用

* 本文仅供交流分享&#xff0c;不作为专业指导 最近研究了一下WEBADI文档下载的参数&#xff0c;由于网上这块资料较少&#xff0c;所以专意分享下我的笔记。 准备 集成器&#xff1a;BHSC_EMP_ADI 表值集&#xff1a;BHSC_DEPT_LOV&#xff08;值&#xff1a;dname&#x…

c++学习笔记-提高编程-模板(哔站-黑马程序员c++教学视频)

目录 1、模板概念 2、模板特点 3、模板语法 3.1编程思想&#xff1a;泛型编程 3.2两种模板方法&#xff1a; 3.2.1 函数模板 3.2.2 类模板 1、模板概念 通用的模具&#xff0c;提高代码复用性 2、模板特点 不可以直接使用&#xff0c;只是一个框架&#xff1b;模板的…

JMeter 做接口性能测试,YYDS

简介 本文由xmeter君写给想了解性能测试和JMeter的小白&#xff0c;适合对这两者了解很少的同学们&#xff0c;如果已经有使用经验的请绕道&#xff0c;别浪费时间:-) 我们将介绍JMeter的使用场景&#xff0c;如何安装、运行JMeter&#xff0c;以及开始一个最最简单的测试。 …

房产|1月全国70城房价出炉!疫情放开后你关心的城市房价有何变化

2023年1月份&#xff0c;70个大中城市中新房销售价格环比上涨城市个数增加&#xff1b;一线城市新房销售价格环比同比转涨、二三线城市环比降势趋缓&#xff0c;二三线城市同比下降。 | 新房/二手房12月-1月环比上涨城市数量变化 70个大中城市中&#xff0c;新房环比上涨城市…

RBAC(Role-Based Access Control:基于角色的访问控制)

RBAC是什么 1、RBAC模型概述 RBAC模型&#xff08;Role-Based Access Control&#xff1a;基于角色的访问控制&#xff09;模型是20世纪90年代研究出来的一种新模型&#xff0c;但其实在20世纪70年代的多用户计算时期&#xff0c;这种思想就已经被提出来&#xff0c;直到20世…

控制层类上的注解、业务层的注入、URL映射、参数接收、返回数据及网页模板、RESTful

控制类的作用&#xff1a; 处理http的请求&#xff0c;从HTTP请求中获得信息&#xff0c;提取参数&#xff0c;并分发给不同的处理服务&#xff0c;处理之后封装成一个Model &#xff0c;然后再把该Model返回给对应的View进行展示。 控制层类上的注解 Controller&#xff1a;…

科技爱好者周刊之爱好者记录

前言 平时浏览的内容杂七杂八&#xff0c;说好听一些叫做“内容丰富&#xff0c;涉猎甚广”&#xff0c;实际一些则是受到主流大环境的冲击加之自身的控制力尚且不足。 有过类似经历的人大多知道&#xff0c;碎片化的信息除了填充大脑的冗余空间&#xff0c;在短期时间内就会被…

AMBA低功耗接口规范(Low Power Interface Spec)

1.简介 AMBA提供的低功耗接口&#xff0c;用于实现power控制功能。目前AMBA里面包含2种低功耗接口&#xff1a; Q-Channel&#xff1a;实现简单的power控制&#xff0c;如上电&#xff0c;下电。 P-Channel&#xff1a;实现复杂的power控制&#xff0c;如全上电&#xff0c;半上…

今天面了个腾讯拿28K出来的,让我见识到了测试基础的天花板...

公司前段缺人&#xff0c;也面了不少测试&#xff0c;结果竟然没有一个合适的。 一开始瞄准的就是中级的水准&#xff0c;也没指望来大牛&#xff0c;提供的薪资在10-20k&#xff0c;面试的人很多&#xff0c;但平均水平很让人失望。 看简历很多都是3年工作经验&#xff0c;但…

每天10个前端小知识 【Day 17】

前端面试基础知识题 1.使用原生js实现以下效果&#xff1a;点击容器内的图标&#xff0c;图标边框变成border:1px solid red&#xff0c;点击空白处重置 const box document.getElementById(box); function isIcon(target) { return target.className.includes(icon); } b…

【Unity VR开发】结合VRTK4.0:设置抓取时可交互对象的方向

语录&#xff1a; 取酒酿晚风&#xff0c;赠我一场空。 前言&#xff1a; 获取可交互对象的默认方法是将可交互对象的原点与交互器的原点对齐。此机制适用于基本抓取&#xff0c;但有时当您想要抓取某个对象时&#xff0c;您可能希望将可交互对象定向到特定位置并旋转到交互器…

【免费教程】SWAT模型及在面源污染中的应用与案例分析

SWATSWAT&#xff08;Soil and Water Assessment Tool&#xff09;是由美国农业部&#xff08;USDA&#xff09;的农业研究中心Jeff Arnold博士1994年开发的。模型开发的最初目的是为了预测在大流域复杂多变的土壤类型、土地利用方式和管理措施条件下&#xff0c;土地管理对水分…

mysql 按时间倒排序深翻页思考

背景深翻页&#xff0c;可以用id做为偏移量&#xff0c;但如果是uuid时&#xff0c;或需求是要按时间排序时&#xff0c;深翻页就是一个问题了。如果要按最后修改时间倒排序&#xff0c;把时间做索引是可以&#xff0c;但有可能时间是有重的&#xff0c;这样结果就可能不准确这…

【Deformable Convolution】可变形卷积记录

every blog every motto: You can do more than you think. https://blog.csdn.net/weixin_39190382?typeblog 0. 前言 可变形卷积记录 1. 正文 预印版&#xff1a; Deformable Convolutional Networks v1 Deformable ConvNets v2: More Deformable, Better Results 发表版…

【郭东白架构课 模块一:生存法则】05|法则二:研发人员的人性需求是如何影响架构活动成败的?

你好&#xff0c;我是郭东白。上节课我们学习了马斯洛关于人性的理论&#xff0c;那么这节课我们就利用这个理论来看看我们在架构活动中应该注意些什么。 架构设计必须符合人性&#xff0c;而在架构活动中&#xff0c;与“人”相关的主要就是研发人员和目标用户。那么今天这节…

大数据全方位学习路线

大数据全方位学习路线 一、大数据处理流程 上图是一个简化的大数据处理流程图&#xff0c;大数据处理的主要流程包括数据收集、数据存储、数据处理、数据应用等主要环节。下面我们逐一对各个环节所需要的技术栈进行讲解&#xff1a; 1.1 数据收集 大数据处理的第一步是数据的收…