《Learning To Count Everything》CVPR2021

news2024/12/28 21:24:30

摘要

论文提出了一种新的方法来解决视觉计数问题,即在给定类别中仅有少量标注实例的情况下,对任何类别的对象进行计数。将计数问题视为一个少样本回归任务,并提出了一种新颖的方法,该方法通过查询图像和查询图像中的少量示例对象来预测图像中所有感兴趣对象的存在密度图。此外,还提出了一种新颖的适应策略,使网络能够在测试时仅使用新类别中的少量示例对象来适应任何新的视觉类别。为了支持这一任务,作者还引入了一个包含147个对象类别、超过6000张图像的数据集,并在该数据集上进行了实验,证明了他们的方法优于现有的一些最先进的对象检测器和少样本计数方法。

概述

拟解决的问题:现有的视觉计数研究主要集中在单一特定类别上,如人、动物和细胞。而本文的目标是能够对任何类别的对象进行计数,即使只有该类别的少量标注实例。这包括处理大规模视觉类别的计数系统设计难题,以及缺乏足够大的、包含多个视觉类别的无约束计数数据集的问题。

创新之处

  1. 问题重新定义:将计数问题重新定义为少样本回归任务。
  2. FamNet架构:提出了一个名为Few Shot Adaptation and Matching Network (FamNet)的新架构,用于处理少样本计数任务。
  3. 少样本适应策略:开发了一种新颖的少样本适应方案,在测试时使用梯度下降更新来适应新类别。
  4. FSC-147数据集:引入了一个包含147个视觉类别、超过6000张图像的中等规模数据集,适合少样本计数任务。

方法

FamNet包括两个关键组件:

  1. 特征提取模块:使用预训练的网络来处理大量视觉类别。
  2. 密度预测模块:设计为与视觉类别无关,通过相关性图作为输入来预测密度图。

训练时,使用带有边界框和点注释的训练图像,通过最小化预测密度图和真实密度图之间的均方误差来进行。测试时,使用提出的少样本适应方案来进一步提高计数精度。

2.1 方法部分

特征提取:多尺度特征提取模块由预训练的 ResNet-50 主干的前四个块组成(这些块的参数在训练期间被冻结)。我们通过第三个和第四个块的卷积特征图来表示图像。我们还通过对来自第三个和第四个Resnet-50块的卷积特征映射执行ROI池来获得样本的多尺度特征。

密度预测:为了使密度预测模块与视觉类别无关,不使用直接从特征提取模块获得的特征进行密度预测。相反,我们只使用样本特征和图像特征之间的相关性图作为密度预测模块的输入。为了解决不同尺度的感兴趣的对象,我们将样本特征缩放到不同的尺度,并将缩放的样本特征与图像特征相关联,以获得多个相关图,每个尺度一个。对于我们所有的实验,我们使用 0.9 和 1.1 的尺度以及原始尺度。相关图被连接起来并输入到密度预测模块中。密度预测模块由五个卷积块和三个上采样层组成,放置在第一个、第二个和第三个卷积层之后。最后一层是一个 1×1 卷积层,用于预测 2D 密度图。预测密度图的大小与输入图像的大小相同。

2.2 适应策略

在少样本学习场景中,模型需要能够快速适应新的视觉类别,即使这些类别在训练阶段未曾见过。适应策略的目的是利用测试时提供的少量示例对象,通过快速的梯度下降过程调整模型参数,以提高对新类别的计数精度。

Min-Count Loss:这个损失函数确保每个示例对象的边界框内的预测密度值之和至少为1。这是基于每个边界框至少包含一个对象的假设。

  • 其中 B 是所有示例对象的边界框集合,Z_{b}​ 是在边界框 b 内从预测密度图中裁剪出的部分,\left \| Z_{b} \right \|_{1} 是 Z_{b}​ 中所有值的总和。

Perturbation Loss:这个损失函数受到基于相关滤波的跟踪算法的启发,旨在使预测密度图在示例对象位置附近的值呈高斯分布,从而更好地模拟对象的存在。

  • 其中 G_{h\times w}​ 是一个高斯窗口,大小为 h×w,模拟理想中的密度分布。

联合适应损失(Adaptation Loss):这是Min-Count Loss和Perturbation Loss的加权组合,用于测试时的参数更新。

适应过程

  • 在测试阶段,对于每张测试图像,使用提供的少量示例对象的边界框,计算上述适应损失。
  • 通过梯度下降法更新FamNet的密度预测模块的参数。这个过程通常涉及少量(如100步)的迭代更新,使用一个较小的学习率。
  • 这种适应过程仅在测试时进行,不涉及训练数据,目的是在面对新类别时快速调整模型以提高计数精度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2108396.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux高级命令】2_查看日志命令(重点)

文章目录 一、查看日志文件1.1 日志文件1.2 查看日志信息:head1.3 查看日志信息: tail【重点】1.4 工作中的使用场景 二、查看操作系统信息 一、查看日志文件 1.1 日志文件 就是一个文本文件 里面记录了程序运行的信息 作用 通过最后几行信息&#xff…

JIT编译:Java性能加速的关键技术

JIT(Just-In-Time)编译是 Java 虚拟机(JVM)中一种重要的优化技术,用来在程序运行时动态地将字节码编译成机器码(也就是平台特定的原生代码),从而提高程序的执行效率。 以下是 JIT 编…

领衔登榜!凯伦股份入选2024年度市级工业设计中心名单

近日,由苏州市工信局认定的2024年度市级工业设计中心名单正式完成了公示,江苏凯伦建材股份有限公司领衔登榜。 据了解,工业设计是指以工业产品为主要对象,综合运用科技手段和工学、美学、心理学、经济学等知识,对产品的…

2024.9.5 作业

注释QT基础代码 QT core gui#如果Qt版本大于4,则添加widgets模块 greaterThan(QT_MAJOR_VERSION, 4): QT widgets#启用C11编译标准 CONFIG c11# The following define makes your compiler emit warnings if you use # any Qt feature that has been mark…

【机器学习】自然语言处理中的Transformer模型:深度解析与前沿发展

欢迎来到 破晓的历程的 博客 ⛺️不负时光,不负己✈️ 文章目录 引言Transformer模型概述编码器(Encoder)与解码器(Decoder) 自注意力机制与多头注意力自注意力机制多头注意力机制 位置编码与模型优势位置编码模型优势…

MySQL数据库的基本概念(day23)

1 学习目标 了解数据库相关的概念了解并掌握MySQL产品的安装了解并掌握MySQL服务的使用重点掌握MySQL语法规范重点掌握数据库的管理语法重点掌握数据表的管理语法 2 数据库概述 2.1 数据库相关概念 2.1.1 什么是数据库 数据库的英文为DataBase,简称DB&#xff…

linux基础IO——动静态库——实现与应用学习、原理深入详解

前言:本节内容是基础IO部分的动静态库。 本节内容, 我们将站在实现者的角度上自己实现一下动静态库, 并且会站在使用者的角度上使用我们自己实现的库。过程中牵扯到许多新的知识, 最后我们会重谈一下我们的进程。 理解一下有了动静…

如何开发潜在客户

本文将介绍发掘潜在客户的关键步骤,其中利用企搜客大数据拓客,是相对高效的工具模式,快速开发潜在客户拓展业务。 一、潜在客户开发的重要性 潜在客户开发是企业营销中至关重要的一环。通过精准的目标客户定位和有效的开发策略,企…

J.U.C Review - CopyOnWrite容器

文章目录 什么是CopyOnWrite容器CopyOnWriteArrayList优点缺点源码示例 仿写:CopyOnWriteMap的实现注意事项 什么是CopyOnWrite容器 CopyOnWrite容器是一种实现了写时复制(Copy-On-Write,COW)机制的并发容器。在并发场景中&#…

2024年高教社杯数学建模国赛E题解题思路

E 题 交通流量管控 问题背景 随着城市化进程的加快、机动车的快速普及,以及人们活动范围的不断扩大,城市道路交通拥堵问题日渐严重,即使在一些非中心城市,道路交通拥堵问题也成为影响地方经济发展和百姓幸福感的一个“痛点”&a…

SpringDataJPA系列(6)Entiry注解使用

SpringDataJPA系列(6)Entiry注解使用 JPA协议规定 实体是直接进行数据库持久化操作的领域对象,必须通过 Entity 注解进行标示实体必须有一个 public 或者 protected 的无参数构造方法实体里面必须要有一个主键,主键标示的字段可以是单个字段&#xff0…

《机器学习》—— PCA降维

文章目录 一、PCA降维简单介绍二、python中实现PCA降维函数的介绍三、代码实现四、PCA降维的优缺点 一、PCA降维简单介绍 PCA(主成分分析,Principal Component Analysis)是一种常用的数据降维技术。它通过线性变换将原始数据转换到新的坐标系…

持久化分析

目录 介绍步骤WMI持久化分析注册表映像劫持IFEO持久化 介绍 1、WMI 的全称是 Windows Management Instrumentation,即 Windows 管理规范,在 Windows 操作系统中,随着 WMI 技术的引入并在之后随着时间的推移而过时,它作为一项功能…

Linux【6】系统

时间日期 date日期 cal——当月日历 cal -y 今年的日历 磁盘占用df du df 剩余空间 du 目录下的文件大小 进程ps ps aux a——其他用户 u——详细状态 x——没有控制终端 只看CPU占用高的进程top kill pid代号 ——杀死程序 通配符(简略版) …

每日OJ_牛客_解读密码(简单模拟)

目录 牛客_解读密码(简单模拟) 解析代码 牛客_解读密码(简单模拟) 解读密码__牛客网 解析代码 题目意思:给定字符串中包含其他符合一级数字,将字符串中数字解析出来。 解析步骤: 题目明确…

LabVIEW声发射数据采集系统开发

声发射(Acoustic Emission, AE)技术是材料检测中的一种无损检测方法,广泛用于结构健康监测。本文将介绍一个基于LabVIEW的声发射数据采集系统的真实案例,涵盖工作原理、开发流程、硬件选型、注意事项及难点。该系统通过LabVIEW平台…

LlamaIndex 使用 RouterOutputAgentWorkflow

LlamaIndex 中提供了一个 RouterOutputAgentWorkflow 功能,可以集成多个 QueryTool,根据用户的输入判断使用那个 QueryEngine,在做查询的时候,可以从不同的数据源进行查询,例如确定的数据从数据库查询,如果…

2024年装电脑,就认准这几个型号,能避坑!

前言 小伙伴是否都会觉得,自己又不懂电脑,跑电脑城去装机又怕被坑。这时候只能找熟人给装机,至少……熟人应该不会坑自己吧?! 这不,小白电脑技术的抖音评论区上就有这么一条评论: 这哥们找一熟…

最新HTML5中的视频和音频讲解

第6章 HTML5中的视频和音频 H5新增video,audio,播放视频和音频,统称为多媒体元素。 6.1 多媒体元素基本属性 video用于电影文件和其他视频流的播放。 audio用于音乐文件和其他音频流的播放。 video的属性 src:文件路径,本地或者网络上。…

Android经典实战之SurfaceView原理和实践

本文首发于公众号“AntDream”,欢迎微信搜索“AntDream”或扫描文章底部二维码关注,和我一起每天进步一点点 SurfaceView 是一个非常强大但也相对复杂的 UI 组件,特别适用于对性能要求较高的绘制任务,如视频播放、游戏等。 1. Su…