论文精读:Centernet:Objects as Points

news2024/11/17 23:33:58

论文地址:https://arxiv.org/pdf/1904.07850.pdf

代码地址:https://github. com/xingyizhou/CenterNet.

Abstract

                基于anchor的目标检测算法通常会列举大量可能存在对象位置的列表,这是浪费的、低效的。作者采用了一种不同的方法。将一个对象建模为单个点——其边界框的中心点。检测器使用关键点估计来寻找中心点,并回归到所有其他对象属性,如大小、三维位置、方向,甚至姿态。基于中心点的方-CenterNet,是端到端的,比相应的基于边界盒的检测器更简单、更快、更准确 

1. Introduction 

        在本文中,作者摒弃了原来基于锚框的做法。作者在对象的边界框中心用单个点来表示对象(参见图2)。其他属性,如对象大小、尺寸、三维范围、方向和姿态,然后直接从中心位置的图像特征回归。对象检测是一个标准的关键点估计问题[3,39,60]。我们只需将输入的图像提供给一个完全卷积的网络[37,40],从而生成一个热图。这个热图中的峰值对应于对象中心。每个峰值处的图像特征可以预测物体边界框的高度和权重。该模型使用标准的密集监督学习[39,60]进行训练。推理仅仅只需要进行预测,而不需要经过非极大值抑制等后处理 

 3. Preliminary

分类: 

        正负样本的分配:首先将原始图像下采样R倍(4倍),然后,基于下采样的特征图分配正负样本。为了维持正负样本均衡,采用高斯分布的方式为每个关键点分配标签。

                即以中心点为中心的高斯分布。 表示原图像像素点对应于下采样后的特征图的关键点位置。

                如果出现了重叠,就取较大的值。

        此时,关键点分类的损失:

 位置:

为正样本预测一个偏移值,这里的偏移与YOLO的偏移差不多,损失函数:

 长宽:

 长宽也是根据关键点直接进行预测:,损失函数为:

总损失函数:

 

作者在所有实验中都设置了λsize = 0.1和λof f = 1。我们使用一个单个网络来预测关键点Yˆ、偏移量ˆO和大小Sˆ。该网络预测了每个位置的C+4个输出。所有的输出都共享一个共同的全卷积主干网络。对于每个模态,主干的特征然后通过一个单独的3×3卷积,ReLU和另一个1×1卷积。图4显示了网络输出的概述。

从关键点到检测框: 

在推理时,首先独立地提取每个类别的热图中的峰值。检测所有值大于或等于它的8个连接邻居的位置,并保持前100个峰值。类c的n个中心点组成了集合。每个关键点的位置都由一个整数坐标(xi、yi)给出。使用关键点值作为其检测置信度的度量,并在一个位置产生一个边界框。为偏移量,为宽和高。所有的输出都是直接从关键点估计中产生的,而不需要基于iou的非最大抑制(NMS)或其他后处理。峰值关键点提取是一个足够的NMS替代方案,可以使用3×3最大池化操作在设备上有效实现。

4.1. 3D detection 

        三维检测估计每个对象有一个三维边界框,并且每个中心点需要三个额外的属性:深度、三维维度和方向。我们为每个人添加一个单独的头。深度d是每个中心点的单个标量。然而,深度很难直接回归到。使用 进行深度变换。并使用L1损失

4.2. Human pose estimation

         人体姿态估计的目的是估计图像中每个人体实例的k个2D人体关节位置(k = 17为COCO)。将姿态视为中心点的k×2二维的中心点坐标,并通过偏移点来参数化每个关键点。我们使用L1损失直接回归到联合偏移量(以像素为单位)。

        为了细化关键点,我们进一步使用标准的自下而上的多人体姿态估计[4,39,41]估计了k个人体关节热图。我们用焦点损失和局部像素偏移来训练人体关节热图

         然后,我们将最初的预测捕捉到这个热图上最近检测到的关键点。在这里,我们的中心偏移量作为一个分组线索,将单个的关键点检测分配给他们最近的人实例。具体来说,设(ˆx,yˆ)是一个检测到的中心点。我们首先回归到所有的联合位置。我们还从相应的热图ˆΦ··j中提取每个关节类型j的的置信度>0.1。然后,我们将每个回归位置lj分配到其最近的检测关键点,只考虑被检测对象的边界框内的联合检测。

 5. Implementation details

        作者实验了4种体系结构: ResNet-18、ResNet- 101 [55]、DLA-34 [58]和Hourglass-104[30]。我们使用可变形的卷积层[12]修改了ResNets和DLA-34,并按原样使用Hourglass网络。 

6. Experiments

        作者在MSCOCO上进行了实验

6.1. Object detection 

 

6.1.1 Additional experiments  

        Center point collision 在COCO训练集中,有614对物体在步幅4时碰撞到同一中心点。总共有860001个对象,因此由于中心点的碰撞,CenterNet无法预测< 0.1%的对象。这比RCNN系列要少得多,因此一个基于中心的分配会导致更少的碰撞。 

        NMS  NMS影响很小,不使用

        Training and Testing resolution  在测试阶段,保持原始分辨率略优于固定测试分辨率。

 

Regression loss L1明显优于Smooth L1。、

 

Bounding box size weight 对于较大的值,AP显著下降,因为损失范围从0到输出大小w/R或h/R,而不是0到1。然而,对于较低的权重,该值不会显著降低。

 

Training schedule   更长的训练计划能够带来更好的性能

 6.2. 3D detection

 

6.3. Pose estimation 

         

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/129978.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

魔术小游戏

魔术游戏一、问题描述二、基本流程三、具体步骤1.在集合中随机生成起始牌2.菜单栏3.找到包含[选中牌]的一组牌在大集合中的索引4.洗牌5.发牌四、完整代码五、效果展示一、问题描述 这是一个魔术游戏&#xff0c;将15张牌分为三组&#xff0c;每组5张&#xff0c;让玩家从中任选…

填鸭表单|2022年度总结功能发布

自从我们在2020年发布了开源版本以来&#xff0c;我们结识了许多社区伙伴。在和这些社区伙伴的接触中&#xff0c;我们深刻地感受到了“做产品的感觉&#xff0c;令人振奋且充满激情”。 我们认为&#xff0c;专注于做一件事情&#xff0c;持续深耕&#xff0c;时间自然会给出…

C#语言实例源码系列-实现对文件进行加密保护

专栏分享点击跳转>Unity3D特效百例点击跳转>案例项目实战源码点击跳转>游戏脚本-辅助自动化点击跳转>Android控件全解手册 &#x1f449;关于作者 众所周知&#xff0c;人生是一个漫长的流程&#xff0c;不断克服困难&#xff0c;不断反思前进的过程。在这个过程中…

jmeter压测使用实践

环境搭建篇见https://blog.csdn.net/weixin_42498050/article/details/12847945 参考Jmter压测使用实践 jmeter压测实战总结 搭建 Apache Jmeter 分布式压测与监控 Jmeter常用断言 1. 添加线程组 测试计划 &#xff08;右键->添加->Threads&#xff08;Users&#x…

做了这么久的自动化测试现在才知道API 接口测试还能...

接口测试作为最常用的集成测试方法的一部分&#xff0c;通过直接调用被测试的接口来确定系统在功能性、可靠性、安全性和性能方面是否能达到预期&#xff0c;有些情况是功能测试无法覆盖的&#xff0c;所以接口测试是非常必要的。首先需要对接口测试的基本信息做一些了解&#…

Linux如何安装BeyondCompare

博客主页&#xff1a;https://tomcat.blog.csdn.net 博主昵称&#xff1a;农民工老王 主要领域&#xff1a;Java、Linux、K8S 期待大家的关注&#x1f496;点赞&#x1f44d;收藏⭐留言&#x1f4ac; 目录安装yumtar.gz使用示例BeyondCompare是一款广受好评的文本对比工具。本…

文件上传漏洞渗透与攻防(一)

目录 前言 文件上传漏洞原理 Webshell介绍 一句话木马&#xff1a; 小马&#xff1a; 大马&#xff1a; Webshell集合&#xff1a; 网站控制工具 文件上传漏洞危害 文件上传漏洞靶场练习 Pass-01 Pass-02 Pass-03 Pass-04 Pass-06 Pass-07 Pass-08 Pass-09 Pass-10 Pas…

Java并发编程(二)

线程方法 API Thread 类 API&#xff1a; 方法说明public void start()启动一个新线程&#xff0c;Java虚拟机调用此线程的 run 方法public void run()线程启动后调用该方法public void setName(String name)给当前线程取名字public void getName()获取当前线程的名字 线程存…

实战演练 | 使用 Navicat Premium 自动运行数据库复制

与同步&#xff08;使两个数据库的模式和数据同步的一次性过程&#xff09;不同&#xff0c;复制是一个连续&#xff08;自动&#xff09;在两个数据库之间重现数据的过程&#xff08;尽管模式更新也是可能的&#xff09;。复制可以异步完成&#xff0c;因此不需要永久连接两个…

【Lniux】目录的权限,默认权限,粘滞位详细讲解

大家好&#xff0c;今天详细讲解一些关于目录权限的细节 很多细节都是通过问答方式&#xff0c;希望大家可以先自己思考一下答案然后再听我的分析 欢迎指正错误&#xff0c;我们共同成长 目录 1.目录的权限 2.默认权限 3.粘滞位 1.目录的权限 如果我们要进图一个目录只需要…

ArcGIS基础实验操作100例--实验25统一多分辨率栅格数据

本实验专栏来自于汤国安教授《地理信息系统基础实验操作100例》一书 实验平台&#xff1a;ArcGIS 10.6 实验数据&#xff1a;请访问实验1&#xff08;传送门&#xff09; 基础编辑篇--实验25 统一多分辨率栅格数据 目录 一、实验背景 二、实验数据 三、实验步骤 &#xff0…

springboot admin-server的使用

指标监控可视化文档&#xff1a; 用于管理 Spring Boot 应用程序的管理 UI Spring Boot Admin Reference Guide 一、创建项目 就勾选Spring Web项目即可 二、基础设置 (1) 依赖引入 <dependency><groupId>de.codecentric</groupId><artifactId>sp…

Android: Binder: 彻底顿悟Android Binder

Binder机制可谓是Android 知识体系的重中之中&#xff0c;作为偏底层的基础组件&#xff0c;平时我们很少关注它&#xff0c;但是它却无处不在&#xff0c;这也是android面试考察点之一&#xff0c;本篇将从流程上将Binder通信过一遍。 文章目录 1&#xff1a;Binder作用 2&…

STM32F7-Discovery使用ITM作为调试工具

关于代码的调试手段&#xff0c;我在自己的一篇文章(http://bbs.ickey.cn/index.php?appgroup&actopic&id54944链接中的《STM32F030 Nucleo-开发调试的经验USART的重要性.pdf》)中已经详细谈到&#xff0c;为什么在调试中我们通常使用J-Link或ULINK或ST-Link(ST)或Ope…

机器学习——细节补充

1.matplotlib与seaborn的区别 来源&#xff1a;https://geek-docs.com/matplotlib/matplotlib-ask-answer/difference-between-matplotlib-and-seaborn.html 2.%matplotlib inline使图片嵌入notebook&#xff0c;而不需要使用show()方法 3.IPython与python&#xff1a;IPyth…

中小企业如何选择进销存软件?

企业信息化转型趋势的推动&#xff0c;让很多中小企业也开启了转型的探索。对于企业&#xff0c;一款合适的进销存管理软件&#xff0c;绝对是转型之路上的必备工具&#xff0c;可以帮助企业对经营中的采购、库存、销售等环节进行有效管理监督。 目前&#xff0c;市面上的各种…

three.js 的渲染结构

理解three.js 的渲染结构 1 three.js 的渲染 Three.js 封装了场景、灯光、阴影、材质、纹理和三维算法&#xff0c;让你不必再直接用WebGL 开发项目。three.js 在渲染三维场景时&#xff0c;需要创建很多对象&#xff0c;并将它们关联在一起。 下图便是一个基本的three.js 渲…

Python通知Epic白嫖游戏信息

每周都有免费游戏 - Epic Games 近期看到Epic在送游戏&#xff0c;目前每周都会有活动白嫖。 身为白嫖党&#xff0c;肯定要操作一下。 游戏列表&#xff1a;Epic Games Store 每周免费游戏&#xff08;331&#xff09; | indienova GameDB 游戏库 大致思路&#xff1a; 1、…

把teamtalk中的网络库(netlib)拆出来单独测试实现双工通信效果

这篇文章的基础是上一篇对于将teamtalk中的线程池&#xff0c;连接池单独拆出来的讲解 不是说这个网络库会依赖线程池&#xff0c;连接池&#xff0c;而是上一篇文章中讲了一些base目录中的文件&#xff0c;并且这个网络库会依赖一些base目录里的文件&#xff0c; 文末会将所有…

基于fpga的自动售货机(三段式状态机)

目录 1、VL38 自动贩售机1 题目介绍 思路分析 代码实现 仿真文件 2、VL39 自动贩售机2 题目介绍&#xff1a; 题目分析 代码实现 仿真文件 3、状态机基本知识 1、VL38 自动贩售机1 题目介绍 设计一个自动贩售机&#xff0c;输入货币有三种&#xff0c;为0.5/1/2元&…