Objects as Points基于中心点的目标检测方法CenterNet—CVPR2019

news2025/1/23 7:24:46

Anchor Free目标检测算法—CenterNet

Objects as Points论文解析

Anchor Free和Anchor Base方法的区别在于是否在检测的过程中生成大量的先验框。CenterNet直接预测物体的中心点的位置坐标。

在这里插入图片描述
CenterNet本质上类似于一种关键点的识别。识别的是物体的`中心点位置。 有了中心点之后,通过回归就可以预测物体边界框的高和宽了。

Anchor Base的缺点:

  1. anchor的大小,数量,长宽比会影响检测性能,通过改变这些超参数Retinanet在Coco benchmark上面提升了4%的AP。

  2. 这些固定的anchor极大地损害了检测器的普适性,导致对于不同任务,其anchor都必须重新设置大小和长宽比。

  3. 为了去匹配真实框,需要生成大量的anchor,但是大部分的anchor在训练时标记为negative,所以就造成了样本间的不平衡(没有充分利用fore-ground)。

  4. 在训练中,需要计算所有anchor与真实框的loU,这样就会消耗大量内存和时间。

摘要总结

  1. 目前主流且最成功的目标检测方法效率低下,浪费计算资源。

  2. 本文提出的方法将目标用一个中心点来表示,同时可以回归与中心点相关联的其他属性。

  3. 简单,更快,更准确,COCO测试集上做到速度与精度的平衡。
    在这里插入图片描述

  4. 3D目标检测和人体姿态估计上,可以做到实时运行,且精度较高;(添加一个深度的回归参数)
    在这里插入图片描述

模型结构总览

首先CenterNet网络结构是根据处理速度和精度的不同动态的进行改变的,例如在backbone主干提取网络中可以使用

  • RestNet做为主干提取网络。
  • DLA作为主干提取网络
  • Hourglass(较为复杂)作为主干提取网络的沙漏型

网络的输入是512x512x3的输入,经过下采样操作在经过上采样操作之后得到128x128x256的特征图的输出,用来进行特性信息的提取。
将输出的映射为3个部分组成分别为:HeatMap(热力图:颜色最深的点为中心点),Offset,Height&Weigh结构

如何backbone主干提取网络采用的结构是Hourglass的网络结构。

在这里插入图片描述

  • pre,通过一个步长为2的7x7卷积和步长为2的残差单元,将图片宽高压缩为原来的1/4
  • Hourglass Module1,第一个沙漏型的卷积神经网络模块
  • joint,连接Hourglass Module2和Hourglass Module2
  • Hourglass Module2,第二个沙漏型的卷积神经网络模块
  • Head,输出三个分支输出

输入图像数据的大小为W H组成。

1. HeatMap:大小为(W/4,H/4,80),输出不同类别(80个类别)物体中心点的位置。
2. Offset:大小为(W/4,H/4,2),对HeatMap的输出进行精炼,提高定位准确度。
3. Height&Width:大小为(W/4,H/4,2),预测以关键点为中心的检测框的宽高

推理是单网络前向传递,没有后处理的非极大值抑制。所以整个模型网络的速度会变快。Inference is a single net-work forward-pass, without non-maximal suppression forpost-processing。

模型选择

Resnet-18 and up-convolutional layers [55], our network runs
at 142 FPS with 28.1% COCO bounding box AP. With
a carefully designed keypoint detection network, DLA-
34
[58], our network achieves 37.4% COCO AP at 52 FPS.
Equipped with the state-of-the-art keypoint estimation net-
work, Hourglass-104 [30, 40], and multi-scale testing, our
network achieves 45.1% COCO AP at 1.4 FPS.

模型的初步细节

首先一张图片是按照R(W H 3)的通道数进行输入的。我们的目标是要回归一个中心点的热力图。

我们生成的热力图可以用下面的式子来进行表示:

Y ^ ∈ [ 0 , 1 ] W R × H R × C \hat{Y}\in[0,1]^{\frac{W}{R} \times \frac{H}{R} \times C} Y^[0,1]RW×RH×C

其中R表示的是步长的信息。默认情况下都取值为4。在论文中提到了C是中心点keypoint的个数。即在生成的每个特征图的位置上产生c个中心点。

C= 17代表姿态估计选取的关键点,而C=80代表的是选取的目标检测的类别。R=4 得到128x128x80

对于目标检测的任务来说的话,对于COCO数据集上的各个类别(80个)都要产生出范围为0,1的预测值来判断的类别。Yx,y,c = 1 corresponds to a detected keypoint,while ˆYx,y,c = 0 is background.

主干网络有Restnet18加上一个上采样的部分组成。

在这里插入图片描述
蓝色的框代表的是真实的框,我们可以通过蓝色的框得到中心点的位置坐标信息。对于这个真实的中心点坐标,我们可以使用高斯分部进行离散化的操作。

Y x y c = exp ⁡ ( − ( x − p ~ x ) 2 + ( y − p ~ y ) 2 2 σ p 2 ) Y_{x y c}=\exp \left(-\frac{\left(x-\tilde{p}_{x}\right)^{2}+\left(y-\tilde{p}_{y}\right)^{2}}{2 \sigma_{p}^{2}}\right) Yxyc=exp(2σp2(xp~x)2+(yp~y)2)

之后的论文中给出了一个通过中心点通过高斯分布进行离散化操作。所得到的示意图。

在这里插入图片描述

首先图中红色部分的方框对应的中心点的坐标即为真实的中心点的坐标信息。通过该中心点进行高斯分布的离散化的操作,中心的值取为1之后周围的几个位置的值位于[0,1]之间。满足高斯分布。

回归的时候可以选取着九个位置中的一个位置来进行回归操作并取一个最大的值。

寻找中心点的损失函数是之后的Focal LOSS进行改编的一个函数。

L k = − 1 N ∑ x y c { ( 1 − Y ^ x y c ) α log ⁡ ( Y ^ x y c )  if  Y ^ x y c = 1 ( 1 − Y x y c ) β ( Y ^ x y c ) α  otherwise  log ⁡ ( 1 − Y ^ x y c ) \begin{array}{l} L_{k}=\frac{-1}{N} \sum_{x y c}\left\{\begin{array}{cl} \left(1-\hat{Y}_{x y c}\right)^{\alpha} \log \left(\hat{Y}_{x y c}\right) & \text { if } \hat{Y}_{x y c}=1 \\ \left(1-Y_{x y c}\right)^{\beta}\left(\hat{Y}_{x y c}\right)^{\alpha} & \text { otherwise } \\ \log \left(1-\hat{Y}_{x y c}\right) & \end{array}\right.\\ \end{array} Lk=N1xyc (1Y^xyc)αlog(Y^xyc)(1Yxyc)β(Y^xyc)αlog(1Y^xyc) if Y^xyc=1 otherwise 

之后对损失函数部分在单独的进行介绍。

为了恢复由输出步幅引起的离散化误差,我们由此引入了Offset这一目标的偏移项。

Offset这一项在训练的时候我们使用的是F1 Loss项。(绝对误差损失函数)

L o f f = 1 N ∑ p ∣ O ^ p ~ − ( p R − p ~ ) ∣ L_{o f f}=\frac{1}{N} \sum_{p}\left|\hat{O}_{\tilde{p}}-\left(\frac{p}{R}-\tilde{p}\right)\right| Loff=N1p O^p~(Rpp~)

模型的检测部分

在模型的检测部分我们首先给出了一个位置的坐标。

( x 1 ( k ) , y 1 ( k ) , x 2 ( k ) , y 2 ( k ) ) \left(x_{1}^{(k)}, y_{1}^{(k)}, x_{2}^{(k)}, y_{2}^{(k)}\right) (x1(k),y1(k),x2(k),y2(k))

x1 y1:代表的是左上角处的位置坐标,而x2,y2代表的是右下角处的中心点的位置坐标。

我们可以得到最终的中心点的位置坐标信息:

( x 1 ( k ) + x 2 ( k ) 2 , y 1 ( k ) + y 2 ( k ) 2 ) \left(\frac{x_{1}^{(k)}+x_{2}^{(k)}}{2}, \frac{y_{1}^{(k)}+y_{2}^{(k)}}{2}\right) (2x1(k)+x2(k),2y1(k)+y2(k))

w 和 h的计算则可以采用的是下面的公式来进行计算。

s k = ( x 2 ( k ) − x 1 ( k ) , y 2 ( k ) − y 1 ( k ) ) s_{k}=\left(x_{2}^{(k)}-x_{1}^{(k)}, y_{2}^{(k)}-y_{1}^{(k)}\right) sk=(x2(k)x1(k),y2(k)y1(k))

对于中心点位置的预测我们也可以L1损失函数来进行计算

L s i z e = 1 N ∑ k = 1 N ∣ S ^ p k − s k ∣ . L_{s i z e}=\frac{1}{N} \sum_{k=1}^{N}\left|\hat{S}_{p_{k}}-s_{k}\right| . Lsize=N1k=1N S^pksk .

最后给出了网络中的整体的损失函数。

L d e t = L k + λ s i z e L s i z e + λ o f f L o f f L_{d e t}=L_{k}+\lambda_{s i z e} L_{s i z e}+\lambda_{o f f} L_{o f f} Ldet=Lk+λsizeLsize+λoffLoff
λ size = 0.1 and λ off = 1

We use a single network to predict the keypointsYˆ offsetOˆ, and size SˆThe network pre-dicts a total of C + 4 outputs at each location。最后得到的是一个C+4的输出向量。它们共享一个唯一的全卷积神经网络。

在这里插入图片描述

这个图就给出了二维的目标检测,所得到的输出信息,即为c+4的输出值信息。

  1. 先给出中心点及其范围
  2. 加入偏移量确定最终的一个位置信息。
  3. 给出size的大小用来确定最终的w 和 h的信息位置。
  4. 最后我们根据上面得到的信息,得出左上角的坐标和右下脚的坐标位置信息。

公式如下所示。

( x ^ i + δ x ^ i − w ^ i / 2 , y ^ i + δ y ^ i − h ^ i / 2 x ^ i + δ x ^ i + w ^ i / 2 , y ^ i + δ y ^ i + h ^ i / 2 ) \begin{aligned} \left(\hat{x}_{i}+\delta \hat{x}_{i}-\hat{w}_{i} / 2,\right. & \hat{y}_{i}+\delta \hat{y}_{i}-\hat{h}_{i} / 2 \\ \hat{x}_{i}+\delta \hat{x}_{i}+\hat{w}_{i} / 2, & \left.\hat{y}_{i}+\delta \hat{y}_{i}+\hat{h}_{i} / 2\right) \end{aligned} (x^i+δx^iw^i/2,x^i+δx^i+w^i/2,y^i+δy^ih^i/2y^i+δy^i+h^i/2)

总结:完全是一个anctor free的方法所有的框都是采用回归的方式来生成的框而不是使用众多的先验框的过程。(NO NMS的方法)

对于heatmap的使用,我们需要的是要在周围的8邻域的附近找到100个最大值选取为峰值。

因为没有使用NMS算法来进行操作,我们使用3x3的using a 3 × 3 max pooling operation来寻找最大的中心值点(也就是创新性的使用了3x3的最大池化来寻找中心点的位置坐标)

之后的论文中还介绍了3d的目标检测和人体姿态估计的一些方法,在本文中对这一部分的讲解进行忽略。

实现细节

We experiment with 4 architectures: ResNet-18, ResNet-101 [55], DLA-34 [58], and Hourglass-104 [30]. We modify both ResNets and DLA-34 using deformable convolution layers [12] and use the Hourglass network as is.

在补充的材料中作者已经给出了,模型具体实现的一个简单的网络结构。如下图所示。

在这里插入图片描述

对于输入的图片时间先进行一个4倍的下采样操作,依次向下进行下采样直到128倍的下采样终止。

之后进行一个上采用操作,中间要进行一个连接的操作。得到下采样4倍的一个输出。图a的部分就是连续的两个沙漏模型。

图b为带有转置卷积的 ResNet ,在上采样的部分我们使用到的是转置卷积的方式来进行实现。

图c用于语义分割的DLA34的网络架构,根据箭头的指示来确定融合的目标方向。d中使用了可变性卷积来进行实现用3x3的可变性卷积代替普通的卷积来进行实现。

在得到特征图的信息之后,我们要通过一个公共的卷积模块,来得到对应的三个输出分量。

对于共享的卷积层的部分,我们首先使用到了3x3的共享卷积层对特征进行提取操作。最后使用1x1的卷积对其进行一个回归的操作。得到最终的输出。

对于CenterNet网络的缺点,论文中的补充部分也有所提及,如果出现两个物体的中心点出现在了同一个位置,这种情况下CenterNet网络便无法对这个两个物体进行检测。

优点:

  • 模型的结构简单直观,真Anchor-free思想
  • 单阶段,速度快,有进一步提速和提精度的空间
  • 可以轻松拓展到3D检测和人体姿态估计任务

缺点:对于重叠的目标我们只能检测到一个。

更为具体的实现细节要结合代码进行学习:https://github.
com/xingyizhou/CenterNet.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2141453.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python青少年简明教程:tkinter库入门

Python青少年简明教程:tkinter库入门 tkinter是Python的标准GUI(图形用户界面)库。它提供了一种快速而简单的方法来创建GUI应用程序。tkinter是Python自带的,无需额外安装,随 Python 安装包一起提供。 在Python 3.x中…

Leetcode—1137. 第 N 个泰波那契数【简单】

2024每日刷题(160) Leetcode—1137. 第 N 个泰波那契数 记忆化搜索实现代码 class Solution { public:int tribonacci(int n) {int zero 0;int one 1;int two 1;if(n 0) {return zero;}if(n 1) {return one;}if(n 2) {return two;}int ans 0;fo…

三重因素,巨人瘦身——从 IBM中国研发部裁员讲起

如何看待IBM中国研发部裁员?近日,IBM中国宣布撤出在华两大研发中心,引发了IT行业对于跨国公司在华研发战略的广泛讨论。这一决定不仅影响了众多IT从业者的职业发展,也让人思考全球化背景下中国IT产业的竞争力和未来发展方向。面对…

手机、平板电脑编程———未来之窗行业应用跨平台架构

一、平板编程优点 1. 便携性强 - 可以随时随地携带平板进行编程,不受地点限制,方便在旅行、出差或休息时间进行学习和开发。 2. 直观的触摸操作 - 利用触摸屏幕进行代码编辑、缩放、拖动等操作,提供了一种直观和自然的交互方式。 …

TypeScript:高级类型

一、交叉类型(Intersection Types) 交叉类型是将多个类型合并为一个类型。 这让我们可以把现有的多种类型叠加到一起成为一种类型,它包含了所需的所有类型的特性。 例如, Person & Serializable & Loggable同时是 Person …

建模杂谈系列256 规则函数化改造

说明 之前尝试用FastAPI来构造规则,碰到的问题是由于请求量过大(TPS > 1000), 从而导致微服务端口资源耗尽。所以现在的point是: 1 如何使用函数来替代微服务(同时要保留使用微服务的优点)2 进一步抽象并规范规则的执行3 等效合并规则的方法 内容 0 机制讨论…

Vue2源码解读

vue源码_哔哩哔哩_bilibili 1.Vue源码路径目录解读 Vue2源码的路径目录被设计得非常清晰,每个文件夹都承担着特定的职责和功能。以下是这些主要文件夹(compiler、core、platform、server、sfc、shared)的详细解读: 1. compiler …

LLM大模型部署实战指南:Ollama简化流程,OpenLLM灵活部署,LocalAI本地优化,Dify赋能应用开发

1. Ollama 部署的本地模型(🔺) Ollama 是一个开源框架,专为在本地机器上便捷部署和运行大型语言模型(LLM)而设计。,这是 Ollama 的官网地址:https://ollama.com/ 以下是其主要特点和功能概述: …

VLMEvalKit 评测实践:InternVL2 VS Qwen2VL

一、InternVL2简介 InternVL2是由上海人工智能实验室OpenGVLab发布的一款多模态大模型,其中文名称为“书生万象”。该模型在多学科问答(MMMU)任务上表现出色,成为国内首个在该任务上性能突破60的模型,被誉为开源多模态…

k8s 微服务 ingress-nginx 金丝雀发布

目录 一 什么是微服务 二 微服务的类型 三 ipvs模式 3.1 ipvs模式配置方式 四 微服务类型详解 4.1 clusterip 4.2 ClusterIP中的特殊模式headless 4.3 nodeport 4.4 loadbalancer 4.5 metalLB 4.6 externalname 五 Ingress-nginx 5.1 ingress-nginx功能 5.2 部署…

5. Python之数据类型

Python数据类型有数值型,字符串型,布尔型等等 内置函数type(),可以查看变量的数据类型 。 一、数值类型 整数(没有小数部分,包含正整数,负整数,0,默认为十进制数)&…

C++ 类域+类的对象大小

个人主页:Jason_from_China-CSDN博客 所属栏目:C系统性学习_Jason_from_China的博客-CSDN博客 所属栏目:C知识点的补充_Jason_from_China的博客-CSDN博客 概念概述 类定义了一个新的作用域,类的所有成员都在类的作用域中&#xff…

华为杯数学建模资料大全、入门指导攻略、获奖数据分析、选题建议

这里收集的资料个人认为已经非常全也非常值了,这么多资料收集成本真的不低 数学建模比赛资料部分(需要私聊找我) 华为杯创办以来每一年的比赛题目原题(包括A到F题)华为杯每年每种题目的优秀获奖作品论文 近几年的华…

2022高教社杯全国大学生数学建模竞赛C题 问题一(2) Python代码演示

目录 1.2 结合玻璃的类型,分析文物样品表面有无风化化学成分含量的统计规律数据预处理绘图热力图相关系数图百分比条形图箱线图小提琴图直方图KED图描述性统计分析偏度系数峰度系数其它统计量1.2 结合玻璃的类型,分析文物样品表面有无风化化学成分含量的统计规律 数据预处理 …

回归预测|基于鲸鱼优化随机森林数据的数据回归预测Matlab程序 多特征输入单输出WOA-RF

回归预测|基于鲸鱼优化随机森林数据的数据回归预测Matlab程序 多特征输入单输出WOA-RF 文章目录 一、基本原理鲸鱼优化算法(WOA)随机森林(RF)WOA-RF的结合总结 二、实验结果三、核心代码四、代码获取五、总结 一、基本原理 WOA-R…

服务器断电重启后报XFS文件系统错误 XFS (dm-0)_ Metadata I_O error

一、现象 服务器被意外断电,导致重启机器后报错,系统错误 XFS (dm-0): Metadata I/O error 二、解决方法 2.1 重启服务器,进入单用户模式 服务器系统为: centos7.9 开机按e 定位到ro 然后修改ro为rw(“rw init/sysroot/bin/sh”…

2024-1.2.12-Android-Studio配置

本地博客: https://k1t0111.github.io/ K1T0 最近在做一些app方向的移动技术开发学习,但是由于AS的配置问题,市面上找不到最新的2024版本的AS的相关配置。笔者也是踩了很多坑,因此想写一篇文章记录一下最新的AS 2024 1.2.12的对应java环境的一…

JavaScript 笔记汇总

JavaScript 笔记汇总 引入方式 内部方式 通过 script 标签包裹 JavaScript 代码。 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>JavaScript 基础 - 引入方式</title> </head> <…

java项目之基于web的人力资源管理系统的设计与实现(源码+文档)

风定落花生&#xff0c;歌声逐流水&#xff0c;大家好我是风歌&#xff0c;混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的基于web的人力资源管理系统的设计与实现。项目源码以及部署相关请联系风歌&#xff0c;文末附上联系信息 。 项目简介&#xff1a; …

2024/9/16 pytorch

一、pytorch两大法宝元素 假设有一个名为pytorch的包 dir()&#xff1a;用于打开包&#xff0c;看里面的内容 help():用于查看具体的内容的用处 二、python文件&#xff0c;python控制台和jupyter的使用对比 三、pytorch读取数据 pytorch读取数据主要涉及到两个类&#xff1…