YOLO v1(2016.5)

news2024/11/26 2:23:46


文章目录

  • Abstract
  • Introduction
    • 过去方法存在的问题
    • 我们提出的方法解决了...
  • Unified Detection
    • Network Design
    • Training
    • Inference
  • Comparison to Other Detection Systems
    • Deformable parts models
    • R-CNN
    • Other Fast Detectors
    • Deep MultiBox
    • OverFeat
    • MultiGrasp
  • Experiments
  • Conclusion

原文链接
代码

Abstract

我们提出了一种新的目标检测方法YOLO,先前在目标检测方面的工作将分类器重新用于执行形式检测。相反,我们将目标检测框架视为空间分离边界框和相关类概率的回归问题。单个神经网络在一次评估中直接从完整图像中预测边界框和类别概率。由于整个检测管道是一个单一的网络,因此可以直接对检测性能进行端到端的优化

我们的统一架构非常快。我们的基本YOLO模型以每秒45帧的速度实时处理图像。一个更小的网络版本,Fast YOLO,每秒处理惊人的155帧,同时仍然达到其他实时探测器的两倍mAP。与最先进的检测系统相比,YOLO会产生更多的定位错误,但背景误差小得多

最后,YOLO学习对象的通用表示,当从自然图像泛化到其他领域(如艺术品)时,它优于其他检测方法,包括DPM和R-CNN

Introduction

过去方法存在的问题

当前的检测系统使用分类器来执行检测,最近的一些方法,如R-CNN,首先使用区域生成方法在图像中生成潜在的边界框,然后在这些候选框上运行分类器,然而这些复杂的管道是缓慢的和难以优化的,因为每个单独的组件必须单独训练

我们提出的方法解决了…

我们将目标检测重新定义为一个单一的回归问题,直接从图像像素到边界框坐标和类概率。使用我们的系统,你只看一次(YOLO)图像,以预测什么物体存在和他们在哪里
用YOLO处理图像是简单和直接的。(1)将输入图像的大小调整为448 × 448,(2)在图像上运行单个卷积网络,(3)通过模型的置信度对结果检测进行阈值
单个卷积网络同时预测多个边界框和这些框的分类概率,YOLO在完整的图像上进行训练,并直接优化检测性能。与传统的目标检测方法相比,这种统一的模型有几个优点:
首先,YOLO非常快
其次,YOLO在进行预测时对图像进行全局推理,因此,YOLO的背景误差很小
第三,YOLO学习对象的通用表征,YOLO是高度可泛化的,当应用到新的领域或意想不到的输入时,它不太可能崩溃
YOLO在精度上仍然落后于最先进的探测系统。虽然它可以快速识别图像中的物体,但很难精确定位某些物体,尤其是小物体

Unified Detection

我们将目标检测的独立组件统一到一个单一的神经网络中,YOLO设计使端到端训练和实时速度,同时保持高平均精度
我们定义置信度as Pr(Object) ∗ IOU truth pred
每个边界框由5个预测组成:x, y, w, h和置信度
置信度预测表示预测框与任何真实框之间的IOU
Pr(Classi|Object):条件类概率

条件类概率 × 个体置信度预测 = 类别置信度预测
这些分数编码了该类别出现在框中的概率以及预测框与该对象的匹配程度

Network Design

网络的初始卷积层从图像中提取特征,而全连接层预测输出概率和坐标
我们的检测网络有24个卷积层,后面是2个全连接层,交替的1 × 1卷积层减少了前一层的特征空间。我们在ImageNet分类任务上以一半的分辨率(224 × 224输入图像)预训练卷积层,然后将分辨率提高一倍用于检测

Training

我们对最后一层使用线性激活函数,所有其他层使用以下漏整流线性激活
每张图像中,许多网格单元不包含任何对象,这可能导致模型不稳定,导致训练在早期出现分歧,我们使用两个参数,λcoord和λnoobj来实现这一点。设λcoord =5, λnoobj = .5

我们对模型输出中的和平方误差进行了优化

我们的误差度量应该反映出大盒子里的小偏差比小盒子里的小偏差影响小。为了部分解决这个问题,我们预测边界框宽度和高度的平方根,而不是直接预测宽度和高度
1obji 表示目标是否出现在单元格 i 中,1objij表示单元格 i 中的第 j 个边界框预测器“负责”该预测
损失函数只在对象存在于该网格单元中时惩罚分类错误(因此前面讨论了条件类概率)。它也只有在预测器“负责”地面真值框(即在该网格单元中具有最高的预测器IOU)时才会对边界框坐标误差进行化

为了避免过拟合,我们使用dropout和广泛的数据增强

Inference

就像在训练中一样,预测测试图像的检测只需要一次网络评估。在PASCAL VOC上,网络预测每张图像的98个边界框和每个框的类概率。YOLO在测试时非常快,因为它只需要一个网络评估,不像基于分类器的方法

网格设计加强了绑定框预测的空间多样性。通常情况下,一个对象落在哪个网格单元是很清楚的,网络只预测每个对象的一个框。然而,一些较大的物体或靠近多个单元边界的物体可以被多个单元很好地定位。非最大抑制可以用来固定这些多重检测。虽然不像R-CNN或DPM那样对性能至关重要,但非最大抑制在mAP中增加了2- 3%

Comparison to Other Detection Systems

目标检测是计算机视觉中的一个核心问题。检测管道通常首先从输入图像中提取一组鲁棒特征(Haar [25], SIFT [23], HOG[4],卷积特征[6])。然后,使用分类器[36,21,13,10]或定位器[1,32]来识别特征空间中的对象。这些分类器或定位器要么在整个图像上以滑动窗口的方式运行,要么在图像中的某些区域子集上运行[35,15,39]。我们将YOLO检测系统与几个顶级检测框架进行了比较,突出了关键的相似点和不同点

Deformable parts models

可变形部件模型(DPM)使用滑动窗口方法进行对象检测[10]。DPM使用一个不相交的管道来提取静态特征,对区域进行分类,预测高分区域的边界框等

我们的系统用一个卷积神经网络取代了所有这些不同的部分。该网络可以同时进行特征提取、边界框预测、非最大值抑制和上下文推理。与静态特征不同,该网络在线训练特征,并针对检测任务对其进行优化。我们的统一架构带来了更快、更准确的模型

R-CNN

R-CNN及其变体使用区域候选框而不是滑动窗口来查找图像中的对象。选择性搜索[35]生成潜在的边界框卷积网络提取特征支持向量机对边界框进行评分线性模型调整边界框非最大压缩消除重复检测。这个复杂管道的每个阶段都必须精确地独立调整,结果系统非常慢,在测试时每个图像需要40多秒

YOLO与R-CNN有一些相似之处。每个网格单元提出潜在的边界框,并使用卷积特征对这些框进行评分。然而,我们的系统对网格单元候选框施加了空间约束,这有助于减少对同一目标的多次检测。我们的系统提出的边界框也少得多,每张图像只有98个,而选择性搜索大约有2000个。最后,我们的系统将这些单独的组件组合成一个单一的、共同优化的模型

Other Fast Detectors

Fast 和 Faster R-CNN专注于通过共享计算使用神经网络提出区域而不是选择性搜索[14]b[28]来加速R-CNN框架。虽然它们在速度和准确性上都比R-CNN有所提高,但两者的实时性仍然不足

Deep MultiBox

与R-CNN不同,Szegedy等人训练卷积神经网络来预测感兴趣的区域[8],而不是使用选择性搜索。MultiBox还可以通过用单个类预测代替置信度预测来执行单个对象检测。然而,Multi- Box不能执行通用的目标检测,仍然只是在一个更大的检测管道中,需要进一步的图像补丁分类
YOLO和MultiBox都使用卷积网络来预测图像中的边界框,但YOLO是一个完整的检测系统

OverFeat

OverFeat可以有效地进行滑动窗口检测,但它仍然是一个不相交的系统。Over- Feat优化了定位,而不是检测性能。与DPM一样,本地化器在进行预测时只看到本地信息。OverFeat不能对全局上下文进行推理,因此需要大量的后处理来产生连贯的检测

MultiGrasp

我们的工作在设计上与Redmon等人的抓取检测工作相似。我们对边界框预测的网格方法是基于MultiGrasp系统对抓点的回归。然而,抓握检测是一个比物体检测简单得多的任务。MultiGrasp只需要为包含一个对象的图像预测单个可抓取区域,它不需要估计物体的大小、位置或边界,也不需要预测物体的类别,只需要找到一个适合抓取的区域。YOLO预测图像中多个类别的多个对象的边界框和类别概率

Experiments

首先,我们将YOLO与其他基于PASCAL VOC 2007的实时检测系统进行了比较。为了理解YOLO和R-CNN变体之间的差异,我们探讨了YOLO和Fast R-CNN (R-CNN b[14]的最高表现版本之一)在VOC 2007上的错误。基于不同的误差分布,我们表明YOLO可以用于快速R-CNN检测的重分,并减少背景假阳性的误差,从而显着提高性能。我们还介绍了VOC 2012的结果,并将mAP与当前最先进的方法进行了比较。最后,我们在两个艺术品数据集上证明了YOLO比其他检测器更好地泛化到新的领域





Conclusion

我们的模型构造简单,可以直接在完整的图像上进行训练。与基于分类器的方法不同,YOLO是在直接对应于检测性能的损失函数上进行训练的,整个模型是联合训练的。Fast YOLO是最快的通用对象检测器,YOLO推动了最先进的实时对象检测。YOLO还可以很好地推广到新的领域,使其成为依赖于快速、健壮的对象检测的应用程序的理想选择

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1147029.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java项目之机房预约系统(ssm框架)

项目简介 机房预约系统实现了以下功能: 管理员:个人中心、学生管理、教师管理、机房号管理、机房信息管理、申请预约管理、取消预约管理、留言板管理、论坛管理、系统管理。学生:个人中心、机房信息管理、申请预约管理、取消预约管理、留言…

Elasticsearch:使用 E5 嵌入模型进行多语言向量搜索

作者:JOSH DEVINS 在这篇文章中,我们将介绍多语言向量搜索。 我们将使用 Microsoft E5 多语言嵌入模型,该模型在零样本和多语言设置中具有最先进的性能。 我们将介绍多语言嵌入的一般工作原理,以及如何在 Elasticsearch 中使用 E…

蓝桥杯每日一题2023.10.29

螺旋折线 - 蓝桥云课 (lanqiao.cn) 题目描述 题目分析 在图中我们可以观察到四个对角线的值均为特殊点&#xff0c;其他的点可以根据这几个 进行偏移量的计算从而进行表示&#xff0c;此题主要是找到规律即可 #include<bits/stdc.h> using namespace std; typedef long…

ENSP L2TP 配置

拓扑 真机模拟出差员工使用l2tp客户端接入公司内网。 客户端下载&#xff1a;URL 说明&#xff1a; 确保真机与AR1设备之间网络可达&#xff0c;且真机上可以访问到LNS的 10.100.1.254 真机网卡配置 真机上添加去往LNS的路由 测试 LNS配置 #l2tp enable #ip pool shass…

聊聊装饰模式

缘起 某日&#xff0c;阳光明媚&#xff0c;绿草花香。Leader突然找到了小明&#xff1a;“小明&#xff0c;如果让你将一个人的穿着使用代码来实现&#xff0c;你该怎么完成呢&#xff1f;” 小明一听&#xff0c;回答道:“Leader&#xff0c;这个不难&#xff0c;马上就完事…

【PyQt学习篇 · ④】:QWidget - 尺寸操作

文章目录 QWidget简介QWidget大小位置操作案例一案例二 QWidget尺寸限定操作案例 内容边距案例 QWidget简介 在PyQt中&#xff0c;QWidget是一个基本的用户界面类&#xff0c;用于创建可见的窗口组件。QWidget可以包含多种类型的子组件&#xff0c;如QPushButton、QLabel、QLi…

matlab 中的基本绘图指令与字符串操作指令

字符串指令 创建字符串 使用单引号将字符序列括起来创建字符串使用单引号创建的字符串是一个字符数组&#xff0c;每个字符都被视为一个独立的元素 可以通过索引访问每个字符使用双引号创建的字符串是一个字符串数组&#xff0c;整个字符串被视为一个元素 无法通过索引访问单个…

Linux shell编程学习笔记17:for循环语句

Linux Shell 脚本编程和其他编程语言一样&#xff0c;支持算数、关系、布尔、字符串、文件测试等多种运算&#xff0c;同样也需要进行根据条件进行流程控制&#xff0c;提供了if、for、while、until等语句。 之前我们探讨了if语句&#xff0c;现在我们来探讨for循环语句。 Li…

海外问卷调查是怎么做的?全方位介绍!

橙河这样说&#xff0c;相信大家应该不难理解。 国外问卷调查目前主要有三种形式&#xff1a;口子查、站点查和渠道查。橙河自己做的是渠道查。 站点查是最早的问卷形式&#xff0c;意思是我们需要登录到问卷网站上&#xff0c;就可以做问卷了。但想要在网站上做问卷&#xf…

YOLO轻量化改进 , 边缘GPU友好的YOLO改进算法!

在本文中&#xff0c;作者根据现有先进方法中各种特征尺度之间缺少的组合连接的问题&#xff0c;提出了一种新的边缘GPU友好模块&#xff0c;用于多尺度特征交互。此外&#xff0c;作者提出了一种新的迁移学习backbone采用的灵感是来自不同任务的转换信息流的变化&#xff0c;旨…

《Attention Is All You Need》阅读笔记

论文标题 《Attention Is All You Need》 XXX Is All You Need 已经成一个梗了&#xff0c;现在出现了很多叫 XXX Is All You Need 的文章&#xff0c;简直标题党啊&#xff0c;也不写方法&#xff0c;也不写结果&#xff0c;有点理解老师扣论文题目了。 作者 这个作者栏太…

Yolo-Z:改进的YOLOv5用于小目标检测

目录 一、前言 二、背景 三、新思路 四、实验分析 论文地址&#xff1a;2112.11798.pdf (arxiv.org) 一、前言 随着自动驾驶汽车和自动驾驶赛车越来越受欢迎&#xff0c;对更快、更准确的检测器的需求也在增加。 虽然我们的肉眼几乎可以立即提取上下文信息&#xff0c;即…

Arhas 常用命令

watch 函数执行数据观测: location 会有三种值 AtEnter&#xff0c;AtExit&#xff0c;AtExceptionExit。 对应函数入口&#xff0c;函数正常 return&#xff0c;函数抛出异常。 result 表示观察表达式的值&#xff1a; {params,returnObj,throwExp} eg: 查看是某个方法的参…

探索Apache HttpClient超时时间如何设定?

目录 一、Apache HttpClient模拟POST请求&#xff0c;调用第三方接口1、发起POST请求&#xff1a;2、模拟服务端3、通过postman测试一下4、Apache HttpClient 二、HTTP超时时间1、众所周知&#xff0c;HTTP使用的是TCP/IP 协议。2、TCP/IP超时时间设置3、HTTP连接超时时间如何设…

笔记Kubernetes核心技术-之Controller

2、Controller 2.1、概述 在集群上管理和运行容器的对象&#xff0c;控制器(也称为&#xff1a;工作负载)&#xff0c;Controller实际存在的&#xff0c;Pod是抽象的&#xff1b; 2.2、Pod和Controller关系 Pod是通过Controller实现应用运维&#xff0c;比如&#xff1a;弹…

前馈神经网络处理二分类任务

此文建议看完基础篇再来&#xff0c;废话不多说&#xff0c;进入正题 目录 1.神经元 1.1 活性值 1.2 激活函数 1.2.1 Sigmoid函数 1.2.2 Relu函数 2.基于前馈神经网络的二分类任务 2.1 数据集的构建 2.2 模型的构建 2.2.1 线性层算子 2.2.2 Logistic算子 2.2.3 层的串行组合…

FL Studio 21.2.0.3842中文破解版发布啦,支持 Cloud 在线采样库和 AI 音乐制作功能

好消息&#xff01;FL Studio 21.2 在 10 月 26 日正式发布啦&#xff0c;它新增了 FL Cloud 在线采样库和 AI 音乐制作功能&#xff0c;还提供音乐分发到 Spotify、Apple Music 等主要音乐平台的服务。此外&#xff0c;还有新的音频分离功能、自定义波形颜色和新的合成器 Kepl…

改进YOLOv3!IA-YOLO:恶劣天气下的目标检测

恶劣天气条件下从低质量图像中定位目标还是极具挑战性的任务。现有的方法要么难以平衡图像增强和目标检测任务&#xff0c;要么往往忽略有利于检测的潜在信息。本文提出了一种新的图像自适应YOLO (IA-YOLO)框架&#xff0c;可以对每张图像进行自适应增强&#xff0c;以提高检测…

Windows一键添加命名后缀(文件)

温馨提示&#xff1a;使用前建议先进行测试和原文件备份&#xff0c;避免引起不必要的损失。 &#xff08;一&#xff09;需求描述 之前老板让我给大量文件添加命名前缀&#xff0c;如今为了防患于未然&#xff0c;我决定把添加命名后缀的功能也实现一下&#xff0c;虽然这与添…