目标检测基础初步学习

news2024/11/26 1:48:47

目标检测(Object Detection)

目标检测任务说明

在动手学习深度学习中对目标检测任务有如下的描述。

图像分类任务中,我们假设图像中只有一个主要物体对象,我们只关注如何识别其类别。 然而,很多时候图像里有多个我们感兴趣的目标,我们不仅想知道它们的类别,还想得到它们在图像中的具体位置。 在计算机视觉里,我们将这类任务称为目标检测(object detection)或目标识别(object recognition)

在给定的一张目标检测的图片中,我们可以看到几个重要的元素,彩色的框,类别标签,及其它的预测值。从而引出了目标检测中几个重要的概念信息的说明
在这里插入图片描述

  1. 类别标签( Category label):在图中指的是car person dog horse等几个类别的说明。
  2. 置信度得分 (Confidence score):在图中指的是对于每个类别标签的预测分数。
  3. 边界框(Bounding box):是指对于每个类别的物体所框选的位置。

通过边界框给出了物体的相关位置信息

我们通常使用边界框(bounding box)来描述对象的空间位置。 边界框是矩形的,由矩形左上角的以及右下角的x和y坐标决定。 另一种常用的边界框表示方法是边界框中心的轴坐标(x,y)以及框的宽度和高度

一个边缘框可以通过4个数字定义

  • (左上x, 左上y,右下x,右下y)
  • (左上x, 左上y,宽,高)

在这里插入图片描述
(60,65,378,579):在图中对应向右为x轴正方向,向下为y轴正方向

在这里插入图片描述
下面的四个图依次介绍了计算机视觉中常见的四个任务,依次包括了

  • Classification
  • Classification+ Localization
  • Object Detection
  • instance segmetation(实例分割)

定位和检测:

  • 定位是找到检测图像中带有一个给定标签的单个目标
  • 检测是找到图像中带有给定标签的所有目标

目标检测常用数据集

PASCAL VOC数据集

PASCALVOC挑战赛在2005年至2012年间展开。

PASCAL VOC 2007:9963张图像, 24640个标注; PASCAL VOC 2012:11530 张图像,27450个标注。

该数据集有20个分类:

  • Person: person

  • Animal: bird, cat, cow, dog,horse, sheep

  • Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train

  • Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

在这里插入图片描述

官网地址:http://host.robots.ox.ac.uk/pascal/VOC/

在这里插入图片描述

MS COCO数据集

MS COCO的全称是Microsoft Common Objects in Context,起源于是微软于2014年出资标注的MicrosoftCOcO数据集,与lmageNet 竞赛一样,被视为是计算机视觉领域最受关注和最权威的比赛之一。

在lmageNet竞赛停办后,COcO竞赛就成为是当前目标识别、检测等领域的一个最权威、最重要的标杆,也是目前该领域在国际上唯一能汇集Google、微软 Facebook以及国内外众多顶尖院校和优秀创新企业共同参与的大赛。

COCO ( Common Objects in Context) 数据集包含20万个图像: 11.5万多张训练集图像,5千张验证集图像,2万多张测试集图像,80个类别中有超过50方个自标标注。平均每个图像的目标数为7.2

在这里插入图片描述

官网地址:https://cocodataset.org/#home

在这里插入图片描述

目标检测的性能指标

检测精度

  • Precision,Recall,F1score
  • loU (Intersection over Union)
  • P-R curve (Precison-Recall curve)
  • AP(AveragePrecision)
  • mAp(mean Average Precision)

检测速度

  • 前传耗时
  • 每秒帧数FPS(FramesPerSecond)
  • 浮点运算量(FLOPS)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1709160.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

中心入侵渗透

问题1. windows登录的明文密码,存储过程是怎么样的?密文存在哪个文件下?该文件是否可以打开,并且查看到密文? 回答: Windows登录的明文密码的存储过程是: 当用户尝试登录Windows时&#xff0…

MM模块六(收货)

接到供应商收到的货以后,进行一个收货的动作 收货:MIGO 1.消耗物料的采购订单 数量是供应商的数量 消耗物料的采购订单,收进来的货物直接进入消耗,不会增加库存,所以这里没有库存地点进行选择 点击过账 收货后在采购…

ubuntu 配置用户登录失败尝试次数限制

前言: 通过修改pam配置来达到限制密码尝试次数! 1:修改 /etc/pam.d/login 配置(这里只是终端登录配置,如果还需要配置SSH远程登录限制,只配置下面的 /etc/pam.d/pam.d/common-auth 即可) vim…

go-zero 实战(1)

环境准备 go 版本 go version go1.22.2 linux/amd64 goctl 安装 goctl(官方建议读 go control)是 go-zero微服务框架下的代码生成工具。使用 goctl 可以显著提升开发效率,让开发人员将时间重点放在业务开发上,其功能有&#xff1a…

【东山派Vision K510开发板试用笔记】WiFi配网问题

目录 概述 WiFi配网的修改 悬而未决的问题 概述 最近试用了百问网提供的东山派Vision开发板,DongshanPI-Vision开发板是百问网针对AI应用开发设计出来的一个RSIC-V架构的AI开发板,主要用于学习使用嘉楠的K510芯片进行Linux项目开发和嵌入式AI应用开发…

手撕C语言题典——返回倒数第 k 个节点(面试题)

前言 依旧力扣,这道题之前有做过类似的题,今天给一个新的思路去做,应对面试时候遇到的奇奇怪怪的问题 面试题 02.02. 返回倒数第 k 个节点 - 力扣(LeetCode)https://leetcode.cn/problems/kth-node-from-end-of-list-…

英特尔LLM技术挑战记录

英特尔技术介绍: Flash Attention Flash Attention 是一种高效的注意力机制实现,旨在优化大规模 Transformer 模型中的自注意力计算。在深度学习和自然语言处理领域,自注意力是 Transformer 架构的核心组件,用于模型中不同输入元…

PMP报考条件怎么查询?如何判定自己是否符合条件?

PMP报考条件在PMI官网上就可以查询,PMP报考条件只需要符合项目管理培训经历和项目管理经验两个方面的要求即可,大家可以对照下方的规定判断自己是否符合PMP报名条件 PMP报考条件 以下是PMI(中国)官网对于PMP报名条件的规定&…

3D点云焊缝提取 平面交线 投影

文章目录 1. 效果2. 思路3. 源码 1. 效果 2. 思路 计算点云法向量;计算点云位姿Pose;翻转Pose中的Z轴方向,使其一致;通过Pose的Z轴对点云进行方向过滤;对点云聚类;根据目标点云的高度提取目标点云;提取两块…

Unity Dotween 定位点的制作

目录 前言 一、动画预览 二、动画拆分 三、素材准备 四、曲线 OutCirc详解 五、速度分类详解 六、代码 七、组件和设置 八、作者的话 前言 我答应我的粉丝接下来更新Dotween系列,但是我一直没想好,从哪里开始讲。 Dotween的安装我就跳过了&…

Java基础之 API 字符串

文章目录 API字符串String概述创建对象 java的内存模型java的常用方法(比较)练习 API 概念: APl(Application ProgrammingInterface): 应用程序编程接口 简单理解: API就是别人已经写好的东西,我们不需要自己编写,直接使用即可。 Java API: 指的就是J…

三层交换机基本配置,动态路由链接

<Huawei>system-view //进入系统视图[Huawei]undo info-center enable //关日志[Huawei]vlan batch 2 3 //创建vlan2与3[Huawei]display vlan //检查[Huawei]interface GigabitEthernet 0/0/2 //进2口[Huawei-GigabitEthernet0/0/2]port link-type access //配置…

【STM32嵌入式系统设计与开发---传感器拓展】——1_2_蓝牙主从模块_AT配置(HC-05)

一、主机蓝牙设置 # 1、重置模块 ATORGL # 2、设置名字&#xff0c;自己随便设置 ATNAMEMaster # 3、设置连接密码&#xff0c;要和从机一样&#xff0c;密码好像可以不加双引号 ATPSWD"1234" # 4、设置为主机 ROLE 1 为主机 ROLE 0为从机 ATROLE1 # 5、设置波特…

04 FreeRTOS 队列(queue)

1、队列的特性 队列可以理解为一个传送带&#xff0c;一个流水线。 队列可以包含若干个数据&#xff1a;队列中有若干项&#xff0c;这被称为"长度"(length) 每个数据大小固定 创建队列时就要指定长度、数据大小 数据的操作采用先进先出的方法(FIFO&#xff0c;First…

Python OCR 文字检测使用模型:读光-文字检测-DBNet行检测模型-中英-通用领域

介绍 什么是OCR&#xff1f; OCR是“Optical Character Recognition”的缩写&#xff0c;中文意为“光学字符识别”。它是一种技术&#xff0c;可以识别和转换打印在纸张或图像上的文字和字符为机器可处理的格式&#xff0c;如计算机文本文件。通过使用OCR技术&#xff0c;可…

【Python安全攻防】【网络安全】一、常见被动信息搜集手段

一、IP查询 原理&#xff1a;通过目标URL查询目标的IP地址。 所需库&#xff1a;socket Python代码示例&#xff1a; import socketip socket.gethostbyname(www.163.com) print(ip)上述代码中&#xff0c;使用gethostbyname函数。该函数位于Python内置的socket库中&#xf…

xss-labs之level9、level10

一、level9 1、测试分析 尝试了之前的payload&#xff0c;发现都不行&#xff0c;看源码发现多了个strpos函数&#xff0c; strpos() 是一个在 PHP 中用于查找子串首次出现位置的函数。它接受两个参数&#xff1a;要搜索的字符串&#xff08;主字符串&#xff09;和要查找的子…

5.28OpenMV入门

10分钟快速上手 OpenMV中文入门教程 使用的元件 先安装好&#xff0c;上述链接上手 IDE显示颜色阈值&#xff0c;同时也配有示例文件&#xff0c;如下图打开&#xff0c;helloworld 你好&#xff0c;世界&#xff01; OpenMV中文入门教程&#xff0c;在官方也有每一个的详细…

公司如何监控到电脑端微信聊天记录的?

在当今职场环境中&#xff0c;确保信息交流的安全性和合规性成为了企业管理中的重要议题。 特别是在使用像微信这样的即时通讯工具进行工作沟通时&#xff0c;合理监控员工的电脑端微信聊天记录成为了一些企业的管理需求。 但值得注意的是&#xff0c;此类监控必须建立在合法…

[数据集][目标检测]道路井盖下水道井盖开关闭和检测数据集VOC+YOLO格式407张2类别

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;407 标注数量(xml文件个数)&#xff1a;407 标注数量(txt文件个数)&#xff1a;407 标注类别…