目标检测算法

news2025/1/10 23:49:39

图像识别三大任务

  • 目标识别:或者说分类,定性目标,确定目标是什么
  • 目标检测:定位目标,确定目标是什么以及位置
  • 目标分割:像素级的对前景与背景进行分类,将背景剔除

目标检测定义

识别图片中有哪些物体以及物体的位置

目标检测中能检测出来的物体取决于当前任务(数据集)需要检测的物体有哪些。

目标检测的位置信息一般由两种格式:

  • 极坐标表示:(xmin, ymin, xmax, ymax)
    • xmin,ymin:x,y坐标的最小值
    • xmin,ymin:x,y坐标的最大值
  • 中心点坐标:(x_center, y_center, w, h)
    • x_center, y_center:目标检测框的中心点坐标
    • w,h:目标检测框的宽、高

 应用:

  • 道路检测
  • 动物检测

  • 商品检测

  • 车牌检测

  • 菜品检测

  • 车型检测

 虚拟环境安装 

pip3 install virtualenv

配置参数

export WORKON_HOME=$HOME/virtualenv
source /usr/local/bin/virtualenvwrapper.sh

 新建虚拟环境

mkvirtualenv + -p  /user/bin/python(python版本所在位置) + test(虚拟环境名称)

 进入虚拟环境

workon test

 安装环境包

pip install -r requirements.txt

目标检测算法分类:

  • 两步走的目标检测:先进行区域推荐,而后进行目标分类

    • 代表:R-CNN、SPP-net、Fast R-CNN、Faster R-CNN
  • 端到端的目标检测:采用一个网络一步到位

    • 代表:YOLO、SSD

输入一张图片,经过其中卷积、激活、池化相关层,最后加入全连接层达到分类概率的效果

  • 分类的损失与优化

在训练的时候需要计算每个样本的损失,那么CNN做分类的时候使用softmax函数计算结果,损失为交叉熵损失

 

  • 常见CNN模型

 

 检测的任务:

  • 分类:
    • N个类别
    • 输入:图片
    • 输出:类别标签
    • 评估指标:Accuracy

  • 定位:
    • N个类别
    • 输入:图片
    • 输出:物体的位置坐标
    • 主要评估指标:IOU

 (x,y,w,h)有一个专业的名词,叫做bounding box。

在目标检测当中,对bbox主要由两种类别。

  • Ground-truth bounding box:图片当中真实标记的框
  • Predicted bounding box:预测的时候标记的框

 检测的评价指标

任务description输入输出评价标准
检测和定位在输入图片中找出存在的物体类别和位置图片类别标签(categories)和 位置(bbox(x,y,w,h))IoU (Intersection over Union) mAP 

定位的简单实现 

增加一个全连接层,即为FC1、FC2

  • FC1:作为类别的输出

  • FC2:作为这个物体位置数值的输出

 假设有10个类别,输出[p1,p2,p3,...,p10],然后输出这一个对象的四个位置信息[x,y,w,h]。

  • 对于分类的概率,还是使用交叉熵损失
  • 位置信息具体的数值,可使用MSE均方误差损失(L2损失)

对于输出的位置信息是四个比较大的像素大小值,在回归的时候不适合。目前统一的做法是,每个位置除以图片本身像素大小。 

R-CNN网络 

Overfeat模型

Overfeat方法使用滑动窗口进行目标检测,也就是使用滑动窗口和神经网络来检测目标。滑动窗口使用固定宽度和高度的矩形区域,在图像上“滑动”,并将扫描结果送入到神经网络中进行分类和回归。

  • 例如要检测汽车,就使用下图中红色滑动窗口进行扫描,将所有的扫描结果送入网络中进行分类和回归,得到最终的汽车的检测结果。这种方法类似一种暴力穷举的方式,会消耗大量的计算力,并且由于窗口大小问题可能会造成效果不准确。

RCNN模型 

RCNN模型是一种结合了候选区域(Region Proposal)方法和卷积神经网络(CNN)的目标检测模型

  • 候选区域(Region Proposal):这部分的作用是确定图像中可能包含目标物体的区域,即解决定位问题。定位可以通过多种方法实现,例如暴力取框,即使用各种大小的框来遍历整张图片,或者看作一个回归问题,通过预测(x, y, w, h)四个参数的值来确定方框的位置。
  • 卷积神经网络(CNN):CNN用于识别候选区域内的内容,即解决识别问题。通过训练一个CNN来识别图像中的物体,并对其进行分类。

 

  • 使用选择性搜索(Selective Search)的方法找出图片中可能存在目标的侯选区域。
  • 选取预训练卷积神经网网络用于进行特征提取。 
  • 训练支持向量机(SVM)来辨别目标物体和背景,对每个类别,都要训练一个二元SVM。
  • 训练一个线性回归模型,为每个辨识到的物体生成更精确的边界框。

 CNN网络提取特征

采用预训练模型在生成的候选区域上进行特征提取,将提取好的特征保存在磁盘中,用于后续步骤的分类和回归。

目标分类(SVM)

假设我们要检测猫狗两个类别,那我们需要训练猫和狗两个不同类别的SVM分类器,然后使用训练好的分类器对一幅图像中2000个候选区域的特征向量分别判断一次,这样得出[2000, 2]的得分矩阵。

对于N个类别的检测任务,需要训练N(目标类别数目)个SVM分类器。

目标定位 

 通过训练一个回归器来对候选区域的范围进行一个调整,这些候选区域最开始只是用选择性搜索的方法粗略得到的,通过调整之后得到更精确的位置。

使用选择性搜索的方法从一张图片中提取2000个候选区域,将每个区域送入CNN网络中进行特征提取,然后送入到SVM中进行分类,并使用候选框回归器,计算出每个候选区域的位置。 候选区域较多,有2000个,需要剔除掉部分检测结果。 针对每个类,通过计算IOU,采取非最大值抑制NMS的方法,保留比较好的检测结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1508615.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据结构与算法第四套试卷(青科大)

1.图 无向图入度出度之和 所有入度之和为2*边数 2.树 **知识点:**注意二叉排序树!深度平衡树,所以可能会出现极端现象(链表),时间复杂度为0(n),如果为最好情况即为0(logn) 3.图 1.邻接表n个…

STM32利用标准库编写同时输出4路PWM信号的程序(Proteus)仿真

先看看结果: 这个是根据上午发的文章的基础上更改的,很简单,只是用了一个定时器,初始化了4个比较器而已,就可以单独的控制每一路PWM的占空比了,好了,把源文件展示一下,完事去接孩子放…

Wilson威尔逊平滑

1、威尔逊平滑引入的动机 在曝光很少的情况下,计算出的CTR并不真实可靠,而样本数越大,CTR的比例才越准确,更能反应真实情况。 为了衡量样本数对于CTR信区间的影响,我们引入"威尔逊(Wilson&#xff0…

2024暑期实习八股笔记

文章目录 自我介绍MySQL索引索引种类、B树聚簇索引、非聚簇索引联合索引、最左前缀匹配原则索引下推索引失效索引优化 日志、缓冲池redo log(重做日志)刷盘时机日志文件组 bin log(归档日志)记录格式写入机制 两阶段提交undo log&…

骨传导耳机如何选购?新手必看的6个避雷小妙招!

在短短几年内,骨传导耳机的市场规模一路攀升,今年甚至有望成为最受欢迎的蓝牙耳机款式,但与此同时,整个骨传导耳机行业也频繁出现乱象,不专业产品鱼龙混杂,令人吃惊的是,还有许多中小网红品牌也…

ctfshow web入门 php特性总结

1.web89 intval函数的利用,intval函数获取变量的整数值,失败时返回0,空的数组返回,非空数组返回1 num[]1 intval ( mixed $var [, int $base 10 ] ) : int Note: 如果 base 是 0,通过检测 var 的格式来决定使用的进…

【Redis】RedisTemplate序列化传输数据

使用自定义的序列化器 使用RedisTemplate默认的序列化器发送数据,会将key全都当成Object处理,从而按照对象的方式转成json格式发送到服务器,这样会导致两个问题。一是不方便阅读,二是会大大浪费内存。因此,建议自定义…

SQLiteC/C++接口详细介绍(一)

上一篇:SQLiteC/C接口简介 下一篇:SQLiteC/C接口详细介绍(二) 引言: SQLite C/C 数据库接口是一个流行的SQLite库使用形式,它允许开发者在C和C代码中嵌入 SQLite 基本功能的解决方案。通过 SQLite C/C 数据…

企业内部培训考试系统题库功能开发说明

学练考结合中,练是很关键的一环,将考察学习成功的试题导入企业内部培训考试系统的题库中,既可以作为日常学习后的作业巩固练习,又可以组卷进入正式考试里的试卷里。日常考试前更是可以反复练习题库里的各种试题。 校营宝企业内部…

LLM 构建Data Muti-Agents 赋能数据分析平台的实践之①:数据采集

一、 概述 在推进产业数字化的过程中,数据作为最重要的资源是优化产业管控过程和提升产业数字化水平的基础一环,如何实现数据采集工作的便利化、高效化、智能化是降低数据分析体系运转成本以及推动数据价值挖掘体系的基础手段。随着数字化在产业端的推进…

AXI相关知识点

1、Axcache相关知识点 xilinx 文档Pg059推荐: . Xilinx recommends that master devices drive their AW/RCACHE outputs to 0b0011 to allow the AXI Interconnect core to pack data while performing width conversion. 下面这篇文档对Axcache讲解的非常通俗易…

2024年春招|个人简历范本(精选5篇)

HR浏览一份简历也就25秒左右,如果你连「好简历」都没有,怎么能找到好工作呢? 如果你不懂得如何在简历上展示自己,或者觉得怎么改简历都不出彩,那请你一定仔细读完。 个人求职简历第 1 篇 男 22 本科 AI简历 市场营销 123456789 resume@ai-tools.cn 个人概述 以互联…

数据库--SQL语言-1

练习网站:自学SQL网 Select 查询语法复习 SELECT column, another_column, …FROM mytableWHERE condition AND/OR another_condition AND/OR …; 操作符号: 如果属性是字符串, 我们会用到字符串相关的一些操作符号,其中 LIKE&#xff08…

「CISP题库精讲」CISP题库习题解析精讲5道

前言 本节只要对CISP考试中的5道习题进行详细的讲解,时间比较少,敲多少道,就算多少道,反正全部也就1400多道。 习题部分 第一题 某企业内网中感染了一种依靠移动存储进行传播的特洛伊木马病毒,由于企业部署的杀毒软件,为了解决该病毒在企业内部传播,作为信息化负责人…

C++进阶之路---多态(二)

顾得泉:个人主页 个人专栏:《Linux操作系统》 《C从入门到精通》 《LeedCode刷题》 键盘敲烂,年薪百万! 一、多态的原理 1.虚函数表 // 这里常考一道笔试题:sizeof(Base)是多少? class Base { public:…

Java怎么实现word转PDF?

问题背景 这其实源自于使用ES搜索word、pdf等文档的方案实现过程,出现了只能正确解析pdf却不能解析word内容的错误,于是折中方案何不直接把word转成pdf呢?word转pdf肯定是比pdf转word容易太多了。 实现方案 以下是针对多种Java环境下将Wor…

我用 Python 做了个小仙女代码蹦迪视频

前言 最近在B站上看到一个漂亮的仙女姐姐跳舞视频,循环看了亿遍又亿遍,久久不能离开! 看着仙紫小姐姐的蹦迪视频,除了一键三连还能做什么?突发奇想,能不能把小仙女的蹦迪视频转成代码舞呢? 说…

Python 基于 OpenCV 视觉图像处理实战 之 背景知识

Python 基于 OpenCV 视觉图像处理实战 之 背景知识 目录 Python 基于 OpenCV 视觉图像处理实战 之 背景知识 一、简单介绍 二、人工智能(Artificial Intelligence,AI) 三、OpenCV 四、计算机视觉任务的主要类型 五、计算机视觉是通…

博客系统(SSM)

前端页面http://t.csdnimg.cn/zwKyG以上是之前写过的博客前端页面的内容,下面是通过SSM实现的后端内容。 目录 一.准备工作 1.1数据准备 1.2修改配置版本文件 1.3配置数据库 二.项目公共模块 2.1实体类 2.2操作数据库部分 三.功能开发 3.1博客列表 获取博…

确保电子设备稳定运行:晶振安装的详细检查方法

晶振的安装质量直接影响到电路的稳定性和可靠性,因此,检查晶振安装是否正确是非常重要的。下面,我们将介绍一些检查晶振安装是否正确的方法。 1. 检查晶振引脚的焊接质量 在检查晶振安装时,首先要确保晶振的引脚已经正确且牢固地…