【计算机视觉】目标检测中Faster R-CNN、R-FCN、YOLO、SSD等算法的讲解(图文解释 超详细必看)

news2024/12/23 19:22:51

觉得有帮助请点赞关注收藏~~~

一、基于候选区域的目标检测算法

基于候选区域的深度卷积神经网络(Region-based Convolutional Neural Networks)是一种将深度卷积神经网络和区域推荐相结合的物体检测方法,也可以叫做两阶段目标检测算法。第一阶段完成区域框的推荐,第二阶段是对区域框进行目标识别。

1:Faster R-CNN目标检测算法

利用选择性搜索算法在图像中提取数千个候选区域,然后利用卷积神经网络对每个候选区域进行目标特征的提取,接着用每个候选区域提取到的特征来训练支持向量机分类器对候选区域进行分类,最后依据每个区域的分类得分使用非极大值抑制算法和线性回归算法优化出最红的目标位置。R-CNN算法的训练被分成多个阶段,包括分开训练提取特征的卷积神经网络,用于分类的分类器和分类器的训练不相关,这影响了目标检测的准确率。

Faster R-CNN方法中最重要的是使用候选区域推荐网络获得准确的候选区域框,大大加快了目标检测速度,并且将选择区域框的过程嵌入卷积神经网络中,与网络共享卷积层的参数,从而提高网络的训练和测试速度,候选区域推荐网络的核心思想是使用卷积神经网络直接产生候选区域框,使用的方法本质上就是滑动窗口。

 2:R-FCN目标检测算法

R-FCN方法的整体结构全部由卷积神经网络组成,为了给全卷积神经网络引入平移变化,用专门的卷积层构建了位置敏感分数地图,每一个空间敏感地图对感兴趣区域的相对空间位置的信息进行了编码,并插入感兴趣区域池化层来接受整合信息,用于监管这些分数地图,从而给卷积神经网络加入了平移变化。R-FCN 在与区域推荐网络共享的卷积层后面多增加了1个卷积层,最后1个卷积层的输出从整幅图像的卷积响应图像中分割出感兴趣区域的卷积响应图像,R-FCN最后1个卷积层在整幅图像上为每类生成k的平方个位置敏感分数图

 

二、基于回归的目标检测算法 

 目前在深度卷积神经网络的物体检测方面,Faster R-CNN是应用比较广泛的检测方法之一,但是由于网络结构参数的计算量大,导致其检测速度慢,从而不能达到某些应用领域对于实时检测的要求。尤其对于嵌入式系统,所需要的计算时间太长。同样,许多方法都是以牺牲检测精度为代价来换取检测速度,为了解决精度与速度并存的问题,YOLO与SSD的方法应运而生,此类方法使用基于回归方法的思想,直接在输入图像的多个位置中回归出这个位置的区域框坐标和物体类别。

1:YOLO目标检测算法

YOLO是端到端的物体检测深度卷积神经网络,与Faster R-CNN的区别在于YOLO一次性预测多个候选框,并直接在输出层回归物体位置区域和区域内物体所属类别,YOLO最大的优势就是速度快,可满足端到端训练和实时检测要求

YOLO方法的物体检测过程为:首先将输入的图像划分成7×7个小网格,在每个小网格子里预测出2个区域框,从而可在整张图像上预测2×7×7个目标物体的区域框,利用交并比衡量这些区域框与图像上的真实区域框的差距,得到可能性高的候选区域框,最后使用非极大值抑制去掉这多余的区域框,YOLO整体训练方法过程较为简单,不需要中间的推荐区域步骤,直接通过网络回归完成物体的定位与分类,但是精度较差

2:SSD目标检测算法 

SSD获取目标位置和类别的方式与YOLO方法类似,而相比与YOLO是在整张特征图上划分的7×7的网格内回归,YOLO对于目标物体的定位并不精确,所以为了解决精确问题,SSD利用类似Faster R-CNN推荐区域得分机制实现精确定位,与Faster R-CNN的推荐候选框得分机制不同,SSD在多个特征图上进行处理,SSD利用得分机制直接进行分类和区域框回归,在保证速度的同时,SSD检验结果的精度与Faster R-CNN相差不多,从而能够满足实时检测与高精度的要求

创作不易 觉得有帮助请点赞关注收藏~~~ 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/71874.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Web大学生网页作业成品——环保垃圾分类网站设计与实现(HTML+CSS+JavaScript) web前端开发技术 web课程设计 网页规划与设计

🎀 精彩专栏推荐👇🏻👇🏻👇🏻 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业…

RFID标签让企业海量固定资产实现科学化管理

近年来,随着物联网、IoT、移动技术、云计算技术的成熟,越来越多的企业开始使用RFID标签管理企业海量的固定资产。优化固定资产标准化管理流程,有效管理和库存固定资产,进一步提高企业实物资产管理和库存效率。 包括资产申购、验收…

【操作系统】计算机大脑CPU

1.CPU组成机构和存储器层级 (1)CPU是计算机硬件系统的核心部件-大脑 结构:运算器控制器(两个部件里面有寄存器组)通过CPU内部的总线进行通信 (2)单核CPU架构 控制器Control Unit简称【CU】 …

Python使用Opencv图像处理方法完成手势识别(二)

Opencv完成手势识别根据坐标识别寻找最低点计算其他点与最低点的距离通过距离阈值判断手指根数和手势效果展现完整代码当我们把手近似出来后会得到一组轮廓的点坐标,我自己手势识别的思路就是根据点坐标来判断手势。根据坐标识别 寻找最低点 所谓寻找最低点&#…

浅谈Nacos注册中心集群分布式架构设计

前言 Nacos的压测性能是非常好的,这里是Nacos官方的压测报告。3节点(CPU 16核,内存32G)规模集群,压测容量服务数可达60W,实例注册数达110W,集群运行持续稳定,达到预期;注册/查询实例TPS达到 13…

ModStartBlog v6.3.0 任务调度重构,UEditor 升级

系统介绍 ModStart 是一个基于 Laravel 模块化极速开发框架。模块市场拥有丰富的功能应用,支持后台一键快速安装,让开发者能快的实现业务功能开发。 系统完全开源,基于 Apache 2.0 开源协议。 功能特性 丰富的模块市场,后台一键…

跨设备链路聚合 M-LAG

M-LAG(Multichassis Link Aggregation Group)即跨设备链路聚合组,是一种实现跨设备链路聚合的机制,如下图所示,将SwitchA和SwitchB通过peer-link链路连接并以同一个状态和Switch进行链路聚合协商,从而把链路…

学校介绍静态HTML网页设计作品 DIV布局学校官网模板代码 DW大学网站制作成品下载 HTML5期末大作业

🎉精彩专栏推荐 💭文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业: 【📚毕设项目精品实战案例 (10…

iOS app上架app store流程详解​

前提条件​ 在有效期内的苹果开发者账号(类型为个人或者公司账号)。还有一种情况,就是你的Apple ID被添加到公司开发者账号团队里面,这样也是可以的,但是需要叫管理员给你开通相应的账号权限,如下截图&…

[附源码]Python计算机毕业设计Django在线图书销售系统

项目运行 环境配置: Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术: django python Vue 等等组成,B/S模式 pychram管理等等。 环境需要 1.运行环境:最好是python3.7.7,我…

Vue | 有关Vue2路由知识点的一些总结,以及Vue3路由做出了哪些调整?

目录 Vue2: 1. 路由: 2. 路由规则: 3. 实现切换(active-class可配置高亮样式) 4. 指定展示位置 5. 路由的query参数 6. params传参: 7. 多级路由 8. 路由的props配置 9. 的replace属性 10. 编…

Android databinding之BindingMethod与BindingMethods介绍与使用(五)

一、介绍 前面几篇文章已介绍了很多data binding的用法,今天我将会介绍一个新的方法绑定BindingMethod的用法。 BindingMethod,从名字可以看出是绑定方法的,绑定的一般都是和布局有关,通过绑定来提高布局可扩展性。 二、使用 Bin…

把盏言欢,款款而谈,ChatGPT结合钉钉机器人(outgoing回调)打造人工智能群聊/单聊场景,基于Python3.10

就像黑火药时代里突然诞生的核弹一样,OpenAI的ChatGPT语言模型的横空出世,是人工智能技术发展史上的一个重要里程碑。这是一款无与伦比、超凡绝伦的模型,能够进行自然语言推理和对话,并且具有出色的语言生成能力。 好吧&#xff…

资产扫描神器ARL增强改造

拉取项目首先从GitHub克隆到服务器上。git clone https://github.com/ki9mu/ARL-plus-docker/修改配置文件因为ARL在配置文件里设置了黑名单,有时候项目为GOV或者EDU之类的时候无法进行扫描,所以在这里修改一下配置文件就可以解除限制。cd ARL-plus-dock…

Spring Boot3.0 GA系列全新版本-全新体验-学习案例1

SpringBoot3.0 GA 2022-11-24这是伟大的一天,Spring Boot进入了3.0时代,并会叩开JDK全面升级的浪潮 文章目录SpringBoot3.0 GA技术支持一、新建第一个mode?1.1、打开IDEA,新建项目1.2、选择 版本 和 依赖1.3、查看项目结构1.4、配…

vscode配置remote ssh

1. 安装插件 设置界面 右键最左边tab栏: 主体: vscode 插件: Remote SSH Linux主体: vscode-server 插件: C/C, CMake, CMake Tools, CodeLLDB, Rainbow Brackets, vscode-proto3, SVN 虚拟化主体: multipass linux发行版(比如ubuntu) 补充: multipass实例本地端口…

【C++ unordered_set set 和 unordered_map 和 map】

文章目录前言简单介绍哈希表,哈希结构什么时候用哈希表unordered_map操作likou第一题 两数之和unordered_set 基础操作unordered_set 实现总结前言 今天重新打开力扣,看到以前的签到题两数之和,以前的方法是双指针暴力解法,偶然看…

asp.net校园二手物品交易网站

目录 摘 要 Ⅰ Abstract Ⅱ 第一章 概述 1 1.1网站的开发背景 1 1.1.1学生二手物品交易置换网站的开发背景 1 1.1.2学生二手物品交易活动的现状 1 1.2 学生二手物品交易置换网站的研究方向和内容 2 1.2.1研究方向 2 1.2.2研究内容 2 1.3 学生二手物品交易置换网站的设计目标 2…

transformer中QKV的通俗理解(剩女与备胎的故事)

用vit的时候读了一下transformer的思想,前几天面试结束之后发现对QKV又有点忘记了, 写一篇文章来记录一下 参考链接: 哔哩哔哩:在线激情讲解transformer&Attention注意力机制(上)在线激情讲解transformer&Attention注意力机制(上&…

SpringCloud全系列知识(5)——微服务的部署(Docker)

微服务的部署(Docker) 一 初识Docker 1.项目部署问题 大型项目组件较多,运行环境较为复杂,部署和维护困难依赖关系复杂,容易出现兼容性问题开发,测试,生产环境有差异 2.解决依赖的兼容问题 …