计算机视觉——day88 读论文:基于驾驶员注意视野的交通目标检测与识别

news2024/12/23 5:30:07

基于驾驶员注意视野的交通目标检测与识别

  • II. RELATED WORKS
    • A. 通用对象检测
    • B. 交通标志检测与识别
    • C. 车辆检测
    • D.行人检测
    • E. 交通灯检测
  • III. PROPOSED METHOD
    • A. The RoadLAB Dataset
    • B. 驾驶员注视定位
    • C. 目标检测阶段
      • 模型A
      • 模型B
    • D.数据扩充
    • E.综合检测结果
    • F.物体识别阶段
  • IV. 实验结果
    • A. 参数
    • B. 对象检测阶段的结果
    • C. 可信度
    • D.物体识别阶段的结果
  • V. 结论

该方法使用由前视立体成像系统和非接触式三维凝视跟踪器联合交叉校准获得的注视点的驱动器三维绝对坐标。在检测阶段,结合了多尺度HOG-SVM和Faster r - cnn模型。识别阶段通过ResNet-101网络来验证生成的假设集。我们将这种方法应用于城市环境中驾驶过程中收集到的真实数据。

点击跳转原文地址

II. RELATED WORKS

A. 通用对象检测

通用目标检测算法可分为传统的和基于深度学习的两大类。

基于深度学习的目标检测方法主要有两大类:基于区域的方法和基于回归的方法。

B. 交通标志检测与识别

符号检测方法一般分为基于颜色的方法、基于形状的方法和混合方法。

1、颜色阈值分割是基于颜色的方法中最常用的方法,它通过忽略非目标区域来减少搜索区域。

2、交通标志也有特定的形状,可以通过基于形状的方法搜索。由于它对光照变化和图像噪声具有较强的鲁棒性,霍夫变换是最常用的基于形状的方法之一。

3、混合方法利用了标识的颜色和形状的优点,分类阶段主要采用模板匹配、SVM、遗传算法(Genetic Algorithm, GA)、人工神经网络(Artificial Neural Network, ANN)、AdaBoost和基于深度学习的方法。

卷积神经网络(Convolutional Neural Networks, cnn)是深度神经网络模型的一个子集,能够从原始数据中学习鲁棒的和有区别的特征。有各种各样的CNN被用来识别交通标志。

C. 车辆检测

许多传统的车辆检测方法包括假设生成(HG)步骤和假设验证(HV)步骤。现在还是用深度学习的多。

D.行人检测

使用深度学习的行人检测方法可以分为单阶段技术和两阶段技术。

E. 交通灯检测

颜色分割是交通场景图像中常用的一种减少搜索空间的方法。

III. PROPOSED METHOD

在本节中,我们描述了我们提出的基于驾驶员注意视野的交通目标检测和识别方法。首先,介绍了本研究中使用的数据集。在此基础上,我们描述了在前向立体成像系统中寻找驾驶员注意力凝视区域的方法。接下来,在目标检测阶段,我们训练的模型和用于丰富我们的数据集的方法被描述。然后讨论了我们使用的利益区域(Region of interest, roi)积分方法。最后,给出了目标识别阶段。图1说明了我们提出的框架。

我主要想看的是第一和第三小节,第二小节留给感兴趣的读者自己去挖掘啦。

image-20230502093001981

图1。框架概述。我们的框架检测并识别驾驶员视野内的交通目标。从左至右:

a)前向立体视觉和眼球追踪系统的RoadLAB车辆。

b) RoadLAB实验车辆创建的数据集。

c)计算驾驶员视野半径作为注意力注视锥,定位驾驶员视野重新投影的2D椭圆。

d)我们在框架的检测阶段使用了两种不同的模型类型;模型A包括多尺度HOG-SVM,然后应用CNN两个步骤,模型B是基于Faster region的CNN。检测结果通过一种基于网管的算法进行集成。

e)识别阶段,我们分别对交通标志、车辆、交通灯三个独立的模型进行训练。

A. The RoadLAB Dataset

基于深度学习的目标检测系统的一个基本元素是大量样本图像的可用性。在本节中,我们将从RoadLAB实验数据序列中展示我们自己的对象数据集

## 此处参考文献名:
1、A probabilistic model for visual driver gaze approximation from head pose estimation;2、Portable andscalable vision-based vehicular instrumentation for the analysis of driver
intentionality;
3、Multi-depth cross-calibration of remote eye gaze trackers and stereoscopic scene systems)。

我们的数据集包含背景类样本图像3,225张,交通标志、车辆、行人和交通灯对象类样本图像分别为5,172、1,984、1,290和1,875张。车辆类别包括3种不同的类别,包括轿车、公共汽车和卡车。交通灯等级分为红、黄、绿、不清4个等级。最后,交通标志类包括19种不同类型的交通标志。此外,一些交通标志类别包括多个标志类型,如“最高速度限制”、“建筑”、“停车”等。

B. 驾驶员注视定位

圆通常以二维椭圆的形式投射到立体传感器的成像平面上

image-20230502093733385

图二。(上):驾驶员注意力注视锥的描绘。(下):将三维注意圆在正向立体场景系统的图像平面上重新投影成相应的二维椭圆。

C. 目标检测阶段

为了检测驾驶员注意域内外感兴趣的交通对象,我们采用了一个由两种不同模型类型组成的框架,并对其进行描述:

模型A

第一个模型包括两个步骤,包括多尺度HOG-SVM,然后使用ResNet-101网络。多尺度HOG-SVM描述符计算图像区域中梯度方向出现的次数,然后使用块归一化算法,该算法对边缘对比度和阴影具有更好的不变性。由于感兴趣区域(Region of Interest, RoI)包含大小不同的目标,我们使用了一种多尺度方法来解决目标检测问题。我们将从每一层的每个滑动窗口提取的hog特征作为独立的样本,然后将它们输入svm分类器。

image-20230502094123891

图4为多尺度HOG-SVM的内部视图。其余来自HOG-SVM分类器的roi被分为5类:背景、交通标志、车辆、行人和交通灯。

第二阶段,我们使用了ResNet-101[38],这是一个流行的CNN,已经训练了超过100万张来自ImageNet数据库的图像。

image-20230502094519870

图5显示了使用该模型得到的样本结果。

image-20230502094817400然而,在我们的实证试验中,我们注意到多尺度HOG-SVM很难定位占据图像大部分的车辆(图6说明了这个问题)。因此,我们也使用Faster R-CNN模型来检测车辆。

模型B

我们在数据集上训练了一个Faster R-CNN模型来定位车辆。在我们的实证试验中,我们观察到模型B能够正确地检测出占用较大图像区域的车辆,或者是非常接近被仪器检测车辆的车辆相反,根据我们的经验实验以及对文献的调查,我们发现Faster R-CNN难以处理分辨率低或尺寸小的物体。因此,为了检测不同大小的物体,我们综合了模型a和模型B的结果,以充分利用这两个模型。这一阶段生成的假设将直接转移到整合阶段,在整合阶段对检测结果进行合并。

image-20230502094756560

图7为模型B获得的车辆检测结果。

D.数据扩充

E.综合检测结果

在完成对测试图像的检测阶段后,为了提高检测性能,我们消除了冗余的检测,并将剩余的检测合并成一组完整的结果。为此,我们使用了一种基于非最大抑制(NMS)的方法,当多个边界盒重叠时,NMS保留得分最高的边界盒,并消除重叠比例超过预设阈值的其他边界盒。我们用Pascal重叠分值来求它们之间的重叠比a0。得到的比值为:

image-20230502095025961

F.物体识别阶段

image-20230502095428474图8显示了四类交通对象的结果样本。更准确地说,交通灯识别器可以将交通灯假设分为5类,车辆识别器可以将车辆假设分为4类,交通标志识别器可以将交通标志假设分为20类。

IV. 实验结果

A. 参数

为了获得每个分类器模型的微调参数,我们在我们的训练数据集上使用交叉验证实验。我们将训练数据分为基本训练集和验证集。然后,使用基本训练集来训练分类器,然后,使用验证集来评估模型。通过探索调优参数的各种范围,我们选择了能够获得最大验证精度的参数设置。然后,使用调整后的参数对完整的训练集重新训练分类器。我们的模型在训练集和验证集上的性能分别达到了95.1%和94.2%。最后,我们在由一组随机选择的样本组成的预先分离的不可见数据上测试模型。

B. 对象检测阶段的结果

表1,数据扩充的描述

image-20230502095643870

表2,检测结果描述,为不同交通对象的f1得分。image-20230502095710881

image-20230502095915580

图10显示了我们使用受试者工作特征(ROC)曲线计算的检测器的性能,标记了真阳性率(TPR)与假阳性率(FPR)。图中class1、class2、class3和class4分别代表行人、交通标志、交通灯和车辆。

C. 可信度

image-20230502095845013

图11中的信任谱显示了行人、交通标志、交通灯、车辆四类的总体信任。可以看出,车辆等级的信任度最高,行人等级的可靠性最低。

D.物体识别阶段的结果

image-20230502100008261

图13给出了用于交通灯识别的混淆矩阵。结果表明,该模型的总体正确率达到96.2%。

image-20230502100039104

如图14所示的结果表明,车辆识别器模型的总体分类正确率为94.8%。这个混淆矩阵表明,该模型能够识别车辆对象(即车辆、公交车和卡车),而误标记错误的概率小于3%。背景类的准确率最低,为87.3%。

V. 结论

我们对交通标志、车辆、行人和交通灯四类重要交通目标的检测与识别方法进行了文献综述。一般来说,在学习过程中,适当和充分的训练数据的可用性是一个至关重要的因素,以实现一个有区别的模型。在这项工作中,我们从属于RoadLAB计划[3]的序列中收集了超过10,000个物体样本图像。我们还使用增强和HEM策略丰富了我们的训练数据。将驾驶员的注意视觉区域定位在前向立体系统的成像平面上,设计了驾驶员注意视野内外交通目标的检测与识别框架。我们分别考虑了3、4和19种不同类型的车辆、交通灯和交通标志。目标检测阶段将传统模型和基于深度学习的模型相结合,对不同尺度的目标进行检测。最后,在识别阶段,通过经过训练的ResNet-101网络,我们的框架对交通标志、交通灯和车辆的分类正确率分别达到96.1%、96.2%和94.8%。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/482199.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Git】Git(分布式项目管理工具)在Windows本地/命令行中的基本操作以及在gitee中的操作,使用命令行、window,进行提交,同步,克隆

介绍 这里是小编成长之路的历程,也是小编的学习之路。希望和各位大佬们一起成长! 以下为小编最喜欢的两句话: 要有最朴素的生活和最遥远的梦想,即使明天天寒地冻,山高水远,路远马亡。 一个人为什么要努力&a…

​【五一创作】基于mysql关系型实现分布式锁

看完该文预计用时:15分钟 看之前应具体的技术栈:springboot mysql nginx(了解即可) 目录 0.写在前面 1. 从减库存聊起 1.1. 环境准备 1.2. 简单实现减库存 1.3. 演示超卖现象 1.4. jvm锁问题演示 1.4.2. 原理 1.5. 多服务问…

Linux CentOS本地搭建Web站点,并实现公网访问

文章目录 前言1. 本地搭建web站点2. 测试局域网访问3. 公开本地web网站3.1 安装cpolar内网穿透3.2 创建http隧道,指向本地80端口3.3 配置后台服务 4. 配置固定二级子域名5. 测试使用固定二级子域名访问本地web站点 转载自cpolar文章:Linux CentOS本地搭建…

ChatGPT提示词工程(六):Expanding扩展

目录 一、说明二、安装环境三、扩展(Expanding)1. 自定义自动回复客户电子邮件2. 提醒模型使用客户电子邮件中的详细信息3. 参数 temperature 一、说明 这是吴恩达 《ChatGPT Prompt Engineering for Developers》 的课程笔记系列。 本文是第六讲的内容…

linux编写脚本之快速入门

前言 在进行Linux测试时编写脚本是必不可少的。最近经常使用Linux,感觉太频繁地敲击键盘有些累了,于是想到了Shell脚本。可以把太多的命令写成一个脚本,这样每次执行一遍 shell文件,就可以省去了敲击键盘的时间。于是在网上搜了一…

3.7 虚拟存储器

学习目标: 建议按照以下学习目标进行学习: 了解虚拟存储器的基本概念和原理。包括什么是虚拟存储器、虚拟地址和物理地址、虚拟内存、页面置换算法等。 了解虚拟存储器的实现方式。包括基于请求分页、请求分段和请求段页混合的虚拟存储器实现方式&…

前置操作:Kubernetes快速安装组件Kubectl Kubeadam Kubeinit

文章目录 配置K8S主从集群前置准备操作一:主节点操作 查看主机域名->编辑域名1.1 编辑HOST 从节点也做相应操作1.2 从节点操作 查看从节点102域名->编辑域名1.3 从节点操作 查看从节点103域名->编辑域名 二:安装自动填充,虚拟机默认…

对接ChatGPT开发对话机器人小程序

前言 ChatGPT已经非常火爆了,企业开始招聘ChatGPT工程师,可能对接ChatGPT接口进行企业级开发是程序员必备的技能了。本篇文章主要是基于ChatGPT开发接口进行对接,使用微信小程序制作一款自己的聊天机器人,通过这一案例你可以展开…

图神经网络:在KarateClub上动手实现图神经网络

文章说明: 1)参考资料:PYG官方文档。超链。 2)博主水平不高,如有错误还望批评指正。 3)我在百度网盘上传了这篇文章的jupyter notebook。超链。提取码8888。 文章目录 文献阅读:代码实操: 文献阅读: 参考文…

JavaWeb05(删除增加修改功能实现连接数据库)

目录 一.实现删除功能 1.1 url如何传参? xx.do?参数参数值&参数名参数值 1.2 servlet如何拿对应值? //根据参数名拿到对应的参数值 String str req.getParameter("参数名") 1.3 如何询问? οnclick"return con…

区位码-GB2312

01-09区为特殊符号 10-15区为用户自定义符号区(未编码) 16-55区为一级汉字,按拼音排序 56-87区为二级汉字,按部首/笔画排序 88-94区为用户自定义汉字区(未编码) 特殊符号 区号:01 各类符号 0 1 2 3 4 …

I/O多路转接——epoll服务器代码编写

目录 一、poll​ 二、epoll 1.epoll 2.epoll的函数接口 ①epoll_create ②epoll_ctl ③epoll_wait 3.操作原理 三、epoll服务器编写 1.日志打印 2.TCP服务器 3.Epoll ①雏形 ②InitEpollServer 与 RunServer ③HandlerEvent 四、Epoll的工作模式 1.LT模式与ET…

第二十一章 光源

光源是每个场景必不可少的部分,光源除了能够照亮场景之外,还可以产生阴影效果。 Unity中分为四种光源类型: 1. 方向光:Directional Light 用于模拟太阳光,方向光任何地方都能照射到。 2. 点光源:Point L…

JavaWeb-Servlet【内含思维导图】

目录 Servlet思维导图​编辑 1.什么是Servlet 2.Servelt概述 3.Servlet-Quickstart Your Project 3.1创建一个Web项目,导入Servlet依赖 3.1.1 选择Servlet导入依赖 3.1.2 导入Servlet依赖 3.2 在Web项目,定义类,实现Servlet接口…

Java8新特性-流式操作

在Java8中提供了新特性—流式操作,通过流式操作可以帮助我们对数据更快速的进行一些过滤、排序、去重、最大、最小等等操作并且内置了并行流将流划分成多个线程进行并行执行,提供更高效、快速的执行能力。接下来我们一起看看Java8为我们新增了哪些便捷呢…

Python基础合集 练习19(类与对象3(多态))

多态 class Horse: def init(self, name) -> None: self.name name def fature(self):return 父亲-----马的名字: {0}.format(self.name)def mover(self):print(马儿跑起来很潇洒)class Monkey: def init(self, name) -> None: self.name name def fature(self):ret…

《用于准确连续非侵入性血压监测的心跳内生物标志物》阅读笔记

目录 0 基础知识 1 论文摘要 2 论文十问 3 实验结果 4 论文亮点与不足之处 5 与其他研究的比较 6 实际应用与影响 7 个人思考与启示 参考文献 0 基础知识 非侵入性是指在进行医学检查或治疗时,不需要切开皮肤或穿刺体内组织,而是通过外部手段进…

【VQGAN论文精读】Taming Transformers for High-Resolution Image Synthesis

【VQGAN论文精读】Taming Transformers for High-Resolution Image Synthesis 0、前言Abstract1. Introduction2. Related Work3. Approach3.1. Learning an Effective Codebook of Image Constituents for Use in Transformers学习一个有效的图像成分的Codebook为了在Transfor…

高性能:负载均衡

目录 什么是负载均衡 负载均衡分类 服务端负载均衡 服务端负载均衡——软硬件分类 服务端负载均衡——OSI模型分类 客户端负载均衡 负载均衡常见算法 七层负载均衡做法 DNS解析 反向代理 什么是负载均衡 将用户请求分摊(分流) 到不同的服务器上…

小记Java调用C++开发的动态链接库(DLL)

一、背景 五一快乐吖!死肥宅正趁着五一这段时间,努力提升自己! 最近使用Java拦截Windows系统中一些默认事件时,发现了一些瓶颈。 我用Java操作浏览器、用Java最小化其他应用窗口,但是我发现这个操作,他都…