【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(7 月 26 日论文合集)

news2024/9/23 17:22:38

文章目录

  • 一、检测相关(7篇)
    • 1.1 Personal Protective Equipment Detection in Extreme Construction Conditions
    • 1.2 RecursiveDet: End-to-End Region-based Recursive Object Detection
    • 1.3 Re-mine, Learn and Reason: Exploring the Cross-modal Semantic Correlations for Language-guided HOI detection
    • 1.4 HeightFormer: Explicit Height Modeling without Extra Data for Camera-only 3D Object Detection in Bird's Eye View
    • 1.5 Cos R-CNN for Online Few-shot Object Detection
    • 1.6 General-Purpose Multi-Modal OOD Detection Framework
    • 1.7 An Investigation into Glomeruli Detection in Kidney H&E and PAS Images using YOLO

一、检测相关(7篇)

1.1 Personal Protective Equipment Detection in Extreme Construction Conditions

极端施工条件下的个人防护装备检测

https://arxiv.org/abs/2307.13654

在这里插入图片描述
物体检测在建筑安全管理中得到了广泛的应用,尤其是对个人防护用品(PPE)的检测。虽然现有的PPE检测模型在传统数据集上训练取得了优异的结果,但在极端施工条件下,其性能急剧下降。结合神经风格转换(NST)和YOLOv 5技术,提出了一种鲁棒的检测模型NST-YOLOv 5。通过NST模块考虑并模拟了五种极端条件,包括弱光、强光、沙尘、雾和雨,以赋予检测模型优异的鲁棒性。实验结果表明,NST作为一种极端数据合成工具具有很大的潜力,因为它比其他传统的图像处理算法更好地模拟极端条件,并帮助NST-YOLOv 5在合成和真实世界的极端数据中实现了0.141和0.083 mAP_(05:95)的改进。该研究为获得更稳健的极端施工条件检测模型提供了一种新的可行途径。

1.2 RecursiveDet: End-to-End Region-based Recursive Object Detection

RecursiveDet:基于端到端区域的递归目标检测

https://arxiv.org/abs/2307.13619

在这里插入图片描述
像Sparse R-CNN这样的端到端基于区域的对象检测器通常具有多个级联边界框解码阶段,这些阶段根据先前的结果来细化当前预测。每个阶段内的模型参数都是独立的,演化成本巨大。在本文中,我们发现一般的设置解码阶段实际上是多余的。通过简单地共享参数和制作递归解码器,检测器已经获得了显著的改进。递归解码器可以通过对建议框的位置编码(PE)来进一步增强,这使得它知道输入边界框的确切位置和大小,从而变得适应于递归期间来自不同阶段的建议。此外,我们还设计了基于中心的PE来区分RoI特征元素和动态卷积核在边界框内的不同位置。为了验证所提出的方法的有效性,我们进行密集的消融,并建立完整的模型,最近的主流区域为基础的检测器。RecusiveDet能够以更少的模型参数和略微增加的计算成本实现明显的性能提升。代码可在https://github.com/bravezzzzzz/RecursiveDet上获得。

1.3 Re-mine, Learn and Reason: Exploring the Cross-modal Semantic Correlations for Language-guided HOI detection

重新挖掘、学习和推理:用于语言制导HOI检测的跨通道语义相关性探索

https://arxiv.org/abs/2307.13529

在这里插入图片描述
人-物交互(HOI)检测是一项具有挑战性的计算机视觉任务,其需要视觉模型来解决人与物体之间的复杂交互关系并预测HOI三元组。尽管众多的交互组合带来了挑战,但它们也为视觉文本的多模态学习提供了机会。在本文中,我们提出了一个系统和统一的框架(RmLR),提高了HOI检测,将结构化的文本知识。首先,我们定性和定量地分析了两阶段HOI检测器中交互信息的丢失,并提出了一种重新挖掘策略,以生成更全面的视觉表示;其次,我们设计了更细粒度的句子和单词级对齐和知识转移策略,以有效地解决多个交互和多个文本之间的多对多匹配问题,这些策略缓解了多个交互同时发生时出现的匹配混乱问题,从而提高了对齐过程的有效性。最后,通过文本知识增强的视觉特征的HOI推理大大提高了对交互的理解。实验结果表明,我们的方法,国家的最先进的性能达到公共基准的有效性。我们进一步分析了我们的方法的不同组成部分的影响,以提供其疗效的见解。

1.4 HeightFormer: Explicit Height Modeling without Extra Data for Camera-only 3D Object Detection in Bird’s Eye View

HeightFormer:鸟眼图中无需额外数据的显式高度建模用于仅摄像机3D目标检测

https://arxiv.org/abs/2307.13510

在这里插入图片描述
基于视觉的鸟瞰图(BEV)表示是用于自动驾驶的新兴感知公式。核心挑战是构建具有多相机特征的BEV空间,这是一个一对多不适定问题。深入研究所有以前的BEV表示生成方法,我们发现它们中的大多数分为两种类型:在图像视图中建模深度或在BEV空间中建模高度,主要是以隐式方式。在这项工作中,我们建议在BEV空间中显式地建模高度,这不需要像LiDAR这样的额外数据,并且与建模深度相比,可以适合任意的相机装备和类型。理论上,我们给出了基于高度的方法和基于深度的方法之间的等价性的证明。考虑到建模高度的等价性和一些优点,我们提出了HeightFormer,它以自递归的方式建模高度和不确定性。在没有任何额外数据的情况下,所提出的HeightFormer可以准确地估计BEV中的高度。基准测试结果表明,HeightFormer的性能达到SOTA相比,那些只有相机的方法。

1.5 Cos R-CNN for Online Few-shot Object Detection

用于在线Few-Shot目标检测的CoS R-CNN

https://arxiv.org/abs/2307.13485

在这里插入图片描述
我们提出了Cos R-CNN,这是一个简单的基于样本的R-CNN公式,专为在线Few-Shot对象检测而设计。也就是说,它能够定位和分类图像中的新对象类别,而无需微调。因为R-CNN帧检测是一项学习比较任务:将看不见的类表示为样本图像,并且基于对象与这些样本的相似性来检测对象。基于余弦的分类头允许分类参数对样本嵌入的动态适应,并且鼓励在嵌入空间中聚类类似的类,而不需要手动调整距离度量超参数。这个简单的公式在最近提出的5路ImageNet Few-Shot检测基准测试中取得了最佳结果,击败了在线1/5/10镜头场景超过8/3/1%,并且在新类别的所有镜头中,在线20路少数镜头VOC的表现提高了20%。

1.6 General-Purpose Multi-Modal OOD Detection Framework

一种通用的多模式面向对象检测框架

https://arxiv.org/abs/2307.13069

在这里插入图片描述
分布外(OOD)检测识别与训练数据不同的测试样本,这对于确保机器学习(ML)系统的安全性和可靠性至关重要。虽然已经开发了大量的方法来检测单模态OOD样品,但只有少数方法专注于多模态OOD检测。当前基于对比学习的方法主要研究多模态OOD检测,其中给定图像及其对应的文本描述都来自新领域。然而,ML系统的实际部署可能会面临更多由传感器故障、恶劣天气和环境变化等多种因素引起的异常情况。因此,这项工作的目标是同时检测从多个不同的OOD方案中的细粒度的方式。为了实现这一目标,我们提出了一个通用的弱监督OOD检测框架,称为WOOD,它结合了二元分类器和对比学习组件,以获得两者的好处。为了更好地区分在分布(ID)和OOD样本的潜在表示,我们采用铰链损失来约束它们的相似性。此外,我们开发了一个新的评分指标来整合的预测结果,从两个二元分类器和对比学习识别OOD样本。我们在多个真实世界的数据集上评估了所提出的WOOD模型,实验结果表明,WOOD模型优于最先进的多模态OOD检测方法。重要的是,我们的方法是能够同时在三个不同的OOD场景中实现高精度的OOD检测。源代码将在发布时公开提供。

1.7 An Investigation into Glomeruli Detection in Kidney H&E and PAS Images using YOLO

YOLO在肾脏H&E和PAS图像中检测肾小球的研究

https://arxiv.org/abs/2307.13199

在这里插入图片描述
背景:通过研究组织模式和细胞形态,分析数字病理学图像对得出诊断结论是必要的。然而,手动评估可能是耗时的、昂贵的,并且易于观察者间和观察者内的变化。目的:为了帮助病理学家使用计算机化的解决方案,必须提出自动组织结构检测和分割。此外,为组织病理学图像生成像素级对象注释是昂贵且耗时的。因此,具有边界框标签的检测模型可以是可行的解决方案。设计:本文研究。YOLO-v4(You-Only-Look-Once),一种用于显微图像的实时物体检测器。YOLO使用单个神经网络来预测感兴趣对象的几个边界框和类概率。YOLO可以通过对整个幻灯片图像进行训练来增强检测性能。本文使用YOLO-v4。用于人体肾脏图像中的肾小球检测。基于两个公共数据集和密歇根大学的私人数据集的不同训练数据设计并进行了多个实验,以微调模型。该模型在密歇根大学的私人数据集上进行了测试,作为两种不同染色剂的外部验证,即苏木精和伊红(H&E)和高碘酸-希夫(PAS)。结果:讨论了所有实验的平均特异性和灵敏度,以及相同数据集上现有分割方法的比较。结论:使用现代AI模型可以在人类肾脏图像中自动检测肾小球。不同染色剂的设计和验证仍然依赖于公共多染色剂数据集的可变性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/806880.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【每日一题】—— A - 1-2-4 Test (AtCoder Beginner Contest 270)

🌏博客主页:PH_modest的博客主页 🚩当前专栏:每日一题 💌其他专栏: 🔴 每日反刍 🟡 C跬步积累 🟢 C语言跬步积累 🌈座右铭:广积粮,缓称…

操作系统的概念、并发和并行的区别、操作系统的发展和分类

操作系统 一、操作系统的概念1.1操作系统作为系统资源的管理者1.2向上层提供方便易用的服务1.2.1 联机命令接口(交互式命令接口)1.2.2 脱机命令接口(批处理命令接口)1.2.3程序接口 1.3最接近硬件的一层软件 二、操作系统的特征2.1…

renderjs 与 app-vue之间数据交互

renderjs 与 app-vue之间数据传值 文章目录 renderjs 与 app-vue之间数据传值renderjs效果图templatejs renderjs renderjs renderjs 的主要作用: 大幅降低逻辑层和视图层的通讯损耗,提供高性能视图交互能力在视图层操作dom,运行 for web 的…

1400*C. Phoenix and Towers(贪心)

题意: 将 n 个数字分成 m 组,使得每两组的差值都不超过 x ,打印每个数的分组的组数 解析: 因为每一个数都不超过 x ,所以两个数的差值必定不超过 x,每次选最矮的一座塔放入当前的砖块,并且记录塔…

iOS开发-下拉刷新动画小球左右交换位置Indicator指示器效果

iOS开发-下拉刷新动画小球左右交换位置Indicator指示器效果 之前开发中实现下拉刷新动画小球左右交换位置Indicator指示器效果。 一、效果图 二、基础动画 CABasicAnimation类的使用方式就是基本的关键帧动画。 所谓关键帧动画,就是将Layer的属性作为KeyPath来注…

Linux:shell命令运行原理和权限的概念

文章目录 shell和kernelshell的概念和原理Linux的权限文件的权限文件的类型文件的权限管理权限的实战应用 shell和kernel 从狭义上来讲,Linux是一个操作系统,我们叫它叫kernel,意思是核心,核心的意思顾名思义,就是最关…

【LeetCode】72.(最短)编辑距离(闫氏dp,分析加可视化)

考虑两个数组:a、b 定义dp[ i ][ j ]为,让数组a从1到 i 的字符,与数组b从1到 j 的字符,正好匹配上的最小操作数。 假设现在面前有一个正好匹配的数组a和b,其中a的长度为 i ,b的长度为 j (两个…

python离散仿真器

文章目录 类图示例 类图 示例

浅谈3D隐式表示(SDF,Occupancy field,NeRF)

本篇文章介绍了符号距离函数Signed Distance Funciton(SDF),占用场Occupancy Field,神经辐射场Neural Radiance Field(NeRF)的概念、联系与区别。 显式表示与隐式表示 三维空间的表示形式可以分为显式和隐式。 比较常用的显式表…

基于SpringBoot+Vue的财务管理系统设计与实现(源码+LW+部署文档等)

博主介绍: 大家好,我是一名在Java圈混迹十余年的程序员,精通Java编程语言,同时也熟练掌握微信小程序、Python和Android等技术,能够为大家提供全方位的技术支持和交流。 我擅长在JavaWeb、SSH、SSM、SpringBoot等框架…

【动态规划part10】| 121.买卖股票的最佳时机、122.买卖股票的最佳时机II

目录 🎈LeetCode121. 买卖股票的最佳时机 🎈LeetCode122.买卖股票的最佳时机II 🎈LeetCode121. 买卖股票的最佳时机 链接:121.买卖股票的最佳时机 给定一个数组 prices ,它的第 i 个元素 prices[i] 表示一支给定…

图神经网络(GNN)入门学习笔记(直观且简单)

文章目录 图的定义和表示可以使用图数据结构的问题将图结构用于机器学习的挑战最基本的图神经网络概述汇聚操作基于信息传递的改进图神经网络全局向量信息的利用 本篇文章参考发表于Distill上的图神经网络入门博客: A Gentle Introduction to Graph Neural Network…

网络防御之IDS

1. 什么是IDS? IDS是入侵检测系统,一种对于网络传输进行及时监视,在发现可疑的传输时发出警报或者采取主动反应措施的网络安全设备。IDS是一种积极地主动的防御技术。 2. IDS和防火墙有什么不同? 防火墙是一种隔离并过滤非授权用…

CV前沿方向:Visual Prompting 视觉提示工程下的范式

prompt在视觉领域,也越来越重要,在图像生成,作为一种可控条件,增进交互和可控性,在多模态理解方面,指令prompt也使得任务灵活通用。视觉提示工程,已然成为CV一个前沿方向! 下面来看看…

Python Numpy入门基础(二)数组操作

入门基础(二) NumPy是Python中一个重要的数学运算库,它提供了了一组多维数组对象和一组用于操作这些数组的函数。以下是一些NumPy的主要特点: 多维数组对象:NumPy的核心是ndarray对象,它是一个多维数组对…

TCP/IP协议详解(二)

目录内容 TCP协议的可靠性 TCP的三次握手 TCP的四次挥手 C#中,TCP/IP建立 三次握手和四次挥手常见面试题 在上一篇文章中讲解了TCP/IP的由来以及报文格式,详情请见上一篇文章,现在接着来讲讲TCP/IP的可靠性以及通过代码的实现。 在TCP首部的…

Javadoc comment自动生成

光标放在第二行 按下Alt Shift j 下面是Java doc的生成 Next Next-> Finish

java多线程(超详细)

1 - 线程 1.1 - 进程 进程就是正在运行中的程序(进程是驻留在内存中的) 是系统执行资源分配和调度的独立单位 每一进程都有属于自己的存储空间和系统资源 注意:进程A和进程B的内存独立不共享。 1.2 - 线程 线程就是进程中的单个顺序控制…

【数据预测】基于蜣螂优化算法DBO的VMD-KELM光伏发电功率预测 短期功率预测【Matlab代码#53】

文章目录 【可更换其他算法,获取资源请见文章第6节:资源获取】1. 蜣螂优化算法DBO2. 变分模态分解VMD3. 核极限学习机KELM4. 部分代码展示5. 仿真结果展示6. 资源获取 【可更换其他算法,获取资源请见文章第6节:资源获取】 1. 蜣螂…

【雕爷学编程】Arduino动手做(175)---机智云ESP8266开发板模块8

37款传感器与执行器的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止这37种的。鉴于本人手头积累了一些传感器和执行器模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的&am…