【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(5月29日论文合集)

news2024/10/6 10:41:26

文章目录

  • 一、检测相关(12篇)
    • 1.1 Linear Object Detection in Document Images using Multiple Object Tracking
    • 1.2 Hybrid Energy Based Model in the Feature Space for Out-of-Distribution Detection
    • 1.3 BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy
    • 1.4 A novel application for real-time arrhythmia detection using YOLOv8
    • 1.5 ReConPatch : Contrastive Patch Representation Learning for Industrial Anomaly Detection
    • 1.6 Detect Any Shadow: Segment Anything for Video Shadow Detection
    • 1.7 FSD: Fully-Specialized Detector via Neural Architecture Search
    • 1.8 TFDet: Target-aware Fusion for RGB-T Pedestrian Detection
    • 1.9 Optimized Custom Dataset for Efficient Detection of Underwater Trash
    • 1.10 Vision-based UAV Detection in Complex Backgrounds and Rainy Conditions
    • 1.11 KeyPosS: Plug-and-Play Facial Landmark Detection through GPS-Inspired True-Range Multilateration
    • 1.12 A Semi-Automated Corner Case Detection and Evaluation Pipeline

一、检测相关(12篇)

1.1 Linear Object Detection in Document Images using Multiple Object Tracking

基于多目标跟踪的文档图像线性目标检测

论文地址:

https://arxiv.org/abs/2305.16968

在这里插入图片描述
线性对象传达关于文档结构的大量信息,但是由于降级(弯曲的、擦除的)或装饰(加倍的、虚线的)而难以准确地检测。许多方法可以恢复一些矢量表示,但只有一个在1994年推出的闭源技术,基于卡尔曼滤波器(多对象跟踪算法的一个特殊情况),可以执行线性对象的像素精确的实例分割,并能够选择性地将它们从原始图像中删除。我们的目标是重新推广这一方法,并建议:1.使用多对象跟踪(MOT)对文档图像中的线性对象进行精确实例分割的框架; 2.文档图像数据集和度量,其使得能够对线性对象检测进行基于矢量和基于像素的评估; 3. MOT方法对现代分段探测器的性能测量4.各种跟踪策略的性能测量,展示原始卡尔曼滤波器方法的替代方案;和5.一种检测器的开源实现,其可以区分弯曲、擦除、虚线、相交和/或重叠的线性对象的实例。

1.2 Hybrid Energy Based Model in the Feature Space for Out-of-Distribution Detection

基于特征空间的混合能量失配检测模型

论文地址:

https://arxiv.org/abs/2305.16966

在这里插入图片描述
分布外(OOD)检测是部署深度神经网络的关键要求。本文介绍了HEAT模型,一种新的后组织OOD检测方法估计的密度的分布(ID)的样本使用混合能量为基础的模型(EBM)的预训练骨干的特征空间。HEAT补充了ID密度的先验密度估计,例如例如高斯混合模型(GMM)等参数模型,以提供准确而稳健的密度估计。第二个贡献是利用EBM框架来提供统一的密度估计,并组成几个能量项。大量的实验证明了这两个贡献的重要性。HEAT在CIFAR-10 / CIFAR-100基准以及大规模Imagenet基准上设置了新的最先进的OOD检测结果。

代码可在以下网址获得:https://github.com/MarcLafon/heat_ood。

1.3 BEV-IO: Enhancing Bird’s-Eye-View 3D Detection with Instance Occupancy

BEV-IO:利用实例占用率增强鸟瞰3D检测

论文地址:

https://arxiv.org/abs/2305.16829

在这里插入图片描述
在3D检测中构建鸟瞰图(BEV)表示的流行方法是基于显式预测的深度分布将2D图像特征提升到视锥空间上。然而,深度分布只能表征可见物体表面的3D几何形状,但无法捕获其内部空间和整体几何结构,导致稀疏和不令人满意的3D表示。为了缓解这个问题,我们提出了BEV-IO,一种新的3D检测范式,以增强BEV表示与实例占用信息。在我们的方法的核心是新设计的实例占用预测(IOP)模块,其目的是推断点级占用状态的每个实例在截头体空间。为了确保培训效率,同时保持代表的灵活性,它是使用显式和隐式监督相结合的培训。与预测的占用率,我们进一步设计了一个几何感知的特征传播机制(GFP),它执行自注意力的基础上占用分布沿每个射线在截头体,并能够执行实例级的特征一致性。通过将IOP模块与GFP机制集成,我们的BEV-IO检测器能够以更全面的BEV表示呈现高度信息化的3D场景结构。实验结果表明,BEV-IO可以优于最先进的方法,同时仅增加了可忽略不计的参数(0.2%)和计算开销(GFLOPs中为0.24%)。

1.4 A novel application for real-time arrhythmia detection using YOLOv8

YOLOv8在心律失常实时检测中的新应用

论文地址:

https://arxiv.org/abs/2305.16727

在这里插入图片描述

近年来,在心血管健康的远程监测中,越来越需要降低医疗保健成本。检测和分类心律失常对于诊断患有心脏异常的患者至关重要。本文表明,复杂的系统,如心电图(ECG)可以适用于在家里监测。本文提出了一种新的心律失常检测应用程序,使用最先进的You-Only-Look-Once(YOLO)v8算法对单导联ECG信号进行分类。在MIT-BIH数据集上微调自定义YOLOv 8模型,以实时检测心律失常,从而允许连续监测。结果表明,我们的模型可以检测心跳,mAP@50为0.961,检测时间为0.002s。我们的研究证明了实时心律失常检测的潜力,其中模型输出可以为家庭用户进行可视化解释。此外,这项研究可以扩展到实时XAI模型,部署在医疗保健行业,并显着推进医疗保健需求。

1.5 ReConPatch : Contrastive Patch Representation Learning for Industrial Anomaly Detection

ReConPatch:工业异常检测中的对比面表示学习

论文地址:

https://arxiv.org/abs/2305.16713

在这里插入图片描述
异常检测对于产品缺陷的高级识别至关重要,例如不正确的部件、未对准的部件和工业制造中的损坏。由于罕见的观察和未知类型的缺陷,异常检测被认为是机器学习中的挑战。为了克服这个困难,最近的方法利用来自自然图像数据集的常见视觉表示并提取相关特征。然而,现有的方法仍然存在预训练特征和目标数据之间的差异,或者需要输入增强,这应该特别是针对工业数据集精心设计。在本文中,我们介绍了ReConPatch,它通过训练一个预先训练的模型的线性调制来构造异常检测的判别特征。ReConPatch采用对比表示学习来收集和分布特征,以产生面向目标的和易于分离的表示。为了解决没有标记对的对比学习,我们利用两个相似性措施,成对和上下文相似性,数据表示之间的伪标签。与以前的工作不同,ReConPatch实现了强大的异常检测性能,没有广泛的输入增强。我们的方法实现了最先进的异常检测性能(99.72%)广泛使用和具有挑战性的MVTec AD数据集。

1.6 Detect Any Shadow: Segment Anything for Video Shadow Detection

检测任何阴影:分割任何内容以进行视频阴影检测

论文地址:

https://arxiv.org/abs/2305.16698

在这里插入图片描述

任意分割模型(SAM)在自然图像分割领域取得了巨大的成功。然而,SAM倾向于将阴影分类为背景,导致阴影检测任务的分割性能差。在本文中,我们提出了一个简单但有效的方法微调SAM检测阴影。此外,我们还将它与长短期注意机制相结合,将其功能扩展到视频阴影检测。具体地,我们首先通过利用与稀疏提示相结合的阴影数据来微调SAM,并应用微调模型来检测特定帧(例如,第一帧)在视频中使用少量用户帮助。随后,使用检测到的帧作为一个参考,我们采用一个长短期网络来学习距离帧之间的空间相关性和连续帧之间的时间一致性,从而实现跨帧的阴影信息传播。大量的实验结果表明,我们的方法优于国家的最先进的技术,改进了17.2%和3.3%的MAE和IoU,分别验证了我们的方法的有效性。

1.7 FSD: Fully-Specialized Detector via Neural Architecture Search

FSD:基于神经结构搜索的全专业化探测器

论文地址:

https://arxiv.org/abs/2305.16649

在这里插入图片描述
在本文中,我们首先提出并研究了一个全自动的管道设计一个全专业化的检测器(FSD),主要采用了神经架构搜索模型,通过探索理想的网络结构的骨干和特定任务的头。

1.8 TFDet: Target-aware Fusion for RGB-T Pedestrian Detection

TFDet:用于RGB-T行人检测的目标感知融合

论文地址:

https://arxiv.org/abs/2305.16580

在这里插入图片描述

行人检测是计算机视觉中的一项关键任务,因为它在确保交通安全方面发挥着重要作用。然而,现有的方法,仅依赖于RGB图像遭受低光条件下的性能下降,由于缺乏有用的信息。为了解决这个问题,最近的多光谱检测方法结合热图像以提供补充信息。然而,这些方法有局限性,如嘈杂的融合特征图和信息特征的损失。在本文中,我们提出了一种新的目标感知融合策略的多光谱行人检测,TFDet。与现有的方法不同,TFDet通过监督融合过程的相关性最大损失函数增强了功能。我们的融合策略突出了行人相关的功能,同时抑制不相关的。TFDet在KAIST和LLVIP基准测试中都达到了最先进的性能,速度可与之前的最先进的同类产品相媲美。重要的是,TFDet在低光条件下表现出色,这是道路安全的重大进步。

1.9 Optimized Custom Dataset for Efficient Detection of Underwater Trash

用于高效检测水下垃圾的优化自定义数据集

论文地址:

https://arxiv.org/abs/2305.16460

在这里插入图片描述
准确地量化和清除淹没在水下的垃圾在保护海洋生物和保护环境方面起着至关重要的作用。虽然检测漂浮物和表面碎片相对简单,但由于光折射、吸收、悬浮颗粒和颜色失真等因素,量化水下废物存在重大挑战。本文解决了这些挑战,提出了一个定制的数据集和一个有效的检测方法淹没海洋垃圾的发展。该数据集包括不同的水下环境,并纳入注释的碎片实例的精确标签。最终,这个自定义数据集的主要目标是通过利用最先进的深度学习架构来增强垃圾实例的多样性,并提高它们在深潜环境中的检测准确性。

1.10 Vision-based UAV Detection in Complex Backgrounds and Rainy Conditions

复杂背景和多雨条件下基于视觉的无人机检测

论文地址:

https://arxiv.org/abs/2305.16450

在这里插入图片描述
为了实时检测无人机,计算机视觉和深度学习方法是发展中的研究领域。已经提出了关于在许多应用中使用无人驾驶飞行器(UAV)的可能危险和滥用的担忧。这些包括潜在的隐私侵犯、安全相关问题和安全威胁。基于视觉的检测系统通常包括诸如相机的硬件组件和软件组件的组合。在这项工作中,最近和流行的基于视觉的目标检测技术的性能进行了调查,在具有挑战性的条件下,如复杂的背景,不同的无人机尺寸,复杂的背景场景,低到大雨的条件下的无人机检测的任务。为了研究所选方法在这些条件下的性能,策划了两个数据集:一个具有天空背景,一个具有复杂背景。本文对单级探测器和两级探测器进行了研究和评价。本文的研究结果将有助于为无人机在挑战性条件下的探测任务的性能提供见解,并为开发更鲁棒的无人机探测方法铺平道路

1.11 KeyPosS: Plug-and-Play Facial Landmark Detection through GPS-Inspired True-Range Multilateration

KeyPosS:通过GPS启发的True-Range多边形即插即用面部地标检测

论文地址:

https://arxiv.org/abs/2305.16437

在这里插入图片描述
在面部分析领域,准确的地标检测对于从面部识别、表情分析到动画的各种应用都至关重要。然而,传统的基于热图或坐标回归的技术经常面临计算负担和量化误差方面的挑战。为了解决这些问题,我们提出了KeyPoint定位系统(KeyPosS),这是一个突破性的面部地标检测框架,从现有的方法中脱颖而出。KeyPosS首次采用了真范围多边形算法,这是一种最初用于GPS系统的技术,可以在不依赖计算密集型回归方法的情况下实现快速精确的面部地标检测。该框架利用完全卷积网络来预测距离图,该距离图计算兴趣点(POI)和多个锚点之间的距离。这些锚点被巧妙地利用来通过真范围多边测量算法对POI的位置进行三角测量。值得注意的是,KeyPosS的即插即用特性使其能够无缝集成到任何解码阶段,从而确保了多功能和适应性强的解决方案。我们对KeyPosS的性能进行了彻底的评估,通过对四个不同数据集上的最先进模型进行基准测试。结果表明,KeyPosS大大优于领先的方法在低分辨率设置,同时需要一个最小的时间开销。该代码可在www.example.com上获得https://github.com/zhiqic/KeyPosS。

1.12 A Semi-Automated Corner Case Detection and Evaluation Pipeline

一种半自动的拐角案件检测与评估流水线

论文地址:

https://arxiv.org/abs/2305.16369

在这里插入图片描述
为了向公众部署自动驾驶车辆,必须证明车辆可以在许多不同的场景中安全、稳健地处理交通。自动化车辆的一个重要组成部分是感知系统,该系统捕捉和处理车辆周围的环境。感知系统需要大型数据集来训练其深度神经网络。在网络的训练或测试期间,知道这些数据集中的数据的哪些部分描述了角落情况是一个优势。这些极端情况描述的是罕见的、对网络具有潜在挑战性的情况。我们提出了一个管道,将集体专家知识描述扩展KI Absicherung本体。本体用于描述可以映射到感知数据集的场景和场景。然后,可以从数据集中提取拐角情况。此外,流水线使得能够针对所提取的角点情况来评估检测网络以测量其性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/588409.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

原来你是这样的5G 一文了解亚马逊云科技的云上5G专网

根据麦肯锡公司发布的《2021年离散制造业上云调查》报告显示:云转型所带来的IT价值仅占其潜在价值的5%,但其业务价值高达95%。随着云计算技术的快速发展以及云的IT价值在敏捷性、弹性和经济性几个方面的充分呈现加上同5G技术和应用…

8项seo的日常工作

SEO的日常工作涵盖了一系列任务和活动,旨在优化网站以提高在搜索引擎中的排名和可见性。 以下是SEO的日常工作内容: 关键词研究和优化:定期进行关键词研究,寻找与目标受众和业务相关的热门关键词。优化网站内容、标题、元描述和链…

《Cocos Creator游戏实战》签到日历实现思路

在线体验地址 Cocos Creator | SignCalendar Cocos Store 购买地址(如果没有显示,那就是还在审核): https://store.cocos.com/app/detail/4975微店购买地址: https://weidian.com/item.html?itemID6354270477 运行效…

【书评】《写作脑科学》杨滢(@屠龙的胭脂井)

《写作脑科学》是一本介绍写作与脑科学关系的书籍,作者是杨滢。 本书通过对脑科学的研究和分析,揭示了写作的本质和技巧,为写作者提供了有益的指导和启示。 本书的主要内容分为八个部分 第1章 为什么写作跟大脑有关第2章 快速写作&#xff…

Photoshop 2023 Beta 内置Ai绘图功能介绍安装教程

距离Adobe软件公司首次将图像编辑及数字绘画软件Photoshop推出到大众面前已经过去35年,最近该公司又再次书写了属于Photoshop的历史新篇章。 最近,Adobe 宣布 Photoshop(Beta)迎来更新,新增「创意填充(Gen…

3.3. 日期与时间类(Date、Calendar、LocalDate等)

在Java中,我们经常需要处理日期和时间。Java提供了一些类来帮助我们完成这些任务,如Date、Calendar、LocalDate、LocalTime、LocalDateTime和ZonedDateTime等。我们将分别介绍这些类,并给出相应的示例。 1. Date类 Date类是Java提供的一个表…

Redis的地理位置(GEO)+Hypterloglog+事务测试

GEOADD 命令 - 将指定的地理空间位置(纬度、经度、名称)添加到指定的key中,这些数据将会存储到sorted set 有效的经度从-180度到180度。有效的纬度从-85.05112878度到85.05112878度。 当坐标位置超出上述指定范围时,该命令将会返…

chatgpt赋能python:Python中Numpy报错分析

Python中Numpy报错分析 Numpy是Python中重要的开源数值计算库,它提供了数组和矩阵的操作。在使用Numpy的过程中,有时候我们会遇到一些报错信息,本文将对常见的Numpy报错进行分析和解决方法的介绍。 NumPy报错信息 当我们在使用Numpy时出现…

融合PWA技术的小程序:为用户带来原生应用体验

PWA代表“渐进式网络应用”(Progressive Web Application)。它是一种结合了网页和移动应用程序功能的技术概念。PWA旨在提供类似于原生应用程序的用户体验,包括离线访问、推送通知、后台同步等功能,同时又具有网页的优势&#xff…

AIGC领域优秀的资源汇总(应用、论文、开源项目)

AIGC领域介绍,及一些比较优秀的应用,和论文,开源项目汇总。 AIGC大纲 一、AIGC概念 ​ AIGC,全名“AI generated content”,又称生成式AI,意为人工智能生成内容。例如AI文本续写,文字转图像的…

NRF52系列多个 base uuid 的问题,以client为例。

基础uuid知识 nordic的nrf sdk希望我们设置uuid的方式跟蓝牙技术联盟SIG的方式一样,也就是服务和特性的uuid是基于同一个base uuid修改产生的,比如base uuid是0x0000xxxx-0000-1000-8000-00805F9B34FB,那么服务和特性的128bit uuid就要基于此…

java8内部调用无法引用值的问题

问题:Variable used in lambda expression should be final or effectively final 具体原因: 这段代码试图将 20 赋给一个局部变量,它无法通过编译,但绝非编写错误。 这实际上是语言的设计者有意为之,用以鼓励用户使用…

优化版本 穿越火线(CF) FPS AI 自瞄 代码 权重 数据集(下面有链接)

更新初衷 本人在制作过程中,有一些爱钻研的朋友来问以及提出增加一些新的功能点回会更好,本着学习研究态度,在第一个版本上进行优化,增加一些内容 不喜欢看过程的小伙伴直接看最下面 界面 解决问题: 1、进入慢 2、无…

PyTorch-完整的模型训练套路

目录 1. 准备 1.1 使用Cifar10 1.2 item的用法 1.3 model的搭建 1.4 数据集、参数设置以及训练开始 1.5 测试集 1.6 使用tensorboard 1.7 保存每一轮的训练结果 2. 计算整体的正确率 3. 其他 3.1 train与eval 3.2 使用GPU训练 1. 准备 1.1 使用Cifar10 1.2 item的…

微信小程序授权登录

微信小程序—授权登录 一、小程序登录 登录流程时序 说明: 1.小程序端调用 wx.login() 获取临时登录凭证code ,并回传到开发者服务器。 2.服务器调用 code2Session 接口,换取 用户唯一标识 OpenID 和 会话密钥 session_key。 之后开发者服务器可以根…

2021年长三角高校数学建模竞赛A题Go!Fun游长三角解题全过程文档及程序

2021年长三角高校数学建模竞赛 A题 Go!Fun游长三角 原题再现: 又到一年毕业季,来自浙江杭州的一位大学生小李同学,家境良好,平时学习刻苦,在即将毕业之际,准备给自己安排一个毕业旅行,同时帮助…

Java 高级应用-多线程-实现 Runnable 接口与继承 Thread 类

1.1 程序、进程与线程 • 程序(program):为完成特定任务,用某种语言编写的一组指令的集合。即指一段 静态的代码,静态对象。 • 进程(process):程序的一次执行过程,或是正…

转变范式:如何使用 5 种新模式重塑 2023 年的实体店体验

在电商盛行的当下,线上购物已成为新零售的重要组成部分,实体零售业正处于两难境地。一方面,实体零售是绝对有必要的:美国约 85% 的销售额来自实体商店。 另一方面,尽管增长放缓,但电商收入占销售总额的比例…

chatgpt赋能python:Python中图形怎么整体下移?

Python中图形怎么整体下移? 在Python中,我们常常需要处理各种各样的图形,但是有时候我们需要将图形进行整体调整,比如将所有图形下移一定距离。那么在Python中,我们该如何实现这个操作呢? 介绍 在Python…

【Linux】3、iptables

文章目录 一、设置其他机器均无法访问 a、b、c 机器的 5432 端口二、设置 d、e 可访问 a、b、c 的 5432 端口三、检查业务是否受到影响 iptables 可在 tcp 协议栈层面限制访问,常用于解决现场的各漏洞。 场景:现场有 a、b、c 三个机器组成的 postgres 集…