【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(7 月 28 日论文合集)

news2024/9/21 0:52:51

文章目录

  • 一、检测相关(11篇)
    • 1.1 Adaptive Segmentation Network for Scene Text Detection
    • 1.2 EFLNet: Enhancing Feature Learning for Infrared Small Target Detection
    • 1.3 MIM-OOD: Generative Masked Image Modelling for Out-of-Distribution Detection in Medical Images
    • 1.4 NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Detection
    • 1.5 The detection and rectification for identity-switch based on unfalsified control
    • 1.6 GADER: GAit DEtection and Recognition in the Wild
    • 1.7 A Memory-Augmented Multi-Task Collaborative Framework for Unsupervised Traffic Accident Detection in Driving Videos
    • 1.8 Robust Detection, Assocation, and Localization of Vehicle Lights: A Context-Based Cascaded CNN Approach and Evaluations
    • 1.9 Towards multi-modal anatomical landmark detection for ultrasound-guided brain tumor resection with contrastive learning
    • 1.10 Technical note: ShinyAnimalCV: open-source cloud-based web application for object detection, segmentation, and three-dimensional visualization of animals using computer vision
    • 1.11 A Weakly Supervised Segmentation Network Embedding Cross-scale Attention Guidance and Noise-sensitive Constraint for Detecting Tertiary Lymphoid Structures of Pancreatic Tumors

一、检测相关(11篇)

1.1 Adaptive Segmentation Network for Scene Text Detection

一种用于场景文本检测的自适应分割网络

https://arxiv.org/abs/2307.15029

在这里插入图片描述
受深度卷积分割算法的启发,场景文本检测器稳步突破数据集的性能上限。然而,这些方法经常遇到阈值选择瓶颈,并且在具有极端纵横比的文本实例上具有较差的性能。在本文中,我们提出了自动学习区分分割阈值,区分文本像素从背景像素的分割为基础的场景文本检测器,然后进一步减少耗时的手动参数调整。此外,我们设计了一个全局信息增强的特征金字塔网络(GE-FPN)捕获文本实例与宏大小和极端宽高比。在GE-FPN之后,我们引入级联优化结构来进一步细化文本实例。最后,结合本文提出的阈值学习策略和文本检测结构,设计了一个自适应分割网络(ASNet)用于场景文本检测。大量的实验表明,所提出的ASNet可以实现国家的最先进的性能在四个文本检测基准,即,ICDAR 2015、MSRA-TD500、ICDAR 2017 MLT和CTW1500。烧蚀实验也验证了我们的贡献的有效性。

1.2 EFLNet: Enhancing Feature Learning for Infrared Small Target Detection

EFLNet:增强红外小目标检测的特征学习

https://arxiv.org/abs/2307.14723

在这里插入图片描述
单帧红外小目标检测被认为是一项具有挑战性的任务,由于目标与背景的极度不平衡,包围盒回归算法对红外小目标极其敏感,并且小目标信息容易在高层语义层丢失。在本文中,我们提出了一个增强的特征学习网络(EFLNet)的基础上YOLOv7框架来解决这些问题。首先,我们注意到红外图像中目标和背景之间存在着极不平衡,这使得模型更加关注背景特征,导致漏检。为了解决这个问题,我们提出了一个新的自适应阈值焦点损失函数,自动调整损失的重量,迫使模型分配更多的关注目标功能。其次,我们引入了归一化高斯Wasserstein距离,以减轻模型收敛的困难所造成的极端敏感的包围盒回归红外小目标。最后,我们将一个动态头机制到网络中,使每个语义层的相对重要性的自适应学习。实验结果表明,我们的方法可以实现更好的性能相比,最先进的基于深度学习的方法在红外小目标的检测性能。

1.3 MIM-OOD: Generative Masked Image Modelling for Out-of-Distribution Detection in Medical Images

MIM-OOD:用于医学图像非分布检测的生成式掩模图像建模

https://arxiv.org/abs/2307.14701

在这里插入图片描述
无监督分布外(OOD)检测在于仅利用在健康解剖结构的图像上训练的模型来识别图像中的异常区域。一种已建立的方法是对图像进行标记化,并用自回归(AR)模型对标记的分布进行建模。AR模型用于1)识别异常令牌和2)具有分布中令牌的绘制中异常表示。然而,AR模型在推理时是缓慢的,并且容易出现错误累积问题,这对OOD检测性能产生负面影响。我们的新方法MIM-OOD克服了速度和错误累积问题,通过用两个特定于任务的网络替换AR模型:1)被优化为识别异常标记的Transformer,以及2)被优化为使用掩码图像建模(MIM)来绘制异常标记的变换器。我们对大脑MRI异常的实验表明,MIM-OOD大大优于AR模型(DICE 0.458 vs 0.301),同时实现了近25倍的加速(9.5s vs 244 s)。

1.4 NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Detection

NERF-DET:用于多视点三维物体检测的学习几何感知体积表示

https://arxiv.org/abs/2307.14620

在这里插入图片描述
我们提出了NeRF-Det,一种新的室内三维检测方法,以RGB图像作为输入。与现有的室内3D检测方法难以对场景几何形状进行建模不同,我们的方法以端到端的方式使用NeRF来明确估计3D几何形状,从而提高3D检测性能。具体来说,为了避免与NeRF的每场景优化相关联的显著额外延迟,我们引入足够的几何先验来增强NeRF-MLP的可推广性。此外,我们巧妙地连接检测和NeRF分支通过一个共享的MLP,使一个有效的适应NeRF检测和产生几何感知的体积表示的3D检测。我们的方法在ScanNet和ARKITScenes基准测试中分别优于最先进的3.9 mAP和3.1 mAP。我们提供了广泛的分析,以阐明NeRF-Det是如何工作的。由于我们的联合训练设计,NeRF-Det能够很好地推广到看不见的场景,用于对象检测,视图合成和深度估计任务,而不需要每个场景的优化。代码可在\url{https://github.com/facebookresearch/NeRF-Det}获得。

1.5 The detection and rectification for identity-switch based on unfalsified control

基于防伪控制的身份切换检测与纠错

https://arxiv.org/abs/2307.14591

在这里插入图片描述
多目标跟踪(MOT)的目的是对视频中检测到的目标进行连续跟踪和识别。目前,大多数用于多目标跟踪的方法对运动信息进行建模,并将其与外观信息相结合来确定和跟踪目标。针对多目标跟踪中的身份切换问题,提出了一种基于非伪造控制的多目标跟踪方法。我们建立了一系列的外观信息变化的轨迹在跟踪过程中,并设计了一个检测和整流模块,专门用于ID开关的检测和恢复。我们还提出了一个简单而有效的策略,以解决在数据关联过程中的外观信息的模糊匹配的问题。公开的MOT数据集上的实验结果表明,该跟踪器具有良好的有效性和鲁棒性,在处理由遮挡和快速运动引起的跟踪错误。

1.6 GADER: GAit DEtection and Recognition in the Wild

Gader:野外步态检测与识别

https://arxiv.org/abs/2307.14578

在这里插入图片描述
步态识别具有基于行走模式而不是颜色信息来鲁棒地识别主体的前景。虽然先前的方法对于策划的室内场景表现良好,但是它们显著地阻碍了在不受约束的情况下的适用性,例如,户外远距离场景我们提出了一个端到端的步态检测和识别(GADER)算法,在具有挑战性的户外场景中的人体认证。具体而言,GADER利用双螺旋签名来检测人体运动的片段,并采用了一种新的步态识别方法,该方法通过从辅助RGB识别模型中提取来学习表示。在推理时,GADER仅使用轮廓模态,但受益于更鲁棒的表示。在室内和室外数据集上的大量实验表明,该方法在步态识别和验证方面优于最先进的方法,在无约束的长距离场景中有20.6%的显著改善。

1.7 A Memory-Augmented Multi-Task Collaborative Framework for Unsupervised Traffic Accident Detection in Driving Videos

一种记忆增强的驾驶视频无监督交通事故检测多任务协作框架

https://arxiv.org/abs/2307.14575

在这里插入图片描述
识别驾驶视频中的交通事故对于确保自动驾驶和驾驶辅助系统的安全至关重要。为了解决驾驶事件的长尾分布所引起的潜在危险,现有的交通事故检测(TAD)方法主要依赖于无监督学习。然而,由于摄像机的快速移动和驾驶场景中的动态场景,TAD仍然具有挑战性。现有的无监督TAD方法主要依赖于单个借口任务,即,基于外观或未来的对象定位任务,以检测事故。然而,基于外观的方法很容易受到干扰的快速移动的相机和光照的变化,这显着降低了交通事故检测的性能。基于未来对象定位的方法可能无法捕获视频帧中的外观变化,使得难以检测涉及自我的事故(例如,失去自我车辆的控制)。在本文中,我们提出了一种新的内存增强的多任务协作框架(MAMTCF)在驾驶视频中的无监督交通事故检测。与以往的方法不同,我们的方法可以更准确地检测自我参与和非自我事故,同时建模的外观变化和对象运动的视频帧,通过光流重建和未来的对象定位任务的合作。此外,我们引入了一个内存增强的运动表示机制,以充分探索不同类型的运动表示之间的相互关系,并利用存储在内存中的正常流量模式的高层次功能,以增强运动表示,从而扩大从异常的差异。最近发表的大规模数据集上的实验结果表明,我们的方法实现了更好的性能相比,以前的国家的最先进的方法。

1.8 Robust Detection, Assocation, and Localization of Vehicle Lights: A Context-Based Cascaded CNN Approach and Evaluations

车灯的稳健检测、关联和定位:一种基于上下文的级联CNN方法和评估

https://arxiv.org/abs/2307.14571

在这里插入图片描述
重要的下游安全自主驾驶任务需要车辆灯光检测,例如预测车辆的灯光状态以确定车辆是否正在变道或转弯。当前,许多车灯检测器使用单级检测器,其预测边界框以与车辆实例解耦的方式识别车灯。在本文中,我们提出了一种方法,用于检测车辆的光给定的上游车辆检测和近似的可见光的中心。我们的方法预测与每个车灯相关联的四个近似角。我们实验了CNN架构,数据增强和上下文预处理方法,旨在减少周围车辆的混乱。我们实现了一个平均距离误差从地面真实角的5.09像素,约17.24%的大小,平均车灯。我们在LISA Lights数据集上训练和评估我们的模型,使我们能够在各种各样的车灯形状和照明条件下彻底评估我们的车灯角点检测模型。我们建议,该模型可以集成到一个管道与车辆检测和车灯中心检测,使一个完整的形成车灯检测网络,有价值的轨迹信息信号在驾驶场景中识别。

1.9 Towards multi-modal anatomical landmark detection for ultrasound-guided brain tumor resection with contrastive learning

基于对比学习的超声引导下脑肿瘤切除多模式解剖标志检测

https://arxiv.org/abs/2307.14523

在这里插入图片描述
医学扫描之间的同源解剖标志有助于各种临床应用中的图像配准质量的定量评估,例如用于超声引导的脑肿瘤切除术中的组织移位校正的MRI超声配准。虽然手动识别MRI和超声(US)之间的标志对极大地促进了任务的不同配准算法的验证,但该过程需要大量的专业知识、劳动力和时间,并且可能易于发生评估者间和评估者内的不一致。到目前为止,已经提出了许多传统和机器学习方法用于解剖标志检测,但它们主要集中在单模态应用。不幸的是,尽管有临床需要,但很少尝试模态间/对比标志检测。因此,我们提出了一种新的对比学习框架,以检测在神经外科中MRI和术中US扫描之间的相应标志。具体而言,联合训练两个卷积神经网络以编码MRI和US扫描中的图像特征,以帮助匹配包含MRI中的相应标志的US图像块。我们开发和验证的技术使用公共RESECT数据库。平均标志点检测精度为5.88 ± 4.79 mm,而SIFT特征为18.78 ± 4.77 mm,所提出的方法首次为神经外科应用中的MRI-US标志点检测提供了有希望的结果。

1.10 Technical note: ShinyAnimalCV: open-source cloud-based web application for object detection, segmentation, and three-dimensional visualization of animals using computer vision

技术说明:ShinyAnimalCV:开源的基于云的Web应用程序,用于使用计算机视觉对动物进行对象检测、分割和三维可视化

https://arxiv.org/abs/2307.14487

在这里插入图片描述
计算机视觉(CV)是一种非侵入性且具有成本效益的技术,通过及时和个性化的动物护理实现优化决策,促进了精准畜牧业的发展。经济实惠的二维和三维摄像头传感器的可用性,与各种机器学习和深度学习算法相结合,为改善畜牧业生产系统提供了宝贵的机会。然而,尽管公共领域中有各种CV工具,但将这些工具应用于动物数据可能是具有挑战性的,通常需要用户具有编程和数据分析技能,以及访问计算资源。此外,精准畜牧业的快速扩张正在创造越来越多的需要教育和训练动物科学专业学生的CV。这给教育工作者带来了有效地演示CV中涉及的复杂算法的挑战。因此,本研究的目的是开发ShinyAnimalCV,一个开源的基于云的Web应用程序。该应用程序提供了一个用户友好的界面,用于执行CV任务,包括对象分割,检测,三维表面可视化,提取二维和三维形态特征。应用程序中包括使用顶视图动物数据的九个预训练CV模型。ShinyAnimalCV已使用云计算平台在线部署。ShinyAnimalCV的源代码可在GitHub上获得,以及使用自定义数据训练CV模型和本地部署ShinyAnimalCV的详细文档,以允许用户充分利用应用程序的功能。ShinyAnimalCV可以为动物科学界的CV研究和教学做出贡献。

1.11 A Weakly Supervised Segmentation Network Embedding Cross-scale Attention Guidance and Noise-sensitive Constraint for Detecting Tertiary Lymphoid Structures of Pancreatic Tumors

嵌入跨尺度注意引导和噪声敏感约束的弱监督分割网络检测胰腺肿瘤的三级淋巴结构

https://arxiv.org/abs/2307.14603

在这里插入图片描述
胰腺病理图像上三级淋巴样结构(TLSs)的存在是胰腺肿瘤的重要预后指标。因此,对胰腺病理图像进行TLSs检测对胰腺肿瘤患者的诊断和治疗具有重要意义。然而,基于深度学习的全监督检测算法通常需要大量的人工标注,耗时耗力。在本文中,我们的目标是通过提出一个弱监督分割网络检测的Few-Shot学习的方式的TLS。我们首先通过结合用于核分割的预训练模型和用于淋巴细胞核识别的域对抗网络来获得淋巴细胞密度图。然后,我们建立了一个跨尺度的注意力引导机制,通过共同学习的粗尺度功能,从原始的组织病理学图像和细尺度功能,从我们设计的淋巴细胞密度的注意。通过在训练过程中嵌入符号距离函数损失来引入噪声敏感约束,以减少微小的预测误差。两个收集的数据集上的实验结果表明,我们提出的方法显着优于国家的最先进的基于分割的算法在TLS检测精度。此外,我们应用我们的方法来研究TLSs密度和胰周血管侵犯之间的一致性关系,并获得一些临床统计学结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/835331.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CSS中所有选择器详解

文章目录 一、基础选择器1.标签选择器2.类选择器3.id选择器4.通配符选择器 二、复合选择器1.交集选择器2.并集选择器 三、属性选择器1.[属性]2.[属性属性值]3.[属性^属性值]4.[属性$属性值]5.[属性*属性值] 四、关系选择器1.父亲>儿子2.祖先 后代3.兄弟4.兄~弟 五、伪类选择…

NTT DATA利用相干伊辛机模拟基因组组装和疾病治疗的潜力

​ (图片来源:网络) 7月20日,日本领先的IT服务提供商和行业咨询公司NTT DATA宣布完成了一个使用量子计算优化基因组组装过程的项目。这是量子计算应用于医疗保健和生命科学行业中的一个里程碑。 本项目通过比较量子和非量子计算方…

Ubuntu18.04 安装opencv 4.8.0教程(亲测可用)

1. 安装准备 安装前需要下载一些必须的依赖项。 不同版本opencv依赖会有不同,具体见官网opencv安装 sudo apt-get install build-essential sudo apt-get install cmake git libgtk2.0-dev pkg-config libavcodec-dev libavformat-dev libswscale-dev sudo apt-…

Elasticsearch官方测试数据导入

一、数据准备 百度网盘链接 链接:https://pan.baidu.com/s/1rPZBvH-J0367yQDg9qHiwQ?pwd7n5n 提取码:7n5n文档格式 {"index":{"_id":"1"}} {"account_number":1,"balance":39225,"firstnam…

(附代码)视觉激光雷达信息融合与联合标定

目录 一、引言 福利:文末有chat-gpt纯分享,无魔法,无限制 二、联合标定转换关系 三、相机标定 四、联合标定 五、视觉与点云信息融合 5.1 image2points 5.2 points2image 六、总结 一、引言 最近在为车辆添加障碍物检测模块&#xf…

【雕爷学编程】MicroPython动手做(31)——物联网之Easy IoT

1、物联网的诞生 美国计算机巨头微软(Microsoft)创办人、世界首富比尔盖茨,在1995年出版的《未来之路》一书中,提及“物物互联”。1998年麻省理工学院提出,当时被称作EPC系统的物联网构想。2005年11月,国际电信联盟发布《ITU互联网…

Nginx源码安装

文章目录 Nginx源码安装注安装pcre库安装openssl库创建用户及用户组安装编译环境解压文件检测环境重要目录检查配置服务启动脚本查看效果: Nginx源码安装 注 本实验基于RHEL73.10.0-327.el7.x86_64,尽量使用RHEL7或CentOS7。 安装pcre库 安装 pere 库…

(自控原理)线性系统的根轨迹法

目录 一、根轨迹法的基本概念 1、根轨迹概念 2、根轨迹方程 二、根轨迹绘制的基本法则 1、绘制根轨迹基本法则 三、系统性能的分析 1、闭环零点与时间响应 一、根轨迹法的基本概念 1、根轨迹概念 三大分析矫正方法:时域法、复域法(根轨迹法)、频域法 2、根…

【网络】数据链路层

目录 一、以太网 二、以太网帧格式 三、 MTU 1、MTU概念 2、 MTU对IP协议的影响 3、MTU对UDP协议的影响 4、 MTU对于TCP协议的影响 四、MAC地址 五、 ARP协议 1、ARP协议的作用 2、ARP协议的工作流程 3、ARP数据报的格式 4、中间人 数据链路层解决的,是…

mysql使用SUBSTRING_INDEX拆分字符串,获取省、市、县和详细现住址

mysql使用SUBSTRING_INDEX拆分字符串,获取省、市、县和详细现住址 一、如何把"江西-上饶市-广丰县-大南镇古村村张家82号"拆分为省、市、县和详细现住址二、mysql的解决办法 一、如何把"江西-上饶市-广丰县-大南镇古村村张家82号"拆分为省、市、…

基于 Redux + TypeScript 实现强类型检查和对 Json 的数据清理

基于 Redux TypeScript 实现强类型检查和对 Json 的数据清理 突然像是打通了任督二脉一样就用了 generics 搞定了之前一直用 any 实现的类型…… 关于 Redux 的部分,这里不多赘述,基本的实现都在这里:Redux Toolkit 调用 API 的四种方式 和…

路桥隧施工管理平台(BIM+实景+GIS)

引言 中科图新公路工程BIMGIS可视化项目管理平台是一种高效的项目管理工具,通过将BIM技术与3DGIS技术融合,实现了宏观地理信息与微观工程模型的集成显示。 该平台为项目管理提供了直观、准确的三维工程虚拟环境,对主要三维空间对象&#xff…

【Java】springboot框架 粮油质量溯源MES生产加工管理系统源码

粮油质量溯源MES生产加工管理系统源码,实现一物一码,全程追溯,正向追踪,逆向溯源。技术架构:spring bootmybatiseasyuimysql 。 粮油生产质量追溯系统实现种植主体、种植基地、生产计划、压榨、精炼、包装、销售、物料…

智能物流千人俱乐部---正式开启!

经过半年的筹备,【研习社智能物流千人俱乐部】今天起正式对外开放。 会员可以直接互相对接联系。 目前已经有100多家各行业代表(用户、甲方)加入了千人俱乐部。 行业精英主要来自供应链管理、食品、金融供应链、铁路、精密制造、商超电商、电…

实战:k8s里通过argoCD部署jenkins-2023.7.24(测试成功)

实战:k8s里通过argoCD部署jenkins-2023.7.24(测试成功) 目录 实验环境 操作系统: CentOS8 Linux (我本次用centos7.6) 内存资源:32GB (自己nuc机器32G内存) 实验软件版本: 工具名…

MySQL 与MongoDB区别

一、什么是MongoDB呢 ? MongoDB 是由C语言编写的,是一个基于分布式文件存储的开源数据库系统。在高负载的情况下,添加更多的节点,可以保证服务器性能。 MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB 将数据存储为一…

【高危】Apache NiFi 远程资源检索功能存在命令注入漏洞

漏洞描述 Apache NiFi 是一个开源的数据流处理和自动化工具。 Apache NiFi 1.23.0之前版本中包含使用 HTTP URL 进行远程资源检索的 Processors 和 Controller Services,但是未限制普通身份用户配置此功能。经过身份验证的攻击者可配置恶意的外部资源引用地址&…

现场直击!飞凌嵌入式亮相第13届配电技术应用论坛

2023年8月3日,第十三届配电技术应用论坛在杭州开幕,飞凌嵌入式携多款重量级产品及热门方案亮相本届论坛,展位号A49。 飞凌嵌入式作为专注嵌入式核心控制系统研发、设计和生产的高新技术企业,与来自全国各地的行业伙伴共同分享市场…

打破思维定势,头脑风暴必备的3个模板!

在日常工作和生活中,我们常常陷入思维定势,无法找到新的解决方案或创意。而头脑风暴的好处在于它能够打破这种思维定势,激活我们的创造力和想象力,找到新的思路和解决问题的方法。 借由多人参与的头脑风暴,我们可以集思…

[IDEA]使用idea比较两个jar包的差异

除了一些小工具外,idea自带了jar包比较的功能。 把需要比对的jar包放到任意目录下,然后选中两个需要比较的jar包,右键,选择Compare Archives,然后就可以比较了。 这次疏忽了,每次打包前需要commit界面看一下…