【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(5月31日论文合集)

news2025/1/11 17:00:15

文章目录

  • 一、检测相关(10篇)
    • 1.1 Table Detection for Visually Rich Document Images
    • 1.2 DENTEX: An Abnormal Tooth Detection with Dental Enumeration and Diagnosis Benchmark for Panoramic X-rays
    • 1.3 TrueDeep: A systematic approach of crack detection with less data
    • 1.4 Multi-modal Queried Object Detection in the Wild
    • 1.5 Learning Weakly Supervised Audio-Visual Violence Detection in Hyperbolic Space
    • 1.6 VVC Extension Scheme for Object Detection Using Contrast Reduction
    • 1.7 Align, Perturb and Decouple: Toward Better Leverage of Difference Information for RSI Change Detection
    • 1.8 UMD: Unsupervised Model Detection for X2X Backdoor Attacks
    • 1.9 Fashion Object Detection for Tops & Bottoms
    • 1.10 A Study on Deep CNN Structures for Defect Detection From Laser Ultrasonic Visualization Testing Images

一、检测相关(10篇)

1.1 Table Detection for Visually Rich Document Images

视觉丰富的文档图像的表格检测

论文地址:

https://arxiv.org/abs/2305.19181

在这里插入图片描述
表格检测(TD)是实现视觉丰富文档理解的基本任务。目前的研究通常将TD问题表述为目标检测问题,然后利用基于交集的度量来评估模型性能,并利用基于交集的损失函数来优化模型。TD应用通常要求预测结果覆盖所有表内容,避免信息丢失。然而,IoU和基于IoU的损失函数不能直接反映预测结果的信息损失程度。因此,我们建议将IoU解耦为地面实况覆盖项和预测覆盖项,其中前者可用于测量预测结果的信息损失。 此外,文档中的表格通常很大,分布稀疏,并且没有重叠,因为它们旨在总结基本信息,以便人类读者易于阅读和解释。因此,在本研究中,我们使用SparseR-CNN作为基础模型,并通过使用高斯噪声增强图像大小区域建议和多对一标签分配来进一步改进模型。 为了证明所提出的方法的有效性,并与国家的最先进的方法比较公平,我们进行了实验,并使用基于IoU的评价指标来评估模型的性能。实验结果表明,该方法可以始终优于国家的最先进的方法在不同的IoU为基础的度量在各种数据集上。我们进行进一步的实验,以显示所提出的解耦IoU的TD应用程序的优越性,通过更换IoU的损失函数和评价指标与建议解耦IoU同行。实验结果表明,我们提出的解耦IoU损失可以鼓励模型,以减轻信息损失。

1.2 DENTEX: An Abnormal Tooth Detection with Dental Enumeration and Diagnosis Benchmark for Panoramic X-rays

Dentex:一种牙齿计数异常的牙齿检测和全景X光诊断基准

论文地址:

https://arxiv.org/abs/2305.19112

在这里插入图片描述
全景X射线经常用于牙科治疗计划,但其解释既耗时又容易出错。人工智能(AI)有可能帮助分析这些X射线,从而提高牙科诊断和治疗计划的准确性。然而,设计用于此目的的自动化算法带来了重大挑战,主要是由于注释数据的稀缺性和解剖结构的变化。为了解决这些问题,牙科枚举和诊断全景X射线挑战赛(DENTEX)已与2023年的医学图像计算和计算机辅助干预国际会议(MICCAI)联合组织。这项挑战旨在促进异常牙齿的多标签检测算法的开发,使用三种类型的分层注释数据:部分注释的象限数据、部分注释的象限枚举数据和完全注释的象限枚举诊断数据,包括四种不同的诊断。在本文中,我们提出了评估参与者的算法的充分注释的数据,另外调查的性能变化象限,枚举和诊断标签在检测异常牙齿的结果。这个注释数据集的提供,以及这项挑战的结果,可能为创建AI驱动的工具奠定基础,这些工具可以在牙科领域提供更精确,更有效的诊断和治疗计划。评估代码和数据集可访问https://github.com/ibrahimethemhamamci/DENTEX

1.3 TrueDeep: A systematic approach of crack detection with less data

TrueDeep:一种用较少数据进行裂纹检测的系统方法

论文地址:

https://arxiv.org/abs/2305.19088

在这里插入图片描述
监督和半监督语义分割算法需要大量的注释数据才能实现良好的性能。在许多情况下,数据不可用或者注释是昂贵的。这项工作的目的是表明,通过将领域知识与深度学习架构相结合,我们可以用更少的数据实现类似的性能。我们使用了公开的裂缝分割数据集,并表明使用知识选择输入图像可以显着提高基于深度学习的架构的性能。我们提出的方法有许多倍的优势,如低注释和训练成本,以及更少的能源消耗。我们已经衡量了我们的算法的性能定量的平均交集超过工会(mIoU)和F得分。我们的算法,开发了23%的整体数据;在测试数据上具有类似的性能,并且在多个盲数据集上具有显著更好的性能。

1.4 Multi-modal Queried Object Detection in the Wild

野外多模式查询目标检测

论文地址:

https://arxiv.org/abs/2305.18980

在这里插入图片描述
我们引入MQ-Det,一个有效的架构和预训练策略设计,利用文本描述与开集泛化和视觉样本丰富的描述粒度的类别查询,即多模态查询对象检测,为现实世界的检测与开放的词汇类别和各种粒度。MQ-Det将视觉查询集成到现有的完善的语言查询检测器中。一个即插即用的门控类可扩展的感知器模块冻结检测器上提出了类别文本与类明智的视觉信息。针对冻结检测器带来的学习惯性问题,提出了一种视觉条件下的掩蔽语言预测策略。MQ-Det简单而有效的架构和训练策略设计与大多数语言查询对象检测器兼容,从而产生多功能应用程序。实验结果表明,多模态查询大大提高了开放世界检测。例如,MQ-Det在LVIS基准测试中将最先进的开放集检测器GLIP显著提高了+7.8%的zero-shot AP,在13个Few-Shot下游任务中平均提高了+6.3%的AP,GLIP只需要3%的预训练时间。代码可在www.example.com获得https://github.com/YifanXu74/MQ-Det。

1.5 Learning Weakly Supervised Audio-Visual Violence Detection in Hyperbolic Space

双曲空间学习弱监督视听暴力检测

论文地址:

https://arxiv.org/abs/2305.18797

在这里插入图片描述
近年来,弱监督视听暴力检测的任务得到了相当大的关注。这项任务的目标是识别暴力段的多模态数据的基础上视频级标签。尽管在这一领域取得了进展,传统的欧几里得神经网络,已被用于先前的研究中,遇到的困难,由于特征空间的限制,在捕捉高度歧视性的表示。为了克服这一点,我们提出了HyperVD,这是一种新的框架,可以在双曲空间中学习片段嵌入,以提高模型识别能力。我们的框架包括一个迂回融合模块的多模态融合,有效地减轻了音频和视觉信号之间的模态不一致。此外,我们贡献了两个分支的完全双曲图卷积网络挖掘特征相似性和时间关系片段在双曲空间。通过学习该空间中的片段表示,框架有效地学习暴力事件和正常事件之间的语义差异。XD暴力基准测试的大量实验表明,我们的方法优于国家的最先进的方法一个相当大的保证金。

1.6 VVC Extension Scheme for Object Detection Using Contrast Reduction

基于对比度降低的VVC目标检测扩展方案

论文地址:

https://arxiv.org/abs/2305.18782

在这里插入图片描述
近年来,由于使用深度学习的图像识别技术的显着发展,使用人工智能(AI)的视频分析已被广泛使用。2019年,运动图像专家组(MPEG)开始将机器视频编码(VCM)作为用于图像识别的视频编码技术进行标准化。在音圈编码的框架下,对图像识别精度和视频压缩性能都提出了更高的要求。在本文中,我们提出了一个扩展方案的视频编码的目标检测使用通用视频编码(VVC)。与用于人类视觉的视频不同,用于对象检测的视频不需要大图像尺寸或高对比度。因为图像的下采样可以减少要传输的信息量。由于图像对比度的降低,图像的熵变小。因此,在我们提出的方案中,原始图像的大小和对比度降低,然后编码与VVC编码器,以实现高压缩性能。然后,使用双三次方法将来自VVC解码器的输出图像恢复到其原始图像大小。实验结果表明,所提出的视频编码方案取得了更好的编码性能比常规VVC的目标检测精度。

1.7 Align, Perturb and Decouple: Toward Better Leverage of Difference Information for RSI Change Detection

调整、干扰和解耦:更好地利用差异信息进行RSI更改检测

论文地址:

https://arxiv.org/abs/2305.18714

在这里插入图片描述
变化检测是遥感图像分析中广泛采用的一种技术,用于发现地貌的长期演化。为了突出语义变化的区域,以前的努力主要关注学习单个图像的代表性特征描述符,而差异信息要么是用简单的差异操作建模,要么是通过特征交互隐式嵌入。然而,这种差异建模可能是有噪声的,因为它遭受非语义变化并且缺乏来自图像内容或上下文的明确指导。在本文中,我们重新审视了特征差异对于RSI中变化检测的重要性,并提出了一系列操作来充分利用差异信息:对准、扰动和解耦(APD)。首先,对齐利用上下文相似性来补偿特征空间中的非语义差异。接下来,采用用语义扰动训练的差异模块来学习更广义的变化估计器,其反向引导特征提取和预测。最后,一个解耦的双解码器结构的设计预测语义变化的内容感知和内容不可知的方式。LEVIR-CD,WHU-CD和DSIFN-CD的基准上进行了大量的实验,证明我们提出的操作带来显着的改善,并在类似的比较条件下取得有竞争力的结果。代码可在www.example.com上获得https://github.com/wangsp1999/CD-Research/tree/main/openAPD

1.8 UMD: Unsupervised Model Detection for X2X Backdoor Attacks

UMD:X2X后门攻击的无监督模型检测

论文地址:

https://arxiv.org/abs/2305.18651

在这里插入图片描述
后门(特洛伊木马)攻击是深度神经网络的常见威胁,其中来自嵌入后门触发器的一个或多个源类的样本将被错误分类为对抗性目标类。用于检测分类器是否被后门攻击的现有方法大多被设计用于具有单个对抗目标(例如,全对一攻击)。据我们所知,在没有监督的情况下,没有任何现有方法可以有效地解决具有任意数量的源类的更一般的X2 X攻击,每个源类与任意目标类配对。在本文中,我们提出了UMD,第一个无监督模型检测方法,通过对抗(源,目标)类对的联合推理,有效地检测X2 X后门攻击。特别是,我们首先定义了一个新的可转移性统计来衡量和选择一个子集的推定后门类对建议的聚类方法的基础上。然后,这些选定的类对联合评估的基础上聚合的反向工程的触发器大小的检测推理,使用一个强大的和无监督的异常检测器,我们提出了。我们对CIFAR-10,GTSRB和Imagenette数据集进行了全面的评估,并表明我们的无监督UMD在针对各种X2 X攻击的检测准确性方面分别优于SOTA检测器(即使有监督)17%,4%和8%。我们还显示了强大的检测性能UMD对几个强大的自适应攻击。

1.9 Fashion Object Detection for Tops & Bottoms

基于鞋底的时尚目标检测

论文地址:

https://arxiv.org/abs/2305.18482

在这里插入图片描述
时尚是世界上最大的产业之一,近年来计算机视觉技术变得越来越流行,特别是对于诸如对象检测和服装分割之类的任务。即使计算机视觉解决方案快速增长,特别是针对时尚行业,许多问题仍远未解决。因此,并非在任何时候,调整开箱即用的预训练计算机视觉模型将提供所需的解决方案。在本论文中提出了一个管道,需要一个嘈杂的图像与一个人,特别是检测的区域与服装的底部或顶部。我们的解决方案实现了能够在图像中找到人体部位的模型,例如全身对半身,或者找不到人。然后,其他模型知道有一个人和它的组成(例如。并不总是我们具有全身)找到图像的边界框/区域,其很可能对应于底部或顶部。为了创建边界框/区域任务,专门准备了基准数据集。结果表明,Mask RCNN解决方案是鲁棒的,并且足够通用,可以在看不见的服装/时尚数据中使用和扩展。

1.10 A Study on Deep CNN Structures for Defect Detection From Laser Ultrasonic Visualization Testing Images

用于激光超声可视化检测图像缺陷检测的深层细胞神经网络结构研究

论文地址:

https://arxiv.org/abs/2305.18327

在这里插入图片描述
近年来,超声无损检测的重要性日益增加,人们对激光超声可视化检测的潜力寄予厚望,它将激光超声检测与散射波可视化技术相结合。即使散射波被可视化,检查人员仍然需要仔细检查图像。为了实现自动化,本文提出了一种深度神经网络,用于LUVT图像中的自动缺陷检测和定位。为了探索适合这项任务的神经网络的结构,我们比较了LUVT图像分析问题与通用对象检测问题。利用SUS304平板的真实数据进行的数值实验表明,该方法在预测性能方面比一般的目标检测模型更有效。我们还表明,预测所需的计算时间比一般的对象检测模型的速度更快。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/595995.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++ STL源码下载及目录结构

掌握一定的c基础,想更深入的了解STL源码实现的读者,可以参照本文下载源码阅读 1、源码下载 ​ SGI STL版本(侯捷老师推荐):https://github.com/dongyusheng/csdn-code/tree/master/STLgcc STL:GitHub - gc…

使用 Docker 部署 Jenkins 代理(主从)控制服务器

自动化是 DevOps 的核心。各种自动化工具和技术真正实现了持续集成和持续交付的概念。这些工具多年来发展迅速,但似乎永远存在的一个名字是Jenkins。 我们不会在这篇文章中讨论 CI-CD 的介绍性概念,也不会浪费时间展示 Jenkins 安装步骤。如果您是 Jenk…

Go1.21 速览:骚操作 panic(nil) 将成为历史!以后别这么干了。。。

大家好,我是煎鱼。 在 Go 语言中,返回错误、抛出异常一直是大家比较关注的话题。在抛出异常上,我们一般都是这么用的: func mayPanic() {panic("脑子进煎鱼了") }func main() {defer func() {if r : recover(); r ! nil…

Vagrant编排虚拟机安装与配置

1.安装VirtualBox与Vagrant VirtualBox与Vagrant是支持不通过操作系统的;根据具体操作系统下载对应版本即可。(这里使用windows操作系统搭建) VirtualBox https://www.virtualbox.org/wiki/Downloads Vagrant https://developer.hashicorp.com/vagrant/downloads Va…

设计模式之~状态模式

状态模式(State),当一个对象的内部状态改变时允许改变其行为,这个对象看起来像是改变了其类。 能够让程序根据不同的外部情况来做出不同的响应,最直接的方法就是在程序中将这些 可能发生的外部情况全部考虑到&#xff…

基于html+css的图展示102

准备项目 项目开发工具 Visual Studio Code 1.44.2 版本: 1.44.2 提交: ff915844119ce9485abfe8aa9076ec76b5300ddd 日期: 2020-04-16T16:36:23.138Z Electron: 7.1.11 Chrome: 78.0.3904.130 Node.js: 12.8.1 V8: 7.8.279.23-electron.0 OS: Windows_NT x64 10.0.19044 项目…

应用运维的三个项目

应用运维 目录概述需求: 设计思路实现思路分析1.开发和运维2.比重3.历史项目4.工作内容5.历程 参考资料和推荐阅读 Survive by day and develop by night. talk for import biz , show your perfect code,full busy,skip hardness,make a better result,…

程序员的新出路:维护老项目?

1 张大胖刚进入公司,遇到了一个神奇的同事:何小痩。 别人工作都很忙, 何小痩工作似乎特别轻松,从来不加班,到点儿就回家。 张大胖向别人一打听,原来何小痩一直在维护一个老项目,维护了5年了。 …

「小产品独立变现实战训练营1期」门票限时优惠

大家好,我是凯凯刘,一名程序员,一直在做小产品的开发变现,目标就是让小产品的变现更简单。【小产品独立变现实战训练营1期】这个课程主要是围绕着如何开发出一个赚钱小产品这个主题。来跟大家一起从0开始实战,一步步跟…

为什么对象存储深度归档价格低?

AWS(亚马逊云服务)对象存储S3(Simple Storage Service)有以下四种不同的存储类型: S3 标准存储: 这是最常用的S3存储类型之一,它保证了高持久性,并提供 99.999999999% 的数据耐久性…

chatgpt赋能python:Python人脸识别:从入门到工程实践

Python人脸识别:从入门到工程实践 介绍 近年来,人脸识别技术越来越成熟,广泛应用于各行各业,如社交媒体、安防、金融等领域。Python人脸识别作为一种基于机器学习的技术,可以通过训练模型从图像中自动识别出人脸,并进…

致敬六一,用外观模式实现一个儿童乐园畅玩平台

一、概述 外观模式(Facade Pattern)是一种结构型设计模式,它为多个子系统中的操作提供一个统一的高层接口,用于访问复杂子系统的功能。其核心思想是通过一个外观类将子系统的复杂操作进行封装,客户端只需与外观类进行…

IO 多路复用是什么意思?Redis中的IO又是什么?

点击上方关注 “终端研发部” 设为“星标”,和你一起掌握更多数据库知识 本文首发于我的知乎:https://zhuanlan.zhihu.com/p/632776455 当你打开电脑,任何时候都在进行着IO的操作! 比如一次 API 接口调用、向磁盘写入日志信息&…

[数据结构习题]栈——中心对称链

[数据结构习题]栈——中心对称链 👉知识点导航💎:【数据结构】栈和队列 👉[王道数据结构]习题导航💎: p a g e 70.4 page70.4 page70.4 本节为栈和链表综合练习题 题目描述: 🎇思路…

Semaphore线程信号量

文章目录 前言一、Semaphore 是什么?定义对比 二、使用步骤1. 场景分析2. 编码如下 总结 前言 Semaphore 也是juc中的一个关键类,他与之前的lock 类似,也有公平和非公平两种,它与他们应用含义,引用场景有很大的不同; 与阻塞队列类似,但是也不一样;听我细细道来~ 一…

MTK capture 拍照流程

和你一起终身学习,这里是程序员Android 经典好文推荐,通过阅读本文,您将收获以下知识点: 一、多帧拍照请求概览二、多帧拍照回帧概览 一、多帧拍照请求概览 多帧拍照请求概览如下: 多帧拍照请求 1.1 APP 下发拍照请求到 Camera Fr…

新Linux服务器安装Java环境[JDK、Tomcat、MySQL、Nacos、Redis、Nginx]

文章目录 JDK服务Tomcat服务MySQL服务Nacos服务Redis服务Nginx服务 说明:本文不使用宝塔安装 温馨提示宝塔安装命令:yum install -y wget && wget -O install.sh http://download.bt.cn/install/install_6.0.sh && sh install.sh JDK服务…

vitepress从0到1,让每个前后端小伙伴都拥有一个属于自己的博客

📸前言 之前周一的个人博客是用vuepress来搭建,但随着文章的数量越来越多,导致每回在启动的时候构建都特别慢,于是周一有了改构建工具的想法。这不,vitepress工具自发布后,在技术圈内一直有些火热&#xf…

数据库新闻速递 亚马逊Cosmos DB 添加了AI toolchain (译)

开头还是介绍一下群,如果感兴趣polardb ,mongodb ,mysql ,postgresql ,redis 等有问题,有需求都可以加群群内有各大数据库行业大咖,CTO,可以解决你的问题。加群请联系 liuaustin3 ,在新加的朋友会分到2群(共…

chatgpt赋能python:如何将Python代码打包成软件

如何将Python代码打包成软件 Python是一种直译式、交互式、面向对象的高级编程语言。由于其简洁明了的语法,Python在科学计算、Web开发、人工智能等领域得到了广泛的应用。但是,Python程序通常需要运行在特定的环境中,这限制了Python程序的移…