【计算机视觉 | 目标检测 | 图像分割】arxiv 计算机视觉关于目标检测和图像分割的学术速递(7 月 14 日论文合集)

news2024/12/25 9:23:16

文章目录

  • 一、检测相关(6篇)
    • 1.1 LVLane: Deep Learning for Lane Detection and Classification in Challenging Conditions
    • 1.2 Garbage in, garbage out: Zero-shot detection of crime using Large Language Models
    • 1.3 Robotic surface exploration with vision and tactile sensing for cracks detection and characterisation
    • 1.4 Multimodal Object Detection in Remote Sensing
    • 1.5 Weakly supervised marine animal detection from remote sensing images using vector-quantized variational autoencoder
    • 1.6 Automated Deception Detection from Videos: Using End-to-End Learning Based High-Level Features and Classification Approaches
  • 二、分割|语义相关(4篇)
    • 2.1 RVD: A Handheld Device-Based Fundus Video Dataset for Retinal Vessel Segmentation
    • 2.2 Multi-objective Evolutionary Search of Variable-length Composite Semantic Perturbations
    • 2.3 Full-resolution Lung Nodule Segmentation from Chest X-ray Images using Residual Encoder-Decoder Networks
    • 2.4 Deep learning-based Segmentation of Rabbit fetal skull with limited and sub-optimal annotations

一、检测相关(6篇)

1.1 LVLane: Deep Learning for Lane Detection and Classification in Challenging Conditions

LVLane:挑战条件下车道检测和分类的深度学习

https://arxiv.org/abs/2307.06853

在这里插入图片描述

车道检测在自动驾驶汽车和先进辅助驾驶系统(ADAS)领域起着举足轻重的作用。多年来,出现了许多算法,从基本的图像处理技术到复杂的深度神经网络。基于深度学习的模型的性能高度依赖于其训练数据的质量。因此,这些模型在遇到诸如极端照明条件、部分可见的车道标记和稀疏的车道标记(如Botts点)等具有挑战性的场景时通常会经历性能下降。为了解决这个问题,我们提出了一个基于深度学习方法的端到端车道检测和分类系统。在我们的研究中,我们引入了一个独特的数据集,精心策划,以涵盖对最先进(SOTA)模型构成重大挑战的场景。通过微调选定的模型,我们的目标是实现增强的定位精度。此外,我们提出了一个基于CNN的分类分支,与检测器无缝集成,便于识别不同的车道类型。此架构可实现明智的车道变更决策,并提供更具弹性的ADAS功能。我们还研究了使用混合精度训练和测试对不同模型和批量大小的影响。在广泛使用的TuSimple数据集,加州理工学院车道数据集和我们的LVLane数据集上进行的实验评估证明了我们的模型在具有挑战性的场景中准确检测和分类车道的有效性。我们的方法在TuSimple数据集上实现了最先进的分类结果。论文被接受后,将公布工作代码。

1.2 Garbage in, garbage out: Zero-shot detection of crime using Large Language Models

垃圾输入,垃圾输出:使用大型语言模型对犯罪进行Zero-Shot检测

https://arxiv.org/abs/2307.06844

在这里插入图片描述

本文提出了利用大型语言模型学习的常识知识,对监控视频的文本描述进行犯罪zero-shot推理。我们表明,当视频(手动)转换为高质量的文本描述,大型语言模型能够检测和分类犯罪与国家的最先进的性能,只使用zero-shot推理。然而,现有的自动视频到文本的方法是无法生成足够的质量,以支持推理的视频描述(垃圾视频描述到大型语言模型,垃圾)。

1.3 Robotic surface exploration with vision and tactile sensing for cracks detection and characterisation

用于裂纹检测和表征的视觉和触觉感知机器人表面探测

https://arxiv.org/abs/2307.06784

在这里插入图片描述

本文提出了一种新的算法,通过光纤的视觉和触觉分析的基础上裂纹定位和检测。采用基于光纤的指形传感器进行数据采集,为分析和实验收集数据。为了检测裂缝的可能位置,使用相机来扫描环境,同时运行对象检测算法。一旦检测到裂纹,就从裂纹的骨架化版本创建全连接图。最小生成树,然后用于计算最短路径,探索裂纹,然后用于开发的机器人机械手的运动规划。运动规划器将裂缝划分为多个节点,然后分别对其进行探索。然后,操纵器开始探索并执行触觉数据分类,以确认在该位置中是否确实存在裂缝,或者仅仅是视觉算法的假阳性。如果检测到裂纹,则还计算分支的长度、宽度、取向和数量。重复此操作,直到探测到裂纹的所有节点。 为了验证完整的算法,执行各种实验:通过全扫描和运动规划算法对裂纹的探测进行比较,使用视觉和触觉数据的组合实现用于裂纹分类和几何分析的基于频率的特征。从实验的结果,它表明,所提出的算法是能够检测裂纹和改善的结果,从视觉,正确分类裂纹和他们的几何形状与最小的成本由于运动规划算法。

1.4 Multimodal Object Detection in Remote Sensing

遥感中的多模式目标检测

https://arxiv.org/abs/2307.06724

在这里插入图片描述

遥感中的目标检测是一项重要的计算机视觉任务,深度学习技术已经取得了重大进展。然而,在这一领域的大多数现有的作品集中在使用通用对象检测,并没有利用多模态数据融合的潜力。在本文中,我们提出了一个比较的方法,多模态对象检测遥感,调查可用的多模态数据集适合评估,并讨论未来的发展方向。

1.5 Weakly supervised marine animal detection from remote sensing images using vector-quantized variational autoencoder

基于矢量量化变分自动编码器的遥感图像弱监督海洋动物检测

https://arxiv.org/abs/2307.06720

在这里插入图片描述

本文研究了一种基于重构的海洋环境中航空图像弱监督动物检测方法。这样的方法利用直接在输入空间上计算度量的异常检测框架,与特征嵌入方法相比增强了可解释性和异常定位。基于矢量量化变分自动编码器在计算机视觉数据集异常检测中的成功,我们将其应用于海洋动物检测领域,并解决处理噪声数据的挑战。为了评估我们的方法,我们将其与现有的方法进行比较,从航空图像数据的海洋动物检测的背景下。在两个专用数据集上进行的实验表明,所提出的方法比最近的研究在文献中的优越性能。我们的框架提供了改进的解释性和本地化的异常,监测海洋生态系统和减轻人类活动对海洋动物的影响提供了宝贵的见解。

1.6 Automated Deception Detection from Videos: Using End-to-End Learning Based High-Level Features and Classification Approaches

视频中的自动欺骗检测:基于端到端学习的高层特征和分类方法

https://arxiv.org/abs/2307.06625

在这里插入图片描述

欺骗检测是一个跨学科的领域,吸引了来自心理学,犯罪学,计算机科学和经济学的研究人员。我们提出了一种结合深度学习和判别模型的多模态方法,用于自动欺骗检测。使用视频模式,我们采用卷积端到端学习来分析凝视,头部姿势和面部表情,与最先进的方法相比,取得了令人鼓舞的结果。由于有限的训练数据,我们还利用判别模型进行欺骗检测。虽然序列到类的方法进行了探索,判别模型优于他们,由于数据稀缺。我们的方法进行了评估五个数据集,包括一个新的滚动骰子实验的动机是经济因素。结果表明,面部表情优于凝视和头部姿势,并结合模式与特征选择提高检测性能。不同数据集表达特征的差异强调了特定场景训练数据的重要性以及上下文对欺骗行为的影响。跨数据集实验强化了这些发现。尽管低风险数据集(包括滚动骰子实验)带来了挑战,但欺骗检测性能超过了机会水平。我们提出的多模态方法和综合评估揭示了从视频模态自动化欺骗检测的潜力,为未来的研究开辟了道路。

二、分割|语义相关(4篇)

2.1 RVD: A Handheld Device-Based Fundus Video Dataset for Retinal Vessel Segmentation

RVD:一种基于手持设备的眼底视频视网膜血管分割方法

https://arxiv.org/abs/2307.06577

在这里插入图片描述

视网膜血管分割通常以利用台式设备收集的基于图像的数据集为基础。静态图像自然地失去视网膜波动的动态特性,导致数据集丰富性降低,并且台式设备的使用由于其有限的可访问性而进一步限制了数据集的可扩展性。考虑到这些限制,我们引入了第一个基于视频的视网膜数据集,采用手持设备进行数据采集。该数据集包括从四个不同诊所收集的635个基于智能手机的眼底视频,涉及415名50至75岁的患者。它在空间和时间维度上提供视网膜结构的全面和精确的注释,旨在推进脉管系统分割的前景。具体而言,数据集提供三个级别的空间注释:用于总体视网膜结构描绘的二元血管掩模、用于区分静脉和动脉的一般静脉-动脉掩模、以及用于进一步表征每个动脉和静脉的粒度的细粒度静脉-动脉掩模。此外,数据集提供了捕获血管脉动特性的时间注释,有助于检测需要细粒度识别血液动力学波动的眼部疾病。在应用中,我们的数据集表现出显着的域转移相对于台式设备捕获的数据,从而对现有的方法提出了很大的挑战。在实验中,我们在我们的数据集上提供了评估指标和基准结果,反映了它为血管分割任务提供的潜力和挑战。我们希望这个具有挑战性的数据集将大大有助于眼科疾病诊断和早期预防的发展。

2.2 Multi-objective Evolutionary Search of Variable-length Composite Semantic Perturbations

变长复合语义扰动的多目标进化搜索

https://arxiv.org/abs/2307.06548

在这里插入图片描述

深度神经网络已被证明容易受到对抗性攻击的影响,这种攻击的形式是在图像上添加特定的扰动以产生错误的输出。设计更强大的对抗性攻击方法可以帮助更可靠地评估DNN模型的鲁棒性。为了减轻港口负担并提高攻击性能,自动机器学习(AutoML)最近成为一种成功的技术,可以帮助自动找到接近最佳的对抗性攻击策略。然而,现有的关于AutoML对抗性攻击的工作仅关注基于 L ∞ L_{\infty} L-范数的扰动。事实上,语义扰动由于其自然性和物理可实现性而受到越来越多的关注。为了弥合AutoML和语义对抗攻击之间的差距,我们提出了一种新的方法,称为可变长度复合语义扰动的多目标进化搜索(MES-VCSP)。具体而言,我们构建了变长复合语义扰动的数学模型,提供了五种基于梯度的语义攻击方法。允许多次执行攻击序列中的相同类型的扰动。此外,我们引入了多目标进化搜索NSGA-II和邻域搜索组成,以找到接近最优的变长攻击序列。在CIFAR 10和ImageNet数据集上的实验结果表明,与现有方法相比,MES-VCSP可以获得攻击成功率更高、更自然、时间开销更少的对抗性示例。

2.3 Full-resolution Lung Nodule Segmentation from Chest X-ray Images using Residual Encoder-Decoder Networks

基于残差编解码网的胸部X光图像全分辨率肺结节分割

https://arxiv.org/abs/2307.06547

在这里插入图片描述

肺癌是癌症死亡的主要原因,并且早期诊断与积极预后相关。胸部X射线(CXR)为肺癌诊断提供了廉价的成像模式。使用CXR难以将可疑结节与血管和骨结构区分开。计算机视觉以前曾被提出来帮助人类放射科医生完成这项任务,然而,领先的研究使用下采样图像和计算昂贵的方法,这些方法具有未经证实的泛化能力。相反,这项研究使用高效的编码器-解码器神经网络来定位肺结节,该神经网络处理全分辨率图像以避免下采样导致的任何信号丢失。编码器-解码器网络使用JSRT肺结节数据集进行训练和测试。该网络用于从独立的外部CXR数据集定位肺结节。使用自动化框架测量灵敏度和假阳性率,以消除任何观察者的主观性。这些实验允许确定用于广义肺结节定位的最佳网络深度、图像分辨率和预处理流水线。我们发现,结节定位的微妙性的影响,与更微妙的结节被检测到在早期的训练时期。因此,我们提出了一种新的自集成模型,从三个连续的时代集中的验证最佳。该集合在10倍内部测试中实现了85%的灵敏度,其中每个图像的假阳性为8。在形态学假阳性减少后,在假阳性率为6时实现了81%的灵敏度。该结果与基于线性和空间滤波的计算更复杂的系统相当,但具有比其他方法更快的亚秒级推理时间。所提出的算法取得了良好的泛化效果对外部数据集的灵敏度为77%,在7.6的假阳性率。

2.4 Deep learning-based Segmentation of Rabbit fetal skull with limited and sub-optimal annotations

基于深度学习的兔胎颅骨有限和次优标注分割

https://arxiv.org/abs/2307.06392

在这里插入图片描述
在本文中,我们提出了一种基于深度学习的方法来分割荷兰带兔胎儿的微CT图像中的骨骼结构,这可以帮助评估药物诱导的骨骼异常,作为发育和生殖毒理学(DART)中所需的研究。我们的策略利用来自26个micro-CT体积的22个颅骨的次优分割标签,并将它们映射到250个未标记的体积,在该体积上训练基于CNN的深度分割模型。在实验中,我们的模型能够在测试集上的所有骨骼上实现0.89的平均Dice相似系数(DSC),并且26个颅骨中的14个达到平均DSC >0.93。我们的下一步是分割整个身体,然后开发一个模型来分类异常。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/754610.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

汽车电子 -- 使用CANdb++ Editor创建并制作一个DBC

参看:关于DBC文件的创建(DBC文件系列其一) 一、什么是DBC DBC文件是DataBase Container文件的缩写。 CAN数据库文件也称为后缀为(.dbc)的文件。DBC文件是基本的文本文件,其中包括将原始CAN总线数据解码为…

Raft算法之日志复制

Raft算法之日志复制 一、日志复制大致流程 在Leader选举过程中,集群最终会选举出一个Leader节点,而集群中剩余的其他节点将会成为Follower节点。Leader节点除了向Follower节点发送心跳消息,还会处理客户端的请求,并将客户端的更…

音频播放器Web页面代码实例(基于HTML5)

音频播放器Web页面代码实例&#xff08;基于HTML5&#xff09;&#xff1a; <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta http-equiv"X-UA-Compatible" content"IEedge" /><…

C/C++自定义类型(详解struct,enum,union)

目录 一&#xff0c;struct 1&#xff09;结构及一般使用方法 2&#xff09;无名结构体 3&#xff09;巧用typedef 4)struct小细节 5&#xff09;补充内存对齐&#xff08;提高程序可移植性&#xff0c;提高运行效率&#xff09; 二&#xff0c;enum 1)结构及一般使用方…

H3C-Cloud Lab实验-RIP实验

实验拓扑图&#xff1a; 实验需求&#xff1a; 1. 按照图示配置 IP 地址 2. 配置 RIP 实现全网路由互通 3. 路由器之间需要开启接口身份验证来保证协议安全性&#xff0c;密钥为 123456 实验步骤&#xff1a; 1. 配置R1的IP地址 2. 配置R2的IP地址 3. 配置R3的IP地址 4. 在…

【解决】Android Studio打包出现not found for signing config ‘externalOverride‘

问题出现场景 之前我的这个项目在另一台电脑上开发&#xff0c;现在迁移到这台计算机上&#xff0c;出现了key报错的问题&#xff0c;网络上有些说需要在XML中进行配置signature相关的内容&#xff0c;这个感觉比较复杂&#xff0c;本文主要介绍一个简单的解决方法&#xff0c;…

半同步半反应堆线程池(三)

本章讲解线程池所涉及的基础知识&#xff0c;包括服务器基本框架、I/O模型、事件处理模式等。 主要围绕服务器项目中涉及的知识进行介绍&#xff0c;若想了解更多相关知识&#xff0c;请参考《Linux下高性能服务器编程》。 1.服务器编程基本框架 主要由I/O单元&#xff0c;逻…

【分布式任务调度】XXL-JOB执行器配置及定时任务的创建(二)

文章目录 1. 前言2. 调度器配置2.1.依赖及配置2.2.任务实例2.3.调度中心管理配置 3. 总结 1. 前言 在上一篇《XXL-JOB调度中心集群部署配置》 中&#xff0c;我们已经得到了一个调度中心的集群&#xff0c;接下来需要了解如何配置调度器及创建定时任务。 本文的主要内容包括&a…

MySQL的登录与退出(图文详解)

目录 一、服务的启动 1、方式1&#xff1a;使用图形界面工具启动 方式2&#xff1a;使用命令行工具启动 二、服务的停止 方式1&#xff1a;使用图形界面工具停止 方式2&#xff1a;使用命令行工具停止 二、自带客户端的登录与退出 登录方式1&#xff1a;MySQL自带客户端 …

详解 ➾【FTP服务工作原理及连接模式】

详解 ➾【FTP服务工作原理及连接模式】 &#x1f53b; 前言&#x1f53b; 一、FTP服务简介&#x1f6a5; 1.1 FTP工作原理&#x1f6a5; 1.2 匿名用户访问的产生&#x1f6a5; 1.3 FTP服务的连接模式&#x1f6a5; 1.4 几种流行的FTP服务器软件 &#x1f53b; 总结—温故知新 &…

toastr js clear 不成功的一个原因和解决办法

在系统里使用了 toastr js 即时弹出后台通知。toastr 支持先后显示多个弹出消息,这点很好。然后我又加了自定义样式,使得消息通知更好看些。 我的想法是通知消息显示一段时间后关闭;也可点击关闭按钮,关闭通知并标记已读;或者点击通知消息中的链接查看通知相关的内容,同时…

Python面向对象学习整理(一)

一、面向对象中的几点概念 1.1 什么是类&#xff1f; 类&#xff1a;用户定义的对象原型&#xff08;prototype&#xff09;&#xff0c;该原型定义了一组可描述该类任何对象的属性&#xff0c;属性是数据成员&#xff08;类变量 和 实例变量&#xff09;和方法&#xff0c;可…

(简单)剑指Offer 21. 调整数组顺序使奇数位于偶数前面 Java

记数组nums的长度为n。从先nums左侧开始遍历&#xff0c;如果遇到的是奇数&#xff0c;就表示这个元素已经调整完成&#xff0c;继续从左往右遍历&#xff0c;直到遇到一个偶数。然后从nums右侧开始遍历&#xff0c;如果遇到的是偶数&#xff0c;就表示这个元素已经调整完成了&…

arcgis拓扑检查

不能有悬挂点 不能有伪结点***路网处理很重要&#xff0c;看研究吧。 一直默认到最后。 导入要素类&#xff0c;单个 toupu2右键新建拓扑&#xff08;T&#xff09; 一般选不能有悬挂点&#xff0c;不能重叠。 一路默认 是 拉进图层可视化 线要素的话记得添加字段length&#…

Redis数据结构 — Dict

目录 Dict结构设计 — rehash rehash触发机制 Dict扩容 Dict收缩 ​编辑渐进式 rehash 哈希表优点在于&#xff0c;它能以 O(1) 的复杂度快速查询数据。为解决哈希冲突&#xff0c;Redis 采用了「链式哈希」来解决哈希冲突&#xff0c;在不扩容哈希表的前提下&#xff0c;…

直播美颜SDK与智能美妆:技术融合的未来

对于许多直播主和观众来说&#xff0c;如何在直播中呈现最佳的外貌成为了一个重要问题。为了解决这个问题&#xff0c;直播美颜SDK与智能美妆技术的融合应运而生&#xff0c;为用户带来了前所未有的美妆体验。 简单来讲&#xff0c;直播美颜SDK可以理解为计算机视觉技术和人工…

WebDAV之π-Disk派盘 + Solid Explorer

Solid Explorer 支持WebDAV方式连接π-Disk派盘。 Solid Explorer 是一款非常优秀的 Android 文件管理器&#xff0c;Material Design 设计风格&#xff0c;双栏布局&#xff0c;可拖拽操作、支持 ROOT 权限、多媒体浏览器、压缩包支持&#xff0c;Chromecast 流支持等众多功…

AdsPower 的功能到底好不好用?一文详解,真实揭露

你一定听说过AdsPower、Multilogin、dolphin、vmlogin浏览器、紫鸟、悦互联等等这些常见的指纹浏览器软件吧&#xff01;其中&#xff0c;AdsPower浏览器作为一款跨境圈里的“明星指纹浏览器”&#xff0c;号称具备许多功能&#xff0c;这就让许多跨境人对这个浏览器充满好奇&a…

jdk11缺少jre的问题解决

问题&#xff1a;升级jdk的时候文件中缺少jre&#xff0c;导致项目启动报错 jdk11不在默认用户强制安装jre&#xff0c;所以jdk包中不在包含jre文件 解决步骤1&#xff1a;进入jdk安装包的根目录&#xff0c;输入cmd 解决步骤2&#xff1a;在cmd中输入以下命令 bin\jlink.e…

Jacoco代码覆盖率为0问题排查

目录 原因解决通过IDEA的TestMe重新生成测试类eclipse生成测试类JUnit Test Suite 其它查看覆盖率覆盖catch代码 我问GPT 整jacoco有意义嘛 前几天解决了无法生成jacoco.exec执行文件问题后&#xff0c;发现编写测试类好像无效&#xff0c;代码覆盖率全为0 原因 通过eclipse直…