【计算机视觉 | 目标检测 | 图像分割】arxiv 计算机视觉关于目标检测和图像分割的学术速递(7 月 17 日论文合集)

news2024/12/23 17:22:51

文章目录

  • 一、检测相关(5篇)
    • 1.1 TALL: Thumbnail Layout for Deepfake Video Detection
    • 1.2 Cloud Detection in Multispectral Satellite Images Using Support Vector Machines With Quantum Kernels
    • 1.3 Multimodal Motion Conditioned Diffusion Model for Skeleton-based Video Anomaly Detection
    • 1.4 Brain Tumor Detection using Convolutional Neural Networks with Skip Connections
    • 1.5 cOOpD: Reformulating COPD classification on chest CT scans as anomaly detection using contrastive representations
  • 二、分割|语义相关(5篇)
    • 2.1 SynTable: A Synthetic Data Generation Pipeline for Unseen Object Amodal Instance Segmentation of Cluttered Tabletop Scenes
    • 2.2 FreeCOS: Self-Supervised Learning from Fractals and Unlabeled Images for Curvilinear Object Segmentation
    • 2.3 Adaptive Region Selection for Active Learning in Whole Slide Image Semantic Segmentation
    • 2.4 AnyStar: Domain randomized universal star-convex 3D instance segmentation
    • 2.5 Frequency Domain Adversarial Training for Robust Volumetric Medical Segmentation

一、检测相关(5篇)

1.1 TALL: Thumbnail Layout for Deepfake Video Detection

Tall:用于深度假冒视频检测的缩略图布局

https://arxiv.org/abs/2307.07494

在这里插入图片描述
deepfake对社会和网络安全的威胁日益严重,引起了公众的极大关注,人们越来越多地致力于deepfake视频检测这一关键话题。现有的视频方法实现了良好的性能,但计算密集型。本文介绍了一种简单而有效的策略–缩略图布局(TALL),该策略将视频片段转换为预定义的布局,以实现空间和时间依赖性的保留。具体地,连续帧在每个帧中的固定位置被掩蔽以改善泛化,然后调整大小为子图像并重新布置为预定义的布局作为缩略图。TALL是模型无关的,而且非常简单,只需修改几行代码即可。受Vision Transformers成功的启发,我们将TALL整合到Swin Transformer中,形成了一种高效的方法TALL-Swin。在数据集内和跨数据集上的大量实验验证了TALL和SOTA TALL-Swin的有效性和优越性。TALL-Swin在具有挑战性的跨数据集任务FaceForensics++ → \to Celeb-DF上实现了90.79 % \% % AUC。该代码可在https://github.com/rainy-xu/TALL4Deepfake获得。

1.2 Cloud Detection in Multispectral Satellite Images Using Support Vector Machines With Quantum Kernels

基于量子核支持向量机的多光谱卫星云层检测

https://arxiv.org/abs/2307.07281

在这里插入图片描述
支持向量机(SVM)是一个成熟的分类器,有效地部署在一系列模式识别和分类任务。在这项工作中,我们考虑扩展经典的支持向量机与量子内核,并将其应用到卫星数据分析。提出了一种量子核支持向量机(混合支持向量机)的设计与实现。它包括量子核估计(QKE)程序与经典的SVM训练例程相结合。像素数据被映射到希尔伯特空间使用ZZ-特征映射作用于参数化的假设状态。优化参数以最大化内核目标对齐。我们探讨了卫星图像数据云检测问题,这是地面和星载卫星图像分析处理链中的关键步骤之一。在基准Landsat-8多光谱数据集进行的实验表明,模拟的混合SVM成功地分类卫星图像的准确性与经典的支持向量机。

1.3 Multimodal Motion Conditioned Diffusion Model for Skeleton-based Video Anomaly Detection

基于骨架的视频异常检测多模运动条件扩散模型

https://arxiv.org/abs/2307.07205

在这里插入图片描述
异常是罕见的,因此异常检测通常被框定为一类分类(OCC),即只接受过正常生活训练领先的OCC技术将正常运动的潜在表示限制在有限的体积内,并将外部的任何异常检测为异常,这令人满意地解释了异常的开放性。但是常态具有相同的开集性质,因为人类可以用几种方式执行相同的动作,这是领先的技术所忽视的。我们提出了一种新的生成模型的视频异常检测(VAD),它假设正常和异常是多模态的。我们认为骨架表示和利用国家的最先进的扩散概率模型,以产生多模态未来的人类构成。我们贡献了一个新的空调上的人过去的运动,并利用改进的模式覆盖能力的扩散过程中产生不同的,但似乎合理的未来运动。在对未来模式进行统计聚合时,当所生成的运动集合与实际未来不相关时,检测到异常。我们在4个已建立的基准上验证我们的模型:UBnormal、HR-UBnormal、HR-STC和HR-Avenue,广泛的实验超越了最先进的结果。

1.4 Brain Tumor Detection using Convolutional Neural Networks with Skip Connections

基于带跳连接的卷积神经网络的脑肿瘤检测

https://arxiv.org/abs/2307.07503

在这里插入图片描述
在本文中,我们提出了不同的卷积神经网络(CNN)的架构,使用磁共振成像(MRI)技术分析和分类的良性和恶性类型的脑肿瘤。应用不同的CNN架构优化技术,例如网络的加宽和加深以及添加跳过连接,以提高网络的准确性。结果表明,这些技术的子集可以明智地用于优于用于相同目的的基线CNN模型。

1.5 cOOpD: Reformulating COPD classification on chest CT scans as anomaly detection using contrastive representations

COOpD:重新制定胸部CT扫描的COPD分类作为使用对比表示法的异常检测

https://arxiv.org/abs/2307.07254

在这里插入图片描述
异质性疾病的分类是具有挑战性的,由于其复杂性,多变的症状和影像学表现。慢性阻塞性肺疾病(COPD)就是一个很好的例子,尽管是第三大死亡原因,但仍被诊断不足。其稀疏,弥漫和异构的计算机断层扫描的外观挑战监督二进制分类。我们将COPD二元分类重新表述为异常检测任务,提出cOOpD:异质病理区域被检测为来自正常同质肺区域的分布外(OOD)。为此,我们采用自监督对比借口模型学习未标记肺区域的表示,可能捕获患病和健康未标记区域的特定特征。生成模型然后学习健康表示的分布,并将异常(源于COPD)识别为偏差。通过汇总区域OOD评分获得患者水平评分。我们表明,cOOpD在两个公共数据集上实现了最佳性能,与以前的监督最先进的技术相比,AUROC增加了8.2%和7.7%。此外,cOOpD产生可解释的空间异常图和患者水平的分数,我们证明这在识别进展早期的个体中具有额外的价值。在人工设计的真实世界患病率设置中的实验进一步支持异常检测是解决coro分类的有力方式。

二、分割|语义相关(5篇)

2.1 SynTable: A Synthetic Data Generation Pipeline for Unseen Object Amodal Instance Segmentation of Cluttered Tabletop Scenes

SynTable:一种用于杂乱桌面场景不可见对象非模态实例分割的合成数据生成流水线

https://arxiv.org/abs/2307.07333

在这里插入图片描述
在这项工作中,我们提出了SynTable,一个统一和灵活的Python数据集生成器,使用NVIDIA的Isaac Sim Replicator Composer构建,用于生成高质量的合成数据集,用于看不见的对象amodal实例分割杂乱桌面场景。我们的数据集生成工具可以渲染包含对象网格、材质、纹理、光照和背景的复杂3D场景。元数据,如模态和模态实例分割掩模,遮挡掩模,深度图,边界框和材料属性,可以生成,以自动注释根据用户的要求的场景。我们的工具消除了在数据集生成过程中手动标记的需要,同时确保数据集的质量和准确性。在这项工作中,我们讨论了我们的设计目标,框架体系结构,和我们的工具的性能。我们演示了使用光线跟踪使用SynTable生成的样本数据集来训练最先进的模型UOAIS-Net。结果表明,显着改善的性能,在模拟到真实的传输时,OSD-Amodal数据集进行评估。我们提供这个工具作为一个开源的,易于使用的,逼真的数据集生成器,用于推进深度学习和合成数据生成的研究。

2.2 FreeCOS: Self-Supervised Learning from Fractals and Unlabeled Images for Curvilinear Object Segmentation

基于自监督学习的曲线目标分割算法

https://arxiv.org/abs/2307.07245

在这里插入图片描述
曲线对象分割对于许多应用是关键的。然而,手动注释曲线对象是非常耗时和容易出错的,产生现有的监督方法和域自适应方法的可用注释数据集不足。本文提出了一种自监督曲线对象分割方法,该方法从分形和未标记图像(FreeCOS)中学习鲁棒性和独特性。主要贡献包括一个新的分形FDA合成(FFS)模块和几何信息对齐(GIA)的方法。FFS基于参数分形L系统生成曲线结构,并将生成的结构集成到未标记的图像中,以通过傅立叶域自适应获得合成训练图像。GIA通过比较给定像素的强度顺序与其附近邻居的值来减少合成图像和未标记图像之间的强度差异。这样的图像对准可以明确地去除对绝对强度值的依赖性,并且增强在合成图像和真实图像两者中共同的固有几何特性。此外,GIA通过预测空间自适应损失(PSAL)和曲线掩模对比损失(CMCL)对齐合成图像和真实图像的特征。在四个公共数据集上的广泛实验结果,即,XCAD,DRIVE,STARE和CrackTree表明,我们的方法优于最先进的无监督方法,自监督方法和传统方法的大幅度提高。该工作的源代码可在https://github.com/TY-Shi/FreeCOS上获得。

2.3 Adaptive Region Selection for Active Learning in Whole Slide Image Semantic Segmentation

自适应区域选择在整体幻灯片图像语义分割中的主动学习

https://arxiv.org/abs/2307.07168

在这里插入图片描述
为了训练监督分割模型而在像素级注释组织学千兆像素大小的全载玻片图像(WSIs)的过程是耗时的。基于区域的主动学习(AL)涉及在有限数量的注释图像区域上训练模型,而不是请求整个图像的注释。这些注释区域被迭代地选择,其目标是在最小化注释区域的同时优化模型性能。区域选择的标准方法评估指定大小的所有正方形区域的信息量,然后选择特定数量的信息量最大的区域。我们发现该方法的效率高度依赖于AL步长的选择(即,区域大小和每个WSI的所选区域的数量的组合),以及次优的AL步长可能导致冗余的注释请求或膨胀的计算成本。本文介绍了一种新的技术,用于自适应地选择注释区域,减轻对这个AL超参数的依赖。具体来说,我们动态地确定每个区域,首先确定一个信息区域,然后检测其最佳的边界框,而不是选择一个统一的预定义的形状和大小的区域,在标准方法。我们使用公共CAMELYON16数据集上的乳腺癌转移分割任务来评估我们的方法,并表明它在各种AL步长中始终实现比标准方法更高的采样效率。只有2.6%的组织区域注释,我们实现了完整的注释性能,从而大大降低了注释WSI数据集的成本。源代码可在https://github.com/DeepMicroscopy/AdaptiveRegionSelection获得。

2.4 AnyStar: Domain randomized universal star-convex 3D instance segmentation

AnyStar:域随机化通用星凸3D实例分割

https://arxiv.org/abs/2307.07044

在这里插入图片描述
星凸形状以细胞核、结节、转移瘤和其他单位的形式出现在生物显微镜和放射学中。用于这种结构的现有实例分割网络在每个数据集的密集标记的实例上训练,这需要大量且通常不切实际的手动注释工作。此外,当由于对比度、形状、取向、分辨率和密度的变化而呈现新的数据集和成像模态时,需要显著的重新设计或微调。我们提出了AnyStar,这是一个域随机生成模型,它模拟具有随机外观,环境和成像物理的斑点状对象的合成训练数据,以训练通用的星凸实例分割网络。因此,使用我们的生成模型训练的网络不需要来自看不见的数据集的注释图像。在我们的合成数据上训练的单个网络准确地3D分段C。elegans和P.荧光显微镜中的dumerilii核、微CT中的小鼠皮质核、EM中的斑马鱼脑核和人胎儿MRI中的胎盘子叶,所有这些都没有任何再训练、微调、迁移学习或域适应。代码可在https://github.com/neel-dey/AnyStar获得。

2.5 Frequency Domain Adversarial Training for Robust Volumetric Medical Segmentation

用于健壮体积医学分割的频域对抗性训练

https://arxiv.org/abs/2307.07269

在这里插入图片描述
确保深度学习模型在医疗保健等关键应用中的鲁棒性至关重要。虽然深度学习的最新进展提高了体积医学图像分割模型的性能,但由于这些模型容易受到对抗性攻击,因此无法立即部署到现实世界的应用中。我们提出了一个三维频域对抗攻击的体积医学图像分割模型,并证明其优势,传统的输入或体素域攻击。使用我们提出的攻击,我们引入了一种新的频域对抗训练方法,用于优化针对体素和频域攻击的鲁棒模型。此外,我们提出了频率一致性损失来调节我们的频域对抗训练,从而在模型对干净样本和对抗样本的性能之间实现更好的权衡。代码可在https://github.com/asif-hanif/vafa公开获得。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/777639.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

记录--卸下if-else 侠的皮衣!- 策略模式

这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 🤭当我是if-else侠的时候 😶怕出错 给我一个功能,我总是要写很多if-else,虽然能跑,但是维护起来确实很难受,每次都要在一个方法里面增加逻辑…

索引使用——单列索引、联合索引、索引设计原则

1.单例索引和联合索引 尽量使用联合索引,避免使用单列索引,因为使用联合索引性能相对而言会比较高,如果联合索引使用得当,可以避免回表查询,使用单列索引很容易造成回表查询的情况,造成性能降低。 create…

双Bank OTA升级:N32L40X BootLoader (一)

什么是双Bank升级:将Flash划分为以下4个区域。 BootLoader区:程序进行升级的引导程序,根据Upade_Flag来判断程序是跳转Bank1区运行程序或是将Bank2区的程序搬运到Bank1区,然后在运行程序。 Upade_Flag区:判断BootLoa…

OpenCV自带的HAAR级联分类器对脸部(人脸、猫脸等)的检测识别

在计算机视觉领域,检测人脸等是一种很常见且非常重要的应用,我们可以先通过开放计算机视觉库OpenCV来熟悉这个人脸识别领域。另外OpenCV关于颜色的识别,可以查阅:OpenCV的HSV颜色空间在无人车中颜色识别的应用HSV颜色识别的跟踪实…

WAIC2023:图像内容安全黑科技助力可信AI发展

目录 0 写在前面1 AI图像篡改检测2 生成式图像鉴别2.1 主干特征提取通道2.2 注意力模块2.3 纹理增强模块 3 OCR对抗攻击4 助力可信AI向善发展总结 0 写在前面 2023世界人工智能大会(WAIC)已圆满结束,恰逢全球大模型和生成式人工智能蓬勃兴起之时,今年参…

MQTT 与 Kafka|物联网消息与流数据集成实践

MQTT 如何与 Kafka 一起使用? MQTT (Message Queuing Telemetry Transport) 是一种轻量级的消息传输协议,专为受限网络环境下的设备通信而设计。Apache Kafka 是一个分布式流处理平台,旨在处理大规模的实时数据流。 Kafka 和 MQTT 是实现物…

模拟实现atoi函数

请记住那些对你好的人,因为他们本可以不这么做 文章目录 atoi函数介绍 模拟实现 大家好,我是纪宁。 atoi函数,它的功能是将数字字符转化为数字。我第一次见这个函数还是在大一上在刷蓝桥杯的时候,有一个关于回文数字的题&#x…

08.计算机网络——其他重要协议和技术

文章目录 DNSICMPNAT代理服务器 DNS DNS是一整套从域名映射到IP的系统 ​ TCP/IP中使用IP地址和端口号来确定网络上的一台主机的一个程序,但是IP地址不方便记忆,于是人们发明域名,其本质是一个字符串,映射了它和IP地址的关系。 …

融合黄金正弦算法和纵横交叉策略的秃鹰搜索算法(GSCBES)-附代码

融合黄金正弦算法和纵横交叉策略的秃鹰搜索算法(GSCBES) 文章目录 融合黄金正弦算法和纵横交叉策略的秃鹰搜索算法(GSCBES)1.秃鹰优化算法2.改进秃鹰优化算法2.1 基于纵横交叉策略2.2 基于惯性权重的位置更新2.3 黄金正弦捕食机制 3.实验结果4.参考文献5.Matlab代码6.python代码…

FreeRTOS-列表和列表项

列表和列表项: 列表是FreeRTOS中的一个数据结构,用来跟踪FreeRTOS中的任务。 列表项就是存放在列表中的项目,属于列表的子集。 列表就相当于一个链表,列表项就相当于节点,在FreeRTOS中的列表是一个双向的环形链表。 …

基于FPGA的视频接口之PAL(NTSC)编码

简介 PAL又称帕尔制,是咱们中国早期视频所是使用的视频广播模式,基本上现在的电视都兼容这种视频模式,使用的接口也是传统的BNC插头,有兴趣的伙伴可以看看电视屁股后面是不是有一个单独的BNC接口,百分之98就是支持PAL格…

FastReport.Net FastReport.Core 2023.2.23 Crack

FastReport.Net & FastReport.Core 2023.2.23适用于 .NET 7、.NET Core、Blazor、ASP.NET、MVC 和 Windows 窗体的全功能报告库。它可用于 Microsoft Visual Studio 2022 和 JetBrains Rider。 利用数据呈现领域专家针对 .NET 7、.NET Core、Blazor、ASP.NET、MVC、Windo…

【Windows】cmd和powershell命令合集

文章目录 1 前言2 一些规则3 cmd命令合集4 bat语法学习5 powershell命令合集6 powershell语法学习 1 前言 在日常使用过程中,总是会遇到不记得或无法区分cmd命令和powershell命令的情况,因为在Windows的工作大部分都是可视化的鼠标点击,用到命…

CLH自旋锁原理

CLH自旋锁 JUC中显式锁基于AQS抽象队列同步器,而AQS是CLH锁的一个变种。 在争夺锁激烈的情况下,为了减少CAS空自旋(CAS需要CPU进行内部通信保证缓存一致性造成流量过大引起总线风暴),Java轻量级锁会升级为重量级锁&a…

大数据学习03-Hive分布式集群部署

系统环境:centos7 软件版本:jdk1.8、zookeeper3.4.8、hadoop2.8.5、hive1.1.0 一、安装 hive官网 下载hive安装包,上传到linux服务器上, 解压安装包 tar -zxvf apache-hive-1.1.0-bin.tar.gz -C /home/local/重命名文件 mv …

腾讯云轻量应用服务器搭建Typecho博客网站全流程

腾讯云轻量应用服务器自带Typecho应用模板镜像,腾讯云提供的Typecho模板镜像是基于CentOS 7.6 64位操作系统,并已预置Nginx、PHP、MariaDB软件程序,使用Typecho应用模板可以快速搭建博客、企业官网、电商及论坛等各类网站。腾讯云服务器网分享…

C# 反转链表

206 反转链表 给你单链表的头节点 head ,请你反转链表,并返回反转后的链表。 示例 1: 输入:head [1,2,3,4,5] 输出:[5,4,3,2,1] 示例 2: 输入:head [1,2] 输出:[2,1] 示例 3…

Python中的标签编码和独热编码

在机器学习项目中,我们通常处理具有不同分类列的数据集,其中一些列的元素在有序变量类别中,例如列收入水平具有低,中或高的元素,在这种情况下,我们可以用1,2,3替换这些元素。其中1表…

【100天精通python】Day9:数据结构_字典、集合

目录 目录 1 字典 1.1 字典的基本操作示例 1.2 字典推导式 2 集合 2.1 集合的常用操作示例 3 列表、元组、字典、集合的区别 1 字典 在Python中,字典(Dictionary)是一种无序的数据结构,用于存储键值对的集合。每个…

flask 读取文件夹文件,展示在页面,可以通过勾选删除

项目结构 app.py from flask import Flask, render_template, request, redirect, url_for import os import globapp Flask(__name__)app.route(/, methods[GET, POST]) def index():if request.method POST:to_delete request.form.getlist(checks)for file in to_delete…