【计算机视觉 | 目标检测 | 图像分割】arxiv 计算机视觉关于目标检测和图像分割的学术速递(7 月 7 日论文合集)

news2024/11/17 13:22:40

文章目录

  • 一、检测相关(5篇)
    • 1.1 Contextual Affinity Distillation for Image Anomaly Detection
    • 1.2 Noise-to-Norm Reconstruction for Industrial Anomaly Detection and Localization
    • 1.3 MMNet: Multi-Collaboration and Multi-Supervision Network for Sequential Deepfake Detection
    • 1.4 GIT: Detecting Uncertainty, Out-Of-Distribution and Adversarial Samples using Gradients and Invariance Transformations
    • 1.5 Anomaly detection in image or latent space of patch-based auto-encoders for industrial image analysis
  • 二、分割|语义相关(7篇)
    • 2.1 Probabilistic and Semantic Descriptions of Image Manifolds and Their Applications
    • 2.2 Towards accurate instance segmentation in large-scale LiDAR point clouds
    • 2.3 Semi-supervised Domain Adaptive Medical Image Segmentation through Consistency Regularized Disentangled Contrastive Learning
    • 2.4 Spherical Feature Pyramid Networks For Semantic Segmentation
    • 2.5 GNEP Based Dynamic Segmentation and Motion Estimation for Neuromorphic Imaging
    • 2.6 Topology-Aware Loss for Aorta and Great Vessel Segmentation in Computed Tomography Images
    • 2.7 Self-supervised learning via inter-modal reconstruction and feature projection networks for label-efficient 3D-to-2D segmentation

一、检测相关(5篇)

1.1 Contextual Affinity Distillation for Image Anomaly Detection

用于图像异常检测的上下文亲和度提取

https://arxiv.org/abs/2307.03101

在这里插入图片描述
以往的无监督工业异常检测工作主要集中在局部结构异常,如裂纹和颜色污染。虽然在这种异常上实现了显着的高检测性能,但它们面临着违反远程依赖性的逻辑异常,例如放置在错误位置的正常对象。在本文中,基于以前的知识蒸馏工程,我们建议使用两个学生(本地和全球),以更好地模仿教师的行为。在以往的研究中,局部学生主要关注结构异常检测,而全局学生则关注逻辑异常。为了进一步鼓励全球学生的学习,以捕捉远程依赖关系,我们设计的全球上下文压缩块(GCCB),并提出了一个上下文的亲和力损失的学生训练和异常评分。实验结果表明,该方法不需要繁琐的训练技术,并取得了新的国家的最先进的性能MVTec LOCO AD数据集。

1.2 Noise-to-Norm Reconstruction for Industrial Anomaly Detection and Localization

用于工业异常检测和定位的信噪比重建

https://arxiv.org/abs/2307.02836

在这里插入图片描述
异常检测有着广泛的应用,在工业质量检测中尤为重要。目前,许多表现最好的异常检测模型依赖于特征嵌入方法。然而,这些方法在对象位置变化较大的数据集上表现不佳。基于重建的方法使用重建误差来检测异常,而不考虑样本之间的位置差异。在这项研究中,提出了一种基于重建的方法,使用噪声到规范的范例,它避免了不变性的异常区域的重建。我们的重建网络是基于M-网,并采用多尺度融合和剩余注意力模块,使端到端的异常检测和定位。实验结果表明,该方法能有效地将异常区域重构为正常模式,实现准确的异常检测和定位。在MPDD和VisA数据集上,我们提出的方法比最新的方法取得了更有竞争力的结果,并在MPDD数据集上建立了一个新的最先进的标准。

1.3 MMNet: Multi-Collaboration and Multi-Supervision Network for Sequential Deepfake Detection

MMNet:多协作、多监控的序列深伪检测网络

https://arxiv.org/abs/2307.02733

在这里插入图片描述
先进的操纵技术为犯罪分子提供了制造社会恐慌或通过产生欺骗性媒体(如伪造的人脸图像)获取非法利润的机会。作为回应,已经提出了各种深度伪造检测方法来评估图像的真实性。序列深度伪造检测是深度伪造检测的扩展,旨在识别具有正确序列的伪造面部区域以进行恢复。然而,由于空间和顺序操作的不同组合,伪造的人脸图像表现出严重影响检测性能的实质性差异。此外,伪造图像的恢复需要操纵模型的知识来实现逆变换,这是难以确定的,因为相关技术通常被攻击者隐藏。为了解决这些问题,我们提出了多协作和多监督网络(MMNet),处理各种空间尺度和顺序排列伪造的人脸图像,并实现恢复,而不需要相应的操作方法的知识。此外,现有的评估指标只考虑检测精度在一个单一的推断步骤,没有考虑的匹配程度与地面真理在连续多个步骤。为了克服这一限制,我们提出了一种新的评价指标,称为完整序列匹配(CSM),它认为在多个推断步骤的检测精度,反映了检测整体伪造序列的能力。在几个典型数据集上的实验表明,MMNet具有最佳的检测性能和独立恢复性能。

1.4 GIT: Detecting Uncertainty, Out-Of-Distribution and Adversarial Samples using Gradients and Invariance Transformations

GIT:使用梯度和不变性变换检测不确定性、非分布和对抗性样本

https://arxiv.org/abs/2307.02672

在这里插入图片描述
深度神经网络倾向于做出过度自信的预测,并且通常需要额外的错误分类检测器,特别是对于安全关键型应用。现有的检测方法通常只关注对抗性攻击或分布外的样本作为错误预测的原因。然而,泛化错误的发生是由于各种原因,往往与学习相关的不变性差。因此,我们提出了GIT,一个整体的方法,结合使用梯度信息和不变性变换的泛化错误的检测。不变性变换被设计成将错误分类的样本移回神经网络的泛化区域,而梯度信息测量初始预测与使用变换后的样本的神经网络的相应固有计算之间的矛盾。我们的实验表明,GIT的优越性能相比,国家的最先进的各种网络架构,问题设置和扰动类型。

1.5 Anomaly detection in image or latent space of patch-based auto-encoders for industrial image analysis

用于工业图像分析的基于块的自动编码器的图像或潜在空间的异常检测

https://arxiv.org/abs/2307.02495

在这里插入图片描述
我们研究了几种方法,用于检测彩色图像中的异常,构建基于补丁的自动编码器。我们比较了三种类型的方法的基础上,第一,原始图像和重建之间的错误,第二,在潜空间中的正常图像分布的支持估计,第三,在originalimage和重建图像的恢复版本之间的错误的性能。这些方法进行评估的工业图像数据库MVTecAD和两个竞争的国家的最先进的方法相比。

二、分割|语义相关(7篇)

2.1 Probabilistic and Semantic Descriptions of Image Manifolds and Their Applications

图像流形的概率和语义描述及其应用

https://arxiv.org/abs/2307.02881

在这里插入图片描述
本文首先描述的方法估计概率密度函数的图像,反映了观察,这些数据通常被限制在有限的区域的高维图像空间-不是每一个模式的像素是一个图像。通常说图像位于高维空间中的低维流形上。然而,尽管图像可能位于这种低维流形上,但并非流形上的所有点都具有相等的图像概率。图像是不均匀分布在流形上,我们的任务是设计方法来模拟这种分布的概率分布。在追求这一目标的过程中,我们考虑了在AI和计算机视觉社区中流行的生成模型。为了我们的目的,生成/概率模型应该具有以下属性:1)样本生成:应该可以根据建模的密度函数从该分布中采样,以及2)概率计算:给定来自感兴趣的数据集的先前未见过的样本,应当能够计算样本的概率,至少达到归一化常数。为此,我们研究使用的方法,如正常化的流量和扩散模型。然后,我们表明,这种概率描述可以用来构建防御对抗性攻击。除了在密度方面描述的流形,我们还考虑如何语义解释可以用来描述点的流形。为此,我们考虑一个新兴的语言框架,它利用变分编码器产生一个解开表示点,驻留在一个给定的流形。流形上的点之间的轨迹,然后可以描述在不断发展的语义描述。

2.2 Towards accurate instance segmentation in large-scale LiDAR point clouds

大比例尺激光雷达点云中的精确实例分割

https://arxiv.org/abs/2307.02877

在这里插入图片描述
全景分割是语义分割和实例分割的组合:将3D点云中的点分配给语义类别,并将它们划分为不同的对象实例。它在户外场景理解方面有许多明显的应用,从城市测绘到森林管理。现有的方法努力分割附近的实例相同的语义类别,如相邻的街道设施或相邻的树木,这限制了它们的可用性的库存或管理类型的应用程序,依赖于对象实例。本研究探讨了与将点聚类为对象实例有关的全景分割流水线的步骤,其目标是缓解该瓶颈。我们发现,一个精心设计的聚类策略,利用多种类型的学习点嵌入,显着提高实例分割。NPM3D城市移动地图数据集和FOR实例森林数据集上的实验证明了该策略的有效性和通用性。

2.3 Semi-supervised Domain Adaptive Medical Image Segmentation through Consistency Regularized Disentangled Contrastive Learning

基于一致性正则化解缠对比学习的半监督领域自适应医学图像分割

https://arxiv.org/abs/2307.02798

在这里插入图片描述
虽然无监督域自适应(UDA)是一个很有前途的方向,以减轻域转移,他们不符合他们的监督同行。在这项工作中,我们调查了相对较少探索的半监督域自适应(SSDA)的医学图像分割,其中访问一些标记的目标样本可以大大提高自适应性能。具体而言,我们提出了一个两阶段的培训过程。首先,编码器是预先训练的自学习范式,使用一种新的域内容解开对比学习(CL)以及像素级的特征一致性约束。建议的CL强制编码器学习歧视性的内容特定的,但域不变的语义在全球范围内从源和目标图像,而一致性正则化强制挖掘本地像素级信息,保持空间敏感性。该预训练的编码器连同解码器一起被进一步微调用于下游任务(即,像素级分割)。此外,我们的实验验证,我们提出的方法可以很容易地扩展为UDA设置,增加了所提出的策略的优越性。两个域自适应图像分割任务的评估后,我们提出的方法优于SoTA方法,无论是在SSDA和UDA设置。代码可在www.example.com上获得https://github.com/hritam-98/GFDA-disentangled

2.4 Spherical Feature Pyramid Networks For Semantic Segmentation

用于语义分割的球形特征金字塔网络

https://arxiv.org/abs/2307.02658

在这里插入图片描述
球形数据的语义分割是机器学习中的一个具有挑战性的问题,因为传统的平面方法需要将球形图像投影到欧几里得平面。在根本不同的拓扑上表示信号会引入影响网络性能的边缘和失真。最近,基于图形的方法已经绕过了这些挑战,通过在球形网格上表示信号来实现显着的改进。目前的球形分割方法仅使用UNet架构的变体,这意味着更成功的平面架构尚未开发。受特征金字塔网络(FPNs)在平面图像分割中的成功启发,我们利用基于图的球形CNN的金字塔层次结构来设计球形FPNs。我们的球形FPN模型表现出一致的改进球形UNets,同时使用更少的参数。在斯坦福大学的2D-3D-S数据集上,我们的模型实现了最先进的性能,mIOU为48.75,比之前最好的球形CNN提高了3.75个IoU点。

2.5 GNEP Based Dynamic Segmentation and Motion Estimation for Neuromorphic Imaging

基于GNEP的神经形态成像动态分割和运动估计

https://arxiv.org/abs/2307.02595

在这里插入图片描述
本文探讨了基于事件的相机在图像分割和运动估计领域的应用。这些相机提供了一个突破性的技术,通过捕捉视觉信息作为一个连续的异步事件流,从传统的基于帧的图像采集。我们引入了一个广义纳什均衡为基础的框架,利用来自事件流的时间和空间信息进行分割和速度估计。为了建立理论基础,我们推导出一个存在的标准,并提出了一个多层次的优化方法计算平衡。通过一系列的实验表明这种方法的有效性。

2.6 Topology-Aware Loss for Aorta and Great Vessel Segmentation in Computed Tomography Images

CT图像中大动脉和大血管的拓扑感知丢失与分割

https://arxiv.org/abs/2307.03137

在这里插入图片描述
当用标准损失函数训练分割网络时,没有明确地强加于学习图像的全局不变量,例如对象的形状和多个对象之间的几何形状。另一方面,将这样的不变量合并到网络训练中可以帮助提高各种分割任务的性能,当它们是要分割的对象的固有特性时。一个示例是计算机断层摄影(CT)图像中的主动脉和大血管的分割,其中血管由于人体解剖结构而在身体中以特定几何形状被发现,并且它们在2D CT图像上大多看起来像圆形对象。本文通过引入一个新的拓扑感知损失函数来解决这个问题,该函数通过持久同源性来惩罚地面实况和预测之间的拓扑差异。从以前建议的分割网络设计,其中应用阈值过滤的预测图的似然函数和地面实况的贝蒂数,本文提出应用Vietoris-Rips过滤获得地面实况和预测图的持久性图,并计算与相应的持久性图之间的Wasserstein距离的不相似性。该过滤的使用具有同时对形状和几何形状建模的优点,这在应用阈值过滤时可能不会发生。我们的实验4327 CT图像的24个科目显示,所提出的拓扑意识的损失函数导致更好的结果比它的同行,表明这种使用的有效性。

2.7 Self-supervised learning via inter-modal reconstruction and feature projection networks for label-efficient 3D-to-2D segmentation

基于模式间重建和特征投影网络的自监督学习用于标签高效的3D到2D分割

https://arxiv.org/abs/2307.03008

在这里插入图片描述
深度学习已经成为自动化某些医学图像分割任务的重要工具,大大减轻了医学专家的工作量。这些任务中的一些需要在输入维度的子集上执行分割,最常见的情况是3D到2D。然而,现有方法的性能受到可用的标记数据的量的强烈制约,因为目前没有数据有效的方法,例如,迁移学习,已经在这些任务中得到验证。在这项工作中,我们提出了一种新的卷积神经网络(CNN)和自监督学习(SSL)的标签高效的3D到2D分割方法。CNN由通过新颖的3D到2D块连接的3D编码器和2D解码器组成。SSL方法包括重建具有不同维度的模态的图像对。该方法已在两项具有临床相关性的任务中得到验证:光学相干断层扫描中地图样萎缩和网状假性玻璃疣的正面分割。不同数据集的结果表明,所提出的CNN显著提高了最新技术水平的情况下,标记数据有限的场景中的Dice得分高达8%。此外,建议的SSL方法允许进一步提高这种性能高达23%,我们表明,无论网络架构的SSL是有益的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/728407.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

postman接口测试之postman常用的快捷键

作为一名IT程序猿,不懂一些工具的快捷方式,应该会被鄙视的吧。收集了一些Postman的快捷方式,大家一起动手操作~ 简单操作 操作mac系统windows系统 打开新标签 ⌘TCtrl T关闭标签⌘WCtrl W强制关闭标签Cmd Alt WCtrl Alt W切换到下一个…

【JavaEE】前后端综合项目-博客系统(上)

【JavaEE】前后端综合项目-博客系统(上) 文章目录 【JavaEE】前后端综合项目-博客系统(上)1. 创建项目2. 数据库设计3. 数据库操作的封装3.1 DataSource(单例)3.1 连接操作3.2 关闭操作3.3 创建实体类3.4 封…

“AI无界·智链全球”!壹沓科技2023世界人工智能大会论坛成功举办,构建数智供应链新范式

“AI无界智链全球”论坛成功举办 构建数智供应链新范式 7月6日,由世界人工智能大会组委会办公室指导,壹沓科技主办,上海交通大学安泰经济与管理学院、上海现代服务业联合会物流与供应链专委会、中国航务周刊协办的“AI无界智链全球”高端论坛…

前端vue入门(纯代码)23_多组件共享

我不喜欢去银行,就好像太监不喜欢去妓院一样,有些东西你没有,去了也是难受。 【24.Vuex中的多组件状态共享】 页面展示: vuex数据共享完整代码: App.vue和main.js:就不展示了。 store/index.js //该文…

Verilog学习笔记1:D触发器

代码1&#xff1a; timescale 1ns/10psmodule d_trigger(d,clk,q);input d; input clk; output q;assign q~d;endmodule//testbench module d_trigger_tb; reg clk; reg d; wire q;d_trigger d_trigger(.d(d),.clk(clk),.q(q));initial begind<0;clk<0;#1000 $stop;end…

异步电路后端实现流程(cdc signOff 后端做什么)

目录 1.一种后端异步电路的signOff流程 2.cdc maxDelay的原因及relax 2.1为什么要做maxDelay检查 2.2 如果有不同名字的clk 原本是同步时钟域 该怎么办 2.3 如果有异步电路不能满足0.7倍的fastclk maxDelay检查该怎么办&#xff1f; 1.一种后端异步电路的signOff流程 同步…

Openpyxl给同个单元格的不同文字“上色”

文章目录 0.背景1. 原文代码2. 我的代码3. 总结 0.背景 openpyxl一直在用&#xff0c;今天看到一直关注的公众号又发出了奇技淫巧&#xff08;想要看原文或者要关注原作者的可以点击这里&#xff09;&#xff0c;就直接收录到主页好了。免得以后找不到了。 1. 原文代码 原来…

全网最详细,Fiddler抓包实战 - 手机APP端https请求(超详细)

前言 Fiddler抓取App端请求 准备工作&#xff1a; 将手机和电脑连接到同一路由器&#xff08;保证两者能够ping通&#xff09;&#xff1b; 如果使用的模拟器则不需要上面的步骤&#xff0c;因为模拟器是共享PC端的网络&#xff0c;两者网络默认就是连通的状态&#xff1b; 查…

【聘】夏日炎炎,高薪IT好岗位给你降温!

微思就业推荐 厦门海翼集团财务有限公司 职位&#xff1a;数字化管理部运维管理岗 6000-12000元/月*18薪 职位描述 负责公司日常办公IT设备、网络及机房服务器、业务系统的管理。 1、负责公司机房、服务器、网络设备规划、建设、管理、巡检&#xff1b;负责建立包括但不…

【Servlet综合项目练习】实现一个简单的博客系统~

目录 &#x1f31f;一、数据库设计部分 1、建表分析&#xff1a;系统中一共要实现几张表&#xff1f; 2、开始建表 &#x1f31f;二、大概框架与实现功能 &#x1f31f; 三、代码实现部分 &#x1f308;前言1&#xff1a;工具类的实现&#xff08;utils包下&#xff09;…

2023年开放式蓝牙耳机选购指南!南卡/韶音/Cleer/索尼/飞利浦等开放式耳机怎么选!最热的开放式蓝牙耳机大盘点!

前言 大家好&#xff0c;作为专注耳机研究多年的发烧级爱好者&#xff0c;毫不夸张的说我为耳机花的钱比买衣服还多&#xff0c;很多人都在问我开放式耳机到底有没有必要买&#xff1f;答案毫无疑问是有必要&#xff01;开放式耳机佩戴舒适又安全的特质让它在耳机届风靡&#…

动态SLAM论文(7) — DOT: Dynamic Object Tracking for Visual SLAM

目录 1 Introduction 2 Related work 3 DOT A 系统概述 B. 实例分割 C. 相机和物体跟踪 D. 跟踪质量、异常值和遮挡 E. 目标是否在运动&#xff1f; F. 掩码传播 4 Experimental results 5 Conclusions 摘要 - 本文我们介绍了DOT&#xff08;Dynamic Object Trackin…

计算机网络实验报告——Wireshark 抓包分析

1. Wireshark软件下载 这里放一个蓝奏云下载链接&#xff1a; https://wwix.lanzoue.com/iEklv11klvje 密码:4g0n 2. Wireshark软件抓包使用 将该软件安装之后&#xff0c;双击打开&#xff0c;首先选择你的过滤器方式&#xff0c;我这里电脑连的是WiFi&#xff0c;就选择了这…

分布式搜索--elasticsearch

一、初识 elasticsearch 1. 了解 ES ① elasticsearch 是一款非常强大的开源 搜索引擎&#xff0c;可以帮助我们从海量数据中 快速找到需要的内容 ② elasticsearch 结合 kibana、Logstash、 Beats&#xff0c;也就是 elastic stack (ELK)&#xff0c;被 广泛应用在日志数据分…

【CANoe示例分析】PythonCAPL_Call_Demo

该工程由Vector官方提供,目的是演示Python如何调用CAPL文件里的自定义函数。里面除了CANoe工程文件外,还有python文件和CAPL: 提供了两种CANoe版本的工程文件,选择其中一种打开即可。 首先我们要确定CAPL文件AnalyseFunctions.can在CANoe工程内的什么地方?首先想到的是Si…

Apache Doris 在金融壹账通指标中台的应用实践

本文导读&#xff1a; 金融壹账通作为中国平安集团的联营公司&#xff0c;依托平安集团 30 多年金融行业的丰富经验及自主科研能力&#xff0c;向客户提供“横向一体化、纵向全覆盖”的整合产品&#xff0c;以“技术业务”为独特竞争力&#xff0c;帮助客户提升效率、提升服务…

vuex中的四个map方法的使用

vuex中的四个map方法的使用 vuex里面有四个map方法&#xff0c;他们分别可以针对不同的元素进行不同的代码生成 这四个map方法都是异曲同工&#xff0c;明白了一个基本上都明白了 1 编写案例 现在想要展示一段文本&#xff0c;其中里面两个参数要存在store的state里面&…

怎样优雅地增删查改(二):扩展身份管理模块

文章目录 用户关系管理扩展组织管理功能创建可查询仓储 实现控制器测试接口 身份管理模块&#xff08;Identity模块&#xff09;为通用查询接口的按组织架构查询和按户关系查询提供查询依据。 身份管理模块的领域层依赖Volo.Abp.Identity.Domain Abp为我们实现了一套身份管理模…

CentOS 7镜像下载 以及 DVD ISO 和 Minimal ISO 等各版本的区别介绍

1.官网下载 官网下载地址&#xff1a;官网下载链接 点击进入下载页面&#xff0c;随便选择一个下载即可&#xff08;不推荐&#xff0c;推荐阿里云下载&#xff0c;见下文&#xff09; 阿里云下载站点&#xff08;速度非常快推荐&#xff09; 阿里云下载链接&#xff1a; http…

免费下载!10个3D素材网站推荐

在设计工作中&#xff0c;3D素材可以帮助设计师创建高质量的UI设计&#xff0c;提高设计效率和准确性。本文将为您推荐10个好用的3D素材网站&#xff0c;助力设计师实现高效创作。 1.即时设计资源广场 即时设计资源广场是一个致力于为设计师提供丰富多样的设计资产和灵感的社…