【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（7 月 28 日论文合集）

news2026/2/8 7:14:24

文章目录

一、分割|语义相关(6篇)
- 1.1 To Adapt or Not to Adapt? Real-Time Adaptation for Semantic Segmentation
- 1.2 Towards Deeply Unified Depth-aware Panoptic Segmentation with Bi-directional Guidance Learning
- 1.3 Semantic Image Completion and Enhancement using GANs
- 1.4 Self-supervised Few-shot Learning for Semantic Segmentation: An Annotation-free Approach
- 1.5 MCPA: Multi-scale Cross Perceptron Attention Network for 2D Medical Image Segmentation
- 1.6 Role of Image Acquisition and Patient Phenotype Variations in Automatic Segmentation Model Generalization

一、分割|语义相关(6篇)

1.1 To Adapt or Not to Adapt? Real-Time Adaptation for Semantic Segmentation

适应还是不适应？一种实时自适应的语义切分方法

https://arxiv.org/abs/2307.15063

在这里插入图片描述
用于语义分割的在线域自适应的目标是处理部署期间发生的不可预见的域更改，例如突发天气事件。然而，与蛮力适应相关的高计算成本使得这种范例对于现实世界的应用是不可行的。在本文中，我们提出了HAMLET，硬件感知模块化最便宜的实时域适应训练框架。我们的方法包括一个硬件感知的反向传播编排代理（HAMT）和一个专用的域移位检测器，使主动控制何时以及如何适应模型（LT）。由于这些进步，我们的方法能够执行语义分割，同时在单个消费级GPU上以超过29FPS的速度进行适应。我们的框架的令人鼓舞的准确性和速度权衡证明OnDA和SHIFT基准通过实验结果。

1.2 Towards Deeply Unified Depth-aware Panoptic Segmentation with Bi-directional Guidance Learning

基于双向引导学习的深度感知全景深度统一分割

https://arxiv.org/abs/2307.14786

在这里插入图片描述
深度感知全景分割是计算机视觉领域的一个新兴课题，它结合了语义和几何理解来实现更强大的场景解释。最近的作品追求统一的框架来应对这一挑战，但大多数仍然将其视为两个单独的学习任务，这限制了他们探索跨领域信息的潜力。我们提出了一个深度感知全景分割的深度统一框架，它执行联合分割和深度估计都在每段的方式与相同的对象查询。为了缩小这两个任务之间的差距，我们进一步设计了一个几何查询增强方法，它能够集成场景几何到对象查询使用潜在表示。此外，我们提出了一种双向引导学习方法，以促进跨任务特征学习，利用它们的相互关系。我们的方法为Cityscapes-DVPS和SemKITTI-DVPS数据集的深度感知全景分割提供了新的技术水平。此外，我们的指导学习方法显示，即使在不完整的监督标签下，也能提供性能改善。

1.3 Semantic Image Completion and Enhancement using GANs

基于GANS的语义图像补全与增强

https://arxiv.org/abs/2307.14748

在这里插入图片描述
语义修复或图像完成暗指基于图像语义推断图像中的任意大缺失区域的任务。由于图像像素的预测需要高级上下文的指示，这使得它比图像完成更难，图像完成通常更关注纠正数据损坏并从输入图像中删除整个对象。另一方面，图像增强试图从图像中消除不需要的噪声和模糊，同时保持大部分图像细节。有效的图像补全和增强模型应该能够恢复图像中的损坏和掩蔽区域，然后进一步细化图像以提高输出图像的质量。生成对抗网络（GAN）已经证明在图片完成任务中很有帮助。在本章中，我们将讨论底层GAN架构以及如何将其用于图像完成任务。

1.4 Self-supervised Few-shot Learning for Semantic Segmentation: An Annotation-free Approach

一种无标注的自监督Few-Shot学习语义切分方法

https://arxiv.org/abs/2307.14446

在这里插入图片描述
Few-Shot语义分割（FSS）在医学图像分析领域具有巨大的潜力，可以在有限的训练数据下实现准确的对象分割。然而，现有的FSS技术严重依赖于注释的语义类，由于注释的稀缺性，使得它们不适合医学图像。为应对这一挑战，提出了多项贡献：首先，受谱分解方法的启发，图像分解问题被重新构造为图划分任务。拉普拉斯矩阵的特征向量，来自自监督网络的特征亲和矩阵，进行分析，以估计从支持图像的感兴趣的对象的分布。其次，我们提出了一种新的自监督FSS框架，不依赖于任何注释。相反，它自适应地估计查询掩码，利用从支持图像获得的特征向量。这种方法消除了对手动注释的需要，使其特别适合于具有有限注释数据的医学图像。第三，为了进一步增强基于支持图像提供的信息的查询图像的解码，我们引入了多尺度大核注意力模块。通过选择性地强调相关特征和细节，该模块改进了分割过程，并有助于更好地描绘对象。自然和医学图像数据集上的评价表明，我们的方法的效率和有效性。此外，所提出的方法的特点是其通用性和模型不可知的性质，允许与各种深度架构的无缝集成。该代码可在\href{https：//github.com/mindflow-institue/annotation_free_fewshot}{\textcolor{magenta}{GitHub}}上公开获取。

1.5 MCPA: Multi-scale Cross Perceptron Attention Network for 2D Medical Image Segmentation

MCPA：多尺度交叉感知器注意力网络用于二维医学图像分割

https://arxiv.org/abs/2307.14588

在这里插入图片描述
基于卷积神经网络（CNN）的UNet架构在医学图像分析中表现出了卓越的性能。然而，由于有限的接收域和卷积操作的固有偏差，它在捕获长程依赖性方面面临挑战。最近，许多基于变换器的技术已被纳入UNet架构，以克服这一限制，有效地捕获全局特征相关性。然而，Transformer模块的集成可能导致在全局特征融合过程期间本地上下文信息的丢失。为了克服这些挑战，我们提出了一个二维医学图像分割模型，称为多尺度交叉感知器注意力网络（MCPA）。MCPA由三个主要部分组成：编码器、解码器和交叉感知器。交叉感知器首先使用多个多尺度交叉感知器模块捕获局部相关性，促进跨尺度特征的融合。所得的多尺度特征向量，然后空间展开，连接，并馈送通过全局感知器模块，以建模全局依赖性。此外，我们引入了渐进双分支结构，以解决涉及更精细组织结构的图像的语义分割。这种结构逐渐将MCPA网络训练的分割重点从大规模的结构特征转移到更复杂的像素级特征。我们在来自不同任务和设备的几个公开可用的医学图像数据集上评估了我们提出的MCPA模型，包括CT（Synapse），MRI（ACDC），眼底相机（DRIVE，CHASE_DB1，HRF）和OCTA（ROSE）的开放式大规模数据集。实验结果表明，我们的MCPA模型实现了国家的最先进的性能。该代码可在https://github.com/simonustc/MCPA-for-2D-Medical-Image-Segmentation上获得。

1.6 Role of Image Acquisition and Patient Phenotype Variations in Automatic Segmentation Model Generalization

图像采集和患者表型变化在自动分割模型泛化中的作用

https://arxiv.org/abs/2307.14482

在这里插入图片描述
目的：本研究评估了自动化医学图像分割模型的域外性能和泛化能力，特别侧重于适应新的图像采集和疾病类型。材料：数据集来自健康患者和多囊肾病（PKD）患者的非造影剂和造影剂增强腹部CT扫描。总共400个图像（100个非对比对照，100个对比对照，100个非对比PKD，100个对比PKD）用于训练/验证模型以分割肾脏、肝脏和脾脏，然后在受PKD影响的患者的100个非对比CT图像上测试最终模型。使用Dice、Jaccard、TPR和精密度评价性能。结果：在域内数据上测试时，在不同范围的数据上训练的模型表现出的性能并不比仅在域内数据上训练的模型差。例如，在每个数据集的25%上训练的模型的Dice相似性被发现不劣于纯粹在域内数据上训练的模型。结论：结果表明，更广泛的训练示例显著增强了模型泛化和域外性能，从而提高了自动分割工具在临床环境中的适用性。该研究的结果为未来的研究提供了路线图，以在医学图像AI模型开发中采用以数据为中心的方法。