【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（7 月 3 日论文合集）

news2026/2/10 5:11:18

文章目录

一、分割|语义相关(4篇)
- 1.1 SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs
- 1.2 Achieving RGB-D level Segmentation Performance from a Single ToF Camera
- 1.3 Topological Data Analysis Guided Segment Anything Model Prompt Optimization for Zero-Shot Segmentation in Biological Imaging
- 1.4 ReMaX: Relaxing for Better Training on Efficient Panoptic Segmentation

一、分割|语义相关(4篇)

1.1 SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs

SPEA：用于冷冻LLMS多模式生成的语义金字塔自动编码器

论文地址：

https://arxiv.org/abs/2306.17842

在这里插入图片描述
在这项工作中，我们介绍语义金字塔自动编码器（SPAE），使冻结的LLM执行理解和生成任务涉及非语言形式，如图像或视频。SPAE在原始像素和从LLM的词汇表中提取的可解释词汇标记（或词）之间进行转换。由此产生的令牌捕获视觉重建所需的语义含义和细粒度的细节，有效地将视觉内容翻译成LLM可理解的语言，并使其能够执行广泛的多模态任务。我们的方法是验证通过上下文学习实验冻结PaLM 2和GPT 3.5对一组不同的图像理解和生成任务。我们的方法标志着第一次成功的尝试，使冻结的LLM生成图像内容，同时超越最先进的性能，在图像理解任务，在相同的设置下，超过25%。

1.2 Achieving RGB-D level Segmentation Performance from a Single ToF Camera

在一台TOF摄像机上实现RGB-D级分割性能

论文地址：

https://arxiv.org/abs/2306.17636

在这里插入图片描述
深度是计算机视觉中非常重要的模态，通常用作RGB的补充信息，由RGB-D相机提供。在这项工作中，我们表明，它是可能的，以获得相同水平的准确性RGB-D相机的语义分割任务，使用红外（IR）和深度图像从一个单一的飞行时间（ToF）相机。为了融合ToF相机的IR和深度模态，我们引入了一种在多任务学习框架中利用深度特定卷积的方法。在我们对车内分割数据集的评估中，我们证明了我们的方法与成本更高的RGB-D方法的竞争力。

1.3 Topological Data Analysis Guided Segment Anything Model Prompt Optimization for Zero-Shot Segmentation in Biological Imaging

拓扑数据分析引导下的分割任意模型生物成像中Zero-Shot分割的即时优化

论文地址：

https://arxiv.org/abs/2306.17400

在这里插入图片描述
机器学习中新兴的基础模型是在大量数据上训练的模型，这些数据已被证明可以很好地推广到新任务。通常，这些模型可以通过多模态输入来提示，这些输入范围从图像上的自然语言描述到点云。在本文中，我们提出了拓扑数据分析（TDA）引导的即时优化分段任何模型（SAM），并显示了初步的结果，在生物图像分割域。我们的方法取代了标准的网格搜索方法，在原来的实现中使用，并发现点的位置，基于它们的拓扑意义。我们的研究结果表明，TDA优化的点云更适合于寻找小对象，并大规模降低了计算复杂性，尽管需要许多分割的场景中的额外步骤。

1.4 ReMaX: Relaxing for Better Training on Efficient Panoptic Segmentation

REMAX：放松以获得更好的有效全景分割训练

论文地址：

https://arxiv.org/abs/2306.17319

在这里插入图片描述
本文提出了一种新的机制，以促进有效的全景分割，民主化其部署的掩模Transformers的培训。我们观察到，由于其高复杂性，全景分割的训练目标将不可避免地导致更高的假阳性惩罚。这种不平衡损耗使得基于端到端掩模变压器的架构的训练过程变得困难，特别是对于高效模型。在本文中，我们提出了ReMaX，它在全景分割的训练过程中为掩模预测和类预测添加了松弛。我们证明，通过这些简单的放松技术在训练过程中，我们的模型可以不断提高一个明确的保证金\textbf{没有}任何额外的计算成本的推断。通过将我们的方法与MobileNetV 3-Small等高效骨干相结合，我们的方法在COCO，ADE 20 K和Cityscapes上实现了高效的全景分割的最新结果。代码和预先训练的检查点将在\url{https：//github.com/google-research/deeplab2}上提供。