文章目录

一、分割|语义相关(7篇)
- 1.1 Learning Transferable Object-Centric Diffeomorphic Transformations for Data Augmentation in Medical Image Segmentation
- 1.2 Optical Flow boosts Unsupervised Localization and Segmentation
- 1.3 Spectrum-guided Multi-granularity Referring Video Object Segmentation
- 1.4 Unmasking Anomalies in Road-Scene Segmentation
- 1.5 GaPro: Box-Supervised 3D Point Cloud Instance Segmentation Using Gaussian Processes as Pseudo Labelers
- 1.6 Image Segmentation Keras : Implementation of Segnet, FCN, UNet, PSPNet and other models in Keras
- 1.7 Towards Unifying Anatomy Segmentation: Automated Generation of a Full-body CT Dataset via Knowledge Aggregation and Anatomical Guidelines

一、分割|语义相关(7篇)

1.1 Learning Transferable Object-Centric Diffeomorphic Transformations for Data Augmentation in Medical Image Segmentation

用于医学图像分割数据增强的可转移对象中心微分变换学习

https://arxiv.org/abs/2307.13645

在这里插入图片描述
由于需要专家进行像素级注释，因此在医学图像分割中获得标记数据具有挑战性。最近的工作已经表明，用可变形变换增强感兴趣的对象可以帮助减轻这一挑战。然而，这些变换已经被全局地学习用于图像，限制了它们在数据集之间的可转移性或在图像对准困难的问题中的适用性。虽然以对象为中心的增强提供了一个很好的机会来克服这些问题，现有的作品只集中在位置和随机变换，而不考虑对象的形状变化。为此，我们提出了一种新的以对象为中心的数据增强模型，能够学习感兴趣的对象的形状变化，并在不修改图像的其余部分的情况下增强对象。我们证明了它在改善肾脏肿瘤分割时，利用从同一数据集内学习的形状变化和从外部数据集转移。

1.2 Optical Flow boosts Unsupervised Localization and Segmentation

光流增强无监督定位和分割

https://arxiv.org/abs/2307.13640

在这里插入图片描述
无监督定位和分割是长期存在的机器人视觉挑战，描述了自主机器人学习将图像分解为没有标记数据的单个对象的关键能力。这些任务是重要的，因为有限的可用性密集的图像手动注释和有前途的愿景，适应不断变化的一组对象类别在终身学习。最近的方法集中在使用视觉外观的连续性作为对象线索的空间聚类功能获得自监督Vision Transformers（ViT）。在这项工作中，我们利用运动线索，灵感来自共同的命运原则，共享类似的运动的像素往往属于同一个对象。我们提出了一个新的损失项公式，使用光流在未标记的视频，鼓励自我监督的ViT功能变得更接近对方，如果他们相应的空间位置共享类似的运动，反之亦然。我们使用所提出的损失函数来微调最初在静态图像上训练的Vision Transformers。我们的微调过程优于最先进的技术，通过线性探测无监督语义分割，而不使用任何标记的数据。该过程还证明了在无监督对象定位和语义分割基准上，原始ViT网络的性能有所提高。

1.3 Spectrum-guided Multi-granularity Referring Video Object Segmentation

基于频谱制导的多粒度参考视频对象分割

https://arxiv.org/abs/2307.13537

在这里插入图片描述
当前的参考视频对象分割（R-VOS）技术从编码的（低分辨率）视觉语言特征提取条件核以分割解码的高分辨率特征。我们发现，这会导致显著的特征漂移，分割内核在前向计算期间难以感知。这对分割核的能力产生负面影响。为了解决漂移问题，我们提出了一个频谱引导的多粒度（SgMg）的方法，该方法对编码的功能进行直接分割，并采用视觉细节，以进一步优化掩模。此外，我们提出了光谱引导的跨模态融合（SCF）执行帧内的全球交互在光谱域有效的多模态表示。最后，我们扩展SgMg执行多对象R-VOS，一个新的范例，使视频中的多个参考对象的同时分割。这不仅使R-VOS更快，而且更实用。大量的实验表明，SgMg在四个视频基准数据集上实现了最先进的性能，在Ref-YouTube-VOS上的表现超过了最接近的竞争对手2.8%。我们的扩展SgMg使多对象R-VOS，运行速度约3倍，同时保持令人满意的性能。代码可在https://github.com/bo-miao/SgMg上获得。

1.4 Unmasking Anomalies in Road-Scene Segmentation

道路场景分割中的去掩蔽异常

https://arxiv.org/abs/2307.13316

在这里插入图片描述
异常分割是驱动应用程序的一项关键任务，传统上将其视为逐像素分类问题。然而，在不考虑其上下文语义的情况下单独地推理每个像素会导致对象边界周围的高度不确定性和许多误报。我们提出了一个范式的变化，从每像素分类转移到掩模分类。我们的面具为基础的方法，Mask 2Anomaly，证明了在一个面具分类架构的异常检测方法集成的可行性。Mask 2Anomaly包括几项旨在改善掩模异常检测的技术创新：i）全局掩蔽注意力模块，用于单独地聚焦在前景和背景区域上; ii）最大化异常和已知类别之间的裕度的掩模对比学习;以及iii）用于减少假阳性的掩模细化解决方案。Mask 2Anomaly在一系列基准测试中获得了新的最先进的结果，包括每像素和组件级评估。特别是，Mask 2Anomaly将平均误报率降低了60%。Github页面：https://github.com/shyam671/Mask2Anomaly-Unmasking-Anomalies-in-Road-Scene-Segmentation。

1.5 GaPro: Box-Supervised 3D Point Cloud Instance Segmentation Using Gaussian Processes as Pseudo Labelers

GaPro：基于高斯过程的盒式监督三维点云实例分割

https://arxiv.org/abs/2307.13251

在这里插入图片描述
3D点云（3DIS）上的实例分割是计算机视觉中的一个长期挑战，其中最先进的方法主要基于完全监督。由于注释地面实况密集实例掩码是繁琐且昂贵的，解决具有弱监督的3DIS变得更加实际。在本文中，我们提出了GaPro，一个新的实例分割三维点云使用轴对齐的三维包围盒监督。我们的两步方法涉及从框注释生成伪标签，并使用所得标签训练3DIS网络。此外，我们采用自我训练策略，以进一步提高我们的方法的性能。我们设计了一个有效的高斯过程，从边界框生成伪实例掩码，并在它们重叠时解决歧义，从而产生具有不确定性值的伪实例掩码。我们的实验表明，GaPro优于以前的弱监督3D实例分割方法，并具有竞争力的性能相比，最先进的完全监督的。此外，我们证明了我们的方法的鲁棒性，我们可以通过使用我们的伪标签进行训练，使各种最先进的完全监督方法适应弱监督任务。源代码和训练模型可在https://github.com/VinAIResearch/GaPro获得。

1.6 Image Segmentation Keras : Implementation of Segnet, FCN, UNet, PSPNet and other models in Keras

图像分割KERAS：SegNet、FCN、UNET、PSPNet等模型在KERS中的实现

https://arxiv.org/abs/2307.13215

在这里插入图片描述
语义分割在计算机视觉任务中起着至关重要的作用，可以对图像进行精确的像素级理解。在本文中，我们提出了一个全面的语义分割库，其中包含流行的分割模型，如SegNet，FCN，UNet和PSPNet的实现。我们还在多个数据集上评估和比较了这些模型，为研究人员和从业人员提供了一个强大的工具集来应对各种分割挑战。

1.7 Towards Unifying Anatomy Segmentation: Automated Generation of a Full-body CT Dataset via Knowledge Aggregation and Anatomical Guidelines

走向统一的解剖分割：通过知识聚合和解剖学指南自动生成全身CT数据集

https://arxiv.org/abs/2307.13375

在这里插入图片描述
在这项研究中，我们提出了一种用于生成自动解剖分割数据集的方法，使用一个顺序过程，涉及nnU-Net为基础的伪标签和解剖引导的伪标签细化。通过结合各种碎片化的知识库，我们生成了一个数据集的全身CT扫描与142 $体素级标签为533卷提供全面的解剖覆盖，专家已经批准。我们提出的程序不依赖于人工注释在标签聚合阶段。我们使用三个补充检查来检查其合理性和有用性：人类专家评估批准了数据集，BTCV数据集上的深度学习有用性基准，其中我们在不使用其训练数据集的情况下获得了85%的骰子分数，以及医疗有效性检查。该评估程序将可扩展的自动化检查与劳动密集型的高质量专家检查相结合。除了数据集之外，我们还发布了经过训练的统一解剖分割模型，能够预测CT数据上的142 $解剖结构。