文章目录

一、图像分割类
- 1.1 AutoFocusFormer: Image Segmentation off the Grid
- 1.2 FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation
- 1.3 Parameter Efficient Local Implicit Image Function Network for Face Segmentation
二、全景分割类
- 2.1 You Only Segment Once: Towards Real-Time Panoptic Segmentation
- 2.2 UniDAformer: Unified Domain Adaptive Panoptic Segmentation Transformer via Hierarchical Mask Calibration
- 2.3 Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models
三、语义分割类
- 3.1 Federated Incremental Semantic Segmentation
- 3.2 Exploiting the Complementarity of 2D and 3D Networks to Address Domain-Shift in 3D Semantic Segmentation
- 3.3 Instant Domain Augmentation for LiDAR Semantic Segmentation
四、实例分割类
- 4.1 SIM: Semantic-aware Instance Mask Generation for Box-Supervised Instance Segmentation
- 4.2 DynaMask: Dynamic Mask Selection for Instance Segmentation
- 4.3 ISBNet: a 3D Point Cloud Instance Segmentation Network with Instance-aware Sampling and Box-aware Dynamic Convolution

一、图像分割类

1.1 AutoFocusFormer: Image Segmentation off the Grid

AutoFocusFormer：网格外的图像分割

论文地址：

https://arxiv.org/abs/2304.12406

在这里插入图片描述
真实世界的图像通常具有高度不平衡的内容密度。有些区域非常均匀，例如大片蓝天，而其他区域则散布着许多小物体。然而，卷积深度网络中常用的连续网格下采样策略平等对待所有区域。因此，小对象在很少的空间位置表示，导致分割等任务的结果更差。直观地说，在下采样期间保留更多代表小对象的像素有助于保留重要信息。为实现这一目标，我们提出了 AutoFocusFormer (AFF)，一种局部注意力变换器图像识别主干，它通过学习保留任务最重要的像素来执行自适应下采样。由于自适应下采样会生成一组不规则分布在图像平面上的像素，因此我们放弃了经典的网格结构。相反，我们开发了一种新的基于点的局部注意力块，由平衡聚类模块和可学习的邻域合并模块提供便利，它为我们最先进的分割头的基于点的版本生成表示。实验表明，我们的 AutoFocusFormer (AFF) 比类似尺寸的基线模型有显着改进。

推荐理由：

该论文提出了 AutoFocusFormer (AFF)，一种局部注意力变换器图像识别主干，它通过学习保留任务最重要的像素来执行自适应下采样。放弃了经典的网格结构，该论文开发了一种新的基于点的局部注意力块，由平衡聚类模块和可学习的邻域合并模块提供便利，可以为最先进的分割头的基于点的版本生成表示。实验表明，AutoFocusFormer (AFF) 比类似尺寸的基线模型有显着改进。

1.2 FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation

FreeSeg：统一、通用和开放词汇的图像分割

论文地址：

https://arxiv.org/abs/2303.17225

在这里插入图片描述
最近，出现了开放词汇学习来完成任意类别的基于文本的描述的分割，这使得分割系统推广到更通用的应用场景。然而，现有的方法致力于为特定的分割任务设计专门的架构或参数。这些定制的设计范式导致各种分割任务之间的碎片化，从而阻碍了分割模型的统一性。因此，在本文中，我们提出了 FreeSeg，这是一个通用框架，可以实现统一、通用和开放词汇的图像分割。 FreeSeg 通过一次性训练优化一体化网络，并采用相同的架构和参数在推理过程中无缝处理各种分割任务。此外，自适应提示学习有助于统一模型捕获任务感知和类别敏感的概念，从而提高模型在多任务和各种场景中的稳健性。广泛的实验结果表明，FreeSeg 在三个分割任务的性能和泛化方面建立了新的最先进结果，大大优于最佳特定任务架构：语义分割 5.5% mIoU，实例 mAP 17.6% 分割，COCO 上未见类的全景分割 PQ 为 20.1%。

推荐理由：

该论文提出了 FreeSeg，这是一个通用框架，可以实现统一、通用和开放词汇的图像分割。广泛的实验结果表明，FreeSeg 在三个分割任务的性能和泛化方面建立了新的最先进结果，大大优于最佳特定任务架构：语义分割 5.5% mIoU，实例 mAP 17.6%分割，COCO 上未见类的全景分割 PQ 为 20.1%。

1.3 Parameter Efficient Local Implicit Image Function Network for Face Segmentation

用于人脸分割的参数高效局部隐式图像函数网络

论文地址：

https://arxiv.org/abs/2303.15122

在这里插入图片描述
人脸解析被定义为包含人脸的图像的逐像素标记。标签被定义为识别关键面部区域，如眼睛、嘴唇、鼻子、头发等。在这项工作中，我们利用人脸的结构一致性提出了一种使用局部隐式函数网络的轻量级面部解析方法， FP-LIIF。我们提出了一个简单的架构，它有一个卷积编码器和一个像素 MLP 解码器，与最先进的模型相比，它使用 1/26 数量的参数，但在多个数据集上匹配或优于最先进的模型，像 CelebAMask-HQ 和 LaPa。我们不使用任何预训练，与其他作品相比，我们的网络还可以在不改变输入分辨率的情况下生成不同分辨率的分割。这项工作允许在低计算或低带宽设备上使用面部分割，因为它具有更高的 FPS 和更小的模型尺寸。

推荐理由：

人脸解析被定义为包含人脸的图像的每像素标记。定义标签来识别眼睛、嘴唇、鼻子、头发等关键面部区域。该论文利用人脸的结构一致性，提出了一种使用局部隐函数网络FP-LIF的轻量级人脸解析方法。也提出了一种简单的架构，该架构具有卷积编码器和像素MLP解码器，与最先进的模型相比，该架构使用了1/26个参数，但在多个数据集（如CelebMask HQ和LaPa）上匹配或优于最先进的模型。

二、全景分割类

2.1 You Only Segment Once: Towards Real-Time Panoptic Segmentation

你只分割一次：迈向实时全景分割

论文地址：

https://arxiv.org/abs/2303.14651

在这里插入图片描述
在本文中，我们提出了实时全景分割框架 YOSO。 YOSO 通过全景内核和图像特征图之间的动态卷积来预测掩码，其中您只需要为实例和语义分割任务分割一次。为了减少计算开销，我们设计了一个用于特征图提取的特征金字塔聚合器，以及一个用于全景核生成的可分离动态解码器。聚合器以卷积优先的方式重新参数化插值优先模块，这可以显着加快管道速度而无需任何额外成本。解码器通过可分离的动态卷积执行多头交叉注意，以提高效率和准确性。据我们所知，YOSO 是第一个实时全景分割框架，与最先进的模型相比，它提供了具有竞争力的性能。具体来说，YOSO在COCO上实现了46.4 PQ，45.6 FPS； Cityscapes 为 52.5 PQ，22.6 FPS；在 ADE20K 上为 38.0 PQ、35.4 FPS；在 Mapillary Vistas 上为 34.1 PQ、7.1 FPS。此 https URL 上提供了代码。

推荐理由：

该论文提出了YOSO，一种实时全景分割框架。YOSO通过全景内核和图像特征图之间的动态卷积来预测掩码，其中只需为实例和语义分割任务分割一次。为了减少计算开销，设计了一个用于特征图提取的特征金字塔聚合器，以及一个用于全景内核生成的可分离动态解码器。

2.2 UniDAformer: Unified Domain Adaptive Panoptic Segmentation Transformer via Hierarchical Mask Calibration

UniDAformer：通过分层掩模校准的统一域自适应全景分割变换器

论文地址：

https://arxiv.org/abs/2206.15083

在这里插入图片描述
域自适应全景分割旨在通过利用一个或多个相关源域中的现成注释数据来减轻数据注释挑战。然而，现有研究采用两个独立的网络进行实例分割和语义分割，这导致过多的网络参数以及复杂且计算密集的训练和推理过程。我们设计了 UniDAformer，一种统一的域自适应全景分割变换器，它很简单，但可以在单个网络中同时实现域自适应实例分割和语义分割。 UniDAformer 引入了分层掩模校准 (HMC)，可通过实时在线自我训练纠正区域、超像素和像素级别的不准确预测。它具有三个独特的特点：1）它可以实现统一域自适应全景自适应； 2）它减轻了错误预测并有效地改进了域自适应全景分割； 3) 它是端到端可训练的，具有更简单的训练和推理管道。对多个公共基准的广泛实验表明，与最先进的技术相比，UniDAformer 实现了卓越的域自适应全景分割。

推荐理由：

该论文设计了UniDAformer，这是一种统一域自适应全景分割转换器，它简单，但可以在单个网络中同时实现域自适应实例分割和语义分割。它具有三个独特的功能：1）可实现统一域自适应全景自适应;2）有效减少错误预测，提高域自适应全景分割;3）它是端到端的，可以通过更简单的训练和推理管道进行训练。在多个公共基准测试上进行的广泛实验表明，与最先进的技术相比，UniDAformer 实现了卓越的域自适应全景分割。

2.3 Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

使用文本到图像扩散模型的开放词汇全景分割

论文地址：

https://arxiv.org/abs/2303.04803

在这里插入图片描述
我们提出了 ODISE：基于开放词汇扩散的全景分割，它统一了预训练的文本图像扩散和判别模型来执行开放词汇全景分割。文本到图像扩散模型具有生成具有多种开放式词汇语言描述的高质量图像的非凡能力。这表明它们的内部表示空间与现实世界中的开放概念高度相关。另一方面，像 CLIP 这样的文本图像判别模型擅长将图像分类为开放式词汇标签。我们利用这两个模型的冻结内部表示来执行野外任何类别的全景分割。我们的方法在开放词汇全景和语义分割任务上的表现都优于以前的最先进技术。特别是，仅通过 COCO 训练，我们的方法在 ADE20K 数据集上实现了 23.4 PQ 和 30.0 mIoU，与之前的最先进技术相比有 8.3 PQ 和 7.9 mIoU 的绝对改进。我们在这个 https URL 上开源我们的代码和模型。

推荐理由：

该论文提出了 ODISE：基于开放词汇扩散的全景分割，它统一了预训练的文本图像扩散和判别模型来执行开放词汇全景分割。该论文方法在开放词汇全景和语义分割任务上的表现都优于以前的最先进技术。特别是，仅通过 COCO 训练，该方法在 ADE20K 数据集上实现了 23.4 PQ 和 30.0 mIoU，与之前的最先进技术相比有 8.3 PQ 和 7.9 mIoU 的绝对改进。

三、语义分割类

3.1 Federated Incremental Semantic Segmentation

联合增量语义分割

论文地址：

https://arxiv.org/abs/2304.04620

在这里插入图片描述
基于联邦学习的语义分割（FSS）通过对本地客户端的分散培训引起了广泛关注。然而，大多数 FSS 模型假设类别是预先固定的，因此在本地客户端增量接收新类别而没有内存存储来访问旧类别的实际应用中，会严重遗忘旧类别。此外，收集新课程的新客户可能会加入 FSS 的全球培训，这进一步加剧了灾难性遗忘。为了克服上述挑战，我们提出了一种遗忘平衡学习 (FBL) 模型，从客户端内和客户端间两个方面解决旧类的异构遗忘问题。具体来说，在通过自适应类平衡伪标签生成的伪标签的指导下，我们开发了遗忘平衡语义补偿损失和遗忘平衡关系一致性损失，以纠正具有背景偏移的旧类别的客户端内异质遗忘。它在本地客户端中执行平衡梯度传播和关系一致性蒸馏。此外，为了从客户端间的角度解决异构遗忘问题，我们提出了一个任务转换监视器。它可以识别隐私保护下的新类，并存储最新的旧全局模型以进行关系蒸馏。定性实验表明我们的模型相对于比较方法有了很大的改进。

推荐理由：

该论文提出了一种遗忘平衡学习（FBL）模型，从客户端内和客户端间两个方面解决旧类上的异构遗忘问题。在自适应类平衡伪标签生成的伪标签的指导下，开发遗忘平衡语义补偿损失和遗忘平衡关系一致性损失，以纠正具有背景转移的旧类别的客户端内异构遗忘。此外该论文还提出了一种任务转移监视器。它可以识别受隐私保护的新类，并存储最新的旧全局模型以进行关系提取。定性实验表明，与比较方法相比，该模型有了很大的改进。

3.2 Exploiting the Complementarity of 2D and 3D Networks to Address Domain-Shift in 3D Semantic Segmentation

利用 2D 和 3D 网络的互补性来解决 3D 语义分割中的域转移问题

论文地址：

https://arxiv.org/abs/2304.02991

在这里插入图片描述
3D 语义分割是许多现实世界应用程序中的一项关键任务，例如自动驾驶、机器人和混合现实。然而，由于 3D 点云的非结构化、稀疏和无色性质导致的模糊性，这项任务极具挑战性。一种可能的解决方案是将 3D 信息与来自具有不同模式的传感器（例如 RGB 相机）的其他信息相结合。最近的多模态 3D 语义分割网络利用这些模态依赖于独立处理 2D 和 3D 信息的两个分支，努力保持每种模态的强度。在这项工作中，我们首先解释了为什么这种设计选择是有效的，然后展示了如何改进它以使多模态语义分割对域转移更加稳健。我们出人意料的简单贡献在四个流行的多模式无监督域适应基准上实现了最先进的性能，并在域泛化场景中取得了更好的结果。

推荐理由：

3D语义分割是许多现实世界应用中的一项关键任务，如自动驾驶、机器人和混合现实。然而，由于3D点云的非结构化、稀疏和未着色性质带来的模糊性，该任务极具挑战性。该论文贡献在四个流行的多模态无监督领域自适应基准上实现了最先进的性能，并在领域泛化场景中取得了更好的结果。

3.3 Instant Domain Augmentation for LiDAR Semantic Segmentation

LiDAR 语义分割的即时域增强

论文地址：

https://arxiv.org/abs/2303.14378

在这里插入图片描述
尽管 LiDAR 传感器越来越受欢迎，但使用 3D LiDAR 数据的感知算法仍在努力解决“传感器偏差问题”。具体来说，当由于域差异而在测试时应用未见过的 LiDAR 传感器规格时，感知算法的性能会显着下降。本文提出了一种用于语义分割任务的快速灵活的 LiDAR 增强方法，称为“LiDomAug”。它聚合原始 LiDAR 扫描并创建任何配置的 LiDAR 扫描，同时考虑动态失真和遮挡，从而实现即时域增强。我们的按需增强模块以 330 FPS 的速度运行，因此它可以无缝集成到学习框架中的数据加载器中。在我们的实验中，基于学习的方法辅助所提出的 LiDomAug 受传感器偏差问题的影响较小，并且在不使用目标域数据的情况下在 SemanticKITTI 和 nuScenes 数据集上实现了新的最先进的域适应性能。我们还提出了一个与传感器无关的模型，该模型忠实地适用于各种 LiDAR 配置。

推荐理由：

本文提出了一种用于语义分割任务的快速灵活的LiDAR增强方法，称为“LiDomAug”。它聚合原始 LiDAR 扫描，并在考虑动态失真和遮挡的情况下创建任何配置的 LiDAR 扫描，从而实现即时域增强。在该实验中，借助所提出的LiDomAug的基于学习的方法受传感器偏差问题的影响较小，并且在不使用目标域数据的情况下，在SemanticKITTI和nuScenes数据集上实现了新的最先进的域适应性能。

四、实例分割类

4.1 SIM: Semantic-aware Instance Mask Generation for Box-Supervised Instance Segmentation

SIM：用于框监督实例分割的语义感知实例掩码生成

论文地址：

https://arxiv.org/abs/2303.08578

在这里插入图片描述
仅使用边界框注释的弱监督实例分割最近引起了很多研究关注。目前的大多数努力都是利用低级图像特征作为额外的监督，而没有明确利用对象的高级语义信息，当前景对象与背景或附近的其他对象具有相似的外观时，这将变得无效。我们通过开发语义感知实例掩码 (SIM) 生成范例提出了一种新的框监督实例分割方法。我们没有严重依赖相邻像素之间的局部成对亲和力，而是构建了一组类别特征质心作为原型来识别前景对象并为它们分配语义级伪标签。考虑到语义感知原型无法区分相同语义的不同实例，我们提出了一种自我纠正机制来纠正错误激活的区域，同时增强正确的区域。此外，为了处理对象之间的遮挡，我们为弱监督实例分割任务定制了复制粘贴操作，以增加具有挑战性的训练数据。广泛的实验结果证明了我们提出的 SIM 方法优于其他最先进的方法。

推荐理由：

仅使用边界框注释的弱监督实例分割最近引起了广泛的研究关注。该论文通过开发语义感知实例掩码（SIM）生成范式，提出了一种新的框监督实例分割方法。考虑到语义感知原型无法区分相同语义的不同实例，该论文提出了一种自我纠正机制来纠正错误激活的区域，同时增强正确的区域。广泛的实验结果表明，提出的SIM方法优于其他最先进的方法。

4.2 DynaMask: Dynamic Mask Selection for Instance Segmentation

DynaMask：用于实例分割的动态掩码选择

论文地址：

https://arxiv.org/abs/2303.07868

在这里插入图片描述
代表性的实例分割方法大多使用固定分辨率的掩码来分割不同的对象实例，例如 28*28 网格。然而，低分辨率掩码会丢失丰富的细节，而高分辨率掩码会导致二次计算开销。为每个实例预测最佳二进制掩码是一项具有挑战性的任务。在本文中，我们建议为不同的目标提议动态选择合适的掩码。首先，开发了具有自适应特征聚合的双层特征金字塔网络（FPN），以逐渐增加掩模网格分辨率，确保对象的高质量分割。具体来说，引入了一种有效的区域级自上而下路径 (r-FPN)，以合并来自图像级 FPN (i-FPN) 不同阶段的互补上下文和详细信息。然后，为了减轻使用大掩码导致的计算和内存成本的增加，我们开发了一个计算成本可忽略不计的掩码切换模块（MSM）来为每个实例选择最合适的掩码分辨率，在保持高分割精度的同时实现高效率。没有花哨的地方，所提出的方法，即 DynaMask，以适度的计算开销带来了比其他最先进的一致和显着的性能改进。

推荐理由：

为了减轻使用大掩码导致的计算和内存成本的增加，该论文开发了一个计算成本可忽略不计的掩码切换模块（MSM）来为每个实例选择最合适的掩码分辨率，在保持高分割精度的同时实现高效率。没有花哨的地方，所提出的方法，即 DynaMask，以适度的计算开销带来了比其他最先进的一致和显着的性能改进。

4.3 ISBNet: a 3D Point Cloud Instance Segmentation Network with Instance-aware Sampling and Box-aware Dynamic Convolution

ISBNet：具有实例感知采样和框感知动态卷积的 3D 点云实例分割网络

论文地址：

https://arxiv.org/abs/2303.00246

在这里插入图片描述
现有的 3D 实例分割方法以自下而上的设计为主——手动微调算法将点分组到簇中，然后是细化网络。然而，通过依赖于集群的质量，这些方法在（1）具有相同语义类的附近对象被打包在一起，或（2）具有松散连接区域的大对象时产生易受影响的结果。为了解决这些限制，我们引入了 ISBNet，这是一种新颖的无集群方法，它将实例表示为内核并通过动态卷积解码实例掩码。为了有效地生成高召回率和判别力的内核，我们提出了一种名为 Instance-aware Farthest Point Sampling 的简单策略来对候选对象进行采样，并利用受 PointNet++ 启发的局部聚合层对候选特征进行编码。此外，我们表明在动态卷积中预测和利用 3D 轴对齐边界框可进一步提高性能。我们的方法在 AP 方面在 ScanNetV2 (55.9)、S3DIS (60.8) 和 STPLS3D (49.2) 上设置了新的最先进结果，并保持了快速推理时间（ScanNetV2 上每个场景 237 毫秒）。

推荐理由：

现有的3D实例分割方法主要是自下而上的设计——手动微调算法，将点分组为簇，然后是细化网络。为了解决这些限制，该论文引入了ISBNet，这是一种新的无集群方法，它将实例表示为内核，并通过动态卷积解码实例掩码。为了有效地生成高召回率和判别性内核，还提出了一种名为实例感知最远点采样的简单策略来对候选进行采样，并利用PointNet++启发的局部聚合层对候选特征进行编码。