计算机视觉——人像的分割与无缝融合

1.概述

在这里插入图片描述
新加坡现代汽车集团创新中心的一篇新论文提供了一种在计算机视觉中分离“融合”人像的方法——在这些情况下，对象识别框架发现一个人在某种程度上与另一个人“太接近”（例如例如“拥抱”动作或“站在后面”的姿势），并且无法区分所代表的两个人，将他们与一个人或一个实体混淆。

在这里插入图片描述

二合一，但这在语义分割中并不是一件好事。在这里，我们看到论文的新系统在复杂且具有挑战性的图像中对相互交织的人进行个性化方面取得了最先进的结果。

这是近年来引起研究界广泛关注的一个值得注意的问题。解决这个问题，不需要明显但通常无法承受的超大规模、以人为主导的自定义标签的费用，最终可以改善文本到图像系统中的人像图片个性化，例如 Stable Diffusion，它经常将人们“融化”在一起，而提示的姿势需要多人彼此靠近。
在这里插入图片描述

像DALL-E 2和Stable Diffusion这样的文本到图像模型（在上面都有提到）在表现非常接近彼此的人时会遇到困难。

尽管 DALL-E 2 和 Stable Diffusion 等生成模型（就闭源 DALL-E 2 而言）目前并未使用语义分割或对象识别，但这些怪诞的人类混合体无法目前可以通过应用此类上游方法来治愈——因为最先进的对象识别库和资源在解开人们的困扰方面并不比 CLIP基于潜在扩散模型的工作流程。

为了解决这个问题，论文《人类不需要标记更多的人：用于遮挡人体实例分割的遮挡复制和粘贴》采用并改进了最近的半合成数据“剪切和粘贴”方法，以在任务中取得新的 SOTA 领先优势，即使是针对最具挑战性的源材料：

在这里插入图片描述

新的遮挡复制和粘贴方法目前在该领域处于领先地位，甚至与以前的框架和方法相比，这些框架和方法以复杂和更专用的方式应对挑战，例如专门针对遮挡进行建模。

2. 剪切

修改后的方法名《遮挡复制和粘贴》源自 2021 年 简单的复制粘贴 由 Google Research 领导的论文，该论文提出，在不同源训练图像中叠加提取的对象和人物可以提高图像识别系统离散化图像中发现的每个实例的能力：

在这里插入图片描述

从 2021 年 Google Research主导的论文“简单复制粘贴是一种用于实例分割的强大数据增强方法”中，我们看到一张照片中的元素“迁移”到其他照片，目的是训练更好的图像识别模型。

新版本在这种自动和算法的“重新粘贴”中添加了限制和参数，根据几个关键因素，将该过程类比为一个图像“篮子”，其中充满了“转移”到其他图像的潜在候选者。

在这里插入图片描述

OC&P 的概念工作流程。

2.控制元素

这些限制因素包括 可能性 发生剪切和粘贴，这确保该过程不会一直发生，这将实现“饱和”效果，从而破坏数据增强；这 图像数量 篮子在任何时候都会有，其中大量的“段”可能会改善实例的多样性，但会增加预处理时间；和范围，它确定将粘贴到“主机”图像中的图像数量。关于后者，论文指出 __“我们需要足够的遮挡才能发生，但又不能太多，因为它们可能会使图像变得过于混乱，这可能不利于学习。”OC&P 的另外两项创新是 针对性粘贴 和 增强实例粘贴.

有针对性的粘贴可确保适当的图像落在目标图像中现有实例附近。在之前的方法中，根据之前的工作，新元素仅被限制在图像的边界内，而不考虑上下文。
在这里插入图片描述

尽管这种有针对性的“粘贴”对于人眼来说是显而易见的，但 OC&P 及其前身都发现，增加视觉真实性并不一定重要，甚至可能是一种负担（请参阅下面的“现实片段”）。

另一方面，增强实例粘贴可确保粘贴的实例不会表现出“独特的外观”，这种“独特的外观”最终可能会被系统以某种方式分类，从而可能导致排除或“特殊处理”，从而阻碍泛化和适用性。增强粘贴可调节视觉因素，例如亮度和清晰度、缩放和旋转以及饱和度等因素。

从新论文的补充材料来看：将 OC&P 添加到现有的识别框架相当简单，并且可以在非常紧密的范围内实现人们的卓越个性化。

此外，OC&P 还监管 最小尺寸 对于任何粘贴的实例。例如，可以从大规模人群场景中提取一个人的图像，然后将其粘贴到另一张图像中，但在这种情况下，所涉及的少量像素不太可能有助于识别。因此，系统根据目标图像的均衡边长比率应用最小比例。

此外，OC&P 还建立了比例感知粘贴，除了寻找与粘贴主题相似的主题外，它还考虑了目标图像中边界框的大小。然而，这并不会产生人们认为合理或现实的合成图像（见下图），而是以在训练过程中有用的方式将语义上相关的元素彼此靠近地组装起来。

3.照片真实性

OC&P 所基于的先前工作以及当前的实现都对任何最终“蒙太奇”图像的真实性或“照片真实性”给予了较低的重视。尽管重要的是最后的组装不要完全陷入达达主义（否则，经过训练的系统在现实世界中的部署永远不会希望遇到它们所训练的场景中的元素），这两项举措都发现“视觉可信度”的显着增加不仅增加了预处理时间，而且这种“现实主义增强”实际上可能会适得其反。

来自新论文的补充材料：具有“随机混合”的增强图像示例。尽管这些场景可能让人产生幻觉，但它们仍然具有相似的主题。尽管遮挡对于人眼来说是不可思议的，但潜在遮挡的性质无法提前知道，并且不可能进行训练 - 因此，这种奇怪的形式“截止”足以迫使经过训练的系统去寻找找出并识别部分目标主体，无需开发复杂的 Photoshop 风格的方法来使场景更加真实。

4.数据与测试

在测试阶段，系统接受了以下方面的培训：人的类 MS COCO 数据集，包含 262,465 张图像中的 64,115 个人类样本。然而，为了获得比 MS COCO 更好质量的掩模，图像也收到了 LVIS 掩码注释。

在这里插入图片描述

LVIS 于 2019 年发布，来自 Facebook 研究，是一个用于大型词汇实例分割的海量数据集。

为了评估增强系统对抗大量被遮挡的人类图像的能力，研究人员将 OC&P 与 OCHuman （被遮挡的人类）基准。

在这里插入图片描述

来自 OCHuman 数据集的示例，该数据集是为了支持 2 年的 Pose2018Seg检测项目而引入的。该计划旨在通过使用人的立场和姿势作为代表其身体的像素的语义分隔符来改进人的语义分割。

由于 OCHuman 基准没有详尽注释，新论文的研究人员仅创建了完全标记的示例的子集，标题为 OCHumanFL。这减少了人用于验证的 2,240 个图像中的 1,113 个实例，以及用于测试的 1,923 个实际图像中的 951 个实例。使用平均精度 (mAP) 作为核心指标，对原始集和新策划的集进行了测试。

为了保持一致性，该架构由以下组成面具R-CNN 具有 ResNet-50 主干和特征金字塔网络，后者在准确性和训练速度之间提供了可接受的折衷。

研究人员已经注意到上游的有害影响 ImageNet 为了避免类似情况下的影响，整个系统在 4 个 NVIDIA V100 GPU 上从头开始训练，训练了 75 个 epoch，遵循 Facebook 2021 版本的初始化参数 Detectron 2.