计算机视觉——人像的分割与无缝融合

news2024/10/18 14:19:24

1.概述

在这里插入图片描述
新加坡现代汽车集团创新中心的一篇新论文提供了一种在计算机视觉中分离“融合”人像的方法——在这些情况下,对象识别框架发现一个人在某种程度上与另一个人“太接近”(例如例如“拥抱”动作或“站在后面”的姿势),并且无法区分所代表的两个人,将他们与一个人或一个实体混淆。

在这里插入图片描述

二合一,但这在语义分割中并不是一件好事。在这里,我们看到论文的新系统在复杂且具有挑战性的图像中对相互交织的人进行个性化方面取得了最先进的结果。

这是近年来引起研究界广泛关注的一个值得注意的问题。 解决这个问题,不需要明显但通常无法承受的超大规模、以人为主导的自定义标签的费用,最终可以改善文本到图像系统中的人像图片个性化,例如 Stable Diffusion,它经常将人们“融化”在一起,而提示的姿势需要多人彼此靠近。
在这里插入图片描述

像DALL-E 2和Stable Diffusion这样的文本到图像模型(在上面都有提到)在表现非常接近彼此的人时会遇到困难。

尽管 DALL-E 2 和 Stable Diffusion 等生成模型(就闭源 DALL-E 2 而言)目前并未使用语义分割或对象识别,但这些怪诞的人类混合体无法目前可以通过应用此类上游方法来治愈——因为最先进的对象识别库和资源在解开人们的困扰方面并不比 CLIP基于潜在扩散模型的工作流程。

为了解决这个问题, 论文 《人类不需要标记更多的人:用于遮挡人体实例分割的遮挡复制和粘贴》 采用并改进了最近的半合成数据“剪切和粘贴”方法,以在任务中取得新的 SOTA 领先优势,即使是针对最具挑战性的源材料:

在这里插入图片描述

新的遮挡复制和粘贴方法目前在该领域处于领先地位,甚至与以前的框架和方法相比,这些框架和方法以复杂和更专用的方式应对挑战,例如专门针对遮挡进行建模。

2. 剪切

修改后的方法名《遮挡复制和粘贴》 源自 2021 年 简单的复制粘贴 由 Google Research 领导的论文,该论文提出,在不同源训练图像中叠加提取的对象和人物可以提高图像识别系统离散化图像中发现的每个实例的能力:

在这里插入图片描述

从 2021 年 Google Research主导的论文“简单复制粘贴是一种用于实例分割的强大数据增强方法”中,我们看到一张照片中的元素“迁移”到其他照片,目的是训练更好的图像识别模型。

新版本在这种自动和算法的“重新粘贴”中添加了限制和参数,根据几个关键因素,将该过程类比为一个图像“篮子”,其中充满了“转移”到其他图像的潜在候选者。

在这里插入图片描述

OC&P 的概念工作流程。

2.控制元素

这些限制因素包括 可能性 发生剪切和粘贴,这确保该过程不会一直发生,这将实现“饱和”效果,从而破坏数据增强; 这 图像数量 篮子在任何时候都会有,其中大量的“段”可能会改善实例的多样性,但会增加预处理时间; 和 范围,它确定将粘贴到“主机”图像中的图像数量。关于后者,论文指出 __“我们需要足够的遮挡才能发生,但又不能太多,因为它们可能会使图像变得过于混乱,这可能不利于学习。”OC&P 的另外两项创新是 针对性粘贴增强实例粘贴.

有针对性的粘贴可确保适当的图像落在目标图像中现有实例附近。 在之前的方法中,根据之前的工作,新元素仅被限制在图像的边界内,而不考虑上下文。
在这里插入图片描述

尽管这种有针对性的“粘贴”对于人眼来说是显而易见的,但 OC&P 及其前身都发现,增加视觉真实性并不一定重要,甚至可能是一种负担(请参阅下面的“现实片段”)。

另一方面,增强实例粘贴可确保粘贴的实例不会表现出“独特的外观”,这种“独特的外观”最终可能会被系统以某种方式分类,从而可能导致排除或“特殊处理”,从而阻碍泛化和适用性。 增强粘贴可调节视觉因素,例如亮度和清晰度、缩放和旋转以及饱和度等因素。

从新论文的补充材料来看:将 OC&P 添加到现有的识别框架相当简单,并且可以在非常紧密的范围内实现人们的卓越个性化。

此外,OC&P 还监管 最小尺寸 对于任何粘贴的实例。 例如,可以从大规模人群场景中提取一个人的图像,然后将其粘贴到另一张图像中,但在这种情况下,所涉及的少量像素不太可能有助于识别。 因此,系统根据目标图像的均衡边长比率应用最小比例。

此外,OC&P 还建立了比例感知粘贴,除了寻找与粘贴主题相似的主题外,它还考虑了目标图像中边界框的大小。 然而,这并不会产生人们认为合理或现实的合成图像(见下图),而是以在训练过程中有用的方式将语义上相关的元素彼此靠近地组装起来。

3.照片真实性

OC&P 所基于的先前工作以及当前的实现都对任何最终“蒙太奇”图像的真实性或“照片真实性”给予了较低的重视。 尽管重要的是最后的组装不要完全陷入 达达主义 (否则,经过训练的系统在现实世界中的部署永远不会希望遇到它们所训练的场景中的元素),这两项举措都发现“视觉可信度”的显着增加不仅增加了预处理时间,而且这种“现实主义增强”实际上可能会适得其反。

来自新论文的补充材料:具有“随机混合”的增强图像示例。 尽管这些场景可能让人产生幻觉,但它们仍然具有相似的主题。 尽管遮挡对于人眼来说是不可思议的,但潜在遮挡的性质无法提前知道,并且不可能进行训练 - 因此,这种奇怪的形式“截止”足以迫使经过训练的系统去寻找找出并识别部分目标主体,无需开发复杂的 Photoshop 风格的方法来使场景更加真实。

4.数据与测试

在测试阶段,系统接受了以下方面的培训: 的类 MS COCO 数据集,包含 262,465 张图像中的 64,115 个人类样本。 然而,为了获得比 MS COCO 更好质量的掩模,图像也收到了 LVIS 掩码注释。

在这里插入图片描述

LVIS 于 2019 年发布,来自 Facebook 研究,是一个用于大型词汇实例分割的海量数据集。

为了评估增强系统对抗大量被遮挡的人类图像的能力,研究人员将 OC&P 与 OCHuman (被遮挡的人类)基准。

在这里插入图片描述

来自 OCHuman 数据集的示例,该数据集是为了支持 2 年的 Pose2018Seg检测项目而引入的。该计划旨在通过使用人的立场和姿势作为代表其身体的像素的语义分隔符来改进人的语义分割。

由于 OCHuman 基准没有详尽注释,新论文的研究人员仅创建了完全标记的示例的子集,标题为 OCHumanFL。 这减少了 用于验证的 2,240 个图像中的 1,113 个实例,以及用于测试的 1,923 个实际图像中的 951 个实例。 使用平均精度 (mAP) 作为核心指标,对原始集和新策划的集进行了测试。

为了保持一致性,该架构由以下组成 面具R-CNN 具有 ResNet-50 主干和 特征金字塔 网络,后者在准确性和训练速度之间提供了可接受的折衷。

研究人员已经注意到上游的有害影响 ImageNet 为了避免类似情况下的影响,整个系统在 4 个 NVIDIA V100 GPU 上从头开始训练,训练了 75 个 epoch,遵循 Facebook 2021 版本的初始化参数 Detectron 2.

总结

除了上述结果之外,基线结果还针对 MM检测 (及其三个相关模型)的测试表明 OC&P 在从复杂的姿势中识别出人类的能力方面具有明显的领先优势。
在这里插入图片描述

除了表现出色之外 位置分段 和 姿势2段,也许这篇论文最突出的成就之一是该系统可以非常普遍地应用于现有框架,包括那些在试验中与之对抗的框架(参见第一个结果框中的有/无比较,靠近文章的开头)文章)。

论文的结论是:

“我们方法的一个主要优点是它可以轻松应用于任何模型或其他以模型为中心的改进。 鉴于深度学习领域发展的速度,拥有与训练的各个其他方面具有高度互操作性的方法对每个人都有利。 我们将在未来的工作中将其与以模型为中心的改进相结合,以有效地解决被遮挡的人物实例分割问题。

改进文本到图像合成的潜力

主要作者 Evan Ling 在给我们的一封电子邮件*中观察到,OC&P 的主要好处是它可以保留原始面具标签,并在新颖的背景下“免费”从中获取新的价值,即它们曾经存在过的图像。粘贴到.

尽管人类的语义分割似乎与稳定扩散等模型在个体化人(而不是像经常做的那样“将他们混合在一起”)方面的困难密切相关,但语义标签文化可能对噩梦般的人类产生任何影响渲染出来的SD和DALL-E 2经常输出是非常非常远的上游。

数十亿 莱昂5B 填充稳定扩散生成能力的子集图像不包含对象级标签,例如边界框和实例蒙版,即使从图像和数据库内容组成渲染的 CLIP 架构可能在某些时候从此类实例化中受益; 相反,LAION 图像被标记为“免费”,因为它们的标签源自元数据和环境说明等,当图像从网络抓取到数据集中时,这些标签与图像相关联。

“但除此之外,”林告诉我们。 “在文本到图像生成模型训练期间可以使用类似于我们的 OC&P 的某种增强功能。 但我认为增强训练图像的真实性可能会成为一个问题。

“在我们的工作中,我们表明监督实例分割通常不需要‘完美’的真实感,但我不太确定文本到图像生成模型训练是否可以得出相同的结论(特别是当它们的输出预计将非常现实)。 在这种情况下,在“完善”增强图像的真实感方面可能需要做更多的工作。

剪辑是 已经被使用 作为语义分割的一种可能的多模态工具,表明改进的人识别和个性化系统(例如 OC&P)最终可以开发成系统内过滤器或分类器,它们会任意拒绝“融合”和扭曲的人类表示——这是一项很难实现的任务目前使用稳定扩散,因为它理解错误位置的能力有限(如果它有这样的能力,它可能一开始就不会犯错误)。

在这里插入图片描述

这只是目前使用 OpenAI 的 CLIP 框架(DALL-E 2 和 Stable Diffusion 的核心)进行语义分割的众多项目之一

“另一个问题是,”林建议道。 “在训练过程中是否会简单地向这些生成模型提供被遮挡的人类图像,而没有补充模型架构设计来缓解“人类融合”问题? 这可能是一个很难立即回答的问题。 看看我们如何在文本到图像生成模型训练期间注入某种实例级指导(通过实例级标签,如实例掩码)肯定会很有趣。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2217835.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

从零实现数据结构:堆的实现和简单堆排序

事先说明&#xff0c;这里采用的都是小堆。下面是代码中的小堆示意图 这里向大家分享一个常见数据结构可视化的网址&#xff1a;Data Structure Visualization (usfca.edu) 声明部分heap.h&#xff1a; #define _CRT_SECURE_NO_WARNINGS #include <stdio.h> #include &…

Turtle画树丛

Turtle画树丛&#xff0c;50棵树&#xff0c;左侧的树向左倾斜&#xff0c;右侧的树向右倾斜。 完整代码如下&#xff1a; import turtle import randomdef draw_tree(pos,hd,angle,len,init_len,level): t.penup()t.goto(pos)t.pendown()t.setheading(hd)if pos[0]<0:t…

基于C++实现(控制台)职工信息管理系统

高级程序设计实验报告 一、实验内容 设计一个职工信息管理案例&#xff0c;实现不同类别职工的工资数据。职工的种类包括&#xff1a;正式职工和临时工。定义一个基本的职工类&#xff0c;基本信息包括&#xff1a;编号、姓名、性别、年龄、家庭住址、基本职务工资。派生出正…

当前python文件所在位置的上级文件夹的路径表示法:..的等价表示法os.pardir

【小白从小学Python、C、Java】 【考研初试复试毕业设计】 【Python基础AI数据分析】 当前python文件 所在位置的上级文件夹 的路径表示法&#xff1a;.. 的等价表示法 os.pardir [太阳]选择题 下列说法中正确的是? import os parent_dir os.pardir print("【显示】…

Axure重要元件三——中继器表单制作

亲爱的小伙伴&#xff0c;在您浏览之前&#xff0c;烦请关注一下&#xff0c;在此深表感谢&#xff01; 本节课&#xff1a;中继器表单制作 课程内容&#xff1a;利用中继器制作表单 应用场景&#xff1a;台账、表单 案例展示&#xff1a; 步骤一&#xff1a;建立一个背景区…

【WPF】04 Http消息处理类

这里引入微软官方提供的HttpClient类来实现我们的目的。 首先&#xff0c;介绍一下官方HttpClient类的内容。 HttpClient 类 定义 命名空间: System.Net.Http 程序集: System.Net.Http.dll Source: HttpClient.cs 提供一个类&#xff0c;用于从 URI 标识的资源发送 HTTP 请…

探索性数据分析 (EDA) 简介

文章目录 一、介绍二、探索性数据分析 (EDA)三、探索性数据分析的类型3.1 单变量分析3.2 双变量分析3.3 多元分析 四、理解 EDA五、结论 一、介绍 探索性数据分析是研究或理解数据并提取洞察数据集以识别数据模式或主要特征的过程。EDA 通常分为两种方法&#xff0c;即图形分析…

Spring Boot 整合 RocketMQ 之顺序消息

前言&#xff1a; 上一篇我们分享了 Spring Boot 整合 RocketMQ 完成普通消息发送的过程&#xff0c;本篇我们来分享一下 RocketMQ 顺序消息的发送。 RocketMQ 系列文章传送门 RocketMQ 的介绍及核心概念讲解 Spring Boot 整合 RocketMQ 之普通消息 Spring Boot 整合 Rock…

大数据-178 Elasticsearch Query - Java API 索引操作 文档操作

点一下关注吧&#xff01;&#xff01;&#xff01;非常感谢&#xff01;&#xff01;持续更新&#xff01;&#xff01;&#xff01; 目前已经更新到了&#xff1a; Hadoop&#xff08;已更完&#xff09;HDFS&#xff08;已更完&#xff09;MapReduce&#xff08;已更完&am…

芯片设计企业ERP软件如何选择更好

在芯片设计这一高科技领域&#xff0c;高效的企业管理成为推动创新与市场响应速度的关键。ERP(企业资源计划)软件作为企业管理的核心工具&#xff0c;其选择直接关系到企业的运营效率与竞争力。那么&#xff0c;芯片设计企业在面对琳琅满目的ERP软件时&#xff0c;如何做出更优…

【HTML + CSS 魔法秀】打造惊艳 3D 旋转卡片

HTML结构 box 类是整个组件的容器。item-wrap 类是每个旋转卡片的包装器&#xff0c;每个都有一个内联样式–i&#xff0c;用于控制动画的延迟。item类是实际的卡片内容&#xff0c;包含一个图片。 <template><div class"box"><div class"item…

Axure横向菜单高级交互

亲爱的小伙伴&#xff0c;在您浏览之前&#xff0c;烦请关注一下&#xff0c;在此深表感谢&#xff01; 课程主题&#xff1a;横向菜单高级交互 主要内容&#xff1a;横向菜单左右拖动、选中效果 应用场景&#xff1a;app横向菜单、pc后台动态区域 案例展示&#xff1a; 演…

ThreadLocal源码详解

目录 Thread、ThreadLocalMap 、ThreadLocal关系 ThreadLocal中的get、Set方法 ThreadLocal 内存泄露问题 Thread、ThreadLocalMap 、ThreadLocal关系 从源码可以看出&#xff1a;Thread类中有成员变量ThreadLocalMap&#xff0c;ThreadLocalMap类中有成员变量Entry[]数组&a…

Spring Cache Caffeine 高性能缓存库

​ Caffeine 背景 Caffeine是一个高性能的Java缓存库&#xff0c;它基于Guava Cache进行了增强&#xff0c;提供了更加出色的缓存体验。Caffeine的主要特点包括&#xff1a; 高性能&#xff1a;Caffeine使用了Java 8最新的StampedLock乐观锁技术&#xff0c;极大地提高了缓存…

buffer/cache内存优化_posix_fadvise_主动释放读缓存cache

1.问题现象 1.htop free命令发现系统 buffer/cache 内存占用高 free -h total used free shared buff/cache available Mem: 61Gi 15Gi 569Mi 1.7Gi 45Gi 43Gi Swap: 30Gi 0.0Ki 30Gi cat /proc/meminfo or grep -E "Buff|Cache" /proc/meminfo Buffers: 370568 kB …

Linux 进程终止和进程等待

目录 0.前言 1. 进程终止 1.1 进程退出的场景 1.2 进程常见退出方法 1.2.1 正常退出 1.2.2 异常退出 2. 进程等待 2.1 进程等待的重要性 2.2 进程等待的方法 2.2.1 wait() 方法 2.2.2 waitpid() 方法 2.3 获取子进程 status 2.4 阻塞等待和非阻塞等待 2.4.1 阻塞等待 2.4.2 非阻…

拼三角问题

欢迎来到杀马特的主页&#xff1a;羑悻的小杀马特.-CSDN博客 目录 一题目&#xff1a; 二思路&#xff1a; 三解答代码&#xff1a; 一题目&#xff1a; 题目链接&#xff1a; 登录—专业IT笔试面试备考平台_牛客网 二思路&#xff1a; 思路&#xff1a;首先明白能组成三角形…

php的echo和print输出语句⑥

在 PHP 中有两个基本的输出方式&#xff1a; echo 和 print。 echo 和 print 区别: echo : 可以输出一个或多个字符串 print : 只允许输出一个字符串。 提示&#xff1a;echo 输出的速度比 print 快&#xff0c; echo 没有返回值&#xff0c;print有返回值1。 <?php …

【赵渝强老师】Oracle的联机重做日志文件与数据写入过程

在Oracle数据库中&#xff0c;一个数据库可以有多个联机重做日志文件&#xff0c;它记录了数据库的变化。例如&#xff0c;当Oracle数据库产生异常时&#xff0c;导致对数据的改变没有及时写入到数据文件中。这时Oracle数据库就会根据联机重做日志文件中的信息来获得数据库的变…

Submariner 服务更新同步测试

测试服务更新同步问题 在集群1 部署 nginx1服务&#xff0c;导出服务&#xff0c;分配的虚拟 IP 为 100.1.255.253 在其他集群检测 serviceimport &#xff0c;可以检测到 nginx1 服务对应的 serviceimport 正常情况下的 serviceexport 如果删除 service 或者 删除 serviceexp…