论文解读:Inpaint Anything: Segment Anything Meets Image Inpainting

news2024/12/26 9:23:24

 论文:https://arxiv.org/pdf/2304.06790.pdf

 代码:https://github.com/geekyutao/Inpaint-Anything

 图1:Inpaint Anything示意图。用户可以通过点击图像中的任何对象来选择它。借助强大的视觉模型,例如SAM[7]、LaMa [13]和稳定扩散(SD)[11],Inpaint Anything能够平滑地移除对象(即,移除任何物体)。此外,通过输入文本提示,用户可以填充任何所需内容以填充对象(即,填充任何内容),或者任意替换其背景(即,替换任何背景)。

1 摘要

      现代图像修复系统在掩膜选择和填充孔洞方面经常遇到困难。基于Segment-Anything模型(SAM),我们首次尝试了无需掩膜的图像修复,并提出了一种名为"Inpaint Anything(IA)"的新范式,即"点击和填充"。

        IA的核心思想是结合不同模型的优势,构建一个非常强大且用户友好的流程来解决修复相关的问题。IA支持三个主要功能:

     (i)移除任何物体:用户可以点击一个物体,IA将移除它并用上下文平滑填补"空洞";

    (ii)填充任何内容:在移除某些物体后,用户可以提供基于文本的提示给IA,然后它将通过驱动稳定扩散(Stable Diffusion)[11]等AIGC模型来填充空洞与相应的生成内容;

    (iii)替换任何背景:借助IA,用户可以选择保留点击选择的物体并用新生成的场景替换其余背景。

2 动机和贡献

2.1 为什么我们需要Inpaint Anything?

• 最先进的图像修复方法,如LaMa [13]、Repaint [10]、MAT [8]、ZITS [4]等,在修复大区域和处理复杂重复结构方面取得了巨大进展。它们可以成功地对高分辨率图像进行修复,并且通常可以很好地推广到其他图像。然而,它们通常需要每个掩膜的精细注释,这对于训练和推断是必不可少的。

• Segment Anything Model (SAM) [7]是一个强大的分割基础模型,可以根据输入提示(如点或框)生成高质量的对象遮罩,并且可以为图像中的所有对象生成全面准确的遮罩。然而,它们的遮罩分割预测尚未充分探索。

• 此外,现有的修复方法只能使用上下文来填充已移除的区域。AIGC模型为创作开辟了新的机会,这有潜力满足大量需求,并帮助人们生成所需的内容。

• 因此,通过结合SAM [7]、最先进的图像修复器LaMa[13]和AI生成的内容(AIGC)模型[11]的优势,我们提供了一个强大且用户友好的流程,用于解决更多通用的与修复相关的问题,例如对象移除、新内容填充和背景替换。

2.2 Inpaint Anything的功能是什么?

• 使用SAM + SOTA修复器移除任意对象: 通过IA,用户可以通过简单地点击对象来轻松地从界面中删除特定对象。此外,IA还提供了一个选项,让用户可以使用上下文数据填充生成的"空洞"。针对此需求,我们结合了SAM和一些最先进的修复器(如LaMa)的优势。通过腐蚀和膨胀的手动细化,由SAM生成的掩膜预测作为修复模型的输入,为要擦除和填充的对象区域提供清晰的指示。

• 使用SAM + AIGC模型填充或替换任意内容:

(1) 在移除对象后,IA提供了两种选项来填充生成的"空洞",即使用上下文数据或"新内容"。具体而言,我们利用类似Stable Diffusion [11]的强大AI生成内容(AIGC)模型通过文本提示来生成新对象。例如,用户可以使用"dog"这个词或者"一只可爱的狗,坐在长凳上"这样的句子来生成一只新的狗来填充空洞。

(2) 此外,用户还可以选择在保留点击选择的对象的同时,用新生成的场景替换剩余的背景。IA支持多种方式来提示AIGC模型,例如使用不同的图像作为视觉提示或使用简短的标题作为文本提示。例如,用户可以保留图像中的狗,但将原来的室内背景替换为室外背景。

3 方法

3.1. 初步工作 Segment Anything模型(SAM)

Segment Anything [7]是一种基于大型视觉语料库(SA-1B)训练的基于ViT的CV模型。SAM在各种场景中展示了有前景的分割能力,以及基础模型在计算机视觉领域的巨大潜力。这是通往视觉人工通用智能的开创性一步,SAM曾被誉为"CV版ChatGPT"

SOTA修复器。 图像修复作为一个不适定的逆问题,在计算机视觉和图像处理领域得到了广泛的研究。其目标是用具有视觉合理结构和纹理的内容替换损坏图像的缺失区域。在Inpaint Anything(IA)中,

我们调研了一种简单的单阶段方法LaMa [13]用于基于掩膜的修复,该方法通过结合快速傅立叶卷积(FFC)[1]、感知损失[6]和激进的训练掩膜生成策略,在生成重复性视觉结构方面表现出色。 

AIGC模型ChatGPT 1和其他生成AI(GAI)技术都属于人工智能生成内容(AIGC)的范畴,涉及通过AI模型创建数字内容,例如图像、音乐和自然语言。它被视为一种新型的内容创作方式,并在各种内容生成方面展现了最先进的性能[11, 12]。在我们的IA工作中,我们直接使用强大的AIGC模型Stable Diffusion [11],基于文本提示来在空洞中生成所需的内容。

3. 2 Inpaint Anything

我们提出的Inpaint Anything (IA)的原理是将现成的基础模型组合起来,以解决广泛的图像修复问题。通过组合各种基础模型的优势,IA能够生成高质量的修复图像。具体而言,我们的IA包括三种方案,即Remove Anything、Fill Anything和Replace Anything,分别用于移除、填充和替换任意内容。

3.2.1 移除任何物体

Remove Anything专注于通过允许用户从图像中消除任何物体来解决物体移除问题[2, 3, 5],同时确保生成的图像在视觉上仍然合理。

Remove Anything由三个步骤组成:点击、分割和移除,如图1所示。

在第一步中,用户通过点击选择他们想要从图像中移除的物体。

接下来,使用基础分割模型,如Segment Anything [7],根据点击位置自动分割物体并创建遮罩。

最后,使用先进的修复模型,如LaMa [13],使用遮罩来填补被移除物体留下的空洞。

由于图像中不再存在该物体,修复模型会用背景信息填充空洞。

需要注意的是,在整个过程中,用户只需要点击他们想要从图像中移除的物体。

3.2.2 填充任意内容

Fill Anything允许用户将图像中的任何物体填充为他们想要的任何内容。

该工具包括四个步骤:点击、分割、文本提示和生成

Fill Anything的前两个步骤与Remove Anything相同。

在第三步中,用户输入指示他们想要用什么内容填充物体空洞的文本提示

最后,采用强大的AIGC模型,如Stable Diffusion [11],基于文本提示修复模型在空洞中生成所需的内容。

3.2.3 替换任意内容

Replace Anything能够将任何物体替换为任何背景。Replace Anything的过程与Fill Anything类似,但在这种情况下,提示AIGC模型生成与指定物体外部相一致的背景。

3.2.4 实践

将基础模型组合解决任务可能会遇到不兼容或不适合的问题。我们应该考虑中间处理,以实现模型和任务之间更好的协调。在本研究中,针对图像修复场景,我们总结了一些良好的组合实践如下:

• 膨胀操作的重要性。

我们观察到SAM的分割结果(即物体遮罩)可能包含不连续和非平滑的边界,或者物体区域内部存在空洞。这些问题对于有效地移除或填充物体构成了挑战。因此,我们使用膨胀操作来优化遮罩。此外,对于填充物体,大遮罩为AIGC模型提供更大的创作空间,有利于与用户意图的"对齐"。因此,在Fill Anything中采用了大的膨胀操作。

• 保真度的重要性。

大多数最先进的AIGC模型(如Stable Diffusion)需要图像具有固定的分辨率,通常为512×512。简单地将图像调整到这个分辨率可能会导致保真度的降低,从而对最终的修复结果产生不利影响。因此,采取保留原始图像质量的措施是必要的,例如使用裁剪技术或在调整大小时保持图像的宽高比。

• 提示的重要性。

我们的研究表明,文本提示对AIGC模型有重要影响。然而,我们观察到在文本提示修复场景中,简单的提示(例如"长凳上的玩具熊"或"墙上的毕加索画作")通常能产生满意的结果。相比之下,更长、更复杂的提示可能会产生令人印象深刻的结果,但它们往往不太用户友好。

4 实验

        我们在Inpaint Anything中对Remove Anything、Fill Anything和Replace Anything进行了评估,分别在移除对象、填充对象和替换背景的三种情况下进行。我们从COCO数据集[9]、LaMa测试集[13]和我们手机拍摄的照片中收集了测试图像。结果如图2、图3和图4所示。实验结果表明,所提出的Inpaint Anything具有通用性和鲁棒性,能够有效地对具有多样内容、分辨率和宽高比的图像进行修复。

 

5 结论 

Inpaint Anything (IA)是一款多功能工具,结合了Remove Anything、Fill Anything和Replace Anything的功能。

基于分割模型、SOTA修复模型和AIGC模型,IA能够实现无需遮罩的图像修复,并支持用户友好的操作方式,即“点击删除,提示填充”。

此外,IA可以处理各种不同的高质量输入图像,包括任意宽高比和2K分辨率。我们构建了这个有趣的项目,展示了充分利用现有的大规模AI模型的强大能力,并展示了“可组合AI”的潜力。

我们也非常愿意帮助每个人分享和推广基于我们的Inpaint Anything (IA)的新项目。在未来,我们将进一步开发Inpaint Anything (IA),以支持更多的实用功能,如细粒度图像抠像、编辑等,并将其应用于更多现实应用中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/757566.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

我叫李明,我是一名开发人员

目录 一、这是一个故事 二、不屈不挠的李明 三、化解于无形 四、总结 一、这是一个故事 这个故事的主人公是一个年轻的程序员,他叫做李明。李明是一名技术过硬、工作认真负责的程序员,他的工作是开发一款新的软件产品。这款软件是一款在线购物平…

【Java基础】第四章 Object 类应用

系列文章目录 [Java基础] 第一章 String类应用及分析 [Java基础] 第二章 数组应用及源码分析 [Java基础] 第三章 StringBuffer 和 StringBuilder 类应用及源码分析 [Java基础] 第四章 Object 类应用 文章目录 系列文章目录前言一、如何使用Object?1.1、显式继承1.2…

c++内存映射文件

概念 将一个文件直接映射到进程的进程空间中(“映射”就是建立一种对应关系,这里指硬盘上文件的位置与进程逻辑地址空间中一块相同区域之间一 一对应,这种关系纯属是逻辑上的概念,物理上是不存在的),这样可以通过内存指针用读写内…

Web-登录功能实现(含JWT令牌)

登录功能 这个登陆功能先不返回JWT令牌 登陆会返回JWT令牌 一会在登陆验证时讲解JWT令牌(返回的data就是它) 登录校验 概述 就是你比如复制一个url 用一个未曾登陆对应url系统的浏览器访问 他会先进入登陆页面 登陆校验就是实现这个功能 简而言之…

基于EasyExcel的单元格合并自定义算法处理

基于EasyExcel导出Excel后,通过对合并单元格的简单规则配置,实现如下图所示的单元格合并效果: 效果截图 原表格数据如下: 通过配置单元格合并规则后,生成的合并后的表格如下: 注:其中第三列&a…

Android Studio连接安卓手机

1. 创建项目 2. 下载Google USB Driver 点击右上角红框的【SDK Manager】->【SDK Tools】。 也可以在 【tools】->【SDK Manager】->【SDK Tools】下进入。 点击Google USB Driver,下载后点ok。 3. 环境变量 右键【我的电脑】->【高级系统设置】-&g…

基于微信小程序的高校新生自助报道系统设计与实现(Java+spring boot+MySQL+小程序)

获取源码或者论文请私信博主 演示视频: 基于微信小程序的高校新生自助报道系统设计与实现(Javaspring bootMySQL微信小程序) 使用技术: 前端:html css javascript jQuery ajax thymeleaf 微信小程序 后端&#xff1…

123、仿真-基于51单片机的电流控制仿真系统设计(Proteus仿真+程序+原理图+参考论文+配套资料等)

方案选择 单片机的选择 方案一:STM32系列单片机控制,该型号单片机为LQFP44封装,内部资源足够用于本次设计。STM32F103系列芯片最高工作频率可达72MHZ,在存储器的01等等待周期仿真时可达到1.25Mip/MHZ(Dhrystone2.1)。内部128k字节…

java报错- 类文件具有错误的版本 61.0, 应为 52.0 请删除该文件或确保该文件位于正确的类路径子目录中。

SpringBoot使用了3.0或者3.0以上,因为Spring官方发布从Spring6以及SprinBoot3.0开始最低支持JDK17,所以仅需将SpringBoot版本降低为3.0以下即可。

ES6类-继承-Symbol-模版字符串

目录 类 继承 ES5 如何继承 ES6继承 Symbol 用途 可以产生唯一的值,独一无二的值 解决命名冲突 getOwnPropertySymbols() 作为全局注册表 缓存 Symbol.for() 消除魔术字符串 模版字符串 类 在javascript语言中,生成实例对象使用构造函数&#xf…

数据库基本操作-----数据库用户管理和授权

目录 一、数据库用户管理 1.新建用户 2.查看用户信息 3.重命名用户 4.删除用户 ​编辑5.修改当前登录用户密码 6.修改其他用户密码 7.忘记 root 密码的解决办法 (1)修…

Redis数据类型 — List

List 列表是简单的字符串列表,按照插入顺序排序,可以从头部或尾部向 List 列表添加元素。 List内部实现 List 类型的底层数据结构是由双向链表或压缩列表实现的: 如果列表的元素个数小于 512 个(默认值,可由 list-m…

详解Single-Shot Alignment Network (S2A-Net) 基于遥感图像的特征对齐旋转目标检测

引言 目标检测:把图像中的物体使用方框标记起来,不同类别物体应使用不同颜色 目标检测其实是寻找物体边界框(bounding box)回归问题(regression)和对物体分类问题(classification)的统一 遥感目标检测:普通的目标检测是日常生活中的横向的图…

2.4 线性表的插入删除

1. 链表的插入删除 1. 单链表插入删除 图1. 单链表插入结点 图2. 单链表删除结点 #include <iostream>typedef struct LNode {int data;struct LNode* next; }LNode;/// <summary> /// 判断链表是否非空 /// </summary> /// <param name"p">…

常见关于数组的函数的介绍

关于字符串函数的介绍 求字符串长度 strlen函数 用于计算字符串的长度的函数&#xff0c;需要使用的库函数是string.h 函数声明 size_t strlen(const char *str)函数模拟实现 #include<stdio.h> #include<assert.h> size_t my_strlen(const char* arr) {asse…

review回文子串

给你一个字符串 s&#xff0c;请你将 s 分割成一些子串&#xff0c;使每个子串都是 回文串 。返回 s 所有可能的分割方案。 回文串 是正着读和反着读都一样的字符串。 class Solution {List<List<String>> lists new ArrayList<>(); // 用于存储所有可能…

阿里瓴羊One推出背后,零售企业迎数字化新解

配图来自Canva可画 近年来随着数字经济的高速发展&#xff0c;各式各样的SaaS应用服务更是层出不穷&#xff0c;但本质上SaaS大多局限于单一业务流层面&#xff0c;对用户核心关切的增长问题等则没有提供更好的解法。在SaaS赛道日渐拥挤、企业增长焦虑愈演愈烈之下&#xff0c…

Midjourney助力交互设计师设计网站主页

Midjourney的一大核心优势是提供创意设计&#xff0c;这个功能也可以用在网站主页设计上&#xff0c;使用Midjourney prompt 应尽量简单&#xff0c;只需要以"web design for..." or "modern web design for..."开头即可 比如设计一个通用SAAS服务的初创企…

单片机第一季:零基础5——LED点阵

1&#xff0c;第八章-LED点阵 如何驱动LED点阵&#xff1a; (1)单片机端口直接驱动。要驱动8*8的点阵需要2个IO端口&#xff08;16个IO口&#xff09;、要驱动16*16的点阵需要4个IO端口&#xff08;32个IO口&#xff09;。 (2)使用串转并移位锁存器驱动。要驱动16*16点阵只需要…

Linux 系统编程-开发环境(二)

目录 7 压缩包管理 7.1 tar 7.2 rar 7.3 zip 8 进程管理 8.1 who 8.2 ps 8.3 jobs 8.4 fg 8.5 bg 8.6 kill 8.7 env 8.8 top 9 用户管理 9.1 创建用户 9.2 设置用户组 9.3 设置密码 9.4 切换用户 9.5 root用户 9.6 删除用户 10 网络管理 10.1 i…