图像修复(Inpainting)技术的前沿模型与数据集资源汇总

news2024/9/20 1:17:04

图片

图像修复(Image Inpainting)是一种计算机视觉技术,旨在填补图像中的缺失区域或去除图像中的不需要部分,使其看起来自然且无明显痕迹。其目标是根据图像的上下文信息和周围像素来推断和重建缺失区域的内容,以生成逼真且一致的图像。

Inpainting 技术的应用广泛,包括但不限于:

  • 图像修复:用于修复老旧或损坏的照片,例如修补划痕、污渍或褪色区域。

  • 视觉内容编辑:在照片/视频编辑中,填充被裁剪或移除的部分,或替换特定区域的内容。;移除不需要的对象或元素,实现无缝过渡。

  • 电影与游戏特效:在视觉特效制作中填充虚拟环境中缺失的视图,提升沉浸感。

  • ......

本文精心汇总了 Inpainting 技术的前沿开源模型与数据集资源,旨在加速开发人员的研究进程,轻松获取所需工具与数据。

LaMa

图片

LaMa(LArge MAsk inpainting)是三星、EPFL、Skotech 提出的一个用于图像修复的深度学习模型,专门用于处理大尺寸遮挡区域的图像修复任务。

LaMa特点:

  • 使用一种新修复网络,具有图像范围感受野的快速傅里叶卷积 fast Fourier convolutions (FFCs)

  • 高感受野感知损失(high receptive field perceptual loss)

  • large training masks,能发挥前两个组件的潜力

此外,LaMa 在远高于训练时所见分辨率(~2k,相较于训练时的 256x256)下表现出更良好的泛化能力,并且即使在具有挑战性的场景(如周期性结构的补全)中也能取得出色的表现。

图片

  • 参考论文:Resolution-robust Large Mask Inpainting with Fourier Convolutions(WACV2022)

  • 论文地址:https://arxiv.org/abs/2109.07161

  • 开源地址:https://github.com/advimman/lama

PowerPaint

图片

PowerPaint 是清华大学(深圳)和上海人工智能实验室共同开放的一个高质量多功能的图像修补模型,可以同时支持插入物体、移除物体、图像扩展、形状可控的物体生成,实现关键是通过针对不同修复任务学习定制的任务提示词来进行。

图片

  • 参考论文:A Task is Worth One Word: Learning with Task Prompts for High-Quality Versatile Image Inpainting(ECCV2024)

  • 论文地址:https://arxiv.org/abs/2312.03594

  • 开源地址:https://github.com/open-mmlab/PowerPaint

IOPaint

IOPaint 是一个免费的、开源的、全自动托管的图像修复/扩展工具,由最先进的 AI 模型提供支持。

在 IOPaint 中,可以使用多种模型来修改图像,包括以下几种修改:

  • Erase(擦除):移除任何不需要的对象、缺陷、水印或人物。还开发了一个 macOS 和 iOS 应用程序 OptiClean,它提供此功能。使用模型为LaMa。

  • Inpainting(修复):对图像的特定部分进行修改,添加新对象或替换图中的任何内容。使用模型PowerPaint。

  • Outpainting(扩展):在图像周围生成新的像素,使其变得更大。使用模型为PowerPaint。

,时长00:07

 

  • 官网地址:https://www.iopaint.com/

  • 开源地址:https://github.com/Sanster/IOPaint

BrushNet

图片

BrushNet 是腾讯和港中大联合开发的一个即插即用(plug-and-play)图像修复方法,采用像素级掩膜图像特征插入的架构设计。在包括图像质量、掩膜区域保留和文本一致性在内的七个关键指标上均优于现有模型。

图片

此外,为了训练和评估基于分割的掩膜修复模型,提出 BrushData 和 BrushBench。具体来说,BrushData 为 Laion-Aesthetic 数据集增加了额外的分割掩膜标注。BrushBench 共包含 600 张图像,每张图像都有人工标注的掩膜和字幕注释。BrushBench 中的图像均匀分布在自然图像和人工图像(如绘画)之间。该数据集在不同类别(包括人类、动物、室内场景和室外场景)之间实现了均衡分布。

图片

  • 参考论文:BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed Dual-Branch Diffusion(ECCV2024)

  • 论文地址:https://arxiv.org/abs/2403.06976

  • 开源地址:https://github.com/TencentARC/BrushNet

  • 数据下载:https://tencentarc.github.io/BrushNet/

MAT

图片

MAT 是港中大、Adobe Inc 等提出的第一个基于 Transformer 的能够直接处理高分辨率图像修复系统。MAT 组件包括:Multi-head Contextual Attention 通过动态掩码指示的有效 Tokens,高效地进行长距离依赖建模。通过改进的 Transformer 模型结构,使得在训练大型掩码图像的修复时更加稳定。此外,还设计了新颖的样式操作模块,以提供多样性图像修复。MAT 在多个基准数据集上包括 Places 和 CelebA-HQ,取得了 SOTA 效果。

图片

  • 参考论文:MAT: Mask-Aware Transformer for Large Hole Image Inpainting(CVPR2022 Best Paper Finalists, Oral)

  • 论文地址:https://arxiv.org/abs/2203.15270

  • 开源地址:https://github.com/fenglinglwb/MAT

CelebA Dataset

CelebA Dataset 是一个专注于人脸图像的数据集,包含 20 多万张名人图像,这些图像涵盖了丰富的人脸表情、姿态和光照条件,以及每张图像有 40 个属性注释。为人脸编辑、人脸修复等任务提供了宝贵的训练资源。

图片

  • 下载地址:https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html

Places2

Places 数据集由麻省理工学院(MIT)发布,包含 1000 多万张图像,包括 400 多个独特的场景类别。该数据集每类包含 5000 到 30000 个训练图像。

该数据集因其广泛的自然场景覆盖和丰富的图像多样性,非常适合用于构建图像修复模型,使模型能够从多种自然场景中学习分布特性。

图片

  • 下载地址1:https://www.kaggle.com/datasets/nickj26/places2-mit-dataset

  • 下载地址2:http://places2.csail.mit.edu/download.html

NVIDIA Irregular Mask Dataset

NVIDIA 提出用部分卷积(partial convolutions)和掩模自动更新代替卷积运算(automatic mask update step)来实现目前最具艺术性的图像修复结果,包括任何形状、大小、位置或距离图像边界任何距离的空白。

图片

另外,还提出一个大型不规则掩膜数据集(Irregular Mask Dataset), 55,116 个掩码用于训练,24,866 个掩码用于测试,图像的尺寸均为 512×512。

  • 参考论文:Image Inpainting for Irregular Holes Using Partial Convolutions(ECCV 2018)

  • 论文地址:https://arxiv.org/abs/1804.07723

  • 下载地址:https://nv-adlr.github.io/publication/partialconv-inpainting


趋动云是面向企业、科研机构和个人 AI 开发者构建的开发和推理训练服务,也是全球首个基于 GPU 算力池化云的服务。

趋动云的使命是连接算力·连接人:

📍通过连接全球算力,趋动云可以为用户提供便宜、好用的 AI 算力。
📍通过为AI算法开发全流程提供优化服务、构建全球开发者项目和数据社区,趋动云可以帮助AI开发者接入丰富的生态,快速实现最佳实践。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2147491.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

实战17-NavBar+Vip布局

NavBar.ets import { PADDING } from ../../constants/size import rvp from ../../utils/resposive/rvIndexComponent export default struct NavBar {StorageProp(topHeight) topHeight: number 0;build() {Row() {Row({ space: rvp(6) }) {Text(请选择地址).fontSize(rvp(1…

Java基础笔记1】Java基础语法

目录 一、Java简介 二、JDK和Java初体验 三、配置环境变量 四、IDEA快捷键 五、Java语法基础 1. 注释 2. 字面量 3. 变量 4. 关键字和标识符 5. 变量详解 a. 数值数据在计算机中的存储​编辑 b. 文本、图片、音频等数据在计算机中的存储 c. 八进制和十六进制 6. 数据类型 a. …

【LabVIEW】事件结构的用法

本篇文章记录我学习LabVIEW的事件结构用法,希望我的分享对你有所帮助! 目录 一、案例说明 1、 LabVIEW实现“YAXBXC的计算” 2、添加事件结构 一、案例说明 在LabVIEW实现“YAXBXC的计算”的基础上,加上事件结构,实现单击一次按…

【读书笔记-《30天自制操作系统》-22】Day23

本篇内容比较简单,集中于显示问题。首先编写了应用程序使用的api_malloc,然后实现了在窗口中画点与画线的API与应用程序。有了窗口显示,还要实现关闭窗口的功能,于是在键盘输入API的基础上实现了按下按键关闭窗口。最后发现用上文…

初学者笔记本电脑玩转大模型系列二:微调谷歌Gemma模型

之前分享了《初学者笔记本电脑玩转大模型系列一:利用ollama跑大模型》,这不,Google发布了Gemma开放模型,同等参数尺寸性能最好的大模型,那么言归正传,如何在笔记本电脑微调Gemma模型呢?我们接下…

阿里云CTO:通义稳居全球最强开源大模型,性能接近GPT-4o

来源:首席数智官 9月19日,在2024杭州云栖大会上,阿里云CTO周靖人表示,阿里云正在围绕AI时代,树立一个AI基础设施的新标准,全面升级从服务器到计算、存储、网络、数据处理、模型训练和推理平台的技术架构体…

Temu应用全球下载量突破7.35亿次!美国占27%,还是主要市场

据了解,随着购物者更多选择Temu作为实惠的在线购物目的地,其月访问量在今年第一季度跃升至5亿次以上,应用下载量也大幅增加。据外媒报道,根据Stocklytics的最新数据,Temu应用程序截至目前的下载量已超过7.35亿次。 最新…

动态线程池(二)

动态线程池 环境搭建 启动Nacos和redis 安装Node-Exporter 安装Prometheus 安装Grafana 源码解析

鸢尾花书实践和知识记录[数学要素3-2乘除]

书的作者 文章目录 算术乘除:先乘除,后加减,括号内先算基本的乘法运算计算阶乘基本除法 向量的乘法:标量乘法,向量内积,逐项积标量乘法向量的内积对于inner和dot的实现方式的探究逐项积dot的计算过程 逐项…

MAC如何获取文件数字签名和进程名称

1、安装需要查看数字签名和进程名称的软件包 2、打开终端命令行(Terminal) 3、查找数字签名 在终端命令行中输入: codesign -dvv 安装的软件路径 2>&1 | grep "Authority=" | head -n 1 | cut -d = -f2”

PDF使用虚拟列表技术做渲染和加载带来的问题

🏆本文收录于《CSDN问答解惑-专业版》专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收…

JavaFX实现视频播放功能

一、前言 最近使用javaFx写了个简单的视频播放功能,可以实现打开本地视频播放。 二、实现 1.使用jdk8自带的javaFx包实现,首先定义一个类VideoPlayer。 代码如下: import javafx.application.Application; import javafx.application.Platf…

LAN8720A-CP-TR-ABC QFN-24 以太网收发器芯片

功能: 高性能收发器:支持10BASE-T和100BASE-TX标准,能够自动协商最佳速度和双工模式。 小尺寸:是业界尺寸最小的解决方案,适合空间受限的应用场景。 低功耗:功耗比现有的Microchip收发器低40%&#x…

【Unity】URP Rendering总结

unity-urp-rendering 介绍 个人学习总结,不定期更新 仓库 Unity版本:2022.3.42 Unity URP渲染管线下相关的渲染demo和总结 1. GPUInstance 1.1 Graphics.DrawMeshInstanced 1.2 Graphics.DrawMeshInstancedIndirect 1.3 MeshRenderer.SetPropertyBlock…

MTK芯片机型的“工程固件” 红米note9 5G版资源预览 写入以及改写参数相关步骤解析

小米机型:小米5 小米5x 米6 米6x 米8 米9 米10系列 米11系列 米12系列 mix mix2 mix2s mix3 max max2 max3 note3 8se 9se cc9系列 米play 平板系列等分享 红米机型:红米note4 红米note4x 红米note5 红米note6 红米note7 红米note8 红米note8pro 红米s2 红米note7pro 红米…

【C++算法】模拟算法

替换所有的问号 题目链接 替换所有的问号https://leetcode.cn/problems/replace-all-s-to-avoid-consecutive-repeating-characters/description/ 算法原理 代码步骤 class Solution { public:string modifyString(string s) {int n s.size();for(int i 0; i < n; i){…

网络药理学:15、草稿暂存区

TCMSP 韦恩图在线网站 https://bioinfogp.cnb.csic.es/tools/venny/index.html String数据库参数详解&#xff1a;https://www.bilibili.com/video/BV1q64y1k7Zf?p16&vd_sourceaed4c634975918b14b7354ec93ce5389 David数据库可以用基因ID或者基因名。 KEGG数据库使用&am…

高效处理NPE!!

相信不少小伙伴已经被java的NPE(Null Pointer Exception)所谓的空指针异常搞的头昏脑涨,有大佬说过“防止 NPE&#xff0c;是程序员的基本修养。”但是修养归修养&#xff0c;也是我们程序员最头疼的问题之一&#xff0c;那么我们今天就要尽可能的利用Java8的新特性 Optional来…

视觉语言大模型模型介绍-CLIP学习

多模态学习领域通过结合图像和文本信息&#xff0c;为各种视觉语言任务提供了强大的支持。图像和文本的结合在人工智能领域具有重要的意义&#xff0c;它使得机器能够更全面地理解人类的交流方式。通过这种结合&#xff0c;模型能够处理包括图像描述、视觉问答、特征提取和图像…

Maya动画基础

Maya动画基础教程&#xff08;完整&#xff09;_哔哩哔哩_bilibili 第一集 动画基础设置 altv播放动画 选择撕下副本 右键---播放预览 第二集 k帧记录物体的空间信息 初始位置清零 删除历史记录 s键key帧 自动记录位置信息 删除帧&#xff0c;按住右键选择delete 按shif…