图像超补全(Outpainting)技术的前沿模型与数据集资源汇总

news2024/9/25 20:39:00

图片

“lmage outpainting”这一概念是由斯坦福大学 CS230 课程的 Mark Sabini 等人提出,相较于图像修复技术,lmage outpainting 更进一步,能够从给定的图像片段中“补全”出缺失的外延部分,以精妙的方式补全画面,从而构建出一个完整且连贯的视觉世界。

另外,所提出的论文Painting Outside the Box: Image Outpainting with GANs在吴恩达的斯坦福大学 CS230 课程中获得了期末 Poster 的第一名。

  • 论文地址:https://arxiv.org/pdf/1808.08483

  • 代码地址:https://github.com/bendangnuksung/Image-OutPainting

本文精心汇总了 Outpainting 技术的前沿开源模型与算法资源,旨在加速开发人员的研究进程,轻松获取所需算法与数据。

PQDiff

图片

PQDiff 方法,用于图像超补全,具有以下创新点:

  • Continuous multiples for image outpainting:PQDiff 能够同时学习图像的位置信息和像素信息。在训练阶段,PQDiff 首先随机裁剪给定图像两次,生成两个视图。然后,PQDiff 通过预先计算的相对位置嵌入(RPE)从一个视图学习另一个视图的内容。由于 RPE 能够表示两个视图之间的连续关系,PQDiff可以实现连续倍数的图像超补全(例如1x、2.25x、3.6x、21.8x)。作者称 PQDiff 是首个实现连续倍数图像超补全的方法,而现有的 SOTA 方法 QueryOTR(Yao等,2022)只能进行离散倍数的超补全。

  • One-step image outpainting:提出一种基于相对位置嵌入与输入子图像块之间的跨注意力机制,帮助 PQDiff 在任意倍数设置下仅通过一步操作即可完成图像超补全。作者称 PQDiff 是首个实现此功能的方法,而现有的(Yao等,2022;Yang等,2019)只能逐步进行图像超补全,极大地限制了采样效率,即生成效率。在2.25x、5x和11.7x的超补全设置下,PQDiff 仅耗费了QueryOTR(Yao等,2022)所需时间的40.6%、20.3%和10.2%。

  • New SOTA performance:在图像超补全的基准测试中(Gao et al., 2023; Yang et al., 2019),实验结果显示,PQDiff 显著超越了QueryOTR(Yao et al., 2022),在Scenery、Building Facades和WikiArts数据集上,PQDiff在11.7倍扩展设置下分别取得了新的最先进FID分数21.512、25.310和36.212。此外,PQDiff在大多数设置下(包括2.25倍、5倍和11.7倍扩展)也取得了新的最先进结果。

图片

  • 参考论文:Continuous-Multiple Image Outpainting in One-Step via Positional Query and A Diffusion-based Approach(ICLR 2024)

  • 论文地址:https://arxiv.org/pdf/2401.15652

  • 开源地址:https://github.com/Sherrylone/PQDiff

QueryOTR

图片

基于 vision-transformer 的图像超补全方法,具有以下创新点:

  • 将 Outpainting 问题重新表述为一个基于补丁的序列到序列自回归问题,并开发了一种新的混合 transformer 编码器-解码器框架——QueryOTR,用于基于查询的图像外推预测,同时最小化来自 CNN 结构的归纳偏差所导致的退化。

  • 提出 Query Expansion 和 Patch Smoothing 模块,解决纯 Transformer 模型中的慢收敛问题,并生成平滑且无缝的逼真外推图像。

  • 与当时及已有的 image outpainting 方法相比,QueryOTR 在one-step 和 multi-step outpainting任务上均达到了SOTA。

图片

  • 参考论文:Outpainting by Queries(ECCV2022)

  • 论文地址:https://arxiv.org/abs/2207.05312

  • 开源地址:https://github.com/Kaiseem/QueryOTR

U-Transformer

图片

此工作是研究一种通用图像超补全问题,旨在全方位地扩展图像中的视觉内容,突破传统方法仅局限于水平方向扩展的局限,实现图像在全方位的无缝延伸与丰富,为图像处理领域带来前所未有的灵活性和广阔的应用前景。

具体创新如下:

  • U-Transformer 是首个基于Transformer的图像超补全框架。Swin transformer 模块能够获取全局特征并保持高分辨率。U 形结构和 TSP 模块能够平滑而真实地增强图像的自我重建能力以及对未知部分的预测,从而提升网络的能力。

  • TSP 模块连接了编码器和解码器,通过多视角 LSTM 网络和自注意力块,传递考虑潜在时间关系和空间关联的不完整潜在特征。此外,TSP 块可调整被遮掩特征图的预测步骤,从而支持生成任意输出分辨率。

  • 创建了三个数据集,

    • Scenery:包含约6,000张图像

    • Building:包含不同风格的复杂建筑结构。训练集中约有16,000张图像,测试集中有1,500张图像。

    • Wikiart:包含45,503张训练图像和19,492张测试图像

图片

  • 参考论文:Generalised Image Outpainting with U-Transformer

  • 论文地址:https://arxiv.org/abs/2201.11403

  • 开源地址:https://github.com/PengleiGao/UTransformer

In&Out

图片

In&Out 是通过 inverting(逆转)GAN 的方式来解决 Outpainting 问题。首先训练一个生成器来合成以其位置为条件的 micro-patches 。在此基础上,提出一个 inversion(逆映射)过程,寻找多个 latent codes(隐藏码)恢复可用区域以及预测 outpainting(补全)区域。

图片

  • 参考论文:In&Out : Diverse Image Outpainting via GAN Inversion

  • 论文地址:https://arxiv.org/abs/2104.00675

  • 开源地址:https://github.com/yccyenchicheng/InOut

  • 项目地址:https://yccyenchicheng.github.io/InOut/

  • 数据集:https://drive.google.com/file/d/1kYd0qHaMRoqFCsZA50uvNpsyWXya0eOj/view

Wide-Context Semantic Image Extrapolation

图片

网络结构

Wide-Context Semantic Image Extrapolation 是一个基于 PyTorch 的开源项目,旨在通过深度学习技术实现图像的补全(outpainting),可以在图像边界之外扩展语义敏感的物体(如面部、身体)或场景。

图片

  • 参考论文:Wide-Context Semantic Image Extrapolation(CVPR 2019)

  • 论文地址:https://openaccess.thecvf.com/content_CVPR_2019/papers/Wang_Wide-Context_Semantic_Image_Extrapolation_CVPR_2019_paper.pdf

  • 开源地址:https://github.com/dvlab-research/outpainting_srn


✎往 期 推 荐

图像修复(Inpainting)技术的前沿模型与数据集资源汇总

趋动云是面向企业、科研机构和个人 AI 开发者构建的开发和推理训练服务,也是全球首个基于 GPU 算力池化云的服务。

趋动云的使命是连接算力 · 连接人:

📍通过连接全球算力,趋动云可以为用户提供便宜、好用的 AI 算力。
📍通过为AI算法开发全流程提供优化服务、构建全球开发者项目和数据社区,趋动云可以帮助AI开发者接入丰富的生态,快速实现最佳实践。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2164734.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于实验的低光照图像增强方法综述

这篇论文的标题是《An Experiment-Based Review of Low-Light Image Enhancement Methods》,作者包括Wencheng Wang、Xiaojin Wu、Xiaohui Yuan 和 Zairui Gao。论文主要回顾了过去几十年中发展的低光照图像增强技术的主要技术。 以下是论文的详细内容概述&#xf…

Flutter中很有意思的Future

最近在使用Flutter来开发完全免费开放的E6开发平台对应的手机app客户端。 由于Flutter基于Dart语言开发,而Dart具有一个非常有趣的特性:Future,如果一个方法如果被定义为Future,意味着它可以被异步调用,这一特性对页面…

用于多模态MRI重建的具有空间对齐的深度展开网络|文献速递--基于多模态-半监督深度学习的病理学诊断与病灶分割

Title 题目 Deep unfolding network with spatial alignment for multi-modal MRI reconstruction 用于多模态MRI重建的具有空间对齐的深度展开网络 01 文献速递介绍 磁共振成像(MRI)因其无创性、高分辨率和显著的软组织对比度,已成为广…

算法记录——链表

2.链表 2.1判断是否是回文链表 1.方法一:利用栈反转链表 /*** Definition for singly-linked list.* public class ListNode {* int val;* ListNode next;* ListNode() {}* ListNode(int val) { this.val val; }* ListNode(int val, ListNode…

IO(输入输出流)

1.IO a.介绍 i.IO是指Input和Output,即输入和输出,以内存为中心: 1.Input是指从外部读入数据到内存。 2.Output是指把数据从内存输出到外部。 ii.IO流是一种顺序读写数据的模式,它的特点是单向流动。数据类似自…

【AIGC】ChatGPT提示词解析:如何生成爆款标题、节日热点文案与完美文字排版

博客主页: [小ᶻZ࿆] 本文专栏: AIGC | ChatGPT 文章目录 💯前言💯情绪化的吸睛爆款标题提示词使用方法 💯紧跟节日热点选题文案提示词使用方法 💯高效文字排版技巧提示词使用方法 💯小结 &#x1f4af…

python-获取浏览器静态/动态素材

f12浏览器中 1:静态爬取 2.动态资源图片获取。斗鱼 3获取视频-抖音 一长串,最后一个http就是视频

Unity-物理系统-碰撞检测-物理材质

物理材质的作用:改变碰撞效果 因为碰撞的过程是相互的,所以在碰撞双方都要加相同的物理材质才能实现效果 物理材质创建 参数

【FPGA】IO电平标准

【FPGA】IO 电平标准 1 LVCMOS(低压CMOS)1.1 TTL、CMOS、LVTTL、LVCMOS逻辑电平定义1.2 ZYNQ-7000 PS、PL IO Level示例 2 LVTTL(低压TTL)3 HSTL(高速TTL)4 SSTL(高速)5 LVDS&#x…

Pytest测试实战|Conftest.py详解

Pytest测试实战 本文章主要详细地阐述下Pytest测试框架中Conftest.py特性。 Conftest.py实战 Fixture强大的特性在实际的工作中是非常有价值并且是实用的,这样可以根据需求,在对应的测试模块中编写Fixture函数来达到测试需求的目的。但是这样也产生了…

【面经合集】Java基础精选面试题(三)

最近,小编整理了不少Java领域面试题,如有需要,点击关注,回复【面试题】,即可下载。 31 、说说List,Set,Map三者的区别? List、Set、Map是三种不同数据结构的集合,它们的主要区别体现在存储方式…

Linux命令:用来列出当前系统内核加载的所有模块的工具lsmod详解

目录 一、概述 二、 使用方法 三、 输出格式 四、 示例 五、 相关命令 六、 高级用法 1、结合管道符 | 和 grep 命令 2、结合其他命令使用 七、应用和注意 一、概述 lsmod 是一个 Linux 命令行工具,用来列出当前内核加载的所有模块。这个命令对于了解哪些模…

分布式计算技术是什么?在数据集成值得作用?

数据是现代科技技术的基础,面对爆炸性数据的增长,要求计算能力要求更高、数据整合和处理更有效,如何应对数据集成带来的挑战?本文将探讨分布式计算技术在数据集成中的优化作用。 一 分布式计算技术。 定义:分布式计算…

《机器学习by周志华》学习笔记-神经网络-02感知机与多层网络

1、感知机 1.1、概念 感知机(Perceptron)由2层神经元模型组织,如下图所示: 「输入层神经元」接收外界输入信号后,传递给「输出层神经元 」 「输出层神经元」是「M-P神经元」,亦称「阈值逻辑单元(threshold logic unit)」 1.2、作用 「感知机」能够容易的实现逻辑「与…

初识前端监控

以下笔记来源:黑马程序员 背景 思考一下,我们的项目代码在上线之后是不是就不用管了呢? 并不是,作为前端开发工程师,我们是直接跟用户打交道的,一个应用的用户留存率跟这个应用的稳定性有很大的关系&…

NXP i.MX8系列平台开发讲解 - 4.2.1 摄像头篇(一) - 认识摄像头模组

专栏文章目录传送门:返回专栏目录 Hi, 我是你们的老朋友,主要专注于嵌入式软件开发,有兴趣不要忘记点击关注【码思途远】 文章目录 目录 1. 引言 2. 嵌入式系统中的CCM应用 3. 摄像头模组的基本组成 4. 摄像头模组的封装工艺 5. 摄像头…

GORM入门

ORM框架 什么是ORM ORM优缺点 GORM介绍 Github GORM 中文官方网站 安装 go get -u github.com/jinzhu/gorm连接数据库 连接不同的数据库都需要导入对应数据的驱动程序,GORM已经包装了一些驱动程序,只需要按如下方式导入需要的数据库驱动即可&#…

Python 方法传参详解

参数 位置参数 和关键字参数 data{error: str(e)}:传递给了 __init__ 方法中的 data 参数,表示需要返回给客户端的 JSON 数据。status500:通过 **kwargs 传递给了父类 HttpResponse,并设置了响应状态码为 500。 位置参数 和关键字…

redis Redis-Cluster常用命令与Redis性能监控

起因:随着项目的进一步推广,数据量的增大,直接访问mysql数据库获取数据所使用的时间越来越长,为解决当前主要矛盾,决定引入redis非关系型数据库作为缓存层,使得数据并不能直接命中数据库,减少访…

重生之我在代码随想录刷算法第十三天 | 110.平衡二叉树、257. 二叉树的所有路径、404.左叶子之和、222.完全二叉树的节点个数

参考文献链接:代码随想录 本人代码是Java版本的,如有别的版本需要请上代码随想录网站查看。 110.平衡二叉树 力扣题目链接 解题思路 这道题目刚看到以为和二叉树的最大深度差不多,上来写了一堆迭代求深度的代码结果发现不对劲。 看了题…