Enhancing Diffusion——利用三维透视几何约束增强扩散模型

news2024/11/17 16:05:05

概述

透视在艺术中被广泛研究,但现代高质量图像生成方法却缺乏透视精度。新的生成模型引入了几何约束,通过训练过程提高透视精度。这样可以生成更逼真的图像,并提高相关深度估计模型的性能。

最近的图像生成技术使研究人员能够创造性地进行文本到图像的合成。这些模型可以根据各种文字提示生成绘画和照片,但在满足物理限制方面能力有限。手绘艺术强调透视几何,最近的生成模型也通过考虑透视精度来改善逼真度。缺乏物理约束的潜在扩散模型引入了新的损失函数,从而提高了生成图像的物理精确度和逼真度。透视法的准确性对场景的一致性和逼真度有很大影响,与普通模型相比,使用透视损失的拟议模型生成的图像更加逼真。使用这种新损失生成的图像也有利于下游任务的准确性,这表明高级模型的性能得到了提高。


论文地址:https://arxiv.org/abs/2312.00944

相关研究

生成合成图像

由于高维空间和多样性,图像生成是一项具有挑战性的任务。对抗生成网络(GANs)和变异自动编码器(VAEs)是常见的方法;GANs 可以生成高质量图像,但难以训练,而且可能出现模式崩溃。扩散模型最近受到关注,它通过逆转扩散过程生成高质量图像。这种方法与文本引导相结合,改进了逆过程。然而,由于许多扩散模型依赖于先验分布和文本编码器,而先验分布和文本编码器并不能保证物理准确性,因此本研究在生成图像时增加了三维几何约束,以提高图像质量。

研究的具体任务是边缘到图像的合成问题,其中扩散模型以文本提示和边缘图为条件。研究的重点是在无法获取边缘图的情况下生成透视精确的图像,并力求用一般和少量的输入生成高精度的图像。

计算机视觉中的消失点

消失点广泛应用于计算机视觉领域,在相机校准、场景理解、合成场景生成和 SLAM 技术中发挥着重要作用。除此以外,透视技术还被用于计算摄影中,用于编辑焦距和相机位置,以及减少广角图像的失真。这些技术的发展有助于提高图像生成器的逼真度,并使下游任务受益。

单目深度估算

单目深度估计通常需要图像深度配对数据,从早期研究到现在,马尔可夫随机场、卷积神经场和变换器等架构一直被采用。有监督的模型很难收集数据,因此通常使用合成数据集,但存在模拟与真实之间的差距。人们已经尝试了一些方法来解决这一问题,但除了单目深度估计这一常见任务外,同样的方法也可应用于深度完成任务,因为数据格式是相同的。

视角 背景

线性视角

透视在艺术和摄影中尤为重要,是指在三维空间中准确呈现物体的技术。线条透视是其中最常见的一种,它利用了三维空间中平行线汇聚到图像平面上一个点的特性。通常,一幅图画或图像有一到三个消失点,它们决定了图画或图像的风格和视角。地平线是一条水平线,位于观察者眼睛的高度,通常至少有一个消失点位于这条线上。图 2 直观地说明了这些原则。

图像的透视一致性

要验证图像的透视并不容易,因为图像的消失点是三维空间中平行线的交点。对于包含平行线集的图像,可以通过扩展这些平行线并检查所有线对是否相交于同一点来验证透视的一致性。

・自然图像

由于针孔摄像机的透视投影原理,所有不平行的平行线都会汇聚到同一个消失点。

・合成图片

深度学习生成的合成图像与自然图像不同,有时会忽略透视和物理特征。这是因为模型的损失函数主要侧重于图像质量和提示,图 1(a) 就是一个例子。

提高生成图像的透视精度

为提高生成图像的透视精度,可使用[Rombach et al. 2022b] 和[Pinkney 2022]中的代码对模型进行微调。这包括使用传统的损失函数进行训练,并添加新的项和提供地面真实消失点的特殊数据集。

潜在扩散模型在潜在空间中执行正向和反向扩散过程。模型引入了编码器和解码器,负责潜空间的转换。训练损耗的工作原理是从图像的消失点开始扫描一条线,然后计算图像在该线上的梯度总和。潜在扩散模型还有一个透视损失项,用于添加透视先验分布。

如图 3 所示,这种损耗的工作原理是在图像上扫过一条从消失点开始延伸的线,然后计算图像在该线上的梯度总和。该算法的伪代码如下图所示。

新的损失函数可以测量图像中沿线区域的 "边缘相似 "程度。这被称为透视损失,有助于提高图像重建的质量。该损失基于图像中的消失点集合,并在每次随机选择的迭代中进行计算。它在 PyTorch 中实现,是端到端可微分的。

试验

潜在扩散模型训练

该模型是在 LAION 5B 数据库(包含 58.5 亿个图像标题对)上训练出来的。 在本文中,该模型被称为基线模型。

・数据集

利用 HoliCity 数据集对基线模型进行了调整。该数据集包含 50,078 幅在伦敦拍摄的实际图像和每幅图像的消失点信息;MiDaS 用于预测每幅图像的深度,然后将其作为潜在扩散模型的条件。使用 BLIP 字幕模型为每张图像生成的字幕用于调整。

・更多培训信息

微调模型代码基于[Rombach et al. 2022b],原始代码修改自[Pinkney 2022]。对基线模型的损失函数进行了更新和训练,图像分辨率为 512 × 512,学习率为 1e-6,𝜆 = 0.01。使用 4 个 RTX3090 GPU 进行训练耗时约 12 小时,透视损失达到饱和。除了文本到图像的生成,该模型还执行修复图像中缺失区域的任务,应用所提出的约束条件,并使用 LPIPS 指标评估结果。 LPIPS 使用深度神经网络来测量两幅图像之间的感知相似性。

训练单目深度估计模型

在新的实验中,对来自 DPT-Hybrid 和 PixelFormer 的单目深度估算模型进行了评估,这些模型来自基线模型和微调模型。这些模型最初是在 KITTI 数据集上训练的,并使用 SYNTHIA-AL 和 Virtual KITTI 2 数据集的深度图生成合成图像。生成的图像附有使用 BLIP 生成的标题,深度估计模型仅在 vKITTI 生成的图像上进行训练。在训练中,DPT Hybrid 使用了 19500 个步骤,批量大小为 16,学习率为 5e-6;PixelFormer 使用了 20800 个步骤,批量大小为 8,学习率为 4e-6。这意味着,"全部增强 "指的是增强模型生成的 155,000 幅图像,而 "全部基准 "指的是基准模型生成的全部图像。

・测试装置

深度估计模型在常用的 KITTI 数据集上进行训练,并在 KITTI 和 DIODE 户外子集上对其性能进行评估。

・衡量标准

采用[Ranftl 等人,2021 年]的深度估计指标来评估模型。这些指标包括绝对相对误差、平方相对误差、均方根误差、对数均方根误差和阈值𝜏下的阈值精度。

人类主观测试方法

研究人员通过 Prolific 网站上的人类主观测试,评估了微调模型生成图像的逼真度。参与者完成了一项排名任务,并比较了三组基线图像、消融图像和增强图像的逼真度。这些图像取自 HoliCity 数据集,并根据深度图生成;50 名参与者随机对 80 组图像进行评分,并在 90 分钟内完成任务。

消融研究

研究人员进行了两项消融研究,以评估所提出的约束条件的效果。首先,在同一数据集上对基线模型进行微调,并在无损失更新的条件下进行训练(无损失/消融模型)。第二,通过将消失点作为一个条件来训练无损失模型。两个模型使用相同的数据集,并训练单眼深度估计模型。在人类主观测试和无损失模型的修复任务中都进行了消融研究。

实验结果

微调潜在扩散模型

图 5 展示了微调模型生成的一些代表性图像。图中显示了用于微调漫反射模型的深度图,以及基线模型和增强模型生成的图像。基线模型生成的图像显示了影响透视精度的曲线和扭曲,尤其是在难以准确生成高频细节的区域。在图 8 中,在基线模型和增强模型的图像上绘制了透视线。

来自模型的图像显示出更一致的透视线和准确的消失点,失真更少。基线图像的失真度更高,似乎偏离了自然图像的分布。虽然增强型模型在城市景观数据集上进行了微调,但在生成其他自然、动物和室内场景的图像时没有发现任何限制。代表性图像如图 6 所示。

此外,还使用 FID 指标对这些图像进行定量评估[Heusel 等人,2017 年]。 本文的模型优于基线模型和无损模型。

在 HoliCity 验证集和景观数据集上,使用定性结果(图 7)和定量结果(表 4)评估了三种模型(基线、消融和扩展)的恢复性能。 LPIPS 指标用于衡量感知相似度,数值越低,修复效果越好。

从表 4 中可以看出,增强模型的性能始终优于基线模型和消融模型,在综合数据集中,增强模型比基线模型提高了 7.1%,比消融模型提高了 3.6%。

估计单眼深度

为了评估微调深度估计模型的性能,我们采用了定性和定量测量方法。 定性比较如图 9 所示。

・DPT 混合型

在 KITTI 测试集和 DIODE Outdoor 测试集子集上,使用生成的 vKITTI 数据集对原始 DPT 混合模型进行微调后的模型性能优于原始 DPT 混合模型。使用基线模型生成的图像进行微调的模型的性能也优于所有 DIODE Outdoor 指标(SqRel 除外)。特别是在 DIODE Outdoor 数据集上,原始 DPT 混合模型在五个指标上都优于基准模型,但在没有指标的情况下优于作者的模型。与基准模型相比,作者的模型在 RMSE 和 SqRel 方面分别提高了 7.03% 和 19.3%,在 SqRel 和 SiLog 方面分别提高了 3.4% 和 2.2%。

图 9 显示了原始 DPT 混合模型与根据增强型扩散模型生成的图像进行微调的模型之间的比较。每组图像都包含输入图像、地面实况深度图以及原始模型和增强模型的误差图,同时还显示了每个深度预测的 RMSE 值。作者的模型能更一致地捕捉高频细节,RMSE 值也更低。

・像素前置

使用生成的 vKITTI 数据集和完整数据集对基本 PixelFormer 进行微调,并在 DIODE 户外测试集上进行评估。

使用扩散模型生成的图像对基础 PixelFormer 进行微调,并使用 vKITTI 数据集和完整数据集生成的图像对其进行评估后,微调后的模型在所有指标上都优于原始模型和基于其他训练数据的模型。特别是,与原始模型相比,在完整数据集上训练的模型在 SiLog 方面提高了 11.6%,与基线模型相比提高了 2.4%。

人类主观测试

主观测试表明,增强模型生成的图像有 69.6% 比基线模型更逼真,有 67.5% 比消融模型更逼真,平均等级也优于基线模型和消融模型。结果表明,建议的几何约束有助于提高生成图像的逼真度。

消融研究

对所提出的约束条件进行的评估显示,在对增强模型和消融模型进行比较的整个过程中,边缘和边角的改进是一致的。 此外,还进行了定量比较,证实增强型扩散模型在某些深度估计模型中取得了改进(见图 10)。

基于所提限制条件的实验表明,DPT-Hybrid 和 PixelFormer 增强模型优于根据训练数据微调的模型和无损失模型。特别是,RMSE 提高了 16.11%,人类主观测试的真实度也有所提高。这突出表明,所提出的约束条件有助于提高模型的性能,而不是对新图像进行微调。

表 5 显示,增强模型生成的非建筑场景图像在 FID 指标上优于基线模型和无损模型。较低的 FID 分数表明生成图像的自然度和质量有所提高。

总结

限制

这种方法的主要局限性在于需要一个包含消失点的数据集来微调扩散模型,而且生成速度较慢。此外,尽管主观测试表明效果有所改善,但实际图像细节和物理特性的准确性仍然不足。

社会影响

生成模型的改进也带来了一些问题。随着合成图像逼真度的提高,恶意使用和滥用工具进行识别的风险也随之增加。增加新的限制条件应能减轻这些担忧,减少滥用扩散模型的可能性。

未来举措

目前的研究主要集中在 3D 几何图形的透视上,但其他物理特性也会影响生成图像的真实性。例如,光照和阴影的一致性以及物理定律的一致性。未来的研究有望探索这些限制因素,尊重物理定律,提高逼真度和下游任务的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1637566.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

TCP/IP和HTTP协议

TCP/IP OSI 七层模型在提出时的出发点是基于标准化的考虑,而没有考虑到具体的市场需求,使得该模型结构复杂,部分功能冗余,因而完全实现 OSI 参考模型的系统不多。而 TCP/IP 参考模型直接面向市场需求,实现起来也比较…

App一键直达,Xinstall助力提升用户体验

在这个移动互联网时代,App已经成为了我们日常生活中不可或缺的一部分。然而,每当我们在浏览器或社交平台上看到一个有趣的App推荐,点击下载后却往往要经历一系列繁琐的跳转和确认过程,这无疑大大降低了用户体验。那么,…

工业三废数据集(工业烟粉尘排放量、工业二氧化硫排放量、工业废水排放量)2006-2021年

01、数据介绍 工业三废是指工业生产过程中排出的废气、废水和废渣 工业二氧化硫排放量指企业在燃料燃烧和生产工艺过程中排入大气的二氧化硫数量。 工业烟粉尘排放量是指企业在生产工艺过程中排放的烟尘和粉尘等颗粒物重量。 工业废水排放量是指企业在生产过程中产生的废水…

GPG的使用

这里写自定义目录标题 安装加密程序生成加密密钥怎么备份自己的密钥就可以使用公钥加密邮件信息了 安装加密程序 下载gpg4win: https://www.gpg4win.org/index.html 免费的,如果使用的是苹果电脑,使用https://gpgtools.org/。 如果是linux&a…

Go Web 开发基础【用户登录、注册、验证】

前言 这篇文章主要是学习怎么用 Go 语言(Gin)开发Web程序,前端太弱了,得好好补补课,完了再来更新。 1、环境准备 新建项目,生成 go.mod 文件: 出现报错:go: modules disabled by G…

【webrtc】RemoteAudioSource的创建线程

m98 代码&#xff1a;I:\webrtc m98_yjf\src\pc\rtp_transmission_manager.cc RtpTransmissionManager::CreateReceiver 在信令线程创建receiver receiver 是&#xff1a; rtc::scoped_refptr<RtpReceiverProxyWithInternal<RtpReceiverInternal>>receiver;其实际…

uniapp微信小程序开发踩坑日记:由于图表数据渲染不出来,我第一次在项目中用watch函数监听数据变化

一、发现问题 在我们团队自己开发的微信小程序中&#xff0c;引入了Echarts图表库 然后突然有一天&#xff0c;后端队友反应图表渲染有问题。后面我去试了一下&#xff0c;确实20次里面必有一次数据渲染不出来 断定代码没问题&#xff0c;于是我们将其鉴定为玄学 二、问题原因…

笔记本无线网络共享给有线使用

1.鼠标右击wifi图标选择打开网络和Internet设置 2.选择WLAN项&#xff0c;点击进入更改适配器选项 3.进入到以下界面&#xff0c;右击以太网选择启动&#xff08;不确定的话可以在设备管理器查看网卡&#xff09; 4.右击WLAN选项&#xff0c;点击属性 5.点击共享&#xff0…

日期类的实现,const成员

目录 一&#xff1a;日期类实现 二&#xff1a;const成员 三&#xff1a;取地址及const取地址操作符重载 一&#xff1a;日期类实现 //头文件#include <iostream> using namespace std;class Date {friend ostream& operator<<(ostream& out, const Dat…

AI大模型探索之路-训练篇9:大语言模型Transformer库-Pipeline组件实践

系列篇章&#x1f4a5; AI大模型探索之路-训练篇1&#xff1a;大语言模型微调基础认知 AI大模型探索之路-训练篇2&#xff1a;大语言模型预训练基础认知 AI大模型探索之路-训练篇3&#xff1a;大语言模型全景解读 AI大模型探索之路-训练篇4&#xff1a;大语言模型训练数据集概…

大连宇都环境 | 成都5月水科技大会暨技术装备成果展览会

中华环保联合会水环境治理专业委员会 秘书处 王小雅 13718793867 —— 展位号&#xff1a;A09 —— 一、企业介绍 大连宇都环境成立于2002年&#xff0c;公司20年 MBBR填料产品及工艺技术&#xff0c;&#xff0c;构建了研发、制造、设计、工程、运营链式服务能力&#xff…

CGAL 点云数据生成DSM、DTM、等高线和数据分类

原文链接 CGAL 点云数据生成DSM、DTM、等高线和数据分类 - 知乎 在GIS应用软件中使用的许多传感器(如激光雷达)都会产生密集的点云。这类应用软件通常利用更高级的数据结构&#xff1a;如&#xff1a;不规则三角格网 (TIN)是生成数字高程模型 (DEM) 的基础&#xff0c;也可以利…

docker系列8:容器卷挂载(上)

传送门 docker系列1&#xff1a;docker安装 docker系列2&#xff1a;阿里云镜像加速器 docker系列3&#xff1a;docker镜像基本命令 docker系列4&#xff1a;docker容器基本命令 docker系列5&#xff1a;docker安装nginx docker系列6&#xff1a;docker安装redis docker系…

1.初探MPI——MPI简介

系列文章目录 初探MPI——MPI简介初探MPI——点对点通信初探MPI——集体通信 文章目录 系列文章目录前言一、MPI_COMM_WORLD, size and ranks二、Hello WorldInstructions 总结参考 前言 Message Passing Interface (MPI) 是一种标准化的消息传递库接口规范。该标准是消息传递…

结构体的对齐原则

一、C语言结构体对齐步骤: 1.每个成员对齐 2.总体对齐 二、C语言结构体对齐规则: 1.结构体第一个成员存放在相较于结构体变量起始位置的偏移量为0的位置 2.从第二个成员开始&#xff0c;往后的每一个成员都要对齐到某个对齐数的整数倍处。 对齐数&#xff1a;结构体成员自身的…

C 408—《数据结构》图、查找、排序专题考点(含解析)

目录 Δ前言 六、图 6.1 图的基本概念 6.2 图的存储及基本操作 6.3 图的遍历 6.4 图的应用 七、查找 7.2 顺序查找和折半查找 7.3 树型查找 7.4 B树和B树 7.5 散列表 八、排序 8.2 插入排序 8.3 交换排序 8.4 选择排序 8.5 归并排序和基数排序 8.6 各种内部排序算法的比较及…

33.基础乐理-原调、移调、转调、离调

原调、移调、转调、离调分为两类&#xff1a;原调是一个定义、一个名词&#xff0c;移调、转调、离调可以称之为是技术或者操作&#xff0c;是一种动词。也就是分为名词和动词两类。 原调&#xff1a; 一种音乐原本的调&#xff0c;就是它的原调&#xff0c;或者说按照简谱的调…

Codeforces Round 941 (Div. 2) (A~D)

1966A - Card Exchange 题意&#xff1a; 思路&#xff1a;手玩一下发现当存在某个数字个数超过k个&#xff0c;那么就能一直操作下去。那么答案就是k-1. void solve() {cin >> n >> m;map<int,int>mp;int maxx 1;for(int i 0 ; i < n ; i ){int x;c…

【热闻速递】Google 裁撤 Python研发团队

&#x1f308;个人主页: 鑫宝Code &#x1f525;热门专栏: 闲话杂谈&#xff5c; 炫酷HTML | JavaScript基础 ​&#x1f4ab;个人格言: "如无必要&#xff0c;勿增实体" 文章目录 【&#x1f525;热闻速递】Google 裁撤 Python研发团队引入研究结论 【&#x1f5…

Android AOSP探索之Ubantu下Toolbox的安装

文章目录 概述安装Toolbox解决运行的问题 概述 由于最近需要进军android的framework,所以需要工具的支持&#xff0c;之前听说江湖上都流传source insight,我去弄了一个破解版&#xff0c;功能确实强大&#xff0c;但是作为多年android开发的我习惯使用android studio。虽然使…