75、DiffRF: Rendering-Guided 3D Radiance Field Diffusion

news2025/1/16 7:50:01

简介

主页:https://sirwyver.github.io/DiffRF/

在这里插入图片描述
对应用于三维亮度场的概率扩散过程进行去噪。在3D监控和体积渲染的指导下,模型能够无条件地合成高保真3D资产(左)。

蒙面补全的新应用(右),即从不完整的对象中恢复形状和外观的任务(在右上方的椅子上用浅蓝色突出显示),由模型作为条件推理解决,无需特定任务训练

基于去噪扩散概率模型的三维辐射场合成新方法,提出了一个三维去噪模型,该模型直接作用于显式体素网格表示,但是,由于从一组摆拍图像生成的辐射场可能是模糊的,并且包含伪影,因此难以获得真实辐射场样本,通过将去噪公式与渲染损失配对来解决这一挑战,使模型能够学习一个偏向于良好图像质量的偏差先验,而不是试图复制拟合错误.

贡献点:

  • 引入了第一个扩散模型,可以直接在3D辐射场上操作,实现高质量、真实的3D几何和图像合成。
  • 三维亮度场掩模补全的新应用,它可以理解为图像修补在体积域的自然扩展
  • 在无条件和条件设置中展示了令人信服的结果,例如,在具有挑战性的PhotoShape Chairs数据集上,通过改进基于gan的图像质量(FID从27.03提高到25.64)和几何合成(将MMD从5.86提高到4.26)的方法

实现流程

方法由3D对象的生成模型组成,该模型建立在最近最先进的扩散概率模型,通过注入不同尺度的噪声来恢复一个逐渐损坏3D对象的过程,3D对象被表示为辐射场,因此学习的去噪过程允许方法从噪声中生成对象辐射场
在这里插入图片描述
对于从1,…, T均匀采样的时间步长 t,首先根据一个固定的噪声时间表扩散一个初始辐射场 f 0 f_0 f0 。得到的 f t f_t ft 通过一个有时间条件的3D-UNet,给出应用噪声 ε ε ε 的估计值。通过噪声预测损失 L R F L_{RF} LRF 以及预测去噪 f ~ 0 \tilde{f}_0 f~0 上的渲染损失 L R G B L_{RGB} LRGB来指导模型。

NeRF 公式
在这里插入图片描述
在这里插入图片描述

扩散模型

扩散模型原理公式参考

Generation process

去噪过程首先从标准多元正态分布 p ( f T ) : = N ( f T ∣ 0 , I ) p(f_T) :=\Nu(f_T | 0, I) p(fT):=N(fT∣0,I) 中采样状态 f T f_T fT,并通过利用具有学习参数 θ 的高斯分布的反向跃迁概率 p θ ( f t − 1 ∣ f t ) p_θ(f_{t−1}| f_t) pθ(ft1ft) f t f_t ft 中生成状态 f t − 1 f_{t−1} ft1
在这里插入图片描述
生成过程迭代到最终状态 f 0 f_0 f0,它表示由方法生成的3D对象的亮度场,考虑对(3)中高斯分布的均值进行下面的重参数化
在这里插入图片描述
其中 ε θ ( f t , t ) ε_θ(f_t, t) εθ(ft,t) 是神经网络预测的用于破坏 f t − 1 f_{t−1} ft1 的噪声,而 a t a_t at b t b_t bt 是预定义的系数,协方差 Σ t Σ_t Σt 采用预定义值,尽管它可能与数据相关

Diffusion process

扩散过程由离散时间马尔可夫链控制,其状态空间和时间边界与生成过程中提到的相同,但具有预先定义并给出的高斯转移概率
在这里插入图片描述
α t : = 1 − β t , 0 ≤ β t ≤ 1 \alpha_t := 1-\beta_t,0 \leq \beta_t \leq 1 αt:=1βt0βt1

使用 f 0 f_0 f0 推导 f t f_t ft
在这里插入图片描述
α ˉ t : = ∏ i = 1 t α i \bar{\alpha}_t := \prod^t_{i=1}\alpha_i αˉt:=i=1tαi

loss

损失 L R F L_{RF} LRF,用于惩罚不符合数据分布的辐射场的生成

损失 L R G B L_{RGB} LRGB,用于提高生成的辐射场的渲染质量

L R F L_{RF} LRF

从负对数似然(NLL)的变分上界开始推导出模型的训练目标,这个上限需要指定一个替代分布,称之为 q,因为它确实对应于控制扩散过程的分布 q,与生成过程建立了预期的基本联系,数据点 f 0 ∈ F f_0∈F f0F 的NLL可以通过利用 q 得到上界
在这里插入图片描述
其中 f t 1 : t 2 f_{t_1:t_2} ft1:t2 代表( f t 1 f_{t_1} ft1,…, f t 2 f_{t_2} ft2),包围NLL的损耗 L R F ( f 0 ∣ θ ) L_{RF}(f_0|θ) LRF(f0θ) 可以进一步分解为下面的和,直到一个与 θ 无关的常数
在这里插入图片描述
直观来看
在这里插入图片描述
φ ( ε ) : = N ( ε ∣ 0 , I ) φ(ε) := N (ε|0, I) φ(ε):=N(ε∣0,I) 为高斯分布

l R G B l_{RGB} lRGB

用一个额外的 RGB 损失 L R G B ( f 0 ∣ θ ) L_{RGB}(f_0|θ) LRGB(f0θ) 来弥补先前的损失,旨在提高生成的辐射场的渲染质量。事实上,一旦尝试渲染辐射场,在之前的损失中隐含地用于评估生成的辐射场的质量的表示上的欧氏度量并不一定确保没有伪影。

L R G B ( f 0 ∣ θ ) L_{RGB}(f_0|θ) LRGB(f0θ) 定义为与(8)相似的时间特异性项 L R G B t ( f 0 ∣ θ ) L^t_{RGB}(f_0|θ) LRGBt(f0θ) 的和
在这里插入图片描述
给定一个辐射场 f ∈ F f∈F fF和一个视点 v,用R(v, f)表示用公式(1)从视点v 渲染 f 后得到的图像,用 ℓ v ( f , f ′ ) ℓ_v(f, f ') v(f,f) 表示使用辐射场从视点v 渲染图像 f 和 f’ 之间的欧氏距离
在这里插入图片描述
这个想法是比较从数据分布中采样的给定亮度场 f 0 f_0 f0 的渲染,与用 t 扩散步骤损坏的相同亮度场,然后完全去噪

q ( f t ∣ f 0 ) q(f_t|f_0) q(ftf0) 中采样第一个 f t f_t ft,然后从 p θ ( f 0 ∣ f t ) p_θ(f_0|f_t) pθ(f0ft) 中采样 f 0 f_0 f0

L R F t L^t_{RF} LRFt 的定义来看,损失趋向于 ε ≈ ε θ ( f t , t ) ε≈ε_θ(f_t, t) εεθ(ft,t),从中可以得出近 f ~ 0 t ( ε , θ ) : = f 0 + 1 − α ˉ t α ˉ t ( ε − ε θ ( f t , t ) ) \tilde{f}^t_0(ε,θ):= f_0 + \frac{\sqrt{1-\bar{\alpha}_t}}{\sqrt{\bar{\alpha}_t}}(ε - ε_θ(f_t,t)) f~0t(ε,θ):=f0+αˉt 1αˉt (εεθ(ft,t))

在这里插入图片描述
对于视点 v 和 ε   φ ( ε ) ε ~ φ(ε) ε φ(ε),期望是关于先验分布 ψ 的,因为只有当阶跃 t 接近于零时,近似才是合理的,所以引入了一个权重 w t w_t wt,它随着阶跃值的增加而衰减(例如,使用 ω t : = ˉ α ˉ t 2 ω_t:=̄\bar{\alpha}_t^2 ωt:=ˉαˉt2)

Final loss

在这里插入图片描述

部分补全

在这里插入图片描述

为了适应特定的任务,需要训练GANs,而扩散模型可以在测试时有效地适应。利用这一特性来完成掩模辐射场补全的新任务。

将两者结合在掩膜亮度场补全的新任务中:给定一个亮度场和一个3D掩膜,合成一个与非掩膜区域协调的掩膜区域补全,通过逐步引导已知区域的无条件采样过程到输入 f i n f^{in} fin 来执行条件补全

在这里插入图片描述
m 是应用于输入的二进制掩码,⊙表示在体素网格上逐元素的乘法

实验

选取时刻总数为 T = 1000,扩散过程的方差从 β 1 = 0.0015 \beta_1 = 0.0015 β1=0.0015增加到 β T = 0.05 \beta_T = 0.05 βT=0.05 L R G B t L^t_{RGB} LRGBt的权重 ω t : = ˉ α ˉ t 2 ω_t:=̄\bar{\alpha}_t^2 ωt:=ˉαˉt2
在这里插入图片描述
在这里插入图片描述

Limitations

虽然方法在条件和无条件辐射场合成的任务中显示出有希望的结果,但仍然存在一些局限性。与基于gan的方法相比,采样时间明显更长。在这种情况下,探索利用更快的采样方法会很有趣。最后,模型受到训练时间内存限制的最大网格分辨率的约束。这些问题可以通过探索因子化神经场表示来解决。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/169236.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

超实用的百度百科人物词条创建攻略分享,纯干货

自媒体时代,人们越来越有IP意识,打造个人IP就是在为自己创造更多价值。 个人IP的打造是一个提升知名度的过程,怎么才能快速提升?创建一个百度百科词条不失为一个好的选择。 现在用户有问题就会在百度上搜索一下,当用户…

java实现模拟调用接口

本文总结如何用fiddler和postman调试接口,并用java模拟调用接口。fiddler用法当页面点击事件后,在fiddler出现一个请求,单击左侧请求,在右侧的raw的tab标签,出现该请求的详细内容。其实一个请求需要两类参数&#xff0…

Linux常用命令——umask命令

在线Linux命令查询工具(http://www.lzltool.com/LinuxCommand) umask 用来设置限制新建文件权限的掩码 补充说明 umask命令用来设置限制新建文件权限的掩码。当新文件被创建时,其最初的权限由文件创建掩码决定。用户每次注册进入系统时,umask命令都被…

大数据技术架构(组件)——Hive:流程剖析1

1.1、流程剖析大致流程:1、客户端连接到HS2(HiveServer2,目前大多数通过beeline形式连接,Hive Cli模式相对较重,且直接略过授权访问元数据),建立会话2、提交sql,通过Driver进行编译、解析、优化逻辑计划,生…

OCR识别

阿里云和百度云识别,京东智能识别。 图片识别需求 1,拿到一个文件,2,变成InputStream 3,base64编码将流解析下载, 4 调用方法识别 1.身份证 2,行驶证 3,驾驶证 FileUtils file…

Elasticsearch:通过例子快速入门

Elasticsearch 是业界最流行的开源企业搜索引擎,应用广泛。 在我们的手机里的 App 背后的搜索引擎好多都是 Elasticsearch,比如我们熟知的抖音,滴滴,美团,携程,点评,银行 app,保险&a…

ssh反向代理实现内网穿透【亲测可用】

常用内网穿透方式 1、网卡层映射,包括购买公网ip 推荐指数:👍🏻👍🏻👍🏻👍🏻👍🏻。 缺点:主要申请困难。 2、自己搭建内网…

JavaWeb-HTTPTomcatServlet

JavaWeb-HTTP&Tomcat&Servlet 1,Web概述 1.1 Web和JavaWeb的概念 Web是全球广域网,也称为万维网(www),能够通过浏览器访问的网站。 在我们日常的生活中,经常会使用浏览器去访问百度、京东、传智官网等这些网站&#xf…

韩顺平老师的linux基础课(复习笔记)

今天听了韩老师的课程,深受启发啊!!! 卖油翁的“我亦无他,唯手熟尔”,只是手法熟练罢了!! 还有老黄牛的坚持,别人把时间都放在努力上,而我把时间放在选择上&a…

微信小程序分类菜单激活状态跟随列表滚动自动切换

这里主要用到微信小程序提供的SelectorQuery获取页面节点信息实现,组件用的是微信小程序的scroll-view 逻辑就是获取右侧盒子的节点信息,获取右侧子分类的节点信息,当子分类滑动到顶部的之后,则切换左侧分类状态,而且当…

【java】冒泡排序/选择排序/希尔排序

文章目录排序分类/排序算法的分类冒泡排序代码1:代码2(优化代码3(算法优化 --当次排序没有进行交换则退出循环代码4(封装为方法代码5(检测冒泡排序时间复杂度选择排序代码1代码2(优化算法代码3(…

FinalShell的下载安装简单使用

目录 一、下载 二、安装 三、简单使用 一、下载 下载地址:SSH工具 SSH客户端 1、进去后选择第一个 FinalSheel SSH工具,远程桌面加速软件,支持Windows,macOS,Linux,版本3.9.7,更新时间2022.10.26; 2、选择需要的版本下载,我选择的是&…

80. 循环神经网络的简洁实现

虽然从零开始实现循环神经网络对了解循环神经网络的实现方式具有指导意义,但并不方便。 本节将展示如何使用深度学习框架的高级API提供的函数更有效地实现相同的语言模型。 我们仍然从读取时光机器数据集开始。 import torch from torch import nn from torch.nn i…

【SpringCloud13】SpringCloud Config分布式配置中心

1.概述 1.1 分布式系统面临的配置问题 微服务意味着要将单体应用中的业务拆分成一个个子服务,每个服务的粒度相对较小,因此系统中会出现大量的服务。由于每个服务都需要必要的配置信息才能运行,所以一套集中式的、动态的配置管理设施是必不…

PointNext论文解读

论文地址:https://arxiv.org/abs/2206.04670 github地址:GitHub - guochengqian/PointNeXt: [NeurIPS22] PointNeXt: Revisiting PointNet with Improved Training and Scaling Strategies 本文主要提出优化PointNet的两大关键点. 1) 好的训练策略 2…

如何搭建一个专业的知识库

当客户跟你达成合作关系后,需要持续的关系维护,在一定的销售点,定期和客户沟通,据调查,赢得一个新客户的成本可能是保留一个现有客户的5到25倍,作为营销策略,客户服务支持必须满足他们的期望。建…

[BJDCTF2020]Easy MD5(浅谈PHP弱类型hash比较缺陷)

目录 信息收集 构造payload PHP弱类型hash比较缺陷 0e碰撞 数组MD5 总结 信息收集 看题目应该和MD5加密相关 select * from admin where passwordmd5($pass,true) PHP的MD5函数 string必需。规定要计算的字符串。raw 可选。规定十六进制或二进制输出格式: …

2023-01-17 PostgreSQL 并行查询概述

简介: 大数据时代,人们使用数据库系统处理的数据量越来越大,请求越来越复杂,对数据库系统的大数据处理能力和混合负载能力提出更高的要求。PostgreSQL 作为世界上最先进的开源数据库,在大数据处理方面做了很多工作&…

详谈ORB-SLAM2的单目初始化器Initializer

单目初始化器Initializer类,这个类只用于单目初始化,因为这是ORB-SLAM里遗留的一个类,也是祖传代码,双目和RGBD相机只需要一帧就能初始化,因为双目和RGBD相机拍到的点都是有信息的,但是单目相机就不一定了&…

六种方法在云平台和远程桌面中使用Kali

一、说明 本篇主要介绍方便在云服务器,或者以远程桌面(GUI)形式使用kali配置教程,帮助渗透更加方便顺利。 二、方法 2.1 方法一 云服务提供商预装 备注:预算充足,可以首考虑此方法 优点: 云服…