简介

主页：https://sirwyver.github.io/DiffRF/

在这里插入图片描述
对应用于三维亮度场的概率扩散过程进行去噪。在3D监控和体积渲染的指导下，模型能够无条件地合成高保真3D资产(左)。

蒙面补全的新应用(右)，即从不完整的对象中恢复形状和外观的任务(在右上方的椅子上用浅蓝色突出显示)，由模型作为条件推理解决，无需特定任务训练

基于去噪扩散概率模型的三维辐射场合成新方法，提出了一个三维去噪模型，该模型直接作用于显式体素网格表示，但是，由于从一组摆拍图像生成的辐射场可能是模糊的，并且包含伪影，因此难以获得真实辐射场样本，通过将去噪公式与渲染损失配对来解决这一挑战，使模型能够学习一个偏向于良好图像质量的偏差先验，而不是试图复制拟合错误.

贡献点：

引入了第一个扩散模型，可以直接在3D辐射场上操作，实现高质量、真实的3D几何和图像合成。
三维亮度场掩模补全的新应用，它可以理解为图像修补在体积域的自然扩展
在无条件和条件设置中展示了令人信服的结果，例如，在具有挑战性的PhotoShape Chairs数据集上，通过改进基于gan的图像质量(FID从27.03提高到25.64)和几何合成(将MMD从5.86提高到4.26)的方法

实现流程

方法由3D对象的生成模型组成，该模型建立在最近最先进的扩散概率模型，通过注入不同尺度的噪声来恢复一个逐渐损坏3D对象的过程，3D对象被表示为辐射场，因此学习的去噪过程允许方法从噪声中生成对象辐射场
在这里插入图片描述
对于从1，…， T均匀采样的时间步长 t，首先根据一个固定的噪声时间表扩散一个初始辐射场 $f_0$ 。得到的 $f_t$ 通过一个有时间条件的3D-UNet，给出应用噪声 $ε$ 的估计值。通过噪声预测损失 $L_{RF}$ 以及预测去噪 $\tilde{f}_0$ 上的渲染损失 $L_{RGB}$ 来指导模型。

NeRF 公式
在这里插入图片描述

扩散模型

扩散模型原理公式参考

Generation process

去噪过程首先从标准多元正态分布 $p(f_T) :=\Nu(f_T | 0, I)$ 中采样状态 $f_T$ ，并通过利用具有学习参数 θ 的高斯分布的反向跃迁概率 $p_θ(f_{t−1}| f_t)$ 从 $f_t$ 中生成状态 $f_{t−1}$
在这里插入图片描述
生成过程迭代到最终状态 $f_0$ ，它表示由方法生成的3D对象的亮度场，考虑对(3)中高斯分布的均值进行下面的重参数化

其中 $ε_θ(f_t, t)$ 是神经网络预测的用于破坏 $f_{t−1}$ 的噪声，而 $a_t$ 和 $b_t$ 是预定义的系数，协方差 $Σ_t$ 采用预定义值，尽管它可能与数据相关

Diffusion process

扩散过程由离散时间马尔可夫链控制，其状态空间和时间边界与生成过程中提到的相同，但具有预先定义并给出的高斯转移概率
在这里插入图片描述
$\alpha_t := 1-\beta_t，0 \leq \beta_t \leq 1$

使用 $f_0$ 推导 $f_t$
在这里插入图片描述
$\bar{\alpha}_t := \prod^t_{i=1}\alpha_i$

loss

损失 $L_{RF}$ ，用于惩罚不符合数据分布的辐射场的生成

损失 $L_{RGB}$ ，用于提高生成的辐射场的渲染质量

$L_{RF}$

从负对数似然(NLL)的变分上界开始推导出模型的训练目标，这个上限需要指定一个替代分布，称之为 q，因为它确实对应于控制扩散过程的分布 q，与生成过程建立了预期的基本联系，数据点 $f_0∈F$ 的NLL可以通过利用 q 得到上界
在这里插入图片描述
其中 $f_{t_1:t_2}$ 代表( $f_{t_1}$ ，…， $f_{t_2}$ )，包围NLL的损耗 $L_{RF}(f_0|θ)$ 可以进一步分解为下面的和，直到一个与 θ 无关的常数

直观来看

$φ (ε) := N (ε ∣0, I)$ 为高斯分布

$l_{RGB}$

用一个额外的 RGB 损失 $L_{RGB}(f_0|θ)$ 来弥补先前的损失，旨在提高生成的辐射场的渲染质量。事实上，一旦尝试渲染辐射场，在之前的损失中隐含地用于评估生成的辐射场的质量的表示上的欧氏度量并不一定确保没有伪影。

将 $L_{RGB}(f_0|θ)$ 定义为与(8)相似的时间特异性项 $L^t_{RGB}(f_0|θ)$ 的和
在这里插入图片描述
给定一个辐射场 $f \in F$ 和一个视点 v，用R(v, f)表示用公式(1)从视点v 渲染 f 后得到的图像，用 $ℓ_v(f, f ')$ 表示使用辐射场从视点v 渲染图像 f 和 f’ 之间的欧氏距离

这个想法是比较从数据分布中采样的给定亮度场 $f_0$ 的渲染，与用 t 扩散步骤损坏的相同亮度场，然后完全去噪