简介

官网:https://palettenerf.github.io/
在这里插入图片描述
以(a)多视图照片为训练输入，重建NeRF并将其外观分解为一组(b)基于3D调色板的色基，实现了©直观和逼真的场景重新着色，在任意视图之间具有3D一致性，如(d)所示，该方法支持各种基于调色板的编辑应用，如光照修改和3D真实感风格迁移

贡献点：

提出一种新的框架，通过将辐射场分解为学习到的颜色基的加权组合来促进NeRF的编辑。
引入了一种具有新颖正则化项的鲁棒优化方案，以实现直观的分解。
该方法实现了实用的基于调色板的外观编辑，使新手用户可以在商用硬件上以直观和可控的方式交互式编辑NeRF。

实现流程

给定一组场景中已知姿态的图像，首先优化一个基于nerf的模型来重建场景的几何形状。然后，根据输入的图像和学习到的场景几何特征提取 $N_p$ 个调色板。最后，训练一个分割模型，根据提取的调色板将场景外观分解为多个基。分解结果能够驱动各种下游应用，如重新着色、逼真的风格迁移和照明修改。
在这里插入图片描述
给定一组训练图像，首先(a)用现有方法重建场景几何形状并构建调色板，PaletteNeRF(b) 将场景外观分解为多个基于调色板的基和与视图相关的颜色。在基于调色板的基函数、与视图相关的颜色和最终输出上部署了一系列损失

Palette Extraction

从最先进的图像重新着色工作(Efficient palette-based decomposition and recoloring of images via rgbxy-space geometry)中提取的方法作为初始化，该方法从 RGB 空间中聚类图像颜色的 3D 凸包中提取调色板，只需从 NeRF 的深度图中选择所有具有有效深度的训练图像像素，并将它们的颜色连接起来作为输入

其中NeRF使用了Instant-ngp实现，体渲染公式为:
在这里插入图片描述

由于捕获场景的阴影不同，提取方法可能会产生色相似的调色板（例如，包括浅黄色和深黄色的调色板），这导致不切实际的外观编辑，可以根据强度对训练图像的输入颜色进行归一化，以缩小调色板的搜索空间

颜色的强度由其 RGB 值的 L1 范数表示。但是，使用 L1 范数进行归一化会将颜色投影到平面上，这对于 3D 凸包计算来说是一个非常不利的边缘情况。这些问题可以通过用更高阶的规范替换来解决。根据经验，发现从L2归一化图像中提取的调色板在下一个分解阶段工作良好

除了提取的调色板 $\bar{P}$ 外，还保留了输入像素颜色的混合权重 $\bar{\omega}$ ，这是根据相同工作的方法计算得出的。这些权重在下一阶段充当额外的监督

Color Decomposition

给定大小为 $N_p$ 的调色板，模型旨在重建 $N_p$ 个与视图无关的调色板基，以及一个额外的与视图相关的颜色函数，表示所有与视图相关的阴影，如镜面反射

基于调色板的基对应于提取的调色板，由 x 的两个函数定义

color offset function $\delta:R^3 \to R^3$
weight function $\omega:R^3 \to [0,1]$

观察到真实的图像捕获通常由大量的颜色组成，允许每个点的基本颜色与调色板颜色有偏移。这种设计增加了库的容量，有利于提高复杂场景下的分割质量

同时引入了一个 intensity function I : $R^3 \to [0,1]$ ，由于提取的调色板的归一化，它在所有基于调色板的基之间共享

模型还包含一个与视图相关的 color function $R^5 \to [0,1]^3$ ，它也将视觉方向作为输入
在这里插入图片描述
$ω_i(x)$ 即和的归一化。将颜色 c 的累加值固定到 [0,1]作为最终输出.在训练过程中优化调色板颜色 $P_i$

网络由三个MLP网络组成：
在这里插入图片描述

Diffuse MLP 预测漫反射颜色 $C_d(x)$ ，即所有基于调色板的基的总和

View-Dependent MLP 生成视图相关的颜色 s(x, d)

Palette MLP 预测基于调色板的基的函数值: $\omega_i(x)， δ_i(x) 和 I (x)$ ，其中 $c_d$ 也作为先验输入

由于上图中只显示了一个调色板基，因此网络并行生成 $N_p$ 个基，并在最后一步中将它们相加。

loss

由于从场景外观中分离多个基是一项相当病态的任务，因此在设计优化方案时需要注意许多问题。开发了一系列损失来调节优化参数，以避免出现诸如局部最小等不良结果

图像重建损失为：
在这里插入图片描述
$C^{ref}$ 为真实值， $c(r)， c_d(r)， s(r)$ 根据公式1中的体渲染方程计算。第二项也可以被认为是 $c_d(r)$ 和调色板基之和之间的 L2 距离

与视图相关的颜色函数 s(x, r) 中添加了一个正则化损失 $L_s$ ，以防止 s 主导外观并将所有基于调色板的基压为 0 的特殊情况
在这里插入图片描述
虽然该模型使用颜色偏移来偏移基础颜色，但有必要限制混合权重和颜色偏移，以避免极端解决方案

采用图像软分割方法中的稀疏性损失 $L_{sp}$ 和颜色偏移量损失 $L_{offset}$
在这里插入图片描述
稀疏性损失的目的是使混合权重更稀疏(例如，将每个点x分割到更少的基)，这最终将通过增加颜色偏移量来增加基的容量。

色差损失直接抑制了色差的大小，防止它们与调色板偏离过大

直观上，这两种损失充当了两种对抗角色，在它们之间找到良好的平衡将导致基颜色合理、分割结果整齐

在实验中观察到，这两个损失可能会导致苛刻的分割结果，这将极大地影响后续编辑的质量

引入了一种新的3d感知平滑损失，以基于NeRF的输出来平滑权重函数
在这里插入图片描述
$\omega = \omega_1 ... N_p$ ，ε 是从高斯分布中采样的随机位置偏移量，ξ(·) 是两点之间的相似度，调整双边滤波器中使用的高斯核，并定义相似度函数为

$σ_x$ 和 $σ_c$ 为平滑参数，diffuse color $c_d$ 用于平滑损失，但在训练过程中切断了它们的梯度

添加了两个额外的损失，这些损失包含了来自调色板提取模型的监督
在这里插入图片描述
总损失为：

Appearance Editing

根据模型预测的基础，可以简单地调整函数的值以支持外观编辑，如重新着色和逼真的风格迁移。

基函数是在整个场景上定义的，它们不直接支持局部编辑(例如，编辑场景中的单个对象)

因此，从最先进的基于图像的分割模型(如Lang-Seg)预测的语义特征图中学习3D特征场，并使用特征场来指导编辑，然而，直接向模型中添加高维语义特征可能会降低其效率，使其无法实时编辑。从场景中捕获的物体往往局限在一个小集合中(例如，在室内场景中，椅子、墙壁和地板是最有可能出现的物体)，从场景中提取的语义特征往往是整个特征空间的有限子集。因此，在将提取的特征输入网络之前，应用PCA将其压缩到较低的维度(在实验中为16)

实验

geometry learning stage：除了添加Sun等人引入的逐点rgb损失外，保留所有原始配置。以使密度场更稀疏并避免飞子

segmentation learning stage：修复前100个epoch中提取的调色板，然后释放调色板并移除 $L_{weight}$ 以微调模型。由于平滑损失 $L_{sm}$ 使用 diffuse color $c_d$ 来计算平滑权值，因此在前30个迭代阶段不使用 $L_{sm}$ ，以避免未收敛的 $c_d$ 作为输入