[23] IPDreamer: Appearance-Controllable 3D Object Generation with Image Prompts

news2026/2/14 14:10:28

pdf

Text-to-3D任务中，对3D模型外观的控制不强，本文提出IPDreamer来解决该问题。
在NeRF Training阶段，IPDreamer根据文本用ControlNet生成参考图，并将参考图作为Zero 1-to-3的控制条件，用基于Zero 1-to-3的SDS损失生成粗NeRF。
在Mesh Training阶段，IPDreamer将NeRF用DMTet转换为3D Mesh，并分别优化Mesh的几何与纹理。1）用参考图的法向图编码作为控制信号，用IPSD (Image Prompt Score Distillation) 优化3D Mesh的几何；2）用渲染rgb图像编码（和法向图差异）作为控制信号，用IPSD优化3D Mesh的纹理。
将Text-to-3D任务，转换为单图重建任务，实现了更好的外观控制。

Method

NeRF Training

Mesh Training

Experiments

Some Results

编辑Comparison with SOTA Text-to-3D Methods

Method

Mesh Extraction. 给定粗NeRF，本文用DMTet将其转换为3D Mesh。3D Mesh由顶点V和四面体T（tetrahedrons）组成。每个顶点包含一个signed distance field (SDF) 值 $s_i \in S$ 和形变值 $\Delta{v_{i}} \in \Delta V$ 组成。 $\Delta{v_{i}}$ 描述了相较于初始正则坐标的变换。本文基于IPSD优化 $\Delta V, S, \theta$ 。
Geometry Optimization. Fantasia3D和ProlificDreamer用SDS优化3D Mesh的法向图，实现几何优化。但常用扩散模型缺少法向图的训练数据，导致几何优化效果不佳。为解决该问题，本文引入法向图编码 $y_n = \varepsilon_{\mathrm{image}}(I_n)$ ，其中 $\varepsilon_{\mathrm{image}}$ 是IP-Adapter的denosing model。IPSD几何损失表达如下：

Texture Optimization. 首先，提取参考图像编码 $y_{\mathrm{rgb}} = \varepsilon_{\mathrm{image}}(I_{\mathrm{rgb}})$ 。其次，计算渲染角度和参考角度的法向图编码，并计算差值得到 $\delta_{geo}$ 。这一步的目的是希望用 $y_{rgb} + \delta_{geo}$ 来表征任意渲染角度图像的图像编码。IPSD纹理损失表达如下：