论文笔记Point·E: A System for Generating 3D Point Clouds from Complex Prompts

news2025/4/3 13:10:38

之前的文本生成3D模型的方法生成一个模型需要多块GPU跑好几个小时，该文章提出的方法生成一个3D模型只需要单GPU1-2分钟。
该文章生成的3D模型的质量并不是当下最好的，但是生成速度很快，因此在现实中很有意义。

从文本生成3D模型的过程分为三步：

用一个text-to-image的diffusion model生成一个合成视角的图片。
用一个diffusion model生成低分辨率的3D点云（1024个点）。
用一个diffusion model从低分辨率的3D点云生成高分辨的3D点云（4096个点）。

数据集

数据集包含7百万个格式不一，质量不一的3D模型。
使用Blender从20个随机的视角渲染（render）3D模型。
对于每一个模型，Blender标准化模型到一个bounding cube里，并使用标准的灯光设置。

接下来是通过物体渲染的图片将物体转为带颜色的点云。
先使用深度图像计算每个像素点的对应的点来生成稠密的点云，然后使用farthest point sampling(FPS)算法生成均匀的4K个点。

合成视角图片生成

合成视角图片生成模型基于GLIDE模型。
使用原始数据集和3D渲染的图片数据集的混合finetune GLIDE模型。
训练的数据，其中5%的图片从3D渲染数据集里采样，95%的图片从原始数据集里面采样。
为了保证之后总能采样到渲染器生成的图片而不是只有5%的概率采样到渲染器生成的图片，该方法在3D渲染器的text prompt上添加一个特别的token表示这生成的是3D渲染器的图片。

点云扩散

点云被表示为 $\times 6$ 的tensor， $K$ 是点的数量，6是 $(x, y, z)$ 和 $(R, G, B)$ 。每一个数值都被标准化到 $[- 1, 1]$ 。
本论文使用transformer-based模型来预测 $\epsilon$ 和 $\Sigma$ ，模型的输入是图片，时间 $t$ 和带噪声的点云 $x_t$ 。
在这里插入图片描述
将带噪声的点云通过线性映射成 $\times D$ ，时间映射成 $\times D$ 。
图片则是使用CLIP模型最后一层的输出（ $256 \times D'$ ），再使用线性映射将其映射到 $256 \times D$ 。
最后输入模型的context的形状是 $(K+257)\times D$ 。如图所示，取模型输出的后 $K$ 个，将其映射到K个点的 $\epsilon$ 和 $\Sigma$ 。