文本到3D生成

news2025/4/12 19:29:35

文本到3D生成是一种通过文本描述直接创建三维数字模型的技术。这种技术能够将语言描述转换成可视化的三维模型，使得内容创作者和设计师可以直接从概念阶段跳转到三维可视化，大大加快创作流程并提供更直观的设计和修改过程。

该技术的核心应用之一是基于辐射场的学习（NeRF），它结合了强大的二维扩散模型，来从文本生成三维模型。NeRF通过隐式三维表示捕捉复杂的光线路径和场景深度，但这种方法通常缺乏对网格和表面纹理的显式建模，这可能导致纹理细节模糊、视图不一致性和表面噪声等问题。

为了解决这些问题，提出了一种新的架构，名为DreamMesh。DreamMesh是一种基于明确定义的表面（如三角网格）生成高保真三维模型的方法。它采用了从粗到精的策略，首先使用文本引导的雅可比矩阵对网格进行初步变形，然后利用二维扩散模型在多个视点下对网格进行纹理化，无需进一步调优。在精细阶段，通过联合调整网格形状和细化纹理图，DreamMesh能够生成具有高质量和高保真纹理的三维模型。

这种技术的意义在于提供了一种更加精确和细致的方式来从文本生成三维内容，使得三维模型不仅在视觉上更加丰富和真实，还能更好地符合文本描述的细节和语义，从而在数字媒体、电影、视频游戏设计和其他需要精确三维建模的领域中有极大的应用潜力。

论文作者：Haibo Yang,Yang Chen,Yingwei Pan,Ting Yao,Zhineng Chen,Zuxuan Wu,Yu-Gang Jiang,Tao Mei

作者单位：Fudan University; Shanghai Collaborative Innovation Center of Intelligent Visual Computing;HiDream.ai Inc.

论文链接：http://arxiv.org/abs/2409.07454v1

项目链接：https://dreammesh.github.io

内容简介：

1）方向：文本到3D生成

2）应用：文本到3D生成

3）背景：基于辐射场的学习（NeRF）结合强大的二维扩散模型已经成为从文本生成三维模型的流行方法。然而，NeRF的隐式三维表示缺乏对网格和表面纹理的显式建模，这种表面未定义的方式可能会导致模糊的纹理细节、不一致的视图和噪声表面问题。

4）方法：为了缓解这些问题，提出一种新的文本到三维架构——DreamMesh，该架构基于明确定义的表面（三角网格）生成高保真的显式三维模型。技术上，DreamMesh采用了一种独特的从粗到精的策略。在粗略阶段，首先通过文本引导的雅可比矩阵对网格进行变形，然后在多个视点下无须调优地交替使用二维扩散模型为网格纹理化。在精细阶段，DreamMesh联合调整网格并细化纹理图，从而生成具有高保真纹理材料的高质量三角网格。

5）结果：大量实验表明，DreamMesh在生成具有更丰富文本细节和增强几何结构的三维内容方面显著优于现有的最新文本到三维方法。项目页面：https://dreammesh.github.io。