清华大学突破性研究:GVGEN技术,7秒内从文字到3D高保真生成

news2024/11/13 10:44:07


cf5a3489665b7a60626bacc799706d47.jpeg

引言:3D模型生成的挑战与机遇

随着计算机图形学的发展,3D模型的生成在各个行业中变得越来越重要,包括视频游戏设计、电影制作以及AR/VR技术等。在3D建模的不同方面中,从文本描述生成3D模型成为一个特别有趣的研究领域,因为它的可访问性和易用性。尽管已经提出了多种方法来处理这一任务,但由于文本的模糊性和文本描述与相应3D资产之间的内在领域差异,这一任务仍然充满挑战。

以前的文本到3D的方法大致可以分为两类:基于优化的生成和基于前馈的生成。基于优化的方法最近变得相当流行,这得益于文本到图像扩散模型的快速发展。这些方法通常通过Score Distillation Sampling(SDS)优化基于文本或图像的3D对象,从2D图像生成模型中提取丰富的知识。尽管取得了令人印象深刻的结果,但基于优化的方法面临着Janus问题,表现为多面或过饱和问题。此外,单个对象的优化可能耗时过长,需要大量的计算工作。相反,基于前馈的方法直接从文本描述生成3D资产,从而避开了Janus问题,并显著加快了生成过程。我们的工作与基于前馈的方法密切相关。然而,使用多视图生成模型的前馈方法通常创建的3D资产分辨率低于多视图图像对应物。此外,直接从文本生成3D对象的模型在使用复杂提示时经常遇到语义上的困难。

与以前的基于前馈的方法不同,我们的方法提出通过直接学习3D表示来生成3D资产。在这项研究中,我们引入了一个创新的、简化的粗到细的生成管道,GVGEN,用于直接从文本描述生成3D高斯体。利用3D高斯体高度表现力和快速渲染的能力,我们的方法不仅取得了有希望的结果,而且保持了快速的文本到3D生成和渲染。如图1所示,我们的方法包括两个阶段:高斯体积拟合和文本到3D生成。在第一阶段,我们引入了高斯体积,这是一种由3D高斯体组成的结构化体积形式。由于优化原始3D高斯体的稀疏和非结构化特性,实现这一点具有挑战性。为了解决这个问题,我们引入了一种新颖的候选池策略,用于修剪和密集化。这种方法允许拟合高质量的高斯体积表示,而不是无序的高斯点,使得生成过程更有利于扩散框架的使用,正如在下一步中所使用的那样。

be409d72646b8393c1eed0b5cd148094.jpeg

尽管高斯体积建立了一个与现有扩散管道无缝集成的结构化体积框架,但3D高斯体丰富特征的内在复杂性带来了重大挑战。具体来说,有效捕获大量训练数据的分布变得困难,导致扩散模型难以收敛。为了应对这些挑战,我们将文本到3D生成分为两个步骤:粗略几何生成和高斯属性预测。更具体地说,在第一步中,我们使用扩散模型生成对象的粗略几何体,称为高斯距离场(GDF) - 一个各向同性的表示,概述了每个网格点到最近的高斯点中心的接近度。接下来,生成的GDF与文本输入一起通过基于3D U-Net的模型处理,以预测高斯体积的属性,确保增强控制和模型收敛。

据我们所知,这是第一项直接从文本前馈生成3D高斯体的研究,为快速3D内容创建和应用探索了新途径。我们的主要贡献总结如下:- 我们引入了高斯体积,这是一种由3D高斯体组成的结构化、体积化形式。通过创新的候选池策略进行修剪和克隆,我们适应了固定体积分辨率内的高质量高斯体积拟合。这个框架与现有的生成网络无缝集成,利用3D高斯体的固有优势,实现了显式和高效的表示。- 我们提出了GVGEN,一个高效的文本到3D粗到细生成管道,首先生成几何体积,然后预测详细的3D高斯属性,更好地控制生成资产的多样化几何形状和外观。GVGEN实现了快速的生成速度(约7秒),与基线方法相比,有效地平衡了质量和效率。

论文标题: GVGEN: Text-to-3D Generation with Volumetric Representation

论文链接: https://arxiv.org/pdf/2403.12957.pdf

机构:清华大学,上海交通大学,浙江大学

项目地址: https://GVGEN.github.io

公众号【AI论文解读】后台回复“论文解读” 获取论文PDF!

GVGEN方法概述:直接从文本描述生成3D高斯体

1. 介绍3D高斯体的概念及其在3D建模中的意义

3D高斯体是一种结构化的体积形式,由3D高斯点组成,用于表示和渲染三维场景。在3D建模领域,高斯体因其高表达能力和快速渲染的特性而受到关注。它们不仅能够提供丰富的视觉效果,还能加速文本到3D模型的生成和渲染过程。

2. GVGEN生成流程的两个阶段:高斯体拟合与文本到3D生成

GVGEN方法包含两个主要阶段:首先是高斯体拟合阶段,其次是文本到3D生成阶段。在高斯体拟合阶段,通过一种称为候选池策略的新颖方法,将无序的3D高斯点组织成结构化的高斯体积(GaussianVolume),为后续的生成阶段提供训练数据。在文本到3D生成阶段,首先使用扩散模型从文本描述中生成粗略的几何体积(Gaussian Distance Field,GDF),然后通过3D U-Net模型预测高斯体积的详细属性,从而实现从文本描述到详细3D对象的生成。

高斯体拟合:创新的候选池策略

1. 高斯体的结构化表示和优化

高斯体的结构化表示是通过固定数量的3D高斯点来实现的,这些点在体积中以网格点的形式组织,并通过位置偏移来表达从网格点到高斯中心的微小移动,从而捕捉对象的细节。这种表示方法允许在固定的体积分辨率内进行高质量的高斯体积拟合,同时与现有的生成网络无缝集成,保留了3D高斯的效率优势。

2. 候选池策略的实现与优势

候选池策略(Candidate Pool Strategy)是一种新颖的方法,用于在优化过程中动态地修剪、克隆和分裂高斯点,以提高拟合资产的保真度。通过在候选池中存储被修剪的点,可以在后续的密集化过程中使用这些点,从而允许高斯点在优化过程中适应性地移动,以表示更复杂的对象形状。同时,结果的结构化体积形式保持了其物理意义,展示了适应性和良好定义结构之间的平衡。

文本到3D生成:粗到细的生成流程

1. 高斯距离场(GDF)的生成

在文本到3D生成的粗到细流程中,首先是高斯距离场(Gaussian Distance Field, GDF)的生成。GDF是一个表征对象粗略几何形状的等距表示,它概括了每个网格点到最近高斯点中心的距离。这一步骤通过一个扩散模型来实现,该模型以输入文本为条件,生成GDF,从而创建对象的粗略几何体积。生成的GDF与文本输入一起,通过一个基于3D U-Net的模型进行处理,以预测高斯体积的属性,确保了对生成资产的几何形状和外观的更好控制。

2. 高斯体属性的预测与控制

在生成了GDF之后,下一步是预测高斯体积的属性。这一步骤使用一个基于3D U-Net的重建模型,该模型接受GDF和文本描述作为输入,以预测高斯体积的所有属性。这个过程中,采用了多模态损失函数来平衡全局语义和局部细节,并保持训练过程的稳定性。通过这种方式,从文本描述中生成了具有详细属性的3D对象。

664fc64cb25237a26fa9953de4e59379.jpeg

3a57f0509310cfcb0340ae62f4a417c7.jpeg

实验结果:定性与定量分析

1. 与现有方法的比较

在与现有方法的比较中,我们的方法在视觉结果和文本条件对齐方面都取得了竞争性的成果。与基于前馈的方法(如Shap-E和VolumeDiffusion)和基于优化的方法(如DreamGaussian)相比,我们的方法在生成合理的几何形状和可信纹理方面表现出色。定量结果方面,我们比较了渲染图像与相应文本之间的CLIP得分,以及这些方法的生成时间。我们的方法在定性和定量方面都展现了竞争力。

f0b865407b5cb0e579f58ac5982dd966.jpeg

2. 生成多样性与视觉效果

GVGEN能够根据相同的提示生成多样化的资产,这不仅使我们的方法与重建方法区分开来,还提高了用户的想象能力。此外,我们还开发了一个基于CLIP图像嵌入的图像到3D模型,并将结果与最近流行的单视图重建模型进行了比较。单视图重建模型在未见区域的形状和纹理方面存在平均模式问题,而GVGEN则生成了合理的外观和几何形状。这些比较强调了我们的GVGEN与重建方法之间的关键区别。

ab657e5713d1aec6327a26ca5753ee8c.jpeg

挑战与局限性:GVGEN面临的问题与未来方向

1. 输入文本的多样性与训练数据的局限性:GVGEN在处理与训练数据显著不同的输入文本时性能受限。由于训练数据的规模(约46,000个实例)相对较小,模型在响应广泛的文本输入时产生的输出变化有限。这表明,模型在处理多样化的文本描述时可能无法生成具有精确几何形状和清晰纹理的3D对象。

2. 计算资源与生成效率的权衡: GVGEN的生成效率与3D高斯点的数量密切相关。虽然使用较少的高斯点数(N^3=32,768)时,GVGEN能够提供与原始3D高斯喷涂方法相当的视觉质量,但提高高斯体积分辨率会导致更好的拟合质量,同时也增加了内存使用。因此,如何在保持高效生成的同时提升3D资产的复杂纹理表现,是GVGEN需要解决的问题。

3. 结构化表示与灵活性的平衡: 在高斯体积拟合阶段,GVGEN采用了偏移阈值ϵoffsets来平衡灵活性和维持良定义结构之间的关系。过小的正则化会导致高斯点在体积内变得更加无序,而没有正则化则会使偏移项过于灵活,难以有效学习。因此,选择合适的偏移阈值对于模型的有效学习和生成高质量的结构化3D表示至关重要。

4. 模型架构与数据质量的改进: 未来的工作将集中在改进模型架构和提高数据质量上,以便在大规模场景中应用模型,预计这将提高生成多样性并导致更好的渲染结果。

5. 与优化方法的集成: GVGEN展示了与优化方法(如GSGEN)集成的能力,以进一步细化生成的3D对象。然而,如何更有效地利用这些优化方法来提高文本描述与纹理和几何的一致性,仍然是一个开放的问题。

总结:GVGEN在文本驱动的3D内容创建中的潜力

GVGEN作为一种从文本描述直接生成3D高斯的方法,展现了在文本驱动的3D内容创建中的潜力。通过将无组织的3D高斯点组织成结构化的体积形式,即高斯体积,GVGEN能够通过粗到细的生成管道有效地前馈生成3D高斯。该方法不仅实现了令人鼓舞的结果,而且保持了快速的文本到3D生成和渲染速度。

GVGEN在质量和效率之间取得了平衡,与基线方法相比,在CLIP得分和推理速度方面表现出色。此外,它还能生成与相同提示条件下的多样化资产,从而不仅与重建方法区分开来,还提高了用户的想象能力。

尽管GVGEN在生成3D对象方面取得了鼓舞人心的成果,但它在处理与训练数据域显著不同的输入文本时的性能受限,以及在更具挑战性的场景中生成高质量3D资产的能力有待提高。未来的研究将探索如何在保持高效率的同时,生成更高质量的3D内容。 


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1544127.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

哪些行业需要在线制作电子证书系统?

哪些行业需要在线制作电子证书系统? 1、教育机构:学校和培训机构需要为学生和培训者颁发证书,您的系统可以帮助他们快速生成和管理这些证书。 2、企业及政府部门:用于员工培训、资质认证等,提高内部管理效率。 3、专…

Learn OpenGL 29 延迟着色法

延迟着色法 我们现在一直使用的光照方式叫做正向渲染(Forward Rendering)或者正向着色法(Forward Shading),它是我们渲染物体的一种非常直接的方式,在场景中我们根据所有光源照亮一个物体,之后再渲染下一个物体,以此类推。它非常…

2024 ccfcsp认证打卡 2023 09 01 坐标变换(其一)

import java.util.Scanner;public class Main {public static void main(String[] args) {Scanner in new Scanner(System.in);int n in.nextInt(); // 操作次数int m in.nextInt(); // 初始坐标个数int temp_x 0; // 临时存储x的累加值int temp_y 0; // 临时存储y的累…

星云小窝项目1.0——项目启动(二)

星云小窝项目1.0——项目启动(二) 文章目录 前言1. 从Github从下载它2. 使用编辑器打开(以pycharm为例)2.1. 下载所需要的模块2.2. 配置mysql数据库2.3. 配置QQ邮箱发送验证码2.4. 修改代码3. 启动总结 前言 上一篇博客大致介绍了…

用户态和内核态:操作系统权限与运行模式解析

在现代计算机操作系统中,用户态(User Mode)和内核态(Kernel Mode)是两种重要的运行模式,用于区分用户程序与操作系统核心之间的权限和特权级别。深入理解这两种模式对于理解操作系统的工作原理至关重要。 …

发布文章积分自动增加

controller ApiOperation(value "添加文章")PostMapping("/addwengzhang")public String addwengzhang(RequestBody WengDto wengDto) {if (wengDto.getContent() null || wengDto.getTitle() null) {return "参数不可为空";}User user user…

CMakeLists生成动态库.so和静态库.a

一、下载NDK CMake - NDK : 26.2.11394342 或 23.1.7779620 - CMake : 3.22.1 二、新建android\app\CMakeLists.txt 文件CMakeLists.txt内容 cmake_minimum_required(VERSION 3.4.1) #mker为项目名称 project(mker)#设置生成的so动态库最后输出的路径 set(CMAKE_LIBRARY_OUTP…

【代驾+顺风车+货运】全开源双端APP代驾+顺风车+货运代驾小程序源码

内容目录 一、详细介绍二、效果展示1.部分代码2.效果图展示 一、详细介绍 系统是基于Thinkphpuniapp开发的,全开源未加密,这套源码可以拿回去自己做二开 后台用户端司机端 功能详情介绍: 车主实名认证,驾驶证认证,车…

阿里云OSS对象存储完全开发手册(一篇学会阿里云OSS所有知识点)

一、什么是OSS存储 阿里云对象存储OSS(Object Storage Service)是一款海量、安全、低成本、高可靠的云存储服务,可提供99.9999999999%(12个9)的数据持久性,99.995%的数据可用性。多种存储类型供选择&#…

生成可读取配置文件的独立运行jar程序

前言: 周五刚躺下,前线打来语音要个下载文件的小程序,下载路径和下载码需要根据配置获取,程序需要在服务器执行。当然配置的设计是个人设计的,不然每次更新下载码都要重新出具jar包,太麻烦。多年没写独立运行的jar包了,翻阅了相关资料,最终还是功夫不负有心人。想着这种…

计算机复试面试问答准备(未完)

目录 1、理解多态性2、怎么逆置⼀个链表3、顺序表和链表的区别4、树的存储结构5、什么是哈夫曼树?简述哈夫曼树的构造过程。介绍哈夫曼树的特性。6、哈夫曼编码的编码和解码过程7、图的遍历方式8、图的存储方式9、最小生成树10、迪杰斯特拉算法11、佛洛依德算法12、…

2024年3月26日 十二生肖 今日运势

小运播报:2024年3月26日,星期二,农历二月十七 (甲辰年丁卯月己丑日),法定工作日。 红榜生肖:鸡、鼠、猴 需要注意:马、狗、羊 喜神方位:东北方 财神方位:…

修改网站源码,给电子商城的商品添加图片时商品id为0的原因

修改网站源码,给电子商城的商品添加图片时商品id为0的原因。花了几个小时查找原因。后来,由于PictureControl.class.php是复制CourseControl.class.php而来,于是对比了这两个文件,在CourseControl.class.php找到了不一样的关键几条…

GEE入门及进阶教程|在 Earth Engine 中绘制图像集合

在前面的内容中,我们计算了增强植被指数 (EVI),以说明卫星图像上的波段运算,代码在单个图像上被调用一次。 如果我们想以相同的方式计算整个 ImageCollection 中的每个图像的 EVI,该怎么办?在这里,我们使用…

Java Swing游戏开发学习17

内容来自RyiSnow视频讲解 这一节讲的是Event(Damage Pit, Healing Pool, Teleport Tile),直译:事件(伤害深坑(类似陷阱吧),治愈池,传送瓦片) 事件(陷阱【掉进去回掉血】,治愈池【可…

js获取cookie

js获取cookie 前言实现讲解特别注意: 前言 主要是通过document.cookie来进行实现的 实现讲解 首先通过document.cookie 来获取到所有的cookie 然后通过分号进行分割成list 然后循环list,将list中的字符串通过首个等号进行分割然后和指定的cookie名进行比对然后返…

浙政钉小程序加入埋点

研究好久,终于知道埋点怎么写了,我是使用原生写的,请参考! 小程序埋点只需要添加稳定性监控代码(Emas)和流量分析代码(A) **稳定性监控代码(Emas)**只需要在首页加入。**流量分析代码…

关系型数据库mysql(6)备份与恢复

一.数据备份的重要性 (1)在生产环境中,数据的安全性至关重要 (2)任何数据的丢失都可能产生严重的后果 (3)造成数据丢失的原因 程序错误人为操作失误运算错误磁盘故障灾难(如火灾…

Selenium 自动化 —— 切换浏览器窗口

更多内容请关注我的 Selenium 自动化 专栏: 入门和 Hello World 实例使用WebDriverManager自动下载驱动Selenium IDE录制、回放、导出Java源码浏览器窗口操作 平时我们在使用浏览器时,通常会打开多个窗口,然后再多个窗口中来回切换&#xf…

SuperGluePretrainedNetwork 详细解读

目录结构展示了SuperGluePretrainedNetwork项目的简化版布局。这是一个关于使用SuperGlue算法进行图像配对的深度学习项目,主要包括预训练的模型和执行配对的脚本。 demo_superglue.py demo_superglue.py脚本的主要作用是展示SuperGlue预训练网络在图像对上进行特征…