Magic3D: High-Resolution Text-to-3D Content Creation(高分辨率文本到3d内容创建)

news2024/11/23 8:37:55

Magic3D: High-Resolution Text-to-3D Content Creation(高分辨率文本到3d内容创建)

Fig 1. Magic3D的结果和应用。上图:高分辨率文本到3d的生成。Magic3D可以从文本提示生成高质量和高分辨率的3D模型。底部:基于提示的高分辨率编辑。Magic3D可以编辑3D模型,通过微调扩散先验使用不同的提示。以低分辨率3D模型为输入(左),Magic3D可以根据不同的输入文本提示修改3D模型的不同部分。与生成的3D模型上的各种创意控件一起,Magic3D是增加3D内容创建的方便工具。

Paper:https://readpaper.com/pdf-annotate/note?pdfId=4738271534435532801&noteId=1848084184935912192
Project:https://research.nvidia.com/labs/dir/magic3d/

原文链接:Magic3D: 高分辨率文本到3d内容创建(by 小样本视觉与智能前沿)

文章目录

  • Magic3D: High-Resolution Text-to-3D Content Creation(高分辨率文本到3d内容创建)
    • 01 现有工作的不足?
    • 02 文章解决了什么问题?
    • 03 关键的解决方案是什么?
    • 04 取得了什么样的效果?
    • 05 主要的贡献是什么?
    • 06 有哪些相关的工作?
    • 07 方法具体是如何实现的?
      • Background: DreamFusion
      • High-Resolution 3D Generation
        • 1)Coarse-to-fine Diffusion Priors
        • 2)Scene Models
        • 3)Coarse-to-fine Optimization
    • 08 实验结果和对比效果如何?
      • Speed evaluation
      • Qualitative comparisons.
      • User studies.
      • Personalized text-to-3D.
      • Prompt-based editing through fine-tuning.
    • 09 消融研究告诉了我们什么?
      • Can single-stage optimization work with LDM prior?
      • Can we use NeRF for the fine model?
      • Coarse models vs. fine models.
    • 10 结论

01 现有工作的不足?

DreamFusion存在两个固有的局限性:(a) NeRF优化速度极慢;(b)对NeRF进行低分辨率图像空间监督,导致处理时间长,3D模型质量低。

02 文章解决了什么问题?

我们通过利用两阶段优化框架来解决DreamFusion存在的上述两个局限性。即提升优化速度和改善3D模型的质量。

03 关键的解决方案是什么?

  • 首先使用低分辨率扩散先验获得粗糙模型,并使用稀疏的3D哈希网格结构进行加速。
  • 使用粗糙表示作为初始化,进一步优化了纹理3D网格模型,并使用高效的可微分渲染器与高分辨率潜在扩散模型相互作用。

04 取得了什么样的效果?

我们的方法被称为Magic3D,可以在40分钟内创建高质量的3D网格模型,这比DreamFusion快2倍(据报道平均需要1.5小时),同时也实现了更高的分辨率。
用户研究显示,相比DreamFusion, 61.7%的评分者更喜欢我们的方法。再加上图像条件生成功能,我们为用户提供了控制3D合成的新方法,为各种创意应用开辟了新的途径。

05 主要的贡献是什么?

  • 我们提出Magic3D,这是一个使用文本提示进行高质量3D内容合成的框架,通过改进DreamFusion中的几个主要设计选择来实现。它由一个从粗到精的策略组成,该策略利用低分辨率和高分辨率扩散先验来学习目标内容的3D表示。Magic3D合成3D内容的分辨率比DreamFusion高8倍,速度也比DreamFusion快2倍。通过我们的方法合成的3D内容明显受到用户的青睐(61.7%)。
  • 我们将为文本到图像模型开发的各种图像编辑技术扩展到3D对象编辑,并在提出的框架中展示其应用。

06 有哪些相关的工作?

  • Text-to-image generation.
  • 3D generative models
  • Text-to-3D generation

07 方法具体是如何实现的?

Fig 2. Magic3D概述. 我们以从粗到精的方式从输入文本提示生成高分辨率3D内容。在第一阶段,我们利用低分辨率扩散先验并优化神经场表示(颜色,密度和法向场)来获得粗模型。我们进一步从粗模型的密度场和颜色场中微分提取纹理三维网格。然后我们用一个高分辨率的潜在扩散模型对它进行微调。优化后,我们的模型生成具有详细纹理的高质量3D网格。

Background: DreamFusion

DreamFusion引入了分数蒸馏采样(SDS),它可以计算梯度:

High-Resolution 3D Generation

Magic3D是一个两阶段的从粗到精的框架,使用高效的场景模型,实现高分辨率的文本到3d合成(图2)。

1)Coarse-to-fine Diffusion Priors

Magic3D以粗到细的方式使用两种不同的扩散先验来生成高分辨率的几何和纹理。在第一阶段,我们使用eDiff-I[2]中描述的基础扩散模型,它类似于DreamFusion中使用的Imagen[38]的基础扩散模型。 在第二阶段,我们使用潜在扩散模型(LDM)[36],该模型允许将梯度反向传播到高分辨率512 × 512的渲染图像中;

尽管生成了高分辨率图像,但LDM的计算是可管理的,因为扩散先验作用于分辨率为64 × 64的潜在 z t z_t zt:

2)Scene Models

Neural fields as coarse scene models.
优化的初始粗糙阶段需要从头开始寻找几何和纹理。这可能具有挑战性,因为我们需要适应3D几何结构的复杂拓扑变化和2D监控信号的深度模糊性。

由于体绘制需要沿着射线密集的样本来准确地呈现高频几何和阴影,因此必须在每个样本点评估大型神经网络的成本很快就会增加。出于这个原因,我们选择使用来自Instant NGP[27]的散列网格编码,它允许我们以更低的计算成本表示高频细节。

我们还维护了一个空间数据结构,该结构对场景占用进行编码,并利用空白空间跳变[20,45]。

具体来说,我们使用来自即时NGP[27]的基于密度的体素修剪方法,以及基于八叉树的射线采样和渲染算法[46]。通过这些设计选择,我们大大加快了粗场景模型的优化,同时保持了质量。

Textured meshes as fine scene models.
在优化的精细阶段,我们使用纹理三维网格作为场景表示。与神经领域的体渲染相比,用可微光栅化渲染纹理网格可以在非常高的分辨率下有效地执行,使网格成为我们高分辨率优化阶段的合适选择。 使用粗糙阶段的神经场作为网格几何的初始化,我们也可以避免学习网格中大量拓扑变化的困难。

我们用可变形四面体网格 ( V T , T ) (V_T,T) (VT,T)表示3D形状, 其中 V T V_T VT是网格T的顶点。
每个顶点 v i ∈ V T v_i \in V_T viVT 包含了一个有符号距离域(SDF)值 s i ∈ R s_i \in R siR和一个顶点相对于其初始规范坐标的变形 Δ v i ∈ R 3 \Delta v_i \in R^3 ΔviR3
然后,我们使用可微移动四面体算法从SDF中提取表面网格[41]。对于纹理,我们使用神经颜色场作为体积纹理表示

3)Coarse-to-fine Optimization

我们描述了我们从粗到细的优化过程,该过程首先在粗神经场表示上操作,然后在高分辨率纹理网格上操作。

Neural field optimization.
我们使用MLP来预测法线,而不是从密度差来估计法线。注意,这并不违反几何属性,因为使用了体渲染而不是表面渲染;因此,粒子在连续位置的方向不需要定向到表面级水平。这有助于我们通过避免使用有限差分来显著降低优化粗略模型的计算成本。

与DreamFusion类似,我们还使用环境贴图MLP对背景进行建模,MLP将RGB颜色预测为光线方向的函数。

我们对环境图使用了一个微小的MLP(隐藏维度大小为16),并将学习率降低了10倍,以使模型能够更多地关注神经场几何。

Mesh optimization 为了从神经场初始化中优化网格,我们通过减去一个非零常数将(粗略)密度场转换为SDF,从而产生初始 s i s_i si

为了提高曲面的平滑度,我们进一步正则化了网格上相邻面之间的角度差。这使我们即使在具有高方差的监督信号(如SDS梯度)下也能获得良好的几何形状。

08 实验结果和对比效果如何?

Speed evaluation

非另有说明,否则粗级被训练用于5000次迭代,沿着射线有1024个样本(随后由稀疏八叉树过滤),批量大小为32,总运行时间约为15分钟(超过8次迭代/秒,由于稀疏性的差异而变化)。精细阶段使用一个批次大小为32训练3000次迭代,总运行时间为25分钟(2次迭代/秒)。两个运行时间加起来都是40分钟。所有运行时间都是在8个NVIDIA A100 GPU上测量的。

Qualitative comparisons.

Fig 3. 与DreamFusion的定性比较[33]。我们使用与DreamFusion相同的文本提示符。对于每个3D模型,我们从两个视图中渲染它,每个视图都使用无纹理渲染,并删除背景以专注于实际的3D形状。对于DreamFusion的结果,我们从官方网页上发布的视频中获取帧。与DreamFusion相比,我们的Magic3D在几何和纹理上生成更高质量的3D形状。*一张…的单反照片†一张缩小的单反照片…

User studies.

Table 1. 用户偏好研究。我们进行了用户研究,以衡量使用DreamFusion发布的397个提示生成的3D模型的偏好。总体而言,更多的评分者(61.7%)更喜欢由Magic3D生成的3D模型,而不是DreamFusion。在Magic3D中,大多数评分者(87.7%)更喜欢精细模型而不是粗糙模型,这表明了我们从粗到精方法的有效性。

Personalized text-to-3D.

我们能够成功地修改在给定输入图像中保留被摄体的3D模型。

Fig 6. Magic3D与dreambooth为基础的个性化。给定一个特定实例的输入图像,我们使用DreamBooth微调扩散模型,并根据给定的提示优化3D模型。在生成的3D模型中很好地保留了身份。

Prompt-based editing through fine-tuning.

我们修改了基本提示,以高分辨率微调NeRF模型,并优化了网格。结果表明,我们可以根据提示调整场景模型,例如,将“小兔子”更改为“彩色玻璃兔子”或“金属兔子”会产生类似的几何结构,但具有不同的纹理

Fig 7. Magic3D与基于提示的编辑。给定一个由基本提示生成的粗模型(第一列),我们用新文本替换划线的文本,并对NeRF进行微调,从而使用LDM获得一个高分辨率的NeRF模型。我们进一步微调高分辨率网格与NeRF模型。这种基于提示的编辑方法使艺术家更好地控制3D生成输出。

09 消融研究告诉了我们什么?

Can single-stage optimization work with LDM prior?

Fig 4. 单阶段(上)vs.粗到精模型(下)。两者都使用NeRF作为场景模型。在优化期间,左两列使用64×64呈现分辨率,而右两列使用256×256。与我们从粗到精的方法相比,单阶段方法可以生成细节,但形状更差。

Can we use NeRF for the fine model?

对虽然从头开始优化NeRF效果不佳,但我们可以遵循从粗到细的框架,但用NeRF代替第二阶段场景模型。

Coarse models vs. fine models.

我们在NeRF和网格模型上都看到了显著的质量改进,这表明我们的粗到细方法适用于一般场景模型。

Fig 5. 微调阶段的消融。对于每个文本提示,我们用网格和NeRF表示比较粗模型和细模型。网格微调显著提高了生成的3D资产的视觉质量,在3D形状上提供了更多逼真的细节。

10 结论

我们提出Magic3D,一个快速和高质量的文本到3d生成框架。我们在coarse-to-fine方法中受益于高效的场景模型和高分辨率的扩散先验。特别是,三维网格模型可以很好地随图像分辨率缩放,并且可以在不牺牲速度的情况下享受潜在扩散模型带来的更高分辨率监督的好处。从文本提示到准备在图形引擎中使用的高质量3D网格模型需要40分钟。通过广泛的用户研究和定性比较,我们发现与DreamFusion相比,Magic3D更受评分者的青睐(61.7%),同时速度提高了2倍。最后,我们提出了一套工具来更好地控制3D生成的样式和内容。我们希望通过Magic3D实现大众化的3D合成,开启大家在3D内容创作中的创造力。

原文链接:Magic3D: 高分辨率文本到3d内容创建(by 小样本视觉与智能前沿)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/747610.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

InstructGPT:语言模型的人类反馈指令对齐

论文标题:Training language models to follow instructions with human feedback论文链接:https://arxiv.org/abs/2203.02155论文来源:OpenAI 一、概述 大型语言模型(Large language models,LLMs)可以通过…

TortoiseGit的安装和使用

1、TortoiseGit的下载安装 安装说明:因为TortoiseGit 只是一个程序壳,必须依赖一个 Git Core,所以安装前请确定已完成git安装和配置。 TortoiseGit下载地址 https://download.tortoisegit.org/tgit/ ,最新稳定版本2.11.0.0。 点进去下载程序包和语言包(非必须),安装时…

【网络】网络基础(一)

目录 一、网络协议初识 1、协议分层 2、OSI七层模型 3、 TCP/IP五层(或四层)模型 4、对网络协议栈的理解 二、网络传输基本流程 1、网络传输流程图 1.1、同一个网段内的两台主机进行文件传输 1.2、跨网段的主机的文件传输 三、数据包封装和分用 四、网络中的地址管理…

配置微服务负载均衡的两种方式

说明:在微服务开发中,每个服务是通过服务名称来区分的,当两个微服务名称相同时,注册中心会视为这两个服务是相同的。配置对应的负载均衡策略,当其他服务发送请求过来的时,可以对这两个微服务进行规则访问。…

Linux的起源

UNIX 与 Linux 之间的关系是一个很有意思的话题。在目前主流的服务器端操作系统中,UNIX 诞生于 20 世纪 60 年代末,Windows 诞生于 20 世纪 80 年代中期,Linux 诞生于 20 世纪 90 年代初,可以说 UNIX 是操作系统中的"老大哥&…

Prompt本质解密及Evaluation实战与源码解析(二)

9.4 Evaluation for Agents源码解析 如图9-4所示,转过来,我们再看一下LangChain框架代理评估(Evaluation for Agents)的源代码。 图9- 4 LangChain的evaluation agents目录 在trajectory_eval_prompt.py文件里面,写了一个非常经典的提示词。 1. """提示…

抽象轻松有点使用的JavaScript

数据类型转换 定义概念:将一种数据类型通过用特定的方法转换成另一种数据类型 拆分: 数据类型转换 A1(一种数据类型) A2(方法) A3(转换成另一种数据类型) 理解:A1 &…

使用STM32 再实现电动车防盗钥匙扣

实现目标 1. 点击遥控器 A 按键,系统进入警戒模式,一旦检测到震动(小偷偷车),则喇叭发出声响报警 2. 点击遥控器 B 按键,系统退出警戒模式,再怎么摇晃系统都不会报警 硬件介绍 1. 震动传感器…

安装orcle报错:指定的 Oracle 系统标识符 (SID) 已在使用

安装orcle报错:[INS-35075]指定的 Oracle 系统标识符 (SID) 已在使用 说明前面的orcle没有彻底删除 解决这个问题: 搜索框 —— > 输入:regedit ——> 回车 运行regedit,选择HKEY_LOCAL_MACHINE SOFTWARE ORACLE&#xff…

【Android】从零搭建组件化项目

组件化系列文章介绍的内容稍微多了点,本着研究透这玩意的精神,从组件化的简介开始说起。 目录 简介组件化、模块化与插件化开始创建配置共享文件打包模式配置APT与JavaPoet 简介 什么是组件化? 将多个功能模板拆分、重组的过程。 为什么要使…

GEE入门学习,遥感云大数据分析、管理与可视化以及在林业应用丨灾害、水体与湿地领域应用丨GPT模型应用

目录 ①海量遥感数据处理与GEE云计算技术实践应用 ②GPT模型支持下的Python-GEE遥感云大数据分析、管理与可视化技术及多领域案例实践应用 ③GEE遥感云大数据林业应用典型案例实践及GPT模型应用 ④遥感云大数据在灾害、水体与湿地领域典型案例实践及GPT模型应用 ①海量遥感…

78. 左旋转字符串

目录 链接: 题目: 思路: 代码: 图片: 链接: 原题链接 题目: 字符串的左旋转操作是把字符串前面的若干个字符转移到字符串的尾部。 请定义一个函数实现字符串左旋转操作的功能。 比如输入字…

Talk预告 | 天津大学博士生赵煜:从平面图像中理解空间语义 - 视觉空间位置描述

本期为TechBeat人工智能社区第512期线上Talk! 北京时间7月12日(周三)20:00, 天津大学博士生—赵煜的Talk将准时在TechBeat人工智能社区开播! 他与大家分享的主题是: “从平面图像中理解空间语义-视觉空间位置描述”,届时将与大家…

webpack插件安装

webpack插件安装 1、html-webpack-plugin插件2 、css-loader和style-loader插件3、less-load插件 1、html-webpack-plugin插件 1、下载插件 yarn add html-webpack-plugin -D2、webpack.config.js添加配置 *const HtmlWebpackPlugin require(html-webpack-plugin); const p…

Linux系统编程(信号处理机制)

文章目录 前言一、中断,异常,信号的区别二、信号在Linux中的标识三、信号处理相关函数四、代码实验总结 前言 本篇文章我们来讲解信号的处理机制,信号处理在Linux操作系统中必不可少,这一点值得大家注意,信号又会与中…

打通前后端 -- 创建第一个JSP页面

前言 JSP是由Sun Microsystems公司主导创建的一种动态网页技术标准。 JSP部署于网络服务器上,可以响应客户端发送的请求,并根据请求内容动态地生成HTML、XML或其他格式文档的Web网页,然后返回给请求者。 JSP技术以Java语言作为脚本语言&…

从0-100:约拍小程序开发笔记

背景 摄影师预约小程序功能是一种方便摄影师和客户之间进行预约和安排拍摄的工具。通过该功能,摄影师可以在小程序上设置自己的可预约时间,客户可以根据摄影师的日程安排选择合适的时间进行预约。这样可以提高预约的效率,减少沟通成本&#…

【工具】tempormonkey 同步插件

tempormonkey 同步插件 1.打开tempormonkey的dashboard界面 2.右上角的setting 3.选择谷歌云盘

数字孪生建筑3D可视化运维管理平台降低成本

深圳是我国数字经济重镇,数字经济核心产业增加值占全市GDP逾三成,数字产业化和产业数字化正呈双向融合发展之势。越来越多的企业正与深圳华锐视点一道,利用互联网、大数据、云计算、人工智能、区块链、5G、数字孪生等技术优势,赋能…

Red Hat Linux官网下载地址

注册一个账号,就可以从官网下载最新版本的Red Hat 企业版Linux。