Director3D: Real-world Camera Trajectory and 3DScene Generation from Text 论文解读

news2024/11/28 20:42:32

目录

一、概述

二、相关工作

1、文本到3D生成

2、3DGS

三、Director3D

1、Cinematographer

2、Decorator

3、Detailer 

4、Loss


一、概述

        该论文提出利用真实世界数据集,设计一个从文本生成真实世界3D场景和自适应相机轨迹的强大的开放世界文本到3D生成框架Director3D。

(1)引入Trajectory Diffusion Transformer(Traj-DiT)模型,用于根据文本描述建模相机轨迹分布。

(2)提出GS-driven Multi-view Latent Diffusion Model(GM-LDM,高斯驱动的多视角潜在扩散模型),用于生成像素对齐的3D高斯分布作为中间3D场景表示,在扩散过程中直接加强3D一致性产生3D表示。

(3)设计了一种用于细化生成的3D高斯分布的SDS++损失函数。

二、相关工作

1、文本到3D生成

        结合了NeRF和视觉语言模型CLIP的DreamField诞生之后,文本到3D生成领域逐渐发展。

        DreamFusion和SJC结合2D扩散模型 ,通过SDS分数蒸馏采样来作3D表示。

        大多数的方法都仅仅关注对象级3D生成,近期考虑场景级3D生成问题,但由于多视图的不一致性和单目深度估计会导致不好的几何和纹理伪影。另外也考虑使用全景图像扩散模型来生成3D场景,但这仅限于特定场景。所以开放世界泛化能力的文本到三维场景生成方法仍然是一个挑战。

2、3DGS

        3DGS,提出基于稠密视图的快速光栅化来用于新视图合成,大大减少渲染时间。当前方法集中于重建几何形状,适应动态场景建模。另外也有一些考虑将图像特征转换为像素对齐的3DGS,并通过反向传播渲染图像的损失来优化,训练可泛化的稀疏视图重建模型。

        DreamGaussian、GaussianDreamer,GSGen等考虑用3DGS来作文本到3D生成,通过点云扩散模型初始化3DGS提高生成质量和3D一致性。

        GRM、LGM、GS-LRM等基于3DGS的可泛化稀疏视图重建模型,也可以作上游任务参与文本到3D生成。

        GM-LDM直接在扩散过程中采用像素对齐的3DGS作为中间3D表示,来强化3D一致性。

三、Director3D

        Director3D框架分为三个部分:Cinematographer(生成密集视角相机轨迹的Traj-DiT,模拟密集视图摄影机的轨迹分布),Decorator(通过密集视图的稀疏子集来建模图像分布,生成像素对齐的3DGS基元),Detailer(通过密集相机插值渲染精炼3DGS基元)。

1、Cinematographer

        首先相机轨迹C表示为一组相机参数c_i=\left \{ r_i,t_i,f_i,p_i \right \},其中rt表示相机姿态的旋转和平移,f是相机焦距,p是相机主点。为了确保跨场景的一致性和可比性,将每个场景的轨迹都归一化,并将第一个相机姿态改为单位矩阵,并且距离摄像机最远。

        之后采用DiT结构(交叉注意力-自注意力-MLP)来生成摄像机的运动轨迹\hat{C}(左图),另外在每一个模块引入一个可学习的时间嵌入,来区分不同帧的摄像机,可以捕获真实数据的固有顺序依赖关系。另外在交叉注意力层引入一个CLIP编码器编码的文本嵌入信息。

        相比于以往的DiT结构(Diffusion Transformer)来说,将以往预测图像中的噪声,改为预测摄像机轨迹中的噪声。

        右图是不同去噪步骤下预测的摄像机轨迹(右图)。

2、Decorator

        GM-LDM的流程:

(1)基于2D的去噪

        首先输入潜在的多视图噪声表示Z_t和DiT输出的相机轨迹\hat{C},通过潜在的去噪网络Z_{\theta}得到多视图的潜在表示\hat{Z}和多视角的附加特征F,之后通过潜在表示\hat{Z}和原噪声Z_t来不断监督优化这个去噪网络(L_{2d})。

(2)基于渲染的去噪

        将多视图的潜在表示\hat{Z}和多视角的附加特征F输入到GS解码器D_G,解码器输出GS特征\left \{ \tau_i,q_i,s_i,\alpha_i,c_i \right \},其中\tau_i为深度图,q_i为旋转四元数,s_i缩放矩阵,\alpha_i不透明度,c_i256*256的球谐系数。之后通过光线起点o_i,终点d_i,计算GS位置\mu_i得到完整的3D高斯参数,来生成三维场景。

3、Detailer 

        Detailer负责提高生成3D场景的视觉质量模块,采用了一种SDS++的损失函数,利用2D扩散模型先验来优化3D高斯分布。

        首先利用3DGS参数来渲染2D图像x,并重新通过潜在网络\varepsilon得到图像的潜在表示z,并将图像x和潜在表示z均进行去噪处理得到\hat{x},\hat{z},并通过SDS++损失来监督。相当于又对渲染的2D图像进和潜在表示的图像,进行了两个扩散模型,来计算损失。

4、Loss

        因为该模型不是端到端的,所以在三个步骤分别计算损失进行监督,之后进行冻结网络。

        第一部分:

                ​​​​​​​        

        第二部分(监督Z_{\theta},D_G):

        

        第三部分:

        ​​​​​​​        

        

参考论文:Director3D: Real-world Camera Trajectory and 3D Scene Generation from Text

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2222314.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Git使用GUI界面实现任意历史版本对比

首先进入版本历史查看界面 标记某次提交 选择某次提交并和标记的提交对比 可以查看比较结果了,具体到每一个文件每一行代码

鸿蒙HarmonyOS NEXT 5.0开发(2)—— ArkUI布局组件

文章目录 布局Column:从上往下的布局Row:从左往右的布局Stack:堆叠布局Flex:自动换行或列 组件Swiper各种选择组件 华为官方教程B站视频教程 布局 主轴和交叉轴的概念: 对于Column布局而言,主轴是垂直方…

cnn做整图匹配

好像还没有人把cnn在工业机器视觉中使用,我们打破界限,试一试! 工业上有很多需求,判断加工产品有还是没有,从前基本上都是使用找斑的方法来判断。 我们可以用cnn代替试试! 我们前头cnn最好成绩是&#x…

STM32(二十一):看门狗

WDG(Watchdog)看门狗,手动重装寄存器的操作就是喂狗。 看门狗可以监控程序的运行状态,当程序因为设计漏洞、硬件故障、电磁干扰等原因,出现卡死或跑飞现象时,看门狗能及时复位程序,避免程序陷入…

免费送源码:Node.JS+Express+MySQL Express 流浪动物救助系统 计算机毕业设计原创定制

摘 要 随着互联网大趋势的到来,社会的方方面面,各行各业都在考虑利用互联网作为媒介将自己的信息更及时有效地推广出去,而其中最好的方式就是建立网络管理系统,并对其进行信息管理。由于现在网络的发达,流浪动物救助系…

python基础综合案例(数据可视化—折线图可视化)

可视化案例的学习目标: 通过案例,回忆巩固python基础的语法 锻炼编程能力,熟练语法的使用 1.json数据格式 两种不同的语言由于数据格式不同,所以没有办法直接沟通,就比如我们可以将python 的数据格式转成json&…

VirtualBox虚拟机桥接模式固定ip详解

VirtualBox虚拟机桥接模式固定ip详解 VirtualBox 桥接设置Ubuntu 24.04使用固定IP问题记录 VirtualBox 桥接设置 为什么设置桥接模式?桥接模式可以实现物理机和虚拟机互相通信,虚拟机也可以访问互联网(推荐万金油),物…

STM32通信协议-I2C

目录 一,IC2的协议规则 I2C总线是PHILIPS公司开发的两线式串行总线,I2C总线主要解决了单片机一对多通信的问题 两根通信线:SCL,SDA,同步,半双工通信,支持数据应答机制,支持总线挂载多设备。 …

Verilog:参数(parameter)的使用

相关阅读 Verilog基础https://blog.csdn.net/weixin_45791458/category_12263729.html?spm1001.2014.3001.5482 参数(parameter)一般用于定义常数,常用于进行可配置的参数化设计中,本文将对参数的使用进行详细介绍。 首先来看看参数的BNF范式&#xff…

Hadoop 安装教程——单节点模式和分布式模式配置

文章目录 一、预备知识1.1 Hadoop 发行版本1.2 部署方式 二、预备条件2.1 环境准备2.2 创建新用户(可选)2.3 配置 SSH 无密码登录2.4 下载 Hadoop2.5 编辑 hadoop-env.sh 脚本2.6 编辑 dfs 和 yarn 脚本 三、单节点模式部署3.1 官方使用案例3.2 查看运行结果 四、伪分布模式部署…

用哪种建站程序做谷歌SEO更容易?

做网站很容易,但做一个能带来流量和订单的网站就没那么简单了。尤其是在谷歌SEO优化方面,不同的建站程序对SEO的支持程度也不同。在这方面,WordPress和Shopify无疑是最佳选择。 WordPress作为一个内容管理系统(CMS)&am…

关键词提取技术:TF-IDF 详解

1. 什么是TF-IDF? TF-IDF(Term Frequency-Inverse Document Frequency) 是一种统计方法,用于评估单词在文档集或语料库中的重要性。它是自然语言处理和信息检索中的核心技术之一。 TF-IDF主要基于以下两个概念: TF&a…

Java毕业设计 基于SSM jsp餐厅卫生安全系统

Java毕业设计 基于SSM jsp餐厅卫生安全系统 这篇博文将介绍一个基于SSM框架和jsp开发的餐厅卫生安全系统,适合用于Java毕业设计。 功能介绍 餐厅人员: 注册 登录 首页 图片轮播 窗口信息 窗口详情 文明窗口 差评窗口 系统公告 个人中心 管理员:…

亚信安全DeepSecurity中标知名寿险机构云主机安全项目

近日,亚信安全DeepSecurity成功中标国内知名寿险机构的云主机安全项目。亚信安全凭借在云主机安全防护领域的突出技术优势,结合安全运营的能力,以“实战化”为指导,为用户提供无惧威胁攻击、无忧安全运营的一站式云安全体系&#…

Anaconda和Pycharm超详细安装教程(2024版本+Win11)

一、安装Anaconda 1.1 下载Anaconda 在官方网站(Free Download | Anaconda)上下载适用于你的操作系统的 Anaconda 安装包。(这里以windows为例) 1.2 安装Anaconda 打开下载的安装包,并按照安装向导的指示进行安装。在安装过程中,你可以选择默认的安装选项,也可以根据…

Visual Studio安装图文详解教程

版权声明 本文原创作者:谷哥的小弟作者博客地址:http://blog.csdn.net/lfdfhl 教程说明 本教程旨在详细介绍 Visual Studio 社区版的安装过程及其注意事项。 Visual Studio简介 Visual Studio 社区版功能完备且可扩展的免费 IDE,可用于创…

NVR接入录像回放平台EasyCVR视频融合平台语音对讲配置

国标GB28181视频平台EasyCVR视频融合平台可拓展性强、视频能力灵活,平台可提供视频监控直播、云端录像、云存储、录像检索与回看、智能告警、平台级联、云台控制、语音对讲、智能分析接入等功能。其中,在语音对讲方面,NVR接入录像回放平台目前…

4种鼓励创业创新的方法

随着市场趋于饱和,许多企业,尤其是初创企业,很难在竞争中保持领先地位。技术为企业彻底改变其营销和管理策略铺平了道路。另一个经过实践检验的成功渗透特定市场的方法是在办公室内部激发创新,从员工到品牌皆如此。 那么究竟如何…

【设计模式-原型】

**原型模式(Prototype Pattern)**是一种创建型设计模式,旨在通过复制现有对象的方式来创建新对象,而不是通过实例化类来创建对象。该模式允许对象通过克隆(复制)来创建新的实例,因此避免了重新创…

LabVIEW提高开发效率技巧----插入式架构

随着LabVIEW项目规模的扩大和系统复杂性的增加,传统的单一代码架构难以应对后期维护和功能扩展的需求。插入式架构(Plug-In Architecture)作为一种模块化设计方式,通过动态加载和运行子VI,使系统功能更加灵活、模块化&…