CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

news2024/11/28 2:41:57

来源:投稿 作者:橡皮
编辑:学姐

论文链接:https://arxiv.org/abs/2303.13843

0.背景:

最近,文本到图像生成通过将视觉-语言预训练模型与扩散模型相结合,取得了巨大的成功。这些突破也使得强大的视觉-语言预训练模型在文本生成三维内容中产生了深远的影响。最近,几种文本生成3D的方法已经表明,将来自差分3D模型的渲染视图与来自预先训练的扩散模型的学习到的文本到图像分布相匹配,可以获得显著的结果。

然而,文本描述通常是用于期望的目标3D模型或2D图像的抽象规范。尽管拥有强大的扩散模型,例如stable diffusion,它已经在数十亿的文本图像对上进行了训练,但从文本中生成不同视点的几何相干图像仍然是一个挑战。

在给定包含多个对象的文本的情况下,扩散模型可能会产生不准确的结果,导致对象丢失或语义混乱,有时即使使用简单的多对象文本,稳定扩散也无法保持对象身份和几何一致性。这显然与NeRF中体积渲染的本质相矛盾,导致了障碍引导崩溃,尤其是在从多对象文本中渲染复杂场景时。

因此,这自然提出了一个问题:是否可以从3D场景生成的扩散模型的不可知分布中准确地学习和组合多对象文本中的所有概念。

1.主要贡献:

通过将可编辑的3D布局与多个局部NeRF集成,以精确关联特定结构的文本引导,来解决多物体3D场景生成中的引导崩溃问题

通过引入全局MLP来校准全局场景颜色和不同级别的文本引导,以在学习单个实体的全局一致性的同时保持对象的身份,从而解决全局一致性和遮挡问题。

全面评估了我们提出的方法在各种多对象场景中的有效性,展示了其以合成方式生成3D场景并提供灵活编辑功能的能力。

2.网络介绍: CompoNeRF

由三部分组成:

  1. 可编辑的3D场景布局通过3D框和文本提示配置场景表示;

  2. 场景渲染包括全局校准和合成过程;

  3. 联合优化将全局和局部文本指导应用于全局和局部渲染视图。

3.1方法细节:概述

上图展示了pipeline,由三个主要组件组成:包括基于多对象文本的可编辑3D场景布局(第3.3节),合成所有局部NeRF预测的场景渲染pipeline(第3.4节),以及局部和全局表示模型的联合优化(第3.5节),提出的可编辑3D场景布局通过将其分解为一组局部帧来表示场景的全局帧,其中每个局部帧由局部NeRF、3D边界框和相应的局部文本提示参数化。

例如,文本提示“一只泰迪熊和一只毛绒猴子并排坐着”被解释为是一个3D场景布局。整个3D布局,即场景帧,由两个3D边界框组成,即局部帧#1和#2,并带有特定的局部文本提示,即“泰迪熊”和“毛绒猴子”。

3.2方法细节:先验知识

生成噪声图像X_t。然后,扩散模型φ预测采样噪声 

给定噪声图像X_t 、噪声水平t和可选文本提示T。

特别是SDS根据预测噪声和添加噪声之间的差来计算梯度,

其中w(t)是加权函数。在所有渲染视图上生成的梯度方向用于更新θ,以生成与扩散先验下的条件文本提示相匹配的图像。我们还遵循SJC将扰动和平均评分应用于SDS过程。

3.3方法细节:可编辑3D场景布局

此外,如下图所示,3D场景布局中的每个组件都可以用其他经过训练的本地NeRF替换或重新合成,与仅使用文本提示相比,这对于灵活的用户版本更友好。

3.4方法细节:场景渲染pipeline

注意,首先使用局部帧的盒尺度将采样点的坐标投影到归一化坐标中,以使每个局部NeRF能够学习尺度无关的表示。全局坐标中局部框架的边界框b可以通过(b−p)/s转换为规范边界框。考虑到渲染效率,我们只计算有效点,与框进行交互,并将所有空点设置为恒定的背景色。

其中,δ是相邻采样点之间的距离。 对于每个局部NeRF  \theta _l,我们还通过,

事实上,与场景相比,每个局部帧只有少量的命中光线。尽管部分光线被跳过,但我们观察到,在保持较短渲染时间的同时,准确地表示每个对象就足够了。

3.5方法细节:联合优化

4.实验结果:

关注下方《学姐带你玩AI》🚀🚀🚀

回复“CVPR”获取顶会必读论文合集

码字不易,欢迎大家点赞评论收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/646800.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python: read excel and export excel

""" PythonAppReadExcel.py edit: geovindu,Geovin Du,涂聚文 date 2023-06-13 保险 """ # This is a sample Python script. # python.exe -m pip install --upgrade pip # Press ShiftF10 to execute it or replace it with your c…

orbslam 地图点观测距离范围 mfMinDistance,mfMaxDistance 的理解

目的是在不同帧不同距离的范围内观测到同一个地图点 直观理解,由于相机成像小孔成像近大远小 相机在距离特征点i 1米时图像金字塔第0层的 31x31图像区域, 类似于相机在距离 特征点i 最远约米时的图像金字塔第7层的31x31图像区域。 相机在距离特征点i 1…

桥接模式(十)

不管怎么样,都要继续充满着希望 上一章简单介绍了适配器模式(九), 如果没有看过, 请观看上一章 一. 桥接模式 引用 菜鸟教程里面的 桥接模式介绍: https://www.runoob.com/design-pattern/bridge-pattern.html 桥接(Bridge)是用于把抽象化…

GitHub 2800颗星,支持GPT/Transformer,字节跳动这个开源项目是怎么来的?

AI 绘画、机器翻译、多轮对话……对于各类 AI 相关的功能来说,总有一个痛点,困扰着所有训模型的算法工程师们: 想要效果更好,那么 AI 模型一般都很大,耗费的算力更多不说,运行起来还更费时间; 如…

关键字static,final的使用

关键字:static 概念 是java中的一个关键字 用于修饰成员(成员变量和成员方法) 类属性、类方法的设计思想 概念: 当我们编写一个类时,其实就是在描述其对象的属性和行为,而并没有产生实 质上的对象&#x…

使用递归SQL实现树形参数的转换(后传前)

1、什么是递归SQL 递归 SQL(Recursive SQL)是一种 SQL 查询语言的扩展,它允许在查询中使用递归算法。递归 SQL 通常用于处理树形结构或层次结构数据,例如组织结构、产品分类、地理位置等。 递归 SQL 语句通常包含两个部分&#xf…

大数据入门-大数据技术概述(一)

大数据入门系列文章 大数据入门-大数据是什么 一、概念 大数据技术是指在构架大数据平台的时候需要的技术。包含存储系统,数据库,数据仓库,资源调度,查询引擎,实时框架等。下面以我目前所了解到的一些技术做简要介绍…

React学习笔记十-生命周期(旧)

此文章是本人在学习React的时候,写下的学习笔记,在此纪录和分享。此为第十篇,主要介绍React非常重要的组件的生命周期(旧)。要学习react新的生命周期,那必须先学习旧的生命周期。 目录 1.引出生命周期概念 1.1案例 1.1.1案例卸…

snmp默认团体名/弱口令漏洞及安全加固

一、漏洞描述 SNMP(简单网络管理协议)被广泛用于计算机操作系统设备、网络设备等领域监测连接到网络上的设备是否有任何引起管理上关注的情况。在运行SNMP服务的设备上,若管理员配置不当运行默认团体名/弱口令访问,将导致敏感信息泄露。敏感…

Sentinel源码分析-ProceesorSlotChain调用链及树状资源节点

Sentinel 实现流控,隔离,降级等功能,本质要做两件事: 数据统计: 统计某个资源的访问数据(QPS,RT(响应时间),异常比例)等信息规则判断: 判断流控规…

攻略 | 如何拿下奖金534万的全国人工智能大赛?

全国人工智能大赛已连续成功举办三届,累计吸引全球20个国家、1万多支队伍参与竞技,已成为人工智能领域参与规模和影响力都名列前茅的顶级赛事。作为头部科技企业、高等院校和科研院所的链接平台,大赛在促进产学研融合、推动多项成果落地方面成…

比后缀Ti更香的N卡全能型号回归,40显卡终于不恶心了

NVIDIA RTX 40 系显卡上市有一段时间了,不过大家给出的一致看法是:除了 4090 外,其他型号暂时都不值得购买! 倒不是说他们性能多拉胯,主要是核心规格与价格属实不那么匹配。 特别是主流的 RTX 4060、4070 级别&#…

flask搭建在线音乐网系统

1.使用虚拟环境Virtualenv来创建项目 2. Flask框架介绍 Flask框架是一个用Python编写的轻量级Web应用程序框架,依赖于Werkzeug和Jinja2两个外部库。Werkzeug是一个WSGI工具包,用于接收和处理HTTP请求,匹配视图函数,支持Cookie和会…

基于Java社区文化宣传网站设计实现(源码+lw+部署文档+讲解等)

博主介绍: ✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战 ✌ 🍅 文末获取源码联系 🍅 👇🏻 精…

2023年5月国产数据库大事记-墨天轮

本文为墨天轮社区整理的2023年5月国产数据库大事件和重要产品发布消息。 目录 5月国产数据库大事记 TOP105月国产数据库大事记(时间线)产品/版本发布兼容认证代表厂商大事记排行榜新增数据库厂商活动 5月国产数据库大事记 TOP10 5月国产数据库大事记&…

高考之后想学习网络安全,网络安全/信息安全是一个好的专业吗?

本人信息安全专业毕业,在甲方互联网大厂安全部与安全乙方大厂都工作过,有一些经验可以供对安全行业感兴趣的人参考。 或许是因为韩商言让更多人知道了CTF,也或许是因为网络安全越来越受国家重视,安全最近愈加火爆了。当然&#x…

C++初阶—list深度解剖及模拟实现

目录 ➡️0. 前言 😊1.简易框架实现 🐔1. list和__list_node分析实现 🐔2. 无参构造 😊2.迭代器实现 🐔1. list普通迭代器面临问题及解决方案 🐔2. __list_node\iterator\list三类分析 &#x1f41…

内网安全:Cobalt Strike 与 MSF 联动( 会话 相互转移 )

内网安全:Cobalt Strike 与 MSF 联动( 会话 相互转移 ) 在渗透中,有时候 Cobalt Strike 会话可能会受限制,所以我们需要把 Cobalt Strike 会话转移到 MSF 上进行后面的渗透。也有的时候会话在 MSF 上,但是…

大数据学习归纳

本文初衷是为了学习归纳,若有错误,请指出。 修改记录 时间内容2020年4月10日第一次发布2020年4月16日添加MaxCompute SQL部分2020年9月14日新增数仓部分笔记 大数据架构 基础知识题 大数据组件概念 集群:多个人做同样的事 分布式:…

Visual Studio Community 2022 + Win10 编译 OpenCPN 5.9.0 记录

前言 前两天尝试用vs2017编译OpenCPN5.0.0,前后折腾了两三天总算编译成功了。官网给出的编译过程比较简单,我在实际编译过程中遇上了很多很多的问题,最多的就是缺少库,好在最后编译通过了。 后来浏览OpenCPN官网的时候发现发布了…