ICCV 2023 Oral | 从无约束图像集合中生成新视角的交叉光线神经辐射场

news2025/1/13 15:50:19

image.png

文章链接:https://arxiv.org/abs/2307.08093
代码链接:https://github.com/YifYang993/CR-NeRF-PyTorch.git

01. 介绍

本工作旨在通过从不受限制的图像集合(例如从互联网中爬取的图像)中合成新视角图片,从而提供3D沉浸式体验。本方法使用户能够从多视角欣赏任意季节的国际地标,例如德国柏林的勃兰登堡门和意大利罗马的特维尔喷泉。

具体来说,假设用户想去勃兰登堡门欣赏不同时间和天气的风景,但由于学业、工作等原因旅行成本过高,无法亲身前往。那么如何不出门就能在多种天气、多种时间、从多种角度下“云游玩”该景点呢?

这时,我们提出的CR-NeRF即可派上用场。用户只需从互联网上收集任意关于勃兰登堡门的照片,不论是白天、晚上、春夏秋冬的场景都可以,再利用CR-NeRF,便能生成勃兰登堡门的新视角图像。CR-NeRF能根据用户给定的相机角度和图像风格来渲染图像。通过这一方法,用户可以在虚拟环境中体验勃兰登堡门的多样化场景,感受不同时间和天气带来的景观变化,让用户在家中就能畅游世界名胜,享受沉浸式的旅行体验。这种技术不仅节省了旅行成本和时间,还为用户提供了更多探索世界的可能性。

02. 摘要

神经辐射场(NeRF)是一种革命性的渲染场景方法,通过对每个像素采样单个光线,在从静态场景图像生成新视角方面展示出令人印象深刻的能力。然而,在实践中,我们通常需要从无约束的图像集合中恢复NeRF,这面临两个挑战:

1)图像通常由于拍摄时间和相机设置的不同而具有外观上的动态变化;

2)图像可能包含人和汽车等瞬态对象,导致遮挡和伪影。

传统方法通过局部利用单个光线来解决这些挑战。相比之下,人类通常通过在多个像素之间全局利用信息来感知外观和对象。为了模拟人类的感知过程,在本文中,我们提出了交叉光线NeRF(CR-NeRF),利用跨多个光线的交互信息合成无遮挡、与图像外观相同的新视角。具体而言,为了建模不同的外观,我们首先提出使用新颖的交叉光线特征表示多个光线,然后通过融合光线的全局统计信息(即光线特征的协方差和图像外观)来恢复外观。

此外,为了避免瞬态对象引入的遮挡,我们提出了一个瞬态对象处理器,并引入了网格采样策略来屏蔽瞬态对象。我们在理论上发现,利用多个光线之间的相关性有助于捕捉更多的全局信息。此外,在大型真实数据集上的实验结果验证了CR-NeRF的有效性。

03. 方法动机

通过CR-NeRF,我们输入不同光照条件下的照片,从而重建的可控外观的3D场景,同时消除图像中的遮挡。用互联网图像数据集重建NeRF面临着以下两个挑战。

  1. 不同的外观: 假设两个游客即使在相同的视点拍摄照片,他们也仍然处在不同的条件下:不同的拍摄时间,不同的天气(如晴天,雨天,雾天),不同的相机设置(如光圈,快门,ISO)。这种变化的条件导致对同一个场景拍摄的多张同视角照片可能会呈现截然不同的外观。

  2. 瞬态遮挡: 瞬态物体如汽车和乘客可能会遮挡场景。由于这些物体通常仅存在于单张图片中,因此高质量地重建这些物体通常是不切实际的。上述挑战与NeRF的静态场景假设相冲突,导致重建不准确、过度平滑和重影伪影[1]。

最近,研究者们已经提出了几种方法(NeRF-W[1] ;Ha-NeRF[2])来解决上述挑战。从图1(a)中,NeRF-W和Ha-NeRF利用单相机光线方式重建3D场景。具体来说,这种方法分别与单射线特征融合外观特征和遮挡物特征,随后独立合成新视图像素的每种颜色。这种方式的一个潜在问题是它依赖于每条射线的局部信息(例如,单个图像像素的信息)来识别外观和瞬态物体。

相比之下,人类倾向于利用全局信息(例如跨多个图像像素的信息),这提供了对物体更全面的了解,以观察其外观并处理遮挡。基于此,我们提出使用交叉射线范式来处理变化的外观和瞬态物体(见图1(b)),我们利用来自多射线的全局信息来恢复外观并处理瞬态物体。然后,我们同时合成一个新视图的区域。

MOTIVATION.png
图1: CR-NeRF的动机图

04. 方法

基于交叉射线范式,我们提出了一个交叉射线神经辐射场(cross-ray Neural Radiance Fields, CR-NeRF),如图2, CR-NeRF由两个部分组成:

  1. 为了模拟可变的外观,我们提出了一种新的交叉射线特征来表示多射线的信息。然后,我们通过使用全局统计(例如,交叉射线的特征协方差)的交叉射线变换网络融合交叉射线特征和输入图像的外观特征。将融合特征送入解码器以同时获得多个像素的颜色。

  2. 在瞬态目标处理方面,我们提出了一种独特的视角,将瞬态目标处理视为一个分割问题,通过考虑图像区域的全局信息来检测瞬态目标。具体来说,我们分割了输入的图像,以获得物体的可见性图。为了减少计算开销,我们引入了一种网格采样策略,对输入的光线和分割后的映射进行相同的采样,使两者配对。我们从理论上分析了利用多射线之间的相关性可以捕获更多的全局信息。

接下来,我们具体描述CR-NeRF的两个部分。

PS: 我们假设读者了解关于NeRF, 相机模型等知识,若尚未掌握相关知识,请查阅CR-NeRF论文中的preliminary部分。

pipelinev41.png

图2: CR-NeRF的方法流程

4.1 风格迁移模块

4.2 遮挡处理模块

05. 实验

5.1 定量结果

我们在Brandenburg Gate, Sacre Coeur和Trevi Fountain数据集上进行了大量的实验。如表1所示,我们观察到原始的NeRF在所有方法中表现最差,因为NeRF假设训练图像背后的场景是静态的。通过对样式嵌入建模和处理瞬态对象,NeRF-W和Ha-NeRF在PSNR、SSIM和LPIPS方面取得了相当的性能。由于交叉射线的优势,我们的CR-NeRF优于NeRF-W和Ha-NeRF。

quant.png
表1: CR-NeRF与SOTA方法的对比

5.2 可视化实验

我们在图3中展示所有比较方法的定性结果。我们观察到NeRF产生雾状伪影和不准确的外观。NeRF-W和Ha-NeRF能够从地面真实图像重建更有前途的3D几何形状和模型外观。然而,重建的几何形状不够精确,例如,勃兰登堡的绿色植物的形状和围绕柱子的幽灵效应,Sacre的空腔等。此外,现有方法生成的外观不够逼真,例如Sacre的雕像上的阳光,Trevi的蓝色天空和灰色屋顶的颜色。相比较,我们的CR-NeRF引入了交叉射线范式,因此实现了更真实的外观建模,并通过抑制瞬态物体重建一致的几何形状。

hallucination_gifv21.png
图3: CR-NeRF与SOTA方法的对比

5.3 交叉光线外观迁移模块和瞬态物体处理模块的消融实验

表2展示了CR-NeRF在Brandenburg、Sacre和Trevi数据集上的消融实验结果。我们观察到我们的基线(CR-NeRF-B)的性能通过添加交叉光线外观迁移模块(CR-NeRF-A)和瞬态处理模块(CR-NeRF-T)后在逐渐提升。

ablation.png
表2: CR-NeRF的消融实验

5.4 推理速度

inferencetime.png
表3: CR-NeRF与Ha-NeRF的推理时间对比

5.5 更多实验

我们对外观特征进行了插值实验,与SOTA方法进行了外观迁移比较实验,还制作了视频demo等。请阅读我们的论文和访问github链接。

06. 总结和展望

6.1 总结

本工作的贡献总结如下:

  • 从无约束的照片集合中合成新视图的新交叉射线范式: 我们发现现有的方法无法通过单射线水平范式从无约束的照片集合中产生令人满意的视觉结果,主要是由于忽略了多射线之间潜在的合作相互作用。为了解决这个问题,我们提出了一种新的交叉射线范式,它利用了跨多条射线的全局信息。

  • 用于处理不同外观的交互式和全局方案: 与独立处理每条光线的现有方法不同,我们通过引入交叉射线特征来表示多条光线,这通过特征协方差促进了光线之间的相互作用。这使我们能够在场景中注入全局信息的外观表示,从而实现更逼真、更高效的外观建模。我们的理论分析证明了在外观建模中考虑多射线的必要性。

  • 处理瞬态对象的一种新的分割技术: 我们将瞬态对象问题重新表述为分割问题。我们利用无约束图像的全局信息分割可视图。此外,我们还采用网格采样将地图与多个光线配对。实验结果表明,CR-NeRF消除了重建图像中的瞬态目标。

6.2 展望

本工作还有很多可提升的空间。例如,我们在论文末尾所说,当前,由于瞬时物体没有GT监督,完全依赖深度模型从数据中自动学习数据模式,尚缺乏精细的建模。更重要的是,我们认为瞬时物体的定义仍然是一个未解决的问题,我们把它留给我们未来的工作。

引用

[1] Martin-Brualla, Ricardo, et al. "Nerf in the wild: Neural radiance fields for unconstrained photo collections." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

[2] Chen, Xingyu, et al. "Hallucinated neural radiance fields in the wild." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

[3] Schwarz, Katja, et al. "Graf: Generative radiance fields for 3d-aware image synthesis." Advances in Neural Information Processing Systems 33 (2020): 20154-20166.


  关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/935821.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在大规模推荐系统中整合 ML 模型的经验教训

一、说明 在这篇博文中,我们分享了将 Netflix 大规模搜索和推荐系统的多个相关机器学习模型整合到一个统一模型中的系统设计经验。给定不同的推荐用例,许多推荐系统将每个用例视为单独的机器学习任务,并为每个任务训练定制的 ML 模型。相比之…

Linux(基础IO、文件权限、Makefile)

目录 1、man 手册 1.1 汉化 1.2 具体使用 2、文件权限 2.1 权限理解 2.2 文件详细信息查询 2.3 权限更改 3、常用函数接口 3.1 open 3.2 read 3.3 write 3.4 close 3.5 函数使用示例 4、make与Makefile 4.1 make 与 Makefile区别 4.2 Makefile的编写 5、vim简…

windows11系统重装步骤及优化技巧

目录 目录 本文目的 Windows11介绍 Windows下载 和win10对比 重装步骤 系统设置调整 系统备份还原 C盘减肥,空间优化技巧 Java开发工具 本文目的 说明windows11的系统重装步骤,大部分步骤也适用于其他windows版本。常用软件的安装与介绍。系统…

《图解HTTP》——上野 宣

图解HTTP 看完这本书并在此博客下摘录书中的部分知识以便回顾。 第一章 了解Web及网络基础 1.1 使用HTTP协议访问Web Web使用一种名为HTTP(HyperText Transfer Protocol,超文本传输协议)的协议作为规范,完成从客户端到服务器端等一系列运作流程。而协…

Compose - 交互组合项

按钮 Button OutLinedButton带外边框、TextButton只是文字、IconButton只是图标形状。 Button(onClick { }, //点击回调modifier Modifier,enabled true, //启用或禁用interactionSource MutableInteractionSource(),elevation ButtonDefaults.elevatedButtonElevation( /…

Docker网络-探索容器网络如何相互通信

当今世界,企业热衷于容器化,这需要强大的网络技能来正确配置容器架构,因此引入了 Docker Networking 的概念。Docker 是一种容器化平台,允许您在独立、轻量级的容器中运行应用程序和服务。Docker 提供了一套强大的网络功能&#x…

【rust/egui】(六)看看template的app.rs:TextEdit

说在前面 rust新手,egui没啥找到啥教程,这里自己记录下学习过程环境:windows11 22H2rust版本:rustc 1.71.1egui版本:0.22.0eframe版本:0.22.0上一篇:这里 TextEdit 文本编辑框 其定义为&#…

【调试经验】Ubuntu22.04 安装和配置MySQL 8.0.34

在安装新版本的MySQL到电脑时,按着网上一些教程执行发现错误繁多,最后索性自己摸索并把服务装好了。自己也整理了一下在操作时的一些,上传分享上来希望能帮助到大家。 目录 正文 安装MySQL 配置MySQL 登录账户 方式1: 默认账户登录 方…

Tableau可视化入门实践-1

目录 Tableau 介绍基础统计图形条形图堆积图直方图饼图环形图 Tableau 介绍 Tableau是一款功能强大的数据可视化和业务智能工具,被广泛应用于各行各业的数据分析和决策支持领域。 Tableau提供了直观友好的用户界面,无需编程和复杂的数据处理技能&#x…

Tensorflow2.0搭建网络八股扩展

目录 一、自制数据集 准备:txt和图片 制作函数 二、断点继训,存取模型 1.读取保存的模型 2.保存模型 3.正确使用 三、参数提取,把参数存入txt 参数提取 四、acc/loss可视化,查看效果 1.前提开启:获取history…

ubuntu学习(六)----文件编程实现cp指令

1 思路 Linux要想复制一份文件通常指令为: cp src.c des.c 其中src.c为源文件,des.c为目标文件。 要想通过文件编程实现cp效果,思路如下 1 首先打开源文件 src.c 2 读src到buf 3 创建des.c 4 将buf写入到des.c 5 close两个文件 2 实现 vi …

并发编程基础知识篇--线程的状态和基本操作

目录 创建线程的四种方式 线程的状态和生命周期 扩展知识 线程的调度 线程状态的基本操作 interrupted 实例 join 实例 sleep 实例 扩展小知识 yield 实例 扩展 创建线程的四种方式 创建线程的四种方式 继承Thread类实现Runnable接口使用Callable和Future创…

博客系统——前端部分

目录 一、博客页面介绍 二、实现博客列表页 1、先实现导航栏 2、页面主体 左侧区域的实现:​编辑 右侧页面的实现:​编辑 博客列表页代码汇总: 三、实现博客详情页 代码实现: 四、实现博客登录页​编辑 五、博客编辑页 …

【赋权算法】Python实现熵权法

在开始之前,我们先说一下信息熵的概念。 当一件事情发生,如果是意料之中,那么这个事情就并不能拿来当做茶余饭后的谈资,我们可以说这个事情并没有什么信息和价值。而当一件不可能发生的事情发生的时候,我们可能就会觉…

挖数据四周年庆典,壕礼不断,惊喜不停!

挖数据四周岁啦!为了感谢广大用户们一路以来的支持与陪伴,我们特地准备了丰富的优惠活动,希望能够用最实际的行动来回馈您们的厚爱。四年的成长与蜕变,都是因为有您们的陪伴与鼓励,我们期待与您们一同分享这份喜悦与成…

Linux 基金会宣布正式进驻中国

在 LinuxCon 2017 (北京)即将召开前夕,我们Linux 中国会同 51CTO、开源中国对 Linux 基金会执行董事 Jim Zemlin 进行了一场远跨大洋的视频专访。 在这次专访中,Jim 先生回答了几个开源界和互联网领域关注的问题,并披…

PCI设备和PCI桥的配置空间(header_type0、header_type1)和配置命令(type0、type1)详解

1、PCI典型拓扑 2、type0和type1 名称含义Bus Number设备所在总线号Device Number设备分配到的设备号Function Number功能号,有的设备是支持多个功能的,最多8种功能Register Number要访问的寄存器地址 (1)type0和type1的区别:AD[1:0]是00代表…

几个nlp的小任务(生成式任务——语言模型(CLM与MLM))

@TOC 本章节需要用到的类库 微调任意Transformers模型(CLM因果语言模型、MLM遮蔽语言模型) CLM MLM 准备数据集 展示几个数据的结构

【AI底层逻辑】——篇章7(下):计算资源软件代码共享

续上篇... 目录 续上篇... 三、计算资源 1、第一阶段:数据大集中 2、第二阶段:资源云化 ①“云”的分类 ②虚拟化技术 ③边缘计算的普及 四、软件代码共享 总结 往期精彩: 三、计算资源 AlphaGo算法论文虽然已经发表,但…

华为OD七日集训第2期 - 按算法分类,由易到难,循序渐进,玩转OD(文末送书)

目录 一、适合人群二、本期训练时间三、如何参加四、7日集训第2期五、精心挑选21道高频100分经典题目,作为入门。第1天、逻辑分析第2天、字符串处理第3天、数据结构第4天、递归回溯第5天、二分查找第6天、深度优先搜索dfs算法第7天、动态规划 六、集训总结1、《代码…