CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:实时4K分辨率4D视图合成

news2025/1/11 9:13:15

文章链接:https://arxiv.org/pdf/2310.11448
git链接: https://zju3dv.github.io/4k4d/

本文旨在实现动态3D场景在4K分辨率下的高保真和实时视图合成。最近,一些动态视图合成方法在渲染质量方面表现出色。然而,在渲染高分辨率图像时,它们的速度仍然有限。为解决这个问题,本文提出了4K4D,一种支持硬件光栅化的4D点云表示,能够实现前所未有的渲染速度。本文的表示基于4D特征网格构建,因此点云被自然地正则化并可以进行稳健优化。此外,设计了一种新颖的混合外观模型,显著提升了渲染质量,同时保持了效率。此外,开发了一种可微分的深度剥离算法,以有效地从RGB视频中学习所提出的模型。实验表明,在使用RTX 4090 GPU的情况下,本文的表示在1080p分辨率下可以在DNA-Rendering数据集上以超过400 FPS的速度进行渲染,在4K分辨率下可以在ENeRF-Outdoor数据集上以80 FPS的速度进行渲染,比以往方法快30倍,并实现了最先进的渲染质量。

方法

给定捕捉动态3D场景的多视角视频,目标是重建目标场景并实时执行新视角合成。为此,研究者们使用空间雕刻算法提取场景的粗点云,并建立基于点云的神经场景表示,该表示可以从输入视频中稳健地学习,并支持硬件加速渲染。

下图2展示了所提模型的概述。首先描述如何基于点云和神经网络表示动态场景的几何和外观。然后,开发了一种可微分深度剥离算法,用于渲染表示,该算法由硬件光栅化器支持,从而显著提高了渲染速度。最后,讨论如何在输入RGB视频上优化所提模型。

使用点云建模动态场景

4D embedding。给定目标场景的粗点云,使用神经网络和特征网格来表示其动态几何和外观。具体而言,本文的方法首先定义了六个特征平面:θ、θ、θ、θ、θ和θ。为了在帧t中为任意点x分配一个特征向量f,采用K-Planes的策略,使用这六个平面来建模一个4D特征场:

其中, 是输入点, 表示拼接运算符。更多实现细节请参考K-Planes。

几何模型。基于粗点云,动态场景几何通过学习每个点的三个条目来表示:位置 、半径 和密度 。使用这些点条目,计算体渲染时与图像像素 u 对应的空间点 x 的体积密度。点的位置 被建模为一个可优化的向量。半径 r 和密度 通过将方程 (1) 中的特征向量 输入到 网络来预测。

外观模型。如上面图 2c 所示,使用图像混合技术和球谐函数 (SH) 模型来构建混合外观模型,其中图像混合技术表示离散的视角依赖外观 ,SH 模型表示连续的视角依赖外观 。对于帧 t 中的点 ,其在视角方向 下的颜色为:

其中,s 表示点 处的 系数。

离散的视角依赖外观 基于输入图像推理。具体而言,对于一个点 ,首先将其投影到输入图像中以检索相应的 RGB 颜色 。然后,为了混合输入的 RGB 颜色,根据点坐标和输入图像计算相应的混合权重 。请注意,混合权重与视角方向无关。接下来,为了实现视角依赖效果,根据视角方向选择 N′ 个最近的输入视角。最后,颜色 计算为 。由于 N′ 个输入视角是通过最近邻检索获得的,因此 cibr 在视角方向上不可避免地是离散的。为了实现连续的视角依赖效果,附加了由 SH 模型表示的精细级别颜色 ,如上面图 2c 所示。

在实践中,本文的方法通过将方程 (1) 中的点特征 传递到 网络来回归 系数 s。为了在图像混合模型 中预测混合权重 ,首先将点 投影到输入图像上以检索图像特征 ,然后将其与点特征 f 拼接,并将其输入到另一个 网络中以预测混合权重。图像特征 使用 2D CNN 网络提取。

讨论。本文的外观模型是实现动态场景的低存储、高保真和实时视图合成的关键。有三种替代方法来表示动态外观,但它们的表现无法与本文的模型相提并论。

  • 在每个点上定义显式 SH 系数,如在 3D 高斯分裂 中。当 SH 系数的维度较高且动态场景的点数量较大时,该模型的大小可能太大,无法在消费级 GPU 上训练。

  • 基于 MLP 的 SH 模型。使用 MLP 来预测每个点的 SH 系数可以有效地减少模型大小。然而,本文的实验发现基于 MLP 的 SH 模型难以渲染高质量图像。

  • 连续视角依赖的图像混合模型,如 ENeRF。使用图像混合模型表示外观比仅使用基于 MLP 的 SH 模型具有更好的渲染质量。然而,ENeRF 中的网络将视角方向作为输入,因此无法轻松预计算,从而限制了推理期间的渲染速度。

与这三种方法相比,本文的外观模型结合了离散图像混合模型 和连续 SH 模型 。图像混合模型 提升了渲染性能。此外,由于其网络不将视角方向作为输入,它支持预计算。SH 模型 实现了任何视角方向的视角依赖效果。在训练期间,本文的模型使用网络表示场景外观,因此其模型大小合理。在推理期间,预计算网络输出以实现实时渲染。

可微分深度剥离

研究者们提出的动态场景表示可以使用深度剥离算法渲染成图像。得益于点云表示,能够利用硬件光栅化器显著加速深度剥离过程。此外,使这一渲染过程可微分也很容易,从而能够从输入的 RGB 视频中学习本文的模型。

研究者们开发了一个自定义着色器来实现包含 K 次渲染通道的深度剥离算法。考虑一个特定的图像像素 u。在第一次通道中,本文的方法首先使用硬件光栅化器将点云渲染到图像上,为像素 u 分配最近的点 。记点 的深度为 。随后,在第 k 次渲染通道中,所有深度值 小于上一通道记录深度 的点都被丢弃,从而得到像素 u 的第 k 近的点。丢弃较近的点在自定义着色器中实现,因此它仍然支持硬件光栅化。在 K 次渲染通道之后,像素 u 有一组排序的点 。

基于点 ,使用体渲染合成像素 u 的颜色。像素 u 的点 的密度是基于投影点和像素 u 在2D图像上的距离定义的。

其中, 是摄像机投影函数。 和 r 分别是点 的密度和半径。在训练过程中,使用 PyTorch实现投影函数,因此方程 (3) 自然是可微的。在推理过程中,利用硬件光栅化过程高效地获得距离 ,这通过 OpenGL 实现。

记点 的密度为 。像素 u 的体渲染颜色公式如下:

其中, 是点 的颜色,如方程 (2) 所述。

训练

给定渲染的像素颜色 ,将其与真实像素颜色 进行比较,以端到端的方式使用以下损失函数来优化模型:

其中, 是图像像素的集合。除了均方误差损失 外,还应用感知损失 。

其中, 是感知函数(一个 VGG16 网络),I 和 分别是渲染和真实图像。感知损失计算从 VGG 模型提取的图像特征之间的差异。实验中表明,它有效地提高了渲染图像的感知质量。

为了规范,本文提出的表示优化过程,还额外应用mask监督到目标场景的动态区域。仅渲染动态区域的点云以获得它们的mask,其中像素值由以下公式得到:

mask损失定义如下:

其中,表示渲染mask的像素集合,而 是2D动态区域的地面真实mask。这有效地通过将其限制在视觉外壳中,规范了动态区域几何优化的过程。

最终的损失函数定义如下:

其中, 和 是控制对应损失权重的超参数。

推理

训练完成后,采用几种加速技术来提升模型的渲染速度。首先,在推理之前预先计算点位置 p、半径 r、密度 、SH 系数 s 和颜色混合权重,这些数据存储在主内存中。在渲染过程中,这些属性被异步地流式传输到显卡上,通过重叠光栅化和内存复制来实现最优的渲染速度。应用这一技术后,运行时计算仅包括深度剥离评估和球谐函数评估 (Eq.(2))。其次,将模型从32位浮点数转换为16位,以实现高效的内存访问,这提高了帧率约20,并且经验证没有可见的性能损失,如表6所示。第三,不可微分深度剥离算法的渲染通道数 K 从15减少到12,同样提高了20 FPS 的速度,而视觉质量无变化。

实现细节

优化

4K4D 使用 PyTorch 框架进行训练。使用 Adam 优化器,学习率为 5e−3,通常在序列长度为 200 帧的情况下,模型会在约 800k 次迭代后收敛,这在单个 RTX 4090 GPU 上大约需要 24 小时。具体而言,点位置的学习率设置为,正则化损失权重 λ和λ 设置为 1e−3。训练过程中,不可微分深度剥离的通道数 K 设置为 15,最近输入视图的数量 N′ 设置为 4。本文的方法的渲染速度是基于 RTX 3090 GPU 报告的,除非另有说明。

点云初始化

利用现有的多视角重建方法来初始化点云。对于动态区域,使用分割方法 在输入图像中获取它们的mask,并利用空间雕刻算法提取它们的粗略几何信息。对于静态背景区域,利用前景mask沿所有帧计算背景像素的mask加权平均,生成不包含前景内容的背景图像。然后,在这些图像上训练一个 Instant-NGP模型,从中获取初始点云。初始化后,动态区域每帧通常包含约 250k 个点,静态背景区域通常包含约 300k 个点。

实验

数据集和评估指标

在多个广泛使用的多视角数据集上训练和评估本文的方法 4K4D,包括 DNA-Rendering、ENeRF-Outdoor、NHR和 Neural3DV。

  • DNA-Rendering: 这个数据集使用 4K 和 2K 相机记录了动态人类和物体的 10 秒视频片段,帧率为 15 FPS,采集了 60 个视角。由于录制了复杂的服装和快速移动的人物,这个数据集非常具有挑战性。在 DNA-Rendering 的 4 个序列上进行实验,其中将 90% 的视角作为训练集,其余作为评估集。

  • ENeRF-Outdoor: 这个数据集在室外环境中使用 1080p 相机以 30FPS 记录了多个动态人物和物体。选择了三个包含 6 个不同演员(每个序列选择了 2 个演员)的 100 帧序列来评估本文的方法 4K4D。这个数据集对于动态视角合成具有挑战性,因为同一个片段中不仅有多个移动的人物和物体,而且由于人物的阴影,背景也是动态的。

遵循 Im4D 和 NeuralBody 的做法,在 DNA-Rendering 和 NHR 数据集上评估动态区域的指标,可以通过预定义人物的 3D 边界框并将其投影到图像上来获得。对于 ENeRF-Outdoor,联合训练前景的动态几何和外观以及背景的动态外观,以获得整体图像的渲染结果。所有图像在评估时都会按比例调整大小,如果原始分辨率超过 2K,则缩放比例为 0.375。在实验中,DNA-Rendering 的渲染图像大小为 1024×1224(和 1125×1536),ENeRF-Outdoor 的分辨率为 960×540。Neural3DV 视频和 NHR 的分辨率分别为 1352×1224 和 512×612(和 384×512)。

对比实验

对比结果 在 DNA-Rendering数据集上的定性和定量比较如下图5和表1所示。

从表 1 可以明显看出,本文的方法 4K4D 的渲染速度比当前最先进的实时动态视角合成方法ENeRF快30倍,并且在渲染质量上表现更优秀。即使与并行工作相比,本文的方法 4K4D 仍然实现了 13 倍的加速,并且能够产生一致性更高质量的图像。如图 5 所示,KPlanes无法恢复高度详细的 4D 动态场景的外观和几何特征。其他基于图像的方法 能够产生高质量的外观效果。然而,它们往往在遮挡和边缘处产生模糊的结果,导致视觉质量的降低,最多能保持交互式帧率。相反,本文的方法 4K4D 可以以超过 200 FPS 的速度生成更高保真度的渲染结果。图 3 和表 2 提供了在 ENeRF-Outdoor数据集上的定性和定量结果。即使在具有多个演员和动态背景的挑战性 ENeRF-Outdoor 数据集上,本文的方法 4K4D 仍然能够取得显著更好的结果,同时以超过 140 FPS 的速度进行渲染。ENeRF在这个具有挑战性的数据集上产生模糊的结果,而 IBRNet的渲染结果在图像边缘处含有黑色伪影,如图 3 所示。K-Planse在重建动态人物和变化背景区域上失败。

消融研究

在 DNA-Rendering数据集的 150 帧序列 0013 01 上进行了消融研究。定性和定量结果如下图6和表4至表7所示。

4D embedding消融研究 "w/o f" 变体移除了提出的 4D embedding模块,并将其替换为每帧和每点可优化的位置、半径、密度和比例。如上面图 6 和表 4 所示,"w/o f" 变体在没有 4D embedding模块 的情况下产生模糊和噪声的几何效果,从而导致渲染质量的下降。

混合外观模型消融研究 "w/o " 变体移除了外观公式 Eq. (2) 中的 ,这不仅导致恢复的外观细节减少,还显著阻碍了几何质量。增加 SH 系数的额外度数并未导致显著的性能变化(PSNR 30.202 对比 30.328)。相比之下,本文提出的方法能够以更好的细节产生高保真度的渲染效果。

损失函数消融研究 如表 4 所示,移除 项不仅降低了感知质量(LPIPS 分数),还导致其他性能指标的降低。对于高度动态的 DNA-Rendering 数据集,遮罩损失 Lmsk 有助于规范动态几何的优化过程。

存储分析 对于 150 帧序列 0013 01 场景,本文的方法 4K4D 的存储分析列在表 5 中。由于其显式表示,点位置 p 占据了模型尺寸的大部分。本文方法的最终存储成本每帧少于 2 MB,包括源视频。DNA-Rendering的输入图像以 JPEG 格式提供。使用 FFmpeg 的 HEVC 编码器将所有输入图像的帧编码为视频,编码质量因子设置为 25。编码后,观察到 LPIPS 没有变化(0.040),SSIM 没有损失(0.982),PSNR 只降低了 0.42%(31.990 对比 31.855),表明方法 4K4D 对于输入图像的视频编码具有鲁棒性。对于以视频形式编码的输入图像,基于图像的渲染的存储开销每帧仅为 0.419 MB,渲染质量几乎没有变化。

作者预计算了点云上的物理属性以实现实时渲染,每帧大约需要 2 秒。尽管预计算的缓存尺寸较大(0013 01 的一帧为 200 MB),但这些预计算的缓存仅驻留在主存储器中,并没有显式存储在磁盘上,这对现代个人电脑来说是可行的。这使得表示形式成为一种压缩形式,磁盘文件大小较小(每帧 2 MB),但所包含的信息非常丰富(每帧 200 MB)。

渲染速度分析

本文引入了多种优化技术来加速方法 4K4D 的渲染速度,这些技术仅由研究者们提出的混合几何和外观表示方法实现。在上面表6中,分析了这些提议技术在 DNA-Rendering 数据集的 150 帧序列 0013 01 上的有效性和质量影响。

计算的有效性

为了实现实时渲染,预计算并缓存了所有点的位置 p、半径 r、密度 和 SH 系数 s,并存储在主存储器中。由于研究者们将外观表示分割为常数项 和视角相关项 ,还可以预计算并缓存所有源图像的每帧权重 w 和颜色 。对于 DNA-Rendering数据集的 150 帧 60 视角场景的 0013 01,这些缓存每帧占据大约 200MB 主存储器。本文呢方法所实现的预计算实现了 10 倍的速度提升(Ours vs. “w/o Cache”)。

可微深度剥离 本文还与传统的基于 CUDA 的可微分点云渲染技术(PyTorch3D 提供的)进行比较,以验证提出的可微分深度剥离算法的有效性。本文提出的可微分深度剥离算法和 PyTorch3D的实现都使用了与 Eq. (4) 相同的体积渲染方程。如表 6 所示,本文的方法比基于 CUDA 的方法快了超过 7 倍。

其他加速技术

  • “w/o fp16” 变体使用原始的 32 位浮点数进行计算。

  • “w/o K = 12” 变体在深度剥离算法中使用了 15 个渲染通道,与训练时相同。使用 16 位浮点数和 12 个渲染通道都可以实现 20FPS 的加速。

不同GPU和分辨率上的渲染速度 本文还报告了在不同硬件(RTX 3060、3090 和 4090)以及不同分辨率(720p、1080p 和 4K(2160p))上的渲染速度(见表 7)。这里报告的渲染速度包含了交互式 GUI 的开销(“w/ GUI”),因此略低于报告的速度。4K4D 即使在使用普通硬件渲染 4K(2160p)图像时也能实现实时渲染,如表中所示。

结论与讨论

本文提出了一种基于神经点云的表示方法,称为4K4D,用于实时渲染4K分辨率的动态3D场景。在4D特征网格上构建了4K4D,以自然地规范化点,并开发了一种新颖的混合外观模型,用于高质量渲染。此外,本文开发了一种可微分深度剥离算法,利用硬件光栅化流水线有效优化和高效渲染所提出的模型。在实验中,展示了4K4D不仅实现了最先进的渲染质量,而且在渲染速度上表现出了超过30倍的提升(在RTX 3090上,1080p分辨率超过200FPS)。

然而,本文的方法仍然存在一些局限性。4K4D无法生成跨帧的点对应关系,这对于某些下游任务至关重要。此外,4K4D的存储成本随视频帧数线性增加,因此在建模长体积视频时会面临困难。如何建模点对应关系和减少长视频的存储成本,可能是未来研究中的两个有趣问题。

参考文献

[1] 4K4D: Real-Time 4D View Synthesis at 4K Resolution

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1921527.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何合并pdf文件?分享3种常见的方法!

在数字化办公日益普及的今天,PDF文件因其格式稳定、兼容性强、阅读方便等特点,成为了人们日常工作和学习中不可或缺的一部分。然而,当我们需要处理多个PDF文件时,如何将它们高效地合并成一个文件,以便更好地管理和分享…

Linux进程——进程的概念

文章目录 PCB进程排队进程标识符pid终止进程获取进程id父进程与子进程 我们在上一节内容中有简单谈到进程的感性理解,他在课本上的概念是,程序的一个执行实例或正在执行的程序 但在本质上,他其实就是一个被分配了系统资源(CPU&am…

公有云API常见的认证方式

公有云API常见的认证方式 Token认证 (百度云、腾讯云) AK/SK认证 (阿里云、天翼云、腾讯云) RSA非对称加密方式 (信核云灾备) Token认证 AK/SK认证 RSA认证 种方式使用一对密钥,即公钥和私钥。公钥可以公开&#x…

Java数据结构-链表与LinkedList

链表 链表的概念 链表是一种物理存储结构上非连续的存储结构,数据元素的逻辑顺序是通过链表中的引用链接次序实现的。 通俗来说,相比较于顺序表(物理上连续,逻辑上也连续),链表物理上不一定连续。 链表是…

【C++航海王:追寻罗杰的编程之路】一篇文章带你认识哈希

目录 1 -> unordered系列关联式容器 1.1 -> unordered_map 1.1.1 -> unordered_map的文档介绍 1.1.2 -> unordered_map的接口说明 1.2 -> unordered_set 2 -> 底层结构 2.1 -> 哈希概念 2.2 -> 哈希冲突 2.3 -> 哈希函数 2.4 -> 哈希冲…

Mysql进阶(一)——存储引擎

MySQL体系结构 1). 连接层 最上层是一些客户端和链接服务,包含本地sock 通信和大多数基于客户端/服务端工具实现的类似于 TCP/IP的通信。主要完成一些类似于连接处理、授权认证、及相关的安全方案。在该层上引入了线程 池的概念,为通过认证安全接入的…

【启明智显分享】ESP32-S3 4.3寸触摸串口屏HMI应用方案:WIFI/蓝牙无线通信助力烘干设备实现远程遥控

技术不断进步,人们对烘干设备的美观度、功能多样性提出更高要求,传统的数码管显示、按键式控制已经无法满足客户的需求。用智能屏替代传统的数码管可以很好的解决这个问题,为用户带来更好的人机交互体验。 基于此,启明智显提出将乐…

在Nginx里给你的站点或者目录加个用户认证

在HTTP中,基本认证(Basic access authentication)是一种用来允许网页浏览器或其他客户端程序在请求时提供用户名和口令形式的身份凭证的一种登录验证方式。 常见的用户认证截图 ngx_http_auth_basic_module模块实现让访问着,只有…

免费分享:2018-2023中国地区地震数据集(附下载方法)

地震波是地震引起的振动以波的形式从震源向各个方向传播并释放的能量。震级是表示地震本身大小的尺度,地震烈度是指某一地区的地面和各类建筑物遭受到一次地震影响的强烈程度。 数据简介 2018-2023中国地区地震数据集主要变量包括time(时间&#xff09…

爬虫管理解决方案:让数据收集变得高效且合规

一、为何数据收集的效率与合规性同等重要? 随着大数据技术的飞速发展,数据收集已成为企业决策与市场洞察的核心驱动力。然而,在信息海洋中精准捕捞的同时,如何确保这一过程既高效又不触碰法律的红线,是每个数据实践者…

程序员标准简历模板

链接: https://pan.baidu.com/s/1yMXGSSNba15b9hMXjA39aA?pwdb4ev 提取码: b4ev 3年工作经验简历 链接: https://pan.baidu.com/s/1OO7n1lRL6AkhejxYC9IyDA?pwdfmvv 提取码: fmvv 优秀学员简历 链接: https://pan.baidu.com/s/106Vkw_ulOInI47_5mDySSg?pwduudc 提取码: uu

红酒的未来展望:探索行业的发展趋势

在时间的洪流中,红酒以其不同的魅力,一直占据着人们心中不可或缺的地位。随着时代的变迁,红酒行业也在不断地发展和演变。今天,就让我们一起走进红酒的未来,探索这个古老而又充满活力的行业将如何继续书写其辉煌的篇章…

使用node-cmd重启electron

说明:在electron中,想要手动重启客户端服务,分为两种情况 第一种:是使用electron自带的api进行窗口的重新启动,app.relaunch() 第二种:重启电脑运行的客户端服务 安装 npm install node-cmd -S使用 使用说…

【JavaScript 算法】动态规划:最优子结构与重叠子问题

🔥 个人主页:空白诗 文章目录 一、最优子结构1.1 最优子结构的例子1.2 如何识别最优子结构 二、重叠子问题2.1 重叠子问题的例子2.2 解决重叠子问题的方法2.3 如何识别重叠子问题 三、经典动态规划问题及其 JavaScript 实现3.1 斐波那契数列3.2 背包问题…

Java I/O模式 (一)

第一章 Java的I/O演进之路 1.1 I/O模型基本说明 1/0模型:就是用什么样的通道或者说是通信模式和架构进行数据的传输和接收,很大程度上决定了程序通信的性能,Java 共支持3种网络编程的/10 模型:BIO、NIO、AIO 实际通信需求下&am…

调整网络安全策略以适应不断升级的威胁形势

关键网络安全统计数据和趋势 当今数字时代网络安全的重要性

【大语言模型应用形态 AI Agent 发展趋势深度分析 2024】

文末有福利! 一、智能体(AI Agent) 1. 智能体正成为大模型重要研发方向 随着技术飞速发展,智能体(AI Agent)正成为一股革命性力量,正在重新定义人与数字系统互动的方式。AI Agent是一种高效、…

使用DeepWalk 和Word2Vec实现单词Embedding

0、准备“边”数据集Wiki_edgelist import pandas as pddf pd.read_csv(./data/wiki/Wiki_edgelist.txt, sep , headerNone, names["source", "target"]) df.head() 1、读入 起点-终点 边数据,构建图 # 1、读入 起点-终点 边数据&#xff0c…

如何评估独立站的外链质量?

要评估独立站的外链质量时,首先要看的不是别的,而是内容,跟你网站相关的文章内容才是最重要的,其他的一切其实都不重要。什么网站的DA,评级,网站的主要内容跟你的文章内容是否相关其实都不重要,…

git提交大文件服务500

错误如图 需保证git服务端能接收大文件 修改项目下.git文件中的config文件,加入 [http] postBuffer 524288000