北大和港中文联合腾讯人工智能实验室提出了 ViewCrafter,这是一种利用视频扩散模型的先验从单个或稀疏图像合成一般场景的高保真新视图的新方法。
可以简单理解为将复杂的图像转换成新角度的图像版本。首先,它会使用特殊的算法来读取一张或几张图像,创建一个三维的"模型",这就像是把镜头给移动了一样。然后,使用一种叫做视频扩散的技术,从这个模型生成多个角度的图像,确保生成出来的新图像清晰且自然。该方法有望能够在多种应用中有效使用,比如制作游戏画面或者影视特效等。
相关链接
论文地址:http://arxiv.org/abs/2409.02048v1
项目地址:https://drexubery.github.io/ViewCrafter/
论文阅读
ViewCrafter:驯服视频传播模型以实现高保真新颖视图合成
摘要
尽管神经 3D 重建最近取得了进展,但对密集多视图捕获的依赖限制了它们的广泛适用性。在这项工作中,我们提出了ViewCrafter,这是一种利用视频扩散模型的先验从单个或稀疏图像合成一般场景的高保真新视图的新方法。我们的方法利用视频扩散模型强大的生成能力和基于点的表示提供的粗略 3D 线索,通过精确的相机姿势控制生成高质量的视频帧。
为了进一步扩大新视图的生成范围,我们定制了一种迭代视图合成策略和相机轨迹规划算法,以逐步扩展 3D 线索和新视图覆盖的区域。借助 ViewCrafter,我们可以促进各种应用,例如通过使用重建的 3D 点和生成的新视图有效优化 3D-GS 表示来实现实时渲染的沉浸式体验,以及场景级文本到 3D 生成以创作更具想象力的内容。在不同数据集上进行的大量实验证明了我们的方法在合成高保真和一致的新观点方面具有强大的泛化能力和卓越的性能。
方法
给定单个参考图像或稀疏图像集,我们首先使用密集立体模型构建其点云表示,这使得能够精确移动摄像机进行自由视图渲染。随后,为了解决点云渲染结果中出现的大量缺失区域、几何失真和点云伪影,我们训练了一个点条件视频扩散模型作为增强渲染器,促进基于粗点云渲染的高保真和一致的新视图生成。为了实现远程新视图合成,我们采用了一种迭代视图合成策略,该策略涉及迭代移动摄像机、生成新视图和更新点云,从而实现更完整的点云重建并有利于 3D-GS 优化等下游任务。
为了实现更一致的 3D-GS 优化,我们利用迭代视图合成策略逐步完成初始点云并使用 ViewCrafter 合成新视图。然后,我们使用完成的密集点云初始化 3D-GS,并使用合成的新视图来监督 3D-GS 训练。
实验
零样本新视图合成结果(单视图)
上图为摄像机轨迹,下图为沿摄像机轨迹生成的新视图视频。
零样本新视图合成结果 (2 次浏览)
3D 重建结果(单一视图)
文本到 3D 生成结果
点云渲染结果的可视化
第一行显示点云渲染结果,第二行显示ViewCrafter生成的相应新视图。ViewCrafter不仅可以填充点云中的遮挡,还可以处理不正确的几何图形。
结论
本研究提出了 ViewCrafter,这是一种新颖的视图合成框架,它结合了视频扩散模型和点云先验,可实现高保真和准确的新颖视图合成。我们的方法克服了现有方法的局限性,为各种场景类型提供了泛化能力,并为单个和稀疏图像输入提供了适应性,同时保持了新颖视图质量的一致性和准确性。此外,我们引入了一种迭代视图合成方法和自适应相机轨迹规划程序,可促进远程新颖视图合成和针对不同场景的自动相机轨迹生成。除了新颖视图合成之外,我们还探索了 3D-GS 表示的有效优化,以实现实时、高帧率的新颖视图渲染,并调整我们的框架以进行文本到 3D 的生成。
局限性。 尽管我们的方法有其优点,但仍有几个局限性。首先,在有限的 3D 线索下,它可能在合成具有非常大视野范围的新视图时遇到挑战,例如仅从后视图像生成前视图像。此外,我们利用点云作为显式先验,并验证了我们的方法对低质量点云的鲁棒性。然而,在条件点云明显不准确的场景中,挑战可能仍然存在。此外,作为视频扩散模型,我们的方法需要在推理过程中进行多步去噪,这需要相对较高的计算成本。