【论文速看】DL最新进展20241006-视频深度估计、3D、自监督学习

news2025/4/3 19:04:35

【视频深度估计】

[TPAMI 2024] NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation

论文链接：https://arxiv.org/pdf/2307.08695

代码链接：https://github.com/RaymondWang987/NVDS

演示视频：https://www.bilibili.com/video/BV1WhxdenEga/?vd_source=806e94b96ef6755e55a2da

视频深度估计的目标是推断出时间上一致的深度信息。一种方法是在每个视频上微调单图像模型并加入几何约束，但这种方法效率低下且缺乏鲁棒性。另一种选择是从数据中学习以强制一致性，这需要精心设计的模型和足够的视频深度数据。为了解决这两个挑战，本文引入了NVDS+，它以一种即插即用的方式稳定了由各种单图像模型估计出的不一致深度。作者还详细介绍了一个大规模的“野外视频深度”(VDW)数据集，其中包含14,203个视频和超过两百万帧，使其成为最大的自然场景视频深度数据集。此外，设计了一种双向推理策略，通过自适应融合正向和反向预测来提高一致性。实例化了一系列从小到大规模的模型家族，以适应不同的应用。该方法在VDW数据集和三个公共基准测试上进行了评估。为了进一步证明其多功能性，将NVDS+扩展到视频语义分割以及诸如散景渲染、新颖视图合成和3D重建等多个下游应用。实验结果表明，所提方法在一致性、准确性和效率方面都取得了显著改进。该工作为基于学习的深度估计提供了坚实的基线和数据基础。

【3D】

[NeurlPS 2024] CAT3D: Create Anything in 3D with Multi-View Diffusion Models

论文链接：https://arxiv.org/pdf/2405.10314v1

演示链接：https://cat3d.github.io/

三维重建技术的进步使得高质量的三维捕捉成为可能，但需要用户收集数百到数千张图像来创建一个三维场景。本文提出了CAT3D方法，通过模拟这种现实世界的捕捉过程，使用多视角扩散模型来创建任何三维物体。给定任意数量的输入图像和一组目标新视角，所提模型生成了高度一致的场景新视图。这些生成的视图可以作为稳健的三维重建技术的输入，以实时渲染从任何视角的三维表示。CAT3D可以在短短一分钟内创建完整的三维场景，并且性能优于现有的单图像和少视角三维场景创建方法。

[NeurlPS 2024 何凯明等] Physically Compatible 3D Object Modeling from a Single Image

论文链接：https://arxiv.org/pdf/2405.20510

演示链接：https://gmh14.github.io/phys-comp/(代码不久后会发布)

本文提出了一个计算框架，可以将单张图像转换为三维物理对象。图像中物理对象的视觉几何由三个正交属性决定：机械特性、外力和静止形状几何。现有的单视角三维重建方法常常忽视这种潜在构成，假设物体是刚性的或者忽略了外力。结果，重建出的对象无法承受现实世界的物理力，导致不稳定或不期望的变形——与图像中描绘的预期设计相偏离。所提的优化框架通过将物理一致性嵌入到重建过程中来解决这一问题。明确分解这三个物理属性，并通过静态平衡将它们联系起来，作为硬约束，确保优化后的物理形状表现出所需的物理行为。在从Objaverse收集的数据集上的评估表明，所设计的框架一致地增强了三维模型的物理真实性，超过了现有方法。所设计的框架的实用性扩展到动态模拟和3D打印等实际应用中，在这些应用中，遵循物理一致性至关重要。

【自监督学习】

[NeurlPS 2024 何凯明等] Return of Unconditional Generation: A Self-supervised Representation Generation Method

论文链接：https://arxiv.org/pdf/2312.03701

代码链接：https://github.com/LTH14/rcg

无条件生成——即在不依赖人工标注标签的情况下建模数据分布的问题——是生成模型中的一个长期存在且基础的挑战，它为从大规模无标签数据中学习提供了潜力。在文献中，无条件方法的生成质量远不如其有条件的方法。这种差距可以归因于缺乏标签提供的语义信息。这项工作展示了通过在自监督编码器产生的表示空间中生成语义表示，可以弥合这一差距。这些表示可以用来条件化图像生成器。这个框架称为表示条件生成（RCG），为无条件生成问题提供了一个有效的解决方案，而无需使用标签。通过全面的实验，我们观察到RCG显著提高了无条件生成的质量：例如，它在ImageNet 256x256上实现了新的最先进FID分数2.15，将之前的最佳记录5.91大幅降低了相对64%。我们的无条件结果与领先的类条件结果处于同一水平。我们希望这些令人鼓舞的观察结果能吸引社区对无条件生成这一基础问题的关注。

在这里插入图片描述