CVPR 2023 三维重建相关必读论文和代码合集

三维重建涉及将二维图像或视频转换为三维模型的过程，这个过程需要应用到多门学科的知识，比如数学、计算机图形学和多视图几何等，学习门槛较高。但尽管如此，三维重建仍然是CV领域的一个热门方向。

目前三维重建技术已经有了广泛应用，比如影像娱乐、自动驾驶、虚拟现实、数字孪生和智慧城市等领域。基于深度学习的三维重建算法也逐渐成为了越来越多人关注的新兴研究方向...所以我建议想发paper的同学也可以多多关注。

这次就帮同学们整理了顶会CVPR 2023中三维重建相关的13篇优质论文，都是最新，想冲顶会的同学建议收藏一下仔细研读。

全部论文及代码看文末获取

1.Seeing Through the Glass: Neural 3D Reconstruction of Object Inside a Transparent Container

透明容器内物体的神经3D重建

「简述：」本文提出了一种新的方法来解决透明容器内物体3D几何重建的问题。通过将场景分为内外两个子空间，使用神经重建方法隐式表示内部子空间的几何和外观，并结合体积渲染和光线追踪的混合渲染策略来恢复模型的基本几何形状和外观。实验结果表明该方法优于现有方法。

2.BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown Objects

未知物体的神经6-DoF跟踪和3D重建

「简述：」本文介绍了一种方法，可以从单目RGBD视频序列中实时跟踪未知物体的姿态，并重建其3D模型。该方法适用于任意刚性物体，即使没有纹理也能处理。不需要额外信息和对交互代理的假设。该方法使用神经对象场和位姿图优化来稳健地累积信息，同时捕获物体的几何和外观特征。它还能够处理姿态变化、遮挡、无纹理表面和镜面反射等挑战性情况。在多个数据集上测试，证明该方法优于现有方法。

3.Crowd3D: Towards Hundreds of People Reconstruction from a Single lmage

从单张图像重建数百人的方法

「简述：」本文介绍了一种名为Crowd3D的方法，可以从单张大场景图像中重建数百人的三维姿态、形状和位置。该方法利用新定义的“人-场景虚拟交互点”（HVIP）的概念将人群定位问题转化为像素定位问题，并使用渐进式重建网络实现全局一致性的人群重建。同时，设计了自适应的人为中心裁剪方案以处理大量人员和不同人体尺寸的问题。作者还提供了一个基准数据集用于测试。实验结果表明该方法有效。

4.ECON: Explicit Clothed humans Optimized via Normal integration

通过正常整合优化穿衣人类

「简述：」本文介绍了一种名为ECON的方法，结合深度学习、艺术家策划的扫描和隐式函数（IF），能够从图像中创建细节丰富、穿着衣服的3D人类。该方法通过三个主要步骤实现：推断穿着人的前后面详细的2D地图；从这些地图中恢复同样详细但不完整的2.5D前后面表面，并借助从图像中恢复的身体网格将这些表面相互注册；在d-BiNI表面之间“inpaints”缺失的几何形状。该方法可以生成高质量的3D人物形态，即使在松散的衣服和具有挑战性的姿势下也能保持鲁棒性。

5.One-Stage 3D Whole-Body Mesh Recovery with Component Aware Transformer

使用组件感知变换器进行单步3D全身网格恢复

「简述：」论文介绍了一种新的方法，名为OSX，用于从单张图像中估计3D人体的整体网格。这个方法避免了使用单独的网络来处理不同部位，而是设计了一个全局身体编码器和局部面部/手部解码器。这种方法可以捕获脸部和手的精细细节，并自然地避免不合理的预测。此外，作者还构建了一个大型上体数据集，以弥补基本任务和下游应用之间的差距。

6.OReX: Object Reconstruction from Planar Cross-sections Using Neural Fields

使用神经场从平面截面重建物体

「简述：」本文提出了一种名为OReX的方法，用于从平面截面重建3D形状。该方法使用神经场作为插值先验，通过在稀疏的空间平面集合上完全定义的输入/输出指示函数来重建整个体积的插值。作者提出了一种迭代估计架构和分层输入采样方案，鼓励粗到细的训练过程，使训练过程能够集中在后期的高频率上。此外，作者还识别并分析了源于网格提取步骤的类似于涟漪效应的问题，并通过对输入/输出边界周围的指示函数的空间梯度进行正则化来解决这个问题。

7.NeuDA: Neural Deformable Anchor for High-Fidelity Implicit Surface Reconstruction

用于高保真隐式表面重建的神经可变形锚点

「简述：」论文提出了一种名为NeuDA的方法，用于高保真隐式表面重建。该方法利用分层体素网格和神经可变形锚点来捕捉尖锐的局部拓扑结构，并采用频率编码策略和分层位置编码方法来灵活地利用几何和外观特性。实验表明，NeuDA可以生成有前景的网格表面。

8.Vid2Avatar: 3D Avatar Reconstruction from Videos in the Wild via Self-supervised Scene Decomposition

通过自监督场景分解从视频中重建3D Avatar

「简述：」论文介绍了一种可以从野外单目视频中学习人类Avatar的新方法：Vid2Avatar。该方法不需要真实值监督或外部分割模块，而是通过共同建模场景中的人类和背景来直接解决场景分解和表面重建的任务。具体而言，作者引入了粗到细采样策略和新的目标函数来实现动态人体和静态背景的清晰分离，从而产生详细而稳健的3D人体几何重建。

9.Structural Multiplane Image: Bridging Neural View Synthesis and 3D Reconstruction

连接神经视图合成和3D重建

「简述：」本文提出了一种新的多平面图像表示法，称为Structural Multiplane Image (S-MPI)。它结合了多平面图像的结构和3D场景的几何结构，能够直接连接视图合成和3D重建。相比传统的多平面图像表示法，S-MPI能够更好地处理斜面上的离散化伪影和冗余层的使用，同时还能获取平面3D重建。为了实现这一目标，作者提出了一种基于转换器网络的算法，该算法能够预测紧凑且具有表达力的S-MPI层及其相应的掩码、姿势和RGBA上下文。此外，该算法还处理了非平面区域的建模以及与相交平面的高效渲染等挑战。

10.3D Cinemagraphy from a Single Image

将单张图像转换为3D电影摄影技术

「简述：」本文提出了一种名为3D Cinemagraphy的新方法，将2D图像动画和3D摄影技术相结合。该方法从单张静态图像作为输入，生成同时包含视觉内容动画和相机运动的视频。作者使用预测的深度值将输入图像转换为基于特征的分层深度图像，并将其解投影到特征点云中。为了动画场景，作者执行运动估计并将2D运动提升为3D场景流。最后，作者提出根据场景流双向位移点云，并通过分别将它们投影到目标图像平面并混合结果来合成新的视角。

11.Revisiting Rotation Averaging: Uncertainties and Robust Losses

不确定性和鲁棒损失

「简述：」本文重新审视了全局结构从运动管道中应用的旋转平均问题，提出了一种更好的方法来处理不确定性和鲁棒损失。该方法通过直接将点对应关系的不确定性传播到旋转平均中来更好地模拟底层噪声分布，并探索将MAGSAC损失的变体整合到旋转平均问题中。实验结果表明，该方法在大型公共基准测试中的结果优于基线，并且在准确性方面表现更好。

12.FFHQ-UV: Normalized Facial UV-Texture Dataset for 3D Face Reconstruction

用于3D人脸重建的标准化人脸紫外线纹理数据集

「简述：」本文介绍了一个大规模的人脸紫外线纹理数据集，其中包含超过50,000个高质量的纹理UV-maps，可用于逼真的3D人脸重建。该数据集是从大型人脸图像数据集FFHQ派生出来的，并使用全自动和强大的UV-texture生产管道生成。该方法利用了基于StyleGAN的人脸图像编辑方法的最新进展，从单张图像输入中生成多视图标准化人脸图像，并应用详细的UV-texture提取、校正和完成过程来产生高质量的UV-maps。实验表明，该方法提高了重建精度，并且产生了准备好进行逼真渲染的高质量纹理映射。

13.A Hierarchical Representation Network for Accurate and Detailed Face Reconstruction from In-The-Wild Images

一种用于从野外图像中准确和详细重建人脸的分层表示网络

「简述：」论文提出了一种新的分层表示网络（HRN），用于从单张图像中准确和详细地重建人脸。这种方法结合了几何解耦、分层表示和3D先验知识，以实现更生动、准确的人脸重建。与现有方法相比，该方法在重建准确性和视觉效果方面都表现出色。作者还提供了一个高质量的3D人脸数据集FaceHD-100，以推动相关研究的发展。