GAN生成对抗

【CVPR 2023的AIGC应用汇总(6)】医学图像diffusion扩散/GAN生成对抗网络

【CVPR 2023的AIGC应用汇总(5)】语义布局可控生成，基于diffusion扩散/GAN生成对抗

【CVPR 2023的AIGC应用汇总(4)】图像恢复，基于GAN生成对抗/diffusion扩散模型

【CVPR 2023的AIGC应用汇总（3）】GAN改进/可控生成的方法10篇

【CVPR 2023的AIGC应用汇总(2)】可控文生图，基于diffusion扩散模型/GAN生成对抗

【CVPR 2023的AIGC应用汇总(1)】图像转换/翻译，基于GAN生成对抗/diffusion扩散模型

1、3DQD: Generalized Deep 3D Shape Prior via Part-Discretized Diffusion Process

提出一个通用的3D形状生成先验模型，专为多种3D任务量身定制，包括无条件形状生成、点云补全和跨模态形状生成等。

一方面，为了精确捕捉局部细节形状信息，利用VQ-VAE来索引基于广泛任务训练数据的紧凑codebook中的局部几何。另一方面，引入离散扩散生成器以模拟不同token之间的固有结构依赖关系。

同时，开发了一种多频融合模块（multi-frequency fusion module，MFM），以多频上下文信息为指导，抑制高频形状特征波动。让3D形状先验模型拥有高保真、多样化特征以及跨模态对齐能力，大量实验已证明了其在各种3D形状生成任务上的优越性能。

https://github.com/colorful-liyu/3DQD

2、Controllable Mesh Generation Through Sparse Latent Point Diffusion Models

网格生成（Mesh generation）在涉及计算机图形和虚拟内容的各种应用中具有很高的价值，但由于Mesh的不规则数据结构和同类别Mesh的不一致拓扑，为Mesh设计生成模型具有挑战性。

这项工作为Mesh生成设计了一种新的稀疏潜在点扩散模型。关键是将点云视为Mesh的中间表示，并对点云的分布进行建模。为了提高生成方法的效率和可控性，进一步将点云编码为具有逐点语义有意义特征的稀疏潜在点集，其中两个DDPM分别在稀疏潜在点空间中训练以分别模拟潜在点位置的分布以及这些潜在点处的特征。在这个潜在空间中采样要比直接采样密集点云快。

此外，稀疏潜在点还能显式控制生成Mesh的整体结构和局部细节。在ShapeNet数据集上进行了大量实验，提出的稀疏潜在点扩散模型在生成质量和可控性方面实现了与现有方法相比的优越性能。项目页面，代码和附录：https://slide-3d.github.io

3、GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds

尽管在开发视觉任务如图像和视频方面，Masked Autoencoders（MAE）取得了巨大进步，但由于固有的不规则性，探索大规模3D点云中的MAE仍然具有挑战性。与之前的3D MAE框架相比（设计复杂的解码器从维护区域推断掩蔽信息或采用复杂的掩蔽策略），提出了一种更简单的范例。

核心思想是应用生成解码器MAE（GD-MAE）自动将周围上下文合并，以按层次融合方式恢复掩蔽的几何知识。这样做，方法不需要引入解码器的启发式设计，并且可以灵活地探索各种掩蔽策略。相应的部分在与传统方法相比的延迟中减少不到12%，同时实现更好的性能。

展示了该方法在几个大型基准（Waymo、KITTI和ONCE）上得到的效果。在下游检测任务中持续改进，说明了强大的鲁棒性和泛化能力。方法展示了最先进的结果，值得注意的是，即使在Waymo数据集上只有20%的标记数据，也实现了可比拟的准确性。代码在https://github.com/Nightmare-n/GD-MAE

4、GINA-3D: Learning to Generate Implicit Neural Assets in the Wild

从传感器数据中模拟3D世界，是为诸如自动驾驶等机器人学习问题开发测试和验证环境的可扩展方法。然而，手动创建或重新创建类似真实世界的环境困难、昂贵且无法扩展。最近的生成模型技术通过仅使用大量的2D图像学习3D资源来取得了有望解决这类挑战的进展，但仍然具有局限性，因为它们利用的是人类策划的图像数据集或手动创建的合成3D环境的渲染。

本文介绍GINA-3D，一种生成模型，它使用来自摄像头和LiDAR传感器的真实驾驶数据创建真实的3D，包括多样化的车辆和行人。与现有图像数据集相比，真实世界驾驶环境由于遮挡、光照变化和长尾分布带来了新的挑战。GINA-3D通过将表示学习和生成建模分解为两个阶段，并借鉴最近在图像生成建模方面的进展，采用了一种学习的三平面潜在结构来应对这些挑战。

为了评估方法，构建了一个大型对象中心数据集，包含来自Waymo开放数据集的超过520K辆车辆和行人的图像，以及一组新的8万张长尾实例图像，如施工设备、垃圾车和缆车。将模型与现有方法进行比较，并证明它在生成的图像和几何方面的质量和多样性方面实现了最先进的性能。

5、Graphics Capsule: Learning Hierarchical 3D Face Representations from 2D Images

构建对象层次结构，对于人脑视觉过程非常重要。以前的研究已经成功地采用胶囊网络将digits和面部分解为部件，以无监督的方式研究神经网络中类似的感知机制。然而，它们的描述仅限于2D空间，限制了它们模仿人类固有的3D感知能力。

本文提出一种逆图形胶囊网络（Inverse Graphics Capsule Network，IGC-Net），用于从大规模未标记图像中学习分层3D人脸表示。IGC-Net的核心是一种新型胶囊，名为图形胶囊，它以计算机图形（CG）中的可解释参数表示3D图元，包括深度、反照率和3D姿态。

具体而言，IGC-Net首先将对象分解成一组语义一致的部分级描述，然后将它们组装成对象级描述以构建层次结构。学到的图形胶囊揭示了面向视觉感知的神经网络如何将面孔理解为3D模型的层次结构。此外，发现的部件可以部署到无监督的人脸分割任务中，以评估方法的语义一致性。此外，具有显式物理含义的部分级描述为原本在黑匣子中运行的面部分析提供了见解，例如形状和纹理对于面部识别的重要性。CelebA， BP4D 和 Multi-PIE 上的实验展示了IGC-Net。

6、HOLODIFFUSION: Training a 3D Diffusion Model using 2D Images

扩散模型已经成为2D图像生成建模的最佳方法。它们的成功部分原因是可以利用稳定的学习目标对数百万乃至数十亿图像进行训练。然而，将这些模型扩展到3D存在两个难点。首先，找到大量的3D训练数据要比2D图片复杂得多。其次，尽管在概念上将模型从2D扩展到3D非常简单，但相关的内存和计算复杂性的增长使其变得不切实际。

通过引入一种新的扩散设置来解决第一个挑战，该设置可以在端到端地使用已布局的2D图像进行监督；然后通过提出一种image formation模型来解决第二个挑战，该模型将模型内存与空间内存解耦。使用在 CO3D 数据集中尚未用于训练3D生成模型的真实世界数据来评估方法。

实验表明，它们具有可扩展性，训练稳定，并在样本质量和保真度方面与现有的3D生成建模方法具有竞争力。

https://holodiffusion.github.io/

7、Learning 3D-aware Image Synthesis with Unknown Pose Distribution

现有的3D感知图像合成方法很大程度上依赖于在训练集上预先估计的3D姿态分布。如果估计不准确，可能会误导模型去学习错误的几何信息。这项工作提出了PoF3D，它释放了生成辐射场对3D姿态先验的需求。

首先为生成器配置一种有效的姿态学习器，能够从一个潜在的编码中推断出姿态，以自动近似底层真实的姿态分布。接着，分配给鉴别器一个在生成器的监督下学习姿态分布的任务，并以预测的姿态作为条件区分实际和合成图像。姿态自由生成器和姿态感知鉴别器以对抗性的方式共同训练。

一系列数据集上的结果证实，方法在图像质量和几何质量方面的性能与最先进的方法相当。PoF3D首次证明了在不使用3D姿态先验的情况下学习高质量的3D感知图像合成的可行性。项目页面：https://vivianszf.github.io/pof3d/

8、Lift3D: Synthesize 3D Training Data by Lifting 2D GAN to 3D Generative Radiance Field

本文探讨了使用3D生成模型为3D视觉任务生成训练数据。生成模型的关键要求是生成数据应与现实世界场景相匹配的真实，并且相应的3D属性应该与给定的采样标签保持一致。然而，由于它们设计的生成管道和缺乏明确的3D监督，最近的基于NeRF的3D GANs几乎不能满足上述要求。

这项工作中，提出了Lift3D，一种逆过程的2D至3D生成框架，以实现数据生成目标。与先前的方法相比，Lift3D具有几个优点：（1）与先前的3D GAN输出分辨率在训练后固定不同， Lift3D 可以推广到具有更高分辨率和真实输出的任何相机内参数。（2）通过将完全解耦的2D GAN提升到3D对象NeRF，Lift3D为生成的对象提供了显式的3D信息，从而为下游任务提供了准确的3D标注。

通过增强自主驾驶数据集来评估有效性。实验结果表明，数据生成可以有效地提高3D物体检测器的性能。项目页面：len-li.github.io/lift3d-web

9、Magic3D: High-Resolution Text-to-3D Content Creation

DreamFusion最近展示了使用预训练的文本到图像扩散模型优化神经辐射场(NeRF)的实用性，取得了显著的文本到3D合成效果。然而，该方法有两个固有的限制：(a)NeRF的优化极其缓慢，(b)对NeRF的低分辨率图像空间监督导致了质量较低的3D模型并且处理时间较长。

本文通过使用两阶段优化框架来解决这些限制。首先，利用低分辨率扩散先验和稀疏3D哈希网格结构得到粗糙模型。使用粗略表示作为初始化，利用高效的可微渲染器与高分辨率潜在扩散模型进行交互，进一步优化纹理3D网格模型。

方法称为Magic3D，可以在40分钟内创建高质量3D网格模型，速度比DreamFusion快2倍（据报道平均花费1.5小时），同时实现更高分辨率。用户研究显示，61.7%的受访者更倾向于本文方法而非DreamFusion。还为用户提供图像生成能力和新的3D合成控制方法，为各种创意应用开辟了新的途径。

https://research.nvidia.com/labs/dir/magic3d/

10、NeuFace: Realistic 3D Neural Face Rendering from Multi-view Images

从多视角图像进行真实感人脸渲染（face rendering），有利于各种计算机视觉和图形应用任务。然而，由于人脸具有复杂的空间变化的反射特性和几何特征，因此在当前的研究中，恢复3D人脸表示仍然具有挑战性。

本文提出了一种新的3D人脸渲染模型，即NeuFace，通过神经渲染技术学习精确和物理意义上有意义的底层3D表示。它自然地将神经BRDFs融入到基于物理的渲染中，以协作方式捕获复杂的面部几何和外观线索。具体来说，引入了一种近似的BRDF积分和一个简单而新的低秩先验，有效地降低了人脸BRDF的模糊性并提高了性能。大量实验证明了NeuFace在人脸渲染方面的优越性，以及在常见物体上的良好泛化能力。

代码已在NeuFace上发布：https://github.com/aejion/NeuFace

11、NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

自动生成高质量真实世界的3D场景对于虚拟现实和机器人仿真等应用领域具有巨大的前景。为实现这一目标，引入了NeuralField-LDM，一种能够生成复杂3D环境的生成模型。

利用了已成功应用于高效高质量2D内容创建的潜在扩散模型（Latent Diffusion Models）。首先，训练一个场景自编码器，将一组图像和姿态对表示为神经场，表示为密度和特征体素网格，可以投影生成场景的新视图。为了进一步压缩这种表示，训练一个潜在自编码器，将体素网格映射到一组潜在表示。然后将分层扩散模型拟合到潜在中，以完成场景生成管道。

在现有技术水平上实现了显著的改进。展示了如何将NeuralField-LDM用于各种3D内容生成应用，包括条件场景生成、场景修补和场景风格编辑。

https://research.nvidia.com/labs/toronto-ai/NFLDM/

12、Next3D: Generative Neural Texture Rasterization for 3D-Aware Head Avatars

3D感知生成对抗网络（GANs）仅使用单视角2D图像合成高保真度和多视角一致的面部图像。为实现对面部属性的细粒度控制，近期的研究努力将3D形变人脸模型（3D Morphable Face Model，3DMM）纳入生成辐射场的显式或隐式描述中。显式方法提供细粒度的表达控制，但无法处理由头发和配饰引起的拓扑变化，而隐式方法可以建模各种拓扑，但由于不受约束的变形场，其适用范围有限。

提出了一种新的3D GAN框架，用于从无结构的2D图像中无监督学习生成高质量且具备3D一致性的面部形象。为实现变形精度和拓扑灵活性，提出了一种名为生成纹理光栅化三角面的3D表示。所提出的表示在参数化网格模板之上学习生成神经纹理，然后通过光栅化将它们投影到三个正交视角的特征平面上，形成一个三角面的体积渲染。这样，结合了网格引导的显式变形的细粒度表达控制和隐式体积表示的灵活性。进一步提出了用于建模不受3DMM影响的嘴部特定模块。

方法通过广泛的实验展示了最先进的3D感知合成质量和动画能力。此外，作为3D先验的可驱动3D表示在单样本人脸虚拟化和3D感知风格化等多个应用中起到了推动作用。

13、SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

通过人脸图像和一段语音音频生成说话头像视频（talking head）仍然存在许多挑战。即，不自然的头部运动，扭曲的表情和身份修改。这些问题主要是因为从耦合的2D运动场中学习。另一方面，显式使用3D信息也遇到了表达僵硬和非连贯视频的问题。

提出了SadTalker，它从音频中生成3D运动系数（头部姿态，表情），并隐式调制新的3D感知脸部渲染以实现说话头生成。为了学习真实的运动系数，显式地建立了音频与不同类型的运动系数之间的连接。具体来说，提出了ExpNet，通过提取系数和3D渲染面部来从音频中学习准确的面部表情。至于头部姿势，设计了一个基于条件VAE的PoseVAE，以生成不同风格的头部运动。最后，将生成的3D运动系数映射到所提议的面部渲染的无监督3D关键点空间，并合成最终视频。

大量实验证明方法在运动和视频质量方面的优越性：https://sadtalker.github.io/

14、SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation

这项工作提出了一个新的框架，旨在为初学者用户简化3D asset生成。为了实现交互式生成，方法支持各种可以方便地由人类提供的输入方式，包括图像、文本、部分观察到的形状以及这些的组合，还可以调整每个输入的强度。

方法的核心是一个编码器解码器，将3D形状压缩成一个紧凑的潜在表示，然后学习一个扩散模型。为了支持多模态输入的多样性，采用任务特定的编码器进行dropout，然后用一个交叉注意力机制。由于模型具有很高的灵活性，可以自然支持各种任务，在形状完成、基于图像的3D重建和文本到3D方面超越了以前的方法。

模型可以将所有这些任务整合到一个工具中，能同时使用不完整的形状、图像和文本描述进行形状生成，提供每个输入的相对权重并促进交互性。尽管方法只涉及形状，但还展示了一种利用大规模文本到图像模型对生成的形状进行纹理的高效方法。

https://yccyenchicheng.github.io/SDFusion/

15、Solving 3D Inverse Problems using Pre-trained 2D Diffusion Models

扩散模型已经成为具有高质量样本的新一代最佳生成模型，具有不错的优势，如模式覆盖和高灵活性。它们还被证明可以有效地解决逆问题，作为分布的先验，而前向模型的信息可以在采样阶段获得。然而，由于生成过程仍然处于相同的高维空间(即与数据维数相同)，因此这些模型尚未扩展到3D逆问题（3D inverse problem），因为其极高的内存和计算成本。

这篇论文中，将传统的基于模型的迭代重建的想法与现代扩散模型相结合，构建了一种在解决3D医学图像重建任务(如稀疏视图断层扫描、有限角度断层扫描和压缩感测MRI)方面非常有效的方法，这些任务是从预先训练的2D扩散模型中得出的。本质上，在测试时通过2D扩散先验与基于模型的先验来增强剩余方向，从而实现所有维度的连贯重建。

方法可以在单个消费级GPU上运行，并确立了新的最佳实践方法，表明所提出的方法能够在最极端的情况下(如2视图3D断层扫描)实现高保真和准确的重建。进一步揭示，所提出方法的泛化能力非常之高，可用于重建与训练数据集完全不同的volume。

16、T2M-GPT: Generating Human Motion from Textual Descriptions with Discrete Representations

这项工作中，研究了一种基于矢量量化变分自动编码器(VQ-VAE)和生成式预训练Transformer (GPT) 的条件生成框架，用于从文本描述生成人体运动。证明，一个简单的基于CNN的VQ-VAE，使用常用的训练技巧(EMA和代码重置)可以获得高质量的离散表示。

对于GPT，在训练过程中加入了一个简单的破坏策略，以减轻训练和测试的差异。尽管简单，T2M-GPT表现优于竞争方法，包括最近的基于扩散的方法。例如，在目前最大的数据集HumanML3D上，文本和生成运动之间的一致性方面取得了与竞争方法相当的性能(R-Precision)，但在FID 0.116上大大优于MotionDiffuse的0.630。

此外，还对HumanML3D进行了分析，发现数据集规模限制了方法。工作表明，VQ-VAE仍然是一种有竞争力的人体运动生成方法。实现可以在项目页面上找到:https://mael-zys.github.io/T2M-GPT/

17、TAPS3D: Text-Guided 3D Textured Shape Generation from Pseudo Supervision

这篇论文研究了从给定的文本描述生成可控3D纹理形状的开放研究任务。先前的工作要么需要实际真实的描述标签，要么需要大量的优化时间。为了解决这些问题，提出了一种新颖的框架，TAPS3D，用伪字幕训练一个文本引导的3D形状生成器。

具体来说，根据渲染的2D图像，从CLIP词汇表中检索相关单词，并使用模板构建伪描述。构建的描述文本为生成的3D形状提供了高级语义监督。此外，为了产生细粒度纹理和增加几何多样性，采用低层次的图像正则化，使假渲染图像与真实图像对齐。在推理阶段，模型可以在没有任何额外优化的情况下，从给定文本生成3D纹理形状。

实验分析了提出的每一个组件，并展示了在生成高保真度3D纹理和文本相关形状方面的有效性。代码：https://github.com/plusmultiply/TAPS3D