小小宣传一下CVPR 2025的工作GaussianIP。
arXiv:https://arxiv.org/abs/2503.11143
Github:https://github.com/silence-tang/GaussianIP
欢迎star, issue~
摘要
文本引导的3D人体生成随着高效3D表示及2D升维方法(如SDS)的发展而进步。然而,当前的方法存在训练时间长且结果往往缺乏细腻的面部和服装细节的问题。本文提出了GaussianIP,一个有效的两阶段框架,用于从文本和图像提示中生成保持身份特征的高真实度3D人体模型。我们的核心见解是利用以人类为中心的知识来促进生成过程。在第一阶段,我们提出了一种新颖的自适应人体蒸馏采样(AHDS)方法,可以快速生成与图像提示具有高身份一致性的、外观真实的3D人体模型。相比传统的SDS方法,AHDS更好地符合以人为中心的生成过程,在显著减少训练步骤的同时提升了视觉质量。为了进一步提升脸部和衣物区域的视觉质量,我们在第二阶段设计了一个视图一致性细化(VCR)策略。具体来说,它通过相互注意力和距离引导注意力融合,迭代地产生来自第一阶段多视角图像的细节增强结果,确保跨视角的3D纹理一致性。然后可以通过直接使用refine后的图像执行重建任务,从而获得优化后的3D人体。广泛实的验表明GaussianIP在视觉质量和训练效率上均优于现有方法,特别是在生成保持身份特征的结果方面表现突出。我们的代码已开源。
方法
Adaptive Human Distillation Sampling
Gaussian Initialization
在SMPL-X neutral的mesh表面密集地采样100000个空间位置作为三维人体高斯的初始位置,其余属性的初始化参考HumanGaussian。
Distillation Sampling with Human-centric Prior
由于3D人类生成任务的独特性,直接从通用扩散先验中蒸馏可能不是最佳选择。因此,GaussianIP结合了一个专注于面部特征的扩散模型和姿态条件控制网络(ControlNet),创建了一个特定于人类的扩散先验。为了准确表示不同视角下面部特征(如眼睛、耳朵等)的可见性,本方法采用了一种视视角感知的姿态骨架修剪策略。
在训练过程中,GaussianIP通过重新设计原始SDS的得分差异提出了人体蒸馏采样(HDS)引导机制,以充分利用给定的文本和图像条件。这种方法将得分差异 分解为校正项 和条件项 ,并根据不同的时间步长应用不同的得分差异建模策略。通过我们重新设计的得分差异,生成的人体面部会更加真实,没有过饱和的问题,并且与给定的身份图像提示具有较好的对齐程度。
Adaptive Human-specific Timestep Scheduling
为了加速3D人体生成的训练过程,我们提出了一种自适应的人体特定时间步长调度策略。这一策略专为3D人体生成任务量身定制,通过构建非递增的时间步长与训练步骤(t-i)曲线,使得整个生成过程更加高效且精确。
我们将整个3D人体生成流程自然划分为三个协同阶段:首先是几何形状和基础纹理的建立,接着是中级纹理的发展,最后是精细面部特征及服装细节的完善。针对每个阶段,我们分配了特定的时间步长范围,以确保更多的训练步骤被用于模型几何结构的建立和复杂细节的表现上,而过渡阶段则相对减少步骤需求。
为了达到理想的训练效果,我们采用了一个经过优化的权重概率密度函数(PDF),即双段高斯函数WDG(t; s1, s2, T),来表示时间步长的概率分布。这不仅有助于避免过大的初始时间步长导致的过度模糊,也防止了过小的时间步长引起的梯度方差过高问题。通过解决一个优化问题,我们确定了最佳参数设置,确保每个阶段的累积概率符合预期的训练步骤比例。
此外,为了确保不同阶段间的平滑过渡并防止纹理过度饱和,我们为每个阶段设定了下限值,并在这个范围内采样最终的时间步长。AHDS可减少大约30%的训练步骤,并提升了生成结果的视觉质量。
View-consistent Refinement Mechanism
我们设计一种为了解决由AHDS训练结果中可能存在的轻微纹理平滑问题而设计的refine策略。该机制旨在进一步增强基于AHDS训练结果的细节表现,并确保多视角图像间的一致性。
首先,我们提出了关键视图细化(Key Views Refinement)方法,通过将主视图(前、后、左、右)的注意力键值注入到特定关键视图的去噪过程中,保证关键视图与主视图之间外观的一致性。为了避免因不可见区域特征导致的纹理漂移,我们扩展了自注意力键值,使得两个视图可以互相作为参考。
其次,为了实现相邻关键视图间平滑过渡的细化效果,我们设计了一个中间特征传播(Intermediate Features Propagation)过程。此过程根据相对距离引导注意力融合,将相邻关键视图的注意力特征融合进中间视图的去噪过程中,以确保中间视图具有与其邻近视图一致的高纹理一致性。
最终,这些经过细化且在纹理和语义上相互对齐的多视角图像,可以直接应用于第一阶段生成的3D人体高斯优化,通过直接应用重建损失来进一步提升模型质量。整个视图一致性细化机制不仅提升了服装等细节的表现力,同时也增强了不同视角下视觉效果的一致性和真实性,从而提高了整体3D人体模型的质量。