CVPR 2025 | 文本和图像引导的高保真3D数字人高效生成GaussianIP

news2025/3/25 1:43:36

小小宣传一下CVPR 2025的工作GaussianIP。
arXiv:https://arxiv.org/abs/2503.11143
Github:https://github.com/silence-tang/GaussianIP

欢迎star, issue~

摘要

文本引导的3D人体生成随着高效3D表示及2D升维方法(如SDS)的发展而进步。然而,当前的方法存在训练时间长且结果往往缺乏细腻的面部和服装细节的问题。本文提出了GaussianIP,一个有效的两阶段框架,用于从文本和图像提示中生成保持身份特征的高真实度3D人体模型。我们的核心见解是利用以人类为中心的知识来促进生成过程。在第一阶段,我们提出了一种新颖的自适应人体蒸馏采样(AHDS)方法,可以快速生成与图像提示具有高身份一致性的、外观真实的3D人体模型。相比传统的SDS方法,AHDS更好地符合以人为中心的生成过程,在显著减少训练步骤的同时提升了视觉质量。为了进一步提升脸部和衣物区域的视觉质量,我们在第二阶段设计了一个视图一致性细化(VCR)策略。具体来说,它通过相互注意力和距离引导注意力融合,迭代地产生来自第一阶段多视角图像的细节增强结果,确保跨视角的3D纹理一致性。然后可以通过直接使用refine后的图像执行重建任务,从而获得优化后的3D人体。广泛实的验表明GaussianIP在视觉质量和训练效率上均优于现有方法,特别是在生成保持身份特征的结果方面表现突出。我们的代码已开源。

方法

在这里插入图片描述

Adaptive Human Distillation Sampling

Gaussian Initialization

在SMPL-X neutral的mesh表面密集地采样100000个空间位置作为三维人体高斯的初始位置,其余属性的初始化参考HumanGaussian。

Distillation Sampling with Human-centric Prior

由于3D人类生成任务的独特性,直接从通用扩散先验中蒸馏可能不是最佳选择。因此,GaussianIP结合了一个专注于面部特征的扩散模型和姿态条件控制网络(ControlNet),创建了一个特定于人类的扩散先验。为了准确表示不同视角下面部特征(如眼睛、耳朵等)的可见性,本方法采用了一种视视角感知的姿态骨架修剪策略。
在训练过程中,GaussianIP通过重新设计原始SDS的得分差异提出了人体蒸馏采样(HDS)引导机制,以充分利用给定的文本和图像条件。这种方法将得分差异 分解为校正项 和条件项 ,并根据不同的时间步长应用不同的得分差异建模策略。通过我们重新设计的得分差异,生成的人体面部会更加真实,没有过饱和的问题,并且与给定的身份图像提示具有较好的对齐程度。

Adaptive Human-specific Timestep Scheduling

在这里插入图片描述
为了加速3D人体生成的训练过程,我们提出了一种自适应的人体特定时间步长调度策略。这一策略专为3D人体生成任务量身定制,通过构建非递增的时间步长与训练步骤(t-i)曲线,使得整个生成过程更加高效且精确。
我们将整个3D人体生成流程自然划分为三个协同阶段:首先是几何形状和基础纹理的建立,接着是中级纹理的发展,最后是精细面部特征及服装细节的完善。针对每个阶段,我们分配了特定的时间步长范围,以确保更多的训练步骤被用于模型几何结构的建立和复杂细节的表现上,而过渡阶段则相对减少步骤需求。
为了达到理想的训练效果,我们采用了一个经过优化的权重概率密度函数(PDF),即双段高斯函数WDG(t; s1, s2, T),来表示时间步长的概率分布。这不仅有助于避免过大的初始时间步长导致的过度模糊,也防止了过小的时间步长引起的梯度方差过高问题。通过解决一个优化问题,我们确定了最佳参数设置,确保每个阶段的累积概率符合预期的训练步骤比例。
此外,为了确保不同阶段间的平滑过渡并防止纹理过度饱和,我们为每个阶段设定了下限值,并在这个范围内采样最终的时间步长。AHDS可减少大约30%的训练步骤,并提升了生成结果的视觉质量。

View-consistent Refinement Mechanism

我们设计一种为了解决由AHDS训练结果中可能存在的轻微纹理平滑问题而设计的refine策略。该机制旨在进一步增强基于AHDS训练结果的细节表现,并确保多视角图像间的一致性。
首先,我们提出了关键视图细化(Key Views Refinement)方法,通过将主视图(前、后、左、右)的注意力键值注入到特定关键视图的去噪过程中,保证关键视图与主视图之间外观的一致性。为了避免因不可见区域特征导致的纹理漂移,我们扩展了自注意力键值,使得两个视图可以互相作为参考。
其次,为了实现相邻关键视图间平滑过渡的细化效果,我们设计了一个中间特征传播(Intermediate Features Propagation)过程。此过程根据相对距离引导注意力融合,将相邻关键视图的注意力特征融合进中间视图的去噪过程中,以确保中间视图具有与其邻近视图一致的高纹理一致性。
最终,这些经过细化且在纹理和语义上相互对齐的多视角图像,可以直接应用于第一阶段生成的3D人体高斯优化,通过直接应用重建损失来进一步提升模型质量。整个视图一致性细化机制不仅提升了服装等细节的表现力,同时也增强了不同视角下视觉效果的一致性和真实性,从而提高了整体3D人体模型的质量。

实验

定性比较

在这里插入图片描述

定量比较

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2320202.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Cursor从小白到专家

文章目录 1:简单开发一个贪吃蛇游戏规则设置提示词 cursor开发小工具开发整体步骤创建.cursorrules输入提示词composer模式chat模式 执行cursor accept all发布到线上进行分享 cursor开发一个浏览器插件创建.cursorrulescursor rules范例集工具 输入提示词执行curso…

使用C++在Qt框架下调用DeepSeek的API接口实现自己的简易桌面小助手

项目背景 随着DeepSeek的爆火,最近的DeepSeek也进行了新一轮技术的更新,为了拥抱新时代,我们也要不断学习新的知识,难的底层原理我们接触不到,简单的调用还能难住我们? 因为在网络上搜集到的资源都是用Py…

【信息系统项目管理师】【高分范文】【历年真题】​论信息系统项目的风险管理

【手机端浏览】☞【信息系统项目管理师】【高分范文】【历年真题】​论信息系统项目的风险管理 2023年上半年考题 【题目】 论信息系统项目的风险管理 项目风险管理旨在识别和管理未被项目计划及其他过程所管理的风险,如果不妥善管理,这些风险可能导致项…

Debain-12.9使用vllm部署内嵌模型/embedding

Debain-12.9使用vllm部署内嵌模型/embedding 基础环境准备下载模型部署模型注册dify模型 基础环境准备 基础环境安装 下载模型 modelscope download --model BAAI/bge-m3 --local_dir BAAI/bge-m3部署模型 vllm serve ~/ollama/BAAI/bge-m3 --served-model-name bge-m3 --t…

Milvus学习整理

Milvus学习整理 一、度量类型(metric_type) 二、向量字段和适用场景介绍 三、索引字段介绍 (一)、概述总结 (二)、详细说明 四、简单代码示例 (一)、建立集合和索引示例 (二&#xff09…

MySQL事务全解析:从概念到实战

在数据库操作中,事务是一个至关重要的概念,它确保了数据的完整性和一致性。今天,就让我们深入探讨MySQL事务的方方面面,从基础概念到实际应用,全面掌握这一技能。 一、为什么需要事务 假设张三要给李四转账100元&…

手机怎么换网络IP有什么用?操作指南与场景应用‌

在数字化时代,手机已经成为我们日常生活中不可或缺的一部分,无论是工作、学习还是娱乐,手机都扮演着至关重要的角色。而在手机的使用过程中,网络IP地址作为设备在互联网上的唯一标识符,其重要性和作用不容忽视。本文将…

科技赋能安全:慧通测控的安全带全静态性能测试

汽车的广泛普及给人们的出行带来了极大便利,但交通事故频发也成为严重的社会问题。据世界卫生组织统计,全球每年约有 135 万人死于道路交通事故,而安全带在减少事故伤亡方面起着不可替代的作用。正确使用安全带可使前排驾乘人员的死亡风险降低…

记录修复一个推拉门滑轮

推拉门有个滑轮的固定螺丝不知什么时候掉了,也找不到,这就导致推拉门卡在轨道上。 这种滑轮在夕夕上很便宜,比哈罗单车还划算,但是现在缺的只是螺丝,如果买就会多出来一个轮… 这种螺丝比较长,大概是m4的…

压缩壳学习

壳是什么 壳就是软件的一个保护套,防止软件被进行反编译或被轻易地修改。 其作用就是为了保护软件。 常见的大类壳有压缩壳、加密壳、VM 壳的分类。 压缩壳顾名思义就是用来减小软件的文件大小的;加密壳,通过加密软件来保护软件&#xff…

深入理解 Linux ALSA 音频架构:从入门到驱动开发

文章目录 一、什么是 ALSA?二、ALSA 系统架构全景图核心组件详解:三、用户空间开发实战1. PCM 音频流操作流程2. 高级配置(asound.conf)四、内核驱动开发指南1. 驱动初始化模板2. DMA 缓冲区管理五、高级主题1. 插件系统原理2. 调试技巧3. 实时音频优化六、现代 ALSA 发展七…

CCF-CSP认证 202206-2寻宝!大冒险!

题目描述 思路 有一张绿化图和藏宝图,其中绿化图很大(二维数组在限定的空间内无法存储),而藏宝图是绿化图中的一部分,对于绿化图和藏宝图,左下角的坐标为(0, 0),右上角的坐标是(L, L)、(S, S)&…

仿函数 VS 函数指针实现回调

前提: 本博客对比 函数指针实现回调 和 仿函数 ,突出仿函数的优势。 目的: 一个类要能够灵活的调用两个函数,essfc 和 greaterfc,分别用于比较两个整数的大小: ①:lessfc:判断 x …

MQTT的安装和使用

MQTT的安装和使用 在物联网开发中,mqtt几乎已经成为了广大程序猿必须掌握的技术,这里小编和大家一起学习并记录一下~~ 一、安装 方式1、docker安装 官网地址 https://www.emqx.com/zh/downloads-and-install/broker获取 Docker 镜像 docker pull e…

PRODIGY: “不折腾人”的蛋白-蛋白/蛋白-小分子结合能计算工具

PRODIGY(全称为 PROtein binDIng enerGY prediction)是一种蛋白质结合能预测工具,可利用蛋白质-蛋白质复合物的三维结构来预测其结合亲和力。PRODIGY 利用一种高效的基于接触的方法,在估计结合自由能和解离常数的同时,…

C++之 【模板初阶(函数模板与类模板)】

目录 1.泛型编程 2.模板 3函数模板 3.1函数模板的概念 3.2函数模板的格式 3.3函数模板的原理 3.4函数模板的实例化 3.4.1隐式实例化&#xff1a;让编译器根据实参推演模板参数的实际类型 3.4.2显示实例化&#xff1a;在函数名后的<>中指定模板参数的实际类型 3.…

在线教育网站项目第四步:deepseek骗我, WSL2不能创建两个独立的Ubuntu,但我们能实现实例互访及外部访问

一、说明 上一章折腾了半天&#xff0c;搞出不少问题&#xff0c;今天我们在deepseek的帮助下&#xff0c;完成多个独立ubuntu24.04实例的安装&#xff0c;并完成固定ip&#xff0c;实践证明&#xff0c;deepseek不靠谱&#xff0c;浪费我2个小时时间&#xff0c;我们将在下面实…

在刀刃上发力:如何精准把握计划关键节点

关键路径分析是项目管理中的一种重要方法&#xff0c;它通过在甘特图中识别出项目中最长、最关键的路径&#xff0c;来确定项目的最短完成时间。 关键路径上的任务都是项目成功的关键因素&#xff0c;任何延误都可能导致整个项目的延期。关键路径分析对于项目管理者来说至关重要…

组合总和||

1.给定一个数组 candidates 和一个目标数 target &#xff0c;找出 candidates 中所有可以使数字和为 target 的组合。 candidates 中的每个数字在每个组合中只能使用一次。 #include <bits/stdc.h> using namespace std; vector<vector<int>> result; vec…

OpenCV图像拼接(2)基于羽化(feathering)技术的图像融合算法拼接类cv::detail::FeatherBlender

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 cv::detail::FeatherBlender 是 OpenCV 中用于图像拼接的一个类&#xff0c;它属于 stitching 模块的一部分。这个类实现了基于羽化&#xff08;…