NUS、清华提出STAR:一句话生成高质量4D Avatar,代码已开源

news2024/11/19 12:29:45

a2f515546142083c3dc9380b1623f4d3.gif

©PaperWeekly 原创 · 作者 | Chai Zenghao

单位 | 新加坡国立大学博士生

研究方向 | 3D生成


a767c958d3e896c8f1c83095af09898e.png

背景

在计算机图形学和数字虚拟人领域,从简单的文本提示生成更真实、可交互的虚拟人物是是目前广受关注的研究课题。然而,先前的 3D Avatar 生成方法存在一些问题,如生成的人物在动作和细节上往往不够真实。

新加坡国立大学和清华大学的研究团队提出了“STAR: Skeleton-aware Text-based 4D Avatar Generation with in-network motion Retargeting”。该算法通过引入角色相关的骨骼感知技术,能够从文本描述生成高质量的 4D Avatar,显著提升了虚拟人物外观和动作的真实性和自然性。本文将简要介绍 STAR 算法的核心创新及其在文本到 Avatar 生成领域的贡献。

a8cdfff05ae106f6c509f7d7035e03dd.png

论文链接:

https://arxiv.org/abs/2406.04629

项目主页:

https://star-avatar.github.io/

代码链接:

https://github.com/czh-98/STAR

31fb8409060c86a305a7aa2cc253b66f.png

本文动机

近年来,基于扩散模型的文本到图像生成(T2I generation)领域取得了显著的进展。通过利用 T2I Diffusion 先验,从文本描述生成 3D 内容(特别是类人角色)在计算机视觉和图形学社区引起了广泛关注。进一步地,4D 角色的创建(即合成具有真实人类动作的可动画角色)也在电影和游戏行业中引起了极大关注。

然而,目前主流的基于文本的 4D Avatar 生成通常采用先优化后驱动的策略。即,首先通过基于 T2I 的 Score Distillation Sampling(SDS)优化 Canonical 3D 表示,生成特定的 3D Avatar;然后再通过给定的动作进行人物驱动。这种典型的生成流程面临以下主要挑战,导致现有模型难以生成具有丰富几何和纹理多样性以及准确动作的生动 4D Avatar:

  1. 多面问题(Janus-Problem):一些先前的方法仅仅使用T2I扩散模型作为先验,并依赖于视角相关的文本提示来提供T2I模型稀疏的监督信号。因此,生成的结果往往不够精确,并可能出现不同视角下多个人脸的问题。

  2. 域间隙(Domain Gap):由于扩散模型是使用自然姿态下的人脸或人体图像进行训练的,而当前的文本到 3D 方法则是通过训练固定姿态的渲染图像来进行训练的。因此,存在渲染的 2D 图像与真实图像之间的姿态分布差异。这种基于标准姿态(Canonical Pose)的优化存在潜在的域间隙问题,不利于生成具有多样体型的 3D Avatar。

  3. 动画穿模(Animation Artifact):当简单地将文本到动作模型中的源动作应用于目标角色时,由于源模板(如 SMPL 模板)和目标角色之间的骨架和几何差异,可能会导致错误的驱动结果,例如手臂与身体相交等穿模问题。

8c502df9e51aecf1ef12cee87ca467c1.png

STAR简介

为了解决上述挑战,本文提出了 STAR(如图所示)。相比于先前的 4D Avatar 生成方法,STAR 的核心在于通过在优化过程中考虑骨架(Skeleton)、几何(Geometry)以及姿势(Pose)的影响,利用运动重定向(motion retarget)技术获得更准确的骨架控制信号,用于 SDS 的优化。这一方法显著提升了 4D Avatar 的生成质量。

a0b73ca5a7410949dcb79e942fc258c6.png

▲ 图1:文本驱动的 4D Avatar 生成:典型的优化-驱动流程(上)与本文的方法(下)比较。

优化结束后,借助 mesh 的表示,STAR 能够灵活地与来自文本、音频或视频的任意生成的运动结合,并兼容当前的图形软件(如 Blender)。给定人物和动作的文本描述,训练 4D Avatar 的整体算法流程如下:

674f35ea372603283bdbd13fe34c0e01.png

▲ 图2:STAR的训练算法伪代码表示

STAR 的主要流程如下图所示,其核心包括以下几个方面:

d4017190d7eaef95e3dc18f2b2af8419.png

▲ 图3:STAR 整体框架图。左:给定文本描述,我们使用预训练的文本到动作模型初始化人体动作。需要注意的是,典型的优化-驱动范式在 4D Avatar 生成中往往会导致不合理的结构和动画穿模等问题。右:STAR 通过集成重定向的动作来消除基于 SDS 优化中的潜在姿态分布偏差。利用角色相关和遮挡感知的骨架结构,并结合混合的 T2I 和 T2V 扩散模型,提供一致的 3D 先验。这一流程逐步优化几何、纹理和动作,以端到端的方式生成 4D Avatar。

  • Skeleton-aware, geometry-aware, motion-aware 的训练过程:在训练过程中,STAR 通过骨架感知、几何感知和动作感知来更新几何和纹理,同时同步调整源动作以匹配个性化 Avatar 的骨架和几何特征。这一方法有效提升了 Avatar 的外观多样性和动作真实性,显著减少了最终生成的 4D Avatar 中的穿模问题。

  • 优化中的 motion retarget:通过及时更新运动,STAR 能够获得更准确的渲染图像,并为 ControlNet 提供骨架条件时提供更精确的结构信息。这使得渲染的 3D Avatar 与扩散模型中自然姿势分布更一致,有助于减少扩散模型先验与渲染图像之间的域间隙问题。更新的运动和骨架确保具有目标 3D 角色的精确结构信息,同时保持文本描述的语义一致。

  • 混合 SDS 方法:为了消除时间不一致和视角无关的干扰,STAR 在 T2I 先验的基础上,引入了免训练的 T2V 模型,以提供不同时间和视角下的一致性先验。同时,STAR 提出了结合了骨架感知、遮挡感知和掩模感知的混合 SDS 方法,以强化视角一致性的监督信号,从而提高生成质量。

  • 分层 Regularization:为了稳定混合 SDS 的优化过程,STAR 提出了分层的正则化方法,通过不同粒度的约束项对全局体型、顶点偏移和五官结构进行约束。这些约束项有助于提升角色在几何结构上的合理性,从而改善生成结果的几何质量和整体外观。

606f4c23ad7b0275e430b8b9dbb935d5.png

实验结果

定性结果表明,STAR 能够生成具有多样体型特征的角色,并通过 3D mesh 表示,在不同视角下展现更真实的动画效果。每个示例中展示了脸部和身体的纹理(左侧)以及法线贴图(右侧)的结果。

4d49602973da0f155cbaa1588a1def91.png

▲ 图4:STAR 生成的 4D Avatar 示例

在定量评估方面,本文利用 CLIP-Score、VQA-Score 和 User Study 验证了 STAR 相较于先前的一些方法能够生成更加真实的结果。

b32022db7c622adb9c62fd1577e77248.png

▲ 表1:Canonical 3D Avatar 和 4D Avatar 的定量比较。我们使用 CLIP-Score 和 VQA-Score 指标,得分越高表示生成结果与文本描述的一致性越好。

b28423f2d091cbc082881183c9a1740c.png

▲ 表2:User Study 结果。我们展示了不同方法在三个方面被选为“最佳”的平均百分比:Q1.几何质量,Q2.外观质量,以及 Q3.动作质量。

155ff8bfad58a7bd48245b715f1510c4.png

结论

本文提出了 STAR,一种能够从文本描述中生成高质量 4D Avatar 的方法。STAR 的关键创新在于充分考虑了动作多样性和真实性对于基于文本生成 4D Avatar 的重要性。与传统的先优化后驱动方法不同,STAR 引入了 Motion Retarget 和 Hybrid SDS 技术,显著改善了生成的 Avatar 的质量和一致性。通过逐步优化几何、纹理和动作,特别是在解决源模板与目标 Avatar 之间的骨架和几何差异方面,STAR 展示了在提升虚拟人物生成技术方面的潜力和优越性。

有关更多信息和细节,欢迎查阅本文、项目主页以及相关的代码。

更多阅读

9a87db32c91e83b66c23f24fd1a4db9d.png

ff7f121ae4a54209ab8b72116a590086.png

16ec08d5fbe8e6278cfe6f43747b89e9.png

bc1536e0e3553ed97849d2c01c295803.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

5516b2cec5eb0f4290fe11fc25313411.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

deac3023e6b153bd453909de9a5f6ff3.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1855409.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

陀螺仪LSM6DSV16X与AI集成(7)----FIFO数据读取与配置

陀螺仪LSM6DSV16X与AI集成.7--检测自由落体 概述视频教学样品申请源码下载主要内容生成STM32CUBEMX串口配置IIC配置CS和SA0设置串口重定向参考程序初始换管脚获取ID复位操作BDU设置设置量程设置FIFO水印设置速率使用流模式设置FIFO时间戳批处理速率使能时间戳FIFO状态寄存器演示…

【ajax核心05】宏任务与微任务

ES6之后引入Promise对象(用来管理异步任务),让JS引擎也可以发起异步任务 一:异步任务分类 异步任务分为:宏任务与微任务 宏任务 由浏览器环境执行的异步代码 具体宏任务分类 微任务 由JS引擎执行的代码 创建Promise对象时,…

【鸿蒙】ERROR_GET_BUNDLE_INSTALLER_FAILED

错误信息 [ERROR_GET_BUNDLE_INSTALLER_FAILED] Troubleshooting guide $ hdc file send D:\Huawei\devEcoProjects\entry\build\default\outputs\default\entry-default-unsigned.hap /sdcard/e8a215ea7be1444197e6a58ebda7721f/entry-default-unsigned.hap Error while Depl…

Vue74-路由传参2

一、$route中的params参数 二、在配置路由的index.js文件中&#xff0c;声明传参 占位符用的什么名字&#xff0c;params里面的key就是什么。 三、<router-link>标签中传参 3-1、to字符串写法 3-2、to的对象写法 注意&#xff1a;若是用params携带参数&#xff0c;不…

联盟学习:技术原理、特点及适用场景

一、引言 随着大数据和人工智能技术的快速发展&#xff0c;数据成为了推动科技进步的重要资源。然而&#xff0c;在实际应用中&#xff0c;数据往往呈现出碎片化、分散化的特点&#xff0c;如何有效地利用这些数据成为了业界关注的焦点。联盟学习&#xff08;Federated Learni…

异地组网如何OEM?

在现代信息社会中&#xff0c;企业越来越需要跨地域进行数据传输与共享。面临的挑战却是如何在不暴露在公网的情况下&#xff0c;实现异地组网并保障数据的安全性。本文将介绍一种名为“异地组网OEM”的解决方案&#xff0c;该方案能够通过私有通道传输数据并对数据进行安全加密…

Docker Compose--安装Nginx--方法/实例

原文网址&#xff1a;Docker Compose--安装Nginx--方法/实例_IT利刃出鞘的博客-CSDN博客 简介 说明 本文介绍Docker Compose如何安装Nginx。 目录结构 ├── config │ ├── cert │ │ ├── xxx_bundle.pem │ │ └── xxx.key │ ├── conf.d │ …

解决Windows下移动硬盘无法弹出的问题:\$Extend\$RmMetadata\$TxfLog\$TxfLog.blf

想弹出移动硬盘时&#xff0c;Windows告诉我设备正在使用 然后我使用LockHunter查看到底是哪个应用在使用我的移动硬盘&#xff0c;发现是 System(PID 4) E x t e n d Extend ExtendRmMetadata T x f L o g TxfLog TxfLogTxfLog.blf这个文件正在使用 这是一个索引文件 解决 …

黑马HarmonyOS-NEXT星河版实战

"黑马HarmonyOS-NEXT星河版实战"课程旨在帮助学员深入了解HarmonyOS-NEXT星河版操作系统的开发和实际应用。学员将学习操作系统原理、应用开发技巧和界面设计&#xff0c;通过实战项目提升技能。课程注重实践与理论相结合&#xff0c;为学员提供全面的HarmonyOS开发经…

[分布式网络通讯框架]----ZooKeeper下载以及Linux环境下安装与单机模式部署(附带每一步截图)

首先进入apache官网 点击中间的see all Projects->Project List菜单项进入页面 找到zookeeper&#xff0c;进入 在Zookeeper主页的顶部点击菜单Project->Releases&#xff0c;进入Zookeeper发布版本信息页面&#xff0c;如下图&#xff1a; 找到需要下载的版本 …

段,页,段页,三种内存(RAM)管理机制分析

段&#xff0c;页&#xff0c;段页 是为实现虚拟内存而产生的技术。直接使用物理内存弊端&#xff1a;地址空间不隔离&#xff0c;内存使用效率低。 段 段&#xff1a;就是按照二进制文件的格式&#xff0c;在内存给进程分段&#xff08;包括堆栈、数据段、代码段&#xff09;。…

仿迪恩城市门户分类信息网discuz模板

Discuz x3.3模板 仿迪恩城市门户分类信息网 (GBK) Discuz模板 仿迪恩城市门户分类信息网(GBK)

Spring 内部类获取不到@Value配置值问题排查(附Spring代理方式)

目录 一、实例问题 1、现象 2、原因 3、解决 二、Spring的代理模式 1、静态代理&#xff08;Static Proxy&#xff09; 1&#xff09;原理 2&#xff09;优缺点 3&#xff09;代码实现 2、JDK动态代理&#xff08;JDK Dynamic Proxy&#xff09; 1&#xff09;原理 …

解决 Pyecharts 在 jupyter Lab 上运行图片空白问题!

文章目录 &#x1f3f3;️‍&#x1f308; 1 提前声明 JUPYTER_LAB&#x1f3f3;️‍&#x1f308; 2 load_javascript(&#xff09;&#x1f3f3;️‍&#x1f308; 3 render_notebook()&#x1f3f3;️‍&#x1f308; 4 图示&#x1f3f3;️‍&#x1f308; 5 可视化项目源码…

LoRaWAN在嵌入式网络通信中的应用:打造高效远程监控系统(附代码示例)

引言 随着物联网&#xff08;IoT&#xff09;技术的发展&#xff0c;远程监控系统在各个领域的应用越来越广泛。LoRaWAN&#xff08;Long Range Wide Area Network&#xff09;作为一种低功耗广域网通信协议&#xff0c;因其长距离传输、低功耗和高可靠性等特点&#xff0c;成为…

qt开发-10_LineEdit

QLineEdit 小部件是一个单行文本编辑器。行编辑允许用户使用一组有用的编辑函数输入和 编辑一行纯文本。包括撤消和重做、剪切和粘贴以及拖放。通过更改行编辑的 echoMode()&#xff0c;它 还可以用作“只写”字段&#xff0c;用于输入如密码等. 创建好项目后&#xff0c;进入 …

407串口01发送

实验一&#xff1a; 工程。 链接&#xff1a;https://pan.baidu.com/s/1g8DV4yZWOix0BbcZ08LYDQ?pwd2176 提取码&#xff1a;2176串口1的使用。发送功能。 单片机发送信息到电脑。 通过串口进行通信。 首先单片机这边。 单片机这边&#xff0c;需要对单片机的串口模块进行使…

【面试干货】Java中的四种引用类型:强引用、软引用、弱引用和虚引用

【面试干货】Java中的四种引用类型&#xff1a;强引用、软引用、弱引用和虚引用 1、强引用&#xff08;Strong Reference&#xff09;2、软引用&#xff08;Soft Reference&#xff09;3、弱引用&#xff08;Weak Reference&#xff09;4、虚引用&#xff08;Phantom Reference…

爱心商城管理系统的设计

管理员账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;管理员管理&#xff0c;企业管理&#xff0c;用户管理&#xff0c;论坛管理&#xff0c;商品管理&#xff0c;公告管理&#xff0c;用户捐赠 企业账户功能包括&#xff1a;系统首页&#xff0c;个人中…

openEuler搭建hadoop Standalone 模式

Standalone 升级软件安装常用软件关闭防火墙修改主机名和IP地址修改hosts配置文件下载jdk和hadoop并配置环境变量配置ssh免密钥登录修改配置文件初始化集群windows修改hosts文件测试 1、升级软件 yum -y update2、安装常用软件 yum -y install gcc gcc-c autoconf automake…