[23] GaussianAvatars: Photorealistic Head Avatars with Rigged 3D Gaussians

[23] GaussianAvatars: Photorealistic Head Avatars with Rigged 3D Gaussians

news2025/4/27 22:38:54

[paper | proj]

给定FLAME，基于每个三角面片中心初始化一个3D Gaussian（3DGS）；当FLAME mesh被驱动时，3DGS根据它的父亲三角面片，做平移、旋转和缩放变化；
3DGS可以视作mesh上的辐射场；
为实现高保真的avatar，本文提出一种蒙皮（binding）继承策略，在优化过程中，保持蒙皮对3DGS的控制；
本文贡献如下：
- 提出GaussianAvatars，通过将3DGS绑定至FLAME模型，实现可驱动的head avatars；
- 设计了一种蒙皮继承策略，使得在保持蒙皮控制的情况下，3DGS的新增和移除。

近期工作

静态场景表征

NeRF用神经网络，以辐射场的形式存储场景；
后续工作将场景表征为voxel grids、使用voxel hashing、或使用tensor decomposition，加速渲染；
PointNeRF使用点云表征场景；
3D Gaussian Splatting使用各向异性3D Gaussian，实现实时渲染和优异的视觉效果；
Mixture of Volumetric Primitives使用surface-aligned volumes实现高视觉保真度的快速渲染；

动态场景表征

Basic Design：基于NeRF的方法，输入4D坐标（x, y, z, t），输出密度和颜色。例如：K-Plane、4K4D等。这类方法虽然效果不错，但是无法显式控制内容；
Deformation MLP：学习静态标定空间，通过MLP将其他时间下的空间映射回标准空间；
Proxy geometry：
Liu等人 [25] 基于SMPL移动后的最近三角面片，将观察空间中的点warp回标定空间；
Peng等人 [34] 基于SMPL的骨架和神经蒙皮系数（neural blending weights）变形点；
前向变形（forward deformation）[13, 18, 20, 23, 48] 和cage-based deformation [54]；
不同于上述方法，本文将3DGS附着在三角面片上，并显式地移动他们，避免使用标定空间，并可使用mesh finetuning。

头像重建与驱动

Thies等人 [41] 实现了数字人的实时人脸跟踪和面部重现（face reenactment）；
Gafni等人 [8] 从单目视频中以表情系数作为控制信号，学习NeRF；
Grassal等人 [10] 向FLAME中添加偏移量，增强几何，通过基于表情控制的纹理域，实现动态纹理；
IMavatar [51] 基于神经隐式方程学习3D可形变数字人，通过iterative root-finding实现标定空间到观察空间的映射；
HeadNeRF [11] 学习一个基于NeRF的参数化头模；
INSTA [55] 通过寻找FLAME上最近三角面片，将查询点映射回标定空间；
Zheng [52] 探索了基于点的表征和可导的点渲染方法，在标定空间中定义点集，学习受FLAME表情系数控制的形变场，以驱动数字人；
AvatarMAV [46] 定义了标定辐射场和运动场；
不同于INSTA，本文在3DGS和三角面片间建立一致性关联。

方法

根据给定的多视角图片和相机参数，估计每帧图片中的FLAME参数；
建立三角面片和3DGS的关系；
可导渲染得到图片与GT图片算损失，用于训练模型；
在训练过程中，通过蒙皮继承策略（binding inheritance strategy）控制3DGS增删后与三角面片的对应关系。

绑定3DGS与三角面片

给定三角面片，本文计算：

均值位置 $T$ ：给定三角面片的三条边，计算对应的均值位置；
构造旋转矩阵 $R$ ：1）三角面片的某条边；2）三角面片的法向向量；3）与前两者垂直的第三边；
放缩变量 $k$ ：通过三角形中一条边及其垂线的平均长度来计算标量 $k$ ，以描述三角面片缩放；

对于对应的3DGS，在局部空间定义其位置 $\mu$ ，旋转矩阵 $r$ ，各向异性缩放系数 $s$ 。

初始化时， $\mu$ 为局部零点位置， $r$ 为单位旋转矩阵， $s$ 为单位矢量。
渲染时，将其从局部空间转换为全局空间：

本文将三角面片的缩放系数 $s$ ，嵌入到公式5和6中，使得3DGS的局部位置和缩放与三角面片的缩放相关。这使得全局定义的学习率可以适用于局部。

蒙皮继承策略

稠密：对于具有较大view-space positional gradient的3DGS，如果该点较大则拆分为两个，如果较小则复制一个新的；确保新3DGS和旧的足够近，这样可以将新点绑定至旧点对应的三角面片；
剪枝：在3DGS原有剪枝的技术上，确保每个三角面片具有至少一个3DGS。有些脸部区域（眼球）常被遮挡，很有可能由于剪枝，导致眼球部分的3DGS被去掉。

优化和正则

渲染图像损失如下，可以保证对已有场景有不错效果，但是对新表情和位置效果不佳（存在spike和blob伪影）

具有阈值的位置损失（Position loss with threshold）

在蒙皮继承策略中，本文通过拆分和复制增加新的3DGS。理想情况下，新增的3DGS应该与面片相邻。但是经过优化后，无法保证他们相邻。为解决该问题，本文引入了位置正则项：

$\epsilon_{position}=1$ ，确保3DGS和它的父亲三角面片足够近。

具有阈值的放缩损失（Scaling loss with threshold）

如果某个3DGS相较于它的父亲三角面片更大，三角面片的小角度旋转，会在3DGS上被放大，导致伪影。为解决该问题，本文引入了放缩正则项：

$\epsilon_{scaling}=0.6$ ，确保3DGS不会太大。

最终损失

其中， $\lambda_{position}=0.01$ 和 $\lambda_{scaling}=1$ 。这两项确保常被遮挡的区域（眼球、牙齿）可以被保留。

实现细节

Adam，位置学习率为5e-3，放缩学习率为1.7e-2；
除了3DGS，FLAME的translation、joint rotation和表情系数也会fine-tune，学习率分别为：1e-6，1e-5和1e-3。
训练600k iters，从10k iters之后，每2k iters执行3DGS的更新和蒙皮继承策略，每60k iters，重新设置3DGS的不透明度。

实验

数据集：NeRSemble数据集上的9个目标，每个目标包含10种表情和16个视角。
测试：1）新视角生成（novel-view synthesis）；2）自重演（self-reenactment）；3）跨ID重演（cross-identity reenactment）。

数字人重建

消融实验

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1320847.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Python3中_和__的用途和区别

Python3中_和__的用途和区别

目录一、_（下划线） 1、临时变量： 2、未使用的变量： 二、__（双下划线） 1、私有属性： 2、私有方法： 三、__的一些特殊用途。总结 Python3中的_和__是两个特殊的标识符&#…

阅读更多...

大语言模型加速信创软件 IDE 技术革新

大语言模型加速信创软件 IDE 技术革新

QCon 全球软件开发大会（上海站）将于 12 月 28-29 日举办，会议特别策划「智能化信创软件 IDE」专题，邀请到华为云开发工具和效率领域首席专家、华为软件开发生产线 CodeArts 首席技术总监王亚伟担任专题出品人，为专题质…

阅读更多...

云原生之深入解析减少Docker镜像大小的优化技巧

云原生之深入解析减少Docker镜像大小的优化技巧

一、什么是 Docker？ Docker 是一种容器引擎，可以在容器内运行一段代码，Docker 镜像是在任何地方运行应用程序而无需担心应用程序依赖性的方式。要构建镜像，docker 使用一个名为 Dockerfile 的文件，Dockerfile 是一个包…

阅读更多...

linux系统和网络(一):文件IO

linux系统和网络(一):文件IO

本文主要探讨linux系统编程的文件IO相关知识。文件IO 文件存在块设备中为静态文件,open打开文件,内核在进程中建立打开文件的数据结构在内存中用于记录文件的文件参数,开辟一段内存用于存放内容,将静态文件转为动态文件打开文件后对文件的读写操作都为对动态…

阅读更多...

Windows下配置最新ChromeDriver

Windows下配置最新ChromeDriver

1、问题在使用代码调用谷歌浏览器时会出错： from selenium import webdriver driver webdriver.Chrome() SessionNotCreatedException: Message: session not created: This version of ChromeDriver only supports Chrome version 114 Current browser versi…

阅读更多...

网络空间搜索引擎- FOFA的使用技巧总结

网络空间搜索引擎- FOFA的使用技巧总结

简介 FOFA是一款网络空间测绘的搜索引擎，旨在帮助用户以搜索的方式查找公网上的互联网资产。 FOFA的查询方式类似于谷歌或百度，用户可以输入关键词来匹配包含该关键词的数据。不同的是，这些数据不仅包括像谷歌或百度一样的网页，还…

阅读更多...

网神防火墙后台用户敏感信息泄露漏洞复现

网神防火墙后台用户敏感信息泄露漏洞复现

简介网神防火墙是一款由中国知名网络安全公司启明星辰开发的防火墙产品。它提供了全面的网络安全防护功能，旨在保护企业网络免受各种网络威胁和攻击。该产品存在用户账号信息泄露漏洞，通过构造特定数据包，获取防火墙管理员登录的账号密码。漏洞复现 FOFA语法： body=&…

阅读更多...

A01、关于JVM的GC回收

A01、关于JVM的GC回收

引用类型对象引用类型分为强引用、软引用、弱引用，具体差别详见下文描述： 强引用：就是我们一般声明对象是时虚拟机生成的引用，强引用环境下，垃圾回收时需要严格判断当前对象是否被强引用，如果被强引用&am…

阅读更多...

KSP音频抓包

KSP音频抓包

1. 按照网上其他教程，安装KSP抓音频 Biu~笔记：高通蓝牙ADK（38）-- KSP in MDE - 大大通(简体站) Biu~笔记：高通蓝牙ADK（22）--DSP音频链路监听 - 大大通(简体站) <<Biu~笔记：高…

阅读更多...

docker 与 ffmpeg

docker 与 ffmpeg

创建容器 docker run -it -v /mnt/f/ffmpeg:/mnt/f/ffmpeg --name ffmpeg 49a981f2b85f /bin/bash 在 Linux 上编译 FFmpeg： 安装依赖库： sudo apt-get update sudo apt-get install build-essential yasm cmake libtool libc6 libc6-dev unzip wget下…

阅读更多...

电脑操作系统深度剖析：Windows、macOS和Linux的独特特性及应用场景

导言电脑操作系统是计算机硬件和应用软件之间的桥梁，不同的操作系统在用户体验、性能和安全性方面有着独特的特色。电脑操作系统是计算机系统中的核心组件，不同的操作系统在设计理念、用户体验和应用领域上存在显著差异。本文将深入探讨几种常见的电脑操…

阅读更多...

2018年第七届数学建模国际赛小美赛A题空中加油飞行计划解题全过程文档及程序

2018年第七届数学建模国际赛小美赛A题空中加油飞行计划解题全过程文档及程序

2018年第七届数学建模国际赛小美赛 A题空中加油飞行计划原题再现： 太平洋中部一个小岛上的居民被自然灾害困住。救援人员需要派遣一架轻型飞机运送少量急救药品到岛上，并运送一名重伤者到医疗基地求救。岛上有一个无人值守的简易机场，可以…

阅读更多...

20231218在Ubuntu18.04下以EXT4格式化HDD

20231218在Ubuntu18.04下以EXT4格式化HDD

20231218在Ubuntu18.04下以EXT4格式化HDD 2023/12/18 17:24 缘起： 编译一个Android10大概要200GB，编译10个Android10的SDK，3TB的HDD机械硬盘就估计会被填满了！ 如果使用rm -rf *这个命令将SDK一个一个逐个地删除，估计2…

阅读更多...

思幻二次元风格的工作室个人引导页源码

思幻二次元风格的工作室个人引导页源码

思幻工作室个人引导页源码已经完成开发！该源码支持三端自适应，并且具备赞助功能。我们选择了当前点赞量最高的配色方案，打造了一个独特的二次元风格引导页。经过在美国服务器上进行的测试，效果令人满意，网页加载速度达…

阅读更多...

WordPress主题响应式个人博客主题Kratos源码

WordPress主题响应式个人博客主题Kratos源码

Kratos 是一款专注于用户阅读体验的响应式 WordPress 主题，整体布局简洁大方，针对资源加载进行了优化。 Kratos主题基于Bootstrap和Font Awesome的WordPress一个干净，简单且响应迅速的博客主题，Vtrois创建和维护， 主…

阅读更多...

【经典LeetCode算法题目专栏分类】【第6期】二分查找系列：x的平方根、有效完全平方数、搜索二位矩阵、寻找旋转排序数组最小值

【经典LeetCode算法题目专栏分类】【第6期】二分查找系列：x的平方根、有效完全平方数、搜索二位矩阵、寻找旋转排序数组最小值

《博主简介》小伙伴们好，我是阿旭。专注于人工智能AI、python、计算机视觉相关分享研究。 ✌更多学习资源，可关注公-仲-hao:【阿旭算法与机器学习】，共同学习交流~ 👍感谢小伙伴们点赞、关注！ X的平方根 class Soluti…

阅读更多...

SVN小白常见操作流程

SVN小白常见操作流程

SVN小白常见操作流程一、什么是Subversion？二、TortoiseSVN客户端安装教程三、SVN 操作3.1 SVN Ckeckout(检出)3.2 Add(新增文件)3.3 SVN Commit(提交)3.4 SVN Update(更新操作)3.5SVN Delete(删除操作)3.6 SVN Revert to a revision(版本回溯)3.7 不同版本内容之间…

阅读更多...

P2P网络下分布式文件共享场景的测试

P2P网络下分布式文件共享场景的测试

P2P网络介绍 P2P是Peer-to-Peer的缩写，“Peer”在英语里有“对等者、伙伴、对端”的意义。因此，从字面意思来看，P2P可以理解为对等网络。国内一些媒体将P2P翻译成“点对点”或者“端对端”，学术界则统一称为对等网络(Peer-to-Pee…

阅读更多...

阿里云|人工智能（AI）技术解决方案

阿里云|人工智能（AI）技术解决方案

函数计算部署Stable Diffusion AI绘画技术解决方案通过函数计算快速部署Stable Diffusion模型为用户提供快速通过文字生成图片的能力。该方案通过函数计算快速搭建了AIGC的能力，无需管理服务器等基础设施，专注模型的能力即可。该方案具有高效免运维、弹…

阅读更多...

美颜SDK是什么？视频美颜SDK在直播平台中的集成与接入教程详解

美颜SDK是什么？视频美颜SDK在直播平台中的集成与接入教程详解

当下，主播们追求更加自然、精致的外观，而观众也期待在屏幕前欣赏到更为清晰、美丽的画面。为了满足这一需求，美颜SDK应运而生，成为直播平台的重要利器之一。一、什么是美颜SDK？ 通过美颜SDK，开发者可以…

阅读更多...

推荐文章

最新文章