上科大最新工作!实时面捕天花板,微表情像素级一致,AI让你告别手Key|SIGGRAPH Asia 2022

news2025/3/13 2:17:18

驱动一个数字人往往被拆分为追踪 (Tracking) 与重定向 (Retargeting) 两个环节。
追踪由专业的面部捕捉设备及其辅助算法完成,负责记录演员的面部动作信息,重定向则是将捕捉到的动作信息迁移到新的角色。

在传统的流程中,这两个环节往往是分离的两套体系,难以融合,且两个环节都有大量不可控的人工发挥成分,互相影响。

近些年,随着计算机图形学技术的发展与渲染硬件性能的不断提升,人们已经能够通过复杂的物理模拟,借助离线渲染技术得到无限真实的静态人像。

但即便如此,在动态数字人角色的呈现上,我们距离跨越恐怖谷效应还有很长的路要走。

虽然人们已经能够在诸如《阿凡达》《双子杀手》等电影中带来与真实演员别无二致的数字替身,但其背后是艺术家手工绑定与手工制作关键帧动画带来的大量资金投入。

针对上述问题,上海科技大学科研团队联合数字人底层技术公司影眸科技提出了这样的思路:将首创的 4D PBR 扫描技术与神经网络表达相结合,训练多 VAE 的网络结构,跳过了传统的绑定与动态贴图制作流程。

这意味着,无需面捕头盔、无需人工绑定,只需要一段 4D 序列作为训练,RGB 视频就可以实现精细到微表情级别的实时面部捕捉。

这项工作已经被计算机图形学顶会 SIGGRAPH Asia 2022 接收为 Technical Paper - Journal Track 并受邀作报告分享。

据研究人员介绍,这项技术不仅能够生产出与现有渲染引擎兼容的面部几何模型和多层材质贴图,还能让任何人凭借手机进行轻量级面部捕捉,实时驱动高质量的面部资产,该技术已经投入国内影视特效与游戏行业使用。
在这里插入图片描述

论文链接:https://arxiv.org/abs/2202.05592

使用神经网络构建面部资产

上科大联合影眸科技研发团队将预先捕捉好的高质量面部资产与轻量级的输入设备相结合,填补了两种不同解决方案中间的空白。他们带来了全新的思路 —— 基于高质量的 4D 面部资产数据,实现对面部动态几何和材质贴图的隐式表达,从而得到更真实自然的面部驱动效果。

在这里插入图片描述

首先是训练数据采集。研究人员使用了穹顶光场设备采集演员的面部资产。模特按照研究人员的设计进行面部表演,由穹顶光场以 24fps 采集了模特表演的动态面部几何和材质贴图(漫反射、高光、法线贴图)。
在这里插入图片描述

接着,研究人员实现了神经网络重定向 (Neural Retargeting)。他们将该任务分解为:使用神经网络解析输入视频的表情信息(捕捉),并将其迁移到面部资产上(重定向)。

具体实现时,任务被拆解为了三个分支 —— 表情、几何、材质贴图。研究人员针对每个部分分别训练了一个 VAE 以提取相关信息。表情网络负责捕捉,后两个则负责重定向。
在这里插入图片描述

在训练表情网络时,他们使用了全新的三元训练法来监督训练。

训练时,将某张图片与其相同视角不同表情的照片,以及不同视角相同表情的照片分在一组,使得网络能够学会从输入视频帧中解耦表情与视角信息,从而在视角变换的情况下也能稳定地以隐向量形式提取出表情信息。
在这里插入图片描述

面部几何网络也用类似的方法训练。训练时,网络需要预测当前表情面部几何与无表情面部几何的差值。

对于材质贴图训练,VAE 网络只需要能提取输入贴图中的表情隐向量,并根据其恢复出输入材质贴图即可。值得注意的是,这里使用了皱纹图的方式来表达材质贴图变化,具体来说,是网络输出当前帧材质贴图与无表情材质贴图的差值。

将这张皱纹图线性放大到 4K 分辨率下并与无表情材质贴图叠加,就能得到高分辨率的面部材质贴图。这样既可以保留高分辨率贴图下的毛孔级面部细节,又可以精准表达皱纹、阴影等在动态表情中出现的面部特征。

在这里插入图片描述

此外,为了让三个 VAE 所提取的表情隐向量处于一致的隐空间,研究人员还训练了两个 MLP 来实现不同 VAE 之间表情信息的转化。

几何和材质贴图网络的训练,将训练集中的高质量面部资产编码于神经网络所构建的隐空间中。只需要一个表情隐向量,就可以得到对应的高质量几何、纹理资产。

最后使用时,对于某一视频输入帧,由表情 VAE 的编码器提取表情信息,由两个 MLP 分别将其转化为几何、材质贴图 VAE 的表情隐向量,再由两个 VAE 的解码器得到对应的几何和材质贴图。

资产的比较与使用

与之前的工作相比,该方法在几何精度上有了一定提高。

在这里插入图片描述

更重要的是,该方法扩展了多样的应用场景。

首先,模特本人的视频可以被用来驱动生成的资产。即便是面对训练集中没有做出过的表情,网络也能立刻给出高真实度的几何和材质贴图预测。这免去了后续专门为演员安装面部捕捉设备的工作。

其次,该方法也支持自由环境跨对象重定向 (in-the-wild cross-identity retargeting),即,非模特本人的面部表演视频,也可以驱动面部资产。
只需要一小部分视频帧混入网络训练中进行优化,并使用指示变量告知网络输入图片是手机拍摄输入或是设备采集结果,网络就可以提取输入视频中的人脸表情信息,并预测原模特做出该表情时,对应的面部几何和材质贴图。

在这里插入图片描述

此外,视频输入也可以驱动艺术加工过的人物形象。在艺术家对模特无表情的几何和材质贴图进行一定的修改后,网络对表情的预测结果可以直接应用在它们上面。因为网络预测的是相对无表情几何和贴图的偏差,所以表情变化和皱纹运动都可以真实地反映在修改后的面部几何和材质贴图上。

在这里插入图片描述
在这里插入图片描述

总结

该项目基于 4D 动态几何和材质贴图的训练数据,训练多 VAE 的网络结构从输入的人脸面部表演视频解耦出表情信息并解算出高精度的面部几何和材质贴图,最终得到了真实而细腻的视频驱动人脸效果。

将追踪与重定向两个环节自动化与标准化,极大程度地降低了高精度数字人制作与驱动的成本,减少了数字人艺术家的大量重复工作,使他们有更多的时间进行内容向的创作。

参考资料:
​​https://arxiv.org/abs/2202.05592​​
项目链接:
​​https://sites.google.com/view/npfa/​​

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/335265.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

全价值链赋能,数字化助力营销价值全力释放 | 爱分析报告

报告编委 张扬 爱分析联合创始人&首席分析师 文鸿伟 爱分析高级分析师 王鹏 爱分析分析师 外部专家(按姓氏拼音排序) 黄洵 客易达 联合创始人 毛健 云徙科技 副总裁 & COO 特别鸣谢(按拼音排序) 报告摘要 在…

SpringSecurity前后端分离(一篇就够了)

SpringSecurity前后端分离 从上至下操作,直接上手SpringSecurity 文章目录SpringSecurity前后端分离1、项目环境maven依赖数据库表2、自定义UserService接口3、屏蔽Spring Security默认重定向登录页面以实现前后端分离功能1、实现登录成功/失败、登出处理逻辑1、表…

鉴源论坛 ·观擎丨民机机载软件的开发与验证

作者 | 蔡喁 上海控安可信软件创新研究院副院长 版块 | 鉴源论坛 观擎 01 机载软件过程保证的目的和背景 民机机载软件研制过程一直是行业内公认的要求最为严苛、开发验证难度最大的软件开发实例之一。由于其高安全以及严格的政府监管特性,使得传统其他领域的软件…

1. 用Qt开发的十大理由

用Qt的十大理由 原因最主要的是很多大公司都在用,有钱景。 先来看看各大公司的评价: 奔驰:们用 Qt 开发了绝大部分的UI体验和软件,包括屏幕动画,屏幕间的过渡和小组件。 FORMLABS:凭借Qt的快速迭代&…

记录一下slf4j2打印一直不成功

整理一个之前的老项目问题,发现日志一直打印不出来,本地启动发现了第一个问题日志如下:此处可发现,jar包冲突问题,去掉冲突的jar包即可,此处不做过多赘述。然后发现了重新启动项目,发现jar包冲突…

工业废水的种类及其处理工艺简析

随着工业的迅速发展,工业废水的种类和数量随之增加,对水体的污染也日趋严重,威胁人类的健康和正常生活。所以工业废水的处理对于环保至关重要。 保护生态环境、更好地做好工业废水的处理,了解工业废水及其种类与处理非常必要。 工…

国内chatgpt 在VRAR上的应用场景

人工智能不鸣则已,一鸣惊人! 近日OpenAI发布了聊天AI ChatGPT,短短几天,其用户量直冲百万级,甚至服务器一度被注册用户挤爆了。 这种被网友惊叹“超越谷歌搜索”的神器究竟是怎么做到的? ChatGPT 简而言之:ChatGPT是一…

三行按键扫描详细解析

三行按键扫描基础 核心算法: unsigned char trg; unsigned char cont; void KeyRead( void ) {unsigned char readDate P3^0xff; // 第一行trg readDate & (ReadData ^ cont); // 第二行cont readDate; // 第三行 }用定时器每隔10ms执行一次按键扫描读取函…

C++:类和对象(上)

文章目录1 面向过程与面向对象的初步认识2 类的引入3 类的定义4 类的访问限定符及封装4.1 访问限定符4.2 封装5 类的实例化6 类对象模型6.1 如何计算类的大小6.2 类对象的存储方式猜测7 this指针7.1 this指针的引出7.2 this指针的特性8 C语言和C栈(Stack&#xff09…

J-Tech Talk|如何使用Grafana Cloud Alert进行实时监控

J-Tech Talk由 Jina AI 社区为大家带来的技术分享围绕 Python 的相关话题工程师们将深入细节地讲解具体的问题分享 Jina AI 在开发过程中所积累的经验在新一代基于云原生的微服务架构中,不管是业务还是基础设施,服务的可观测性 至关重要!它涵…

git、gitee、github关系梳理及ssh不对称加密大白话解释

温馨提示:本文不会讲解如何下载、安装git,也不会讲解如何注册、使用gitee或GitHub,这些内容网上一大把,B站上的入门课程也很多,自己看看就好了。 本文仅对 git、gitee、github的关系梳理及ssh公钥私钥授权原理用白话讲…

whistle 一个神奇的前端调试工具(抓包\代理工具)

在进行前端开发过程中,我们常常需要对一些接口进行处理,以及当后端接口没有弄好需要我们mock一些假数据,针对这些场景,我们就可以使用whistle 来解决。首先,我们要知道能满足我们需求的工具有很多,例如&…

第十五章 栅格数据重分类、栅格计算器、插值分析

文章目录第十五章 栅格数据分析第一章 栅格数据重分类第一节 栅格数据重分类第二节 栅格重分类的使用第三节 重分类的使用中的空值使用第四节 重分类的案例:分类统计面积第五节 坡度矢量分级图生成第二章 栅格计算器第一节 栅格计算器介绍第二节 栅格计算器使用第三…

操作系统题目收录(六)

1、某系统采用基于优先权的非抢占式进程调度策略,完成一次进程调度和进程切换的系统时间开销为1us。在T时刻就绪队列中有3个进程P1P_1P1​、P2P_2P2​和P3P_3P3​,其在就绪队列中的等待时间、需要的CPU时间和优先权如下表所示。若优先权值大的进程优先获…

Revit怎么生成电线和电器配件,管道附件?

一、Revit中如何自动生成电线 首先框选所有的照明设备,使用过滤器命令,只选中照明设备,如图1所示。 框选之后会出现创建电力系统的界面,选择如图2所示电力的命令。 出现图3中所示选择弧形导线或者带倒角导线,即可以自动…

【数字孪生百科】每周认识一个数字孪生要素 —— 玫瑰图(Rose Diagram)

简介玫瑰图(Rose Diagram),也称之为南丁格尔玫瑰图,极坐标区域图,鸡冠花图,是一种圆形的直方图,是由弗罗伦斯・南丁格尔所发明,用以表达军医院季节性的死亡率的一种图表。由于半径和…

零入门kubernetes网络实战-12->基于DNAT技术使得外网可以访问本宿主机上veth-pair链接的内部网络

视频地址(稍后上传) 本篇文章测试如何让veth pair链接的内网网络可以被本局域网的其他宿主机访问到? 1、测试环境介绍 一台centos虚拟机 # 查看操作系统版本 cat /etc/centos-release # 内核版本 uname -a uname -r # 查看网卡信息 ip a s eth02、网络拓扑 3、操…

银行零售如何更贴近客户?是时候升级你的客户旅程平台了

随着数字化战略推进,各大银行持续加大对线上多渠道的建设投入,客户触达也愈发移动化、智能化。与此同时,手机银行飞速发展产生并累积了大量客户行为数据,呈多样化、海量化等特点,将在用户体验、客户经营、手机银行运营…

SaaS的阴暗面:网络攻击武器化、平民化

你不一定懂编程,甚至都看不懂几行代码,但依然能成为杀伤力十足的黑客,这就是现阶段不少网络攻击的特点:不需要掌握娴熟的技术或代码,仅仅利用成熟的武器化工具,就能通过简单的“一键操作”,对目…

【Java基础】018 -- 面向对象阶段项目上(拼图小游戏)

目录 拼图小游戏(GUI) 一、主界面分析 1、练习一:创建主界面1 2、练习二:创建主界面2(JFrame) 3、练习三:在游戏界面中添加菜单(JMenuBar) ①、菜单的制作 4、添加图片&a…