索尼数字人研究：画质超逼真，面部表情与身体动作保持协调

news2026/2/15 2:40:36

近年来，3D动捕、数字虚拟人等技术受到越来越多关注，它不仅可以应用于电影场景，游戏、社交等领域也开始采用。相比于过去高成本、高门槛的全身动捕技术，现在制作基于动捕的虚拟人越来越容易，不需要过高的成本或是专业技术知识，一些简易、自动化的动捕方案就足够普通创作者使用。

近期，索尼也公布了一项基于机器学习的3D虚拟人和动捕方案，该方案可逼真模拟人类面部表情和行为的3D建模技术，通过忠实重现人类特征，来推动虚拟社交。

索尼指出，数字人是基于真人特征的3D模型，它在虚拟场景中可模拟人的自然外观和行为。近年来，越来越多的企业开始接触数字人技术，并将它用于广告、客服、游戏等场景。当然，并不是所有数字人都能完全还原人的特征，它们的还原程度取决于用途，比如在CG电影中，对于数字人的逼真度会要求更高。索尼认为，随着CG渲染技术不断提升，虚拟化身的质量越来越好，因此恐怖谷问题正在得到解决。

索尼的目标，是开发一种仿佛真实存在的数字人，这种数字人具有存在感，让人感觉它仿佛就在身边。换句话说，就是利用数字技术来复制真人。结合AI算法后，它可以和真人互动，甚至和真人难以区分。其研发重点是突出数字人的个性表达，比如重现人脸皱纹和表情的特征变化，抓住人独一无二的特点。从自然交互的角度来看，索尼也注重数字人的眼神与用户的互动，数字人不会盯着用户，而是模仿人眼和头部自然动作。

数字人核心技术

构成数字人的核心技术包括：面部动捕、面部肌肉模拟、面部肌肉动作和身体协调性。基于人脸绑定的面部动画也需要这些步骤，模拟人脸表情变化是一个复杂的过程，要想忠实重现、绑定人脸面部动作，需要高端的面部动捕技术。而且，复杂的面部动捕难以控制，在制作动画时将需要高超的技术。为了简化基于动捕的人脸表情模拟过程，索尼研发了一种更加智能的工作流程，特点是无需传统的面部绑定方案，并降低了制作动画的工作量。

据了解，面部动捕技术可准确追踪表演者脸部各部分运动，并驱动CG模型去模拟这种运动。捕捉面部变形数据需要详细的三位信息，才能准确呈现肌肉伸展、收缩，以及由此产生的皱纹等细微运动。

而索尼的方案，简单来讲就是用动捕技术捕捉真人演员的表情，并根据捕捉到的数据生成人脸CG模型，以及面部动态变形效果。此外，还分析了各种面部表情模式，并提取了重现这些表情需要运动的面部区域。这些区域大约有100个，包括眼睛和嘴唇轮廓部位，在捕捉这些区域的3D信息后，索尼对它们的位置进行了标记。

在捕捉人脸3D信息时，索尼使用了多台同步的摄像机从多角度拍摄，并推算3D运动信息。不过，部分面部表情变化可能会导致标记检测失败或遮挡，因此该系统还利用光流，以及不同的摄像头角度来提升信息获取的稳定性。

接下来，索尼使用真人表演视频作为训练数据，培训了可精准检测眼睛、嘴唇运动的系统。索尼指出，每一帧动捕的准确性都决定了下一帧的准确性，因此该系统还需要不断完善，提高整体水平。

索尼开始使用头戴式摄像头（HMC）来拍摄演员的面部表情，相比于传统的固定机位拍摄，HMC的好处是可以追随演员，演员无需寻找摄像头，可以更加自由、灵活的运动。索尼表示：捕捉到自然运动的人体姿态后，才能渲染出完整的数字人，因此HMC是捕捉自然运动数据不可缺少的工具。

不过，演员可戴在头上的HMC摄像头数量有限，面部捕捉的角度、覆盖面积比固定机位更少。因此，准确捕捉3D面部数据、识别3D标记则尤为重要。为了训练良好的3D预测算法，索尼使用固定机位和HMC预先捕捉人脸数据，其中包括面部表情、3D标记等等。算法通过这些数据去学习表情和面部运动之间的相关性，后续只需要HMC的数据就可预测3D面部运动，准确性足够接近传统的固定机位方案。

模拟面部变形

在捕捉人脸3D标记信息后，索尼的动捕系统根据眼睑、嘴唇轮廓信息来模拟面部变形，并动态渲染在3D模型上。渲染面部变形的流程是：根据几何函数模拟面部表情、用机器学习模型将面部表情个性化、细节微调、叠加纹理。首先第一步，3D面部动作、眼睑轮廓需要准确定位，才能确保后续面部变形合理。因此，索尼设定了一个具有几何约束的能量函数，可根据3D面部数据来调整面部模型的整体形态。

另外，由于人脸表情变化引起的皮肤拉伸、收缩、皱纹和肌肉隆起程度因人而异，因此索尼利用十几种面部表情模式来训练个性化的机器学习模型，这些模型可根据人脸特征，来将3D面部表情个性化，重现用户的个人特征。

细节方面，该机器学习模型将人脸区域的伸长、收缩程度作为特征值，并根据几何变形模型与真实值之间的差距回归，从而输出具有个人特征的面部变形。

面部变形的最后一步，就是引入眼睑、嘴唇、口腔形状变形算法，对面部模型进行额外处理。这一步是为了纠正面部变形可能产生的误差，确保眼睑覆盖眼球（避免眼球和眼睑出现间隙，或眼球穿模眼皮）、自然的口腔形状变化等特征。在眼睑处理部分，该算法重点是避免眼睑接触眼球，而嘴唇处理部分，则侧重于几何约束，确保面部捕捉到的嘴唇轮廓与3D模型的嘴唇形状匹配。

面部和身体集成

完成3D面部动作模拟后，下一步便是将面部与身体姿态集成，并协调面部表情和身体动作。如果面部和身体分开运动，会显得不自然，因此索尼开发了面部和身体一体化算法，可模拟全身自然运动。

索尼指出，目前市面上的动捕方案主要用于模拟人体模型的运动和变形，人体3D信息通过光学方案捕捉，并且在颈部、腿部、手臂等处添加标记来定位骨骼姿态，生成人体网格，从而模拟人体形状。相比之下，索尼的方案侧重于模拟颈部形状，颈部的动作会同时受到面部和身体运动影响，比如颈骨运动决定面部方向，下颌运动决定嘴巴运动。

于是，索尼构建了一个全身姿态模拟系统，将HMC数据和身体动作捕捉同步，并根据这些数据来预测颈部形状。据悉，索尼预先创建了结合多种嘴型、面部方位的大量训练数据，并从中提取了潜在的颈部形状。在实际预测中，颈部模型组合了多种数据，包括下颌运动、颈部方向。

索尼表示：该颈部模拟模型可重现自然的面部和身体动作，目前训练改模型需要大量训练数据，后续将想办法减少对数据的依赖。

总之，索尼的数字人模拟方案实现了自动化的人脸表情模拟，这大大减少了前期创作工作，允许创作者交付更高质量产品。更重要的是，该方案可根据不同人的特征去模拟运动，好处是看起来非常自然。索尼表示：随着3D虚拟技术发展，数字人将会被更多人所熟知，轻松创建Avatar的需求将逐步增加。未来，希望可以将这项几乎应用于消费级市场，比如电影、游戏等领域。参考：sony

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/153056.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！