音乐驱动虚拟人——娱乐场景下虚拟人的AI驱动实践

news2024/11/26 18:33:33

元宇宙时代的娱乐场景下,通过高精度的AI驱动模型还原真人的歌舞表演,有着更低成本、更多创造性、精彩度、实时互动性的综合优势,是虚拟数字人驱动的最终形态。LiveVideoStackCon 2022北京站邀请到腾讯音乐天琴实验室计算机视觉负责人——董治,为大家介绍TME天琴实验室在音乐驱动领域的 Music XR Maker 系统,包括虚拟人舞蹈生成、歌唱表演生成、音乐灯光秀等方面的最新进展。

文/董治

编辑/LiveVideoStack

本次分享的主题是“音乐驱动虚拟人”,重点关注到娱乐场景下的虚拟人AI驱动方案。

93cbcfacb0459db71a6257b6de098c2b.png

这是天琴实验室的虚拟人——小琴,她在QQ音乐有专门的歌手页,会发歌、发视频,未来在站内或站外都会发布作品。

本次分享主要包括四部分:

98e2aa42d3cabd904a70191a8f6e9627.png

-01-

虚拟表演与MusicXRMaker

7c974bc06f059815f235cd581030045a.png

虚拟人业务场景可以分为三块技术栈:建模、驱动和渲染。

建模阶段有许多品类的虚拟形象,图中是TME旗下的四位虚拟人:2D的安可、3D的扇宝、部分写实的小琴和超写实的Lucy。

创造虚拟人成本开销大部分在于建模,目前有许多技术手段能够降低建模成本,主要是2D或3D的拍照捏脸技术,拍摄图片后建立相似的虚拟形象。

82a27ae37d2b404c20622382b27628b6.png

MetaHuman能够快速建立超写实的虚拟人头像,并且已经在游戏、虚拟人的场景中有着广泛的应用。如果要建立完善的、商业化的、虚拟偶像级别的虚拟人,则更偏向于用相机的阵列环境,拍照采集更多信息,或是直接人工通过美术操作建模,但这成本相对更高。

a4abe25ebb832daf917a2c02c16eab8b.png

建模环节使用较多的工具是MAYA,以上四种工具渲染的模型中,MAYA的渲染效果最写实漂亮。

如果要做CG,会将模型转到C4D,从MAYA转到C4D是可控的操作,但用C4D做CG会造成到更多的人力成本。

此外,还可以通过实时的渲染引擎来驱动,包括UNREAL和unity两个途径,存在的gap是并不能直接通过工具将MAYA转为UNREAL或是unity,如果要做到好的效果,需要涉及到非常多的细节重现。

转换后在实时渲染引擎的展现效果可以达到MAYA的90%左右,但无法完全超越MAYA。

898ff8b1537aaca0fb799ad99bfa50b1.png

渲染后如何呈现?最简单的方法是在UNREAL或unity中渲染为离线视频进行播放,实时播放常用的途径是云直播,在后端PC开一台PC机,将虚拟引擎渲染的画面传到CDN的直播流,观众端可以像看普通直播一样观看虚拟人的表演。若要进行互动如输入文字、送礼,可以传到后台PC的渲染端,在渲染画面中得到对应的反馈。更高级的做法是通过云渲染,云游戏方式,云直播方式下所有人看到的画面是一致的,云渲染或云游戏方式下,每个人可以操控自己的视觉,画面具有可控性。目前云游戏方案存在的问题是成本较高,不可能在广泛的场景中推动。

d35c22be6869c5baaa320a746ccd818a.png

除了建模和渲染,虚拟人业务最核心的是如何驱动虚拟人,主要分为两条线路,第一条是通过中之人表演,利用实时驱动技术驱动虚拟人,其痛点在于必须依赖中之人的表演。

26fd66e107f28b95b98d1219f4df770c.png

第二条是AI驱动,业内大家较熟悉的是客服AI数字人、数字播报,但娱乐类和工具类的虚拟人不同,细分下去,我们属于AI驱动中的音乐驱动,驱动根源是歌曲,让虚拟人唱歌、舞蹈。会涉及到歌声口型、舞蹈动作、乐器手势、歌唱表情等。

实现娱乐场景下的虚拟人,不仅需要考虑到“动起来”,还需要综合考虑表演、舞美、运镜,编导和灯光。

c87cf0be3b02640f07ee90854a874de5.png

综合以上便是Music XR Maker研发体系,图中是虚拟元素创建的具体工作,通过各种途径拿到数据源,基于对音乐的理解,风格旋律情绪能量节奏段落等,实现AI生成。大体分为两类:

1、端到端模型,包括分类预测、关键点预测和生成类模型;

2、AI编排生成,包括召回、排序和重排。最终通过3D渲染手段应用在产品端,主要是互动场景,包括音乐世界、云蹦迪直播、KK秀和TMELand,及专门的虚拟人,包括扇宝、安可、小天、小琴等,在虚拟人方面还可以延伸出虚拟偶像视频、虚拟直播和虚拟演唱会。

-02-

音乐生成虚拟人舞蹈表演

a5cd86bc0fdb2895b02ee4a521f38440.png

虚拟人物到舞蹈生成以分为三种方式:动捕棚,视频复刻和基于音乐生成。

1、动捕棚。图中是腾讯搭建的较专业的动捕棚,包括多目动捕、惯性动捕。其效果最佳,但价格昂贵,人力、设备成本高,主要用于精品视频输出。

2、视频复刻。识别视频人物的骨骼动作,现有阶段,单目动捕能容纳的信息有限,易造成效果上的细节缺失,但其人力成本低,适合低精度场景及抓热点场景。

3、基于音乐生成,也是纯算法生成。效果依赖于数据和算法的性能,困难在于数据获取。适用于批量生产场景,如为几千万或上亿曲库中的每首歌适配较好的舞蹈,类似于AIGC途径。

908ce278e3c4ecfe12ddc23eec9a630f.png

生成商用舞蹈主要考虑以下几点:首先,生成的舞蹈至少是好看的,在此前提下,还需与音乐的节奏、韵律、和弦及风格保持一致。其次,许多新出的歌曲,其舞蹈动作和歌词相关联。

e7d71d860bd3d9c8dec45025d1a00919.png

我们综合动捕手段和开源数据集生成了天琴舞蹈数据集,包含20小时、不同情绪下的舞蹈数据,其中不乏K-POP、J-POP等舞种。

df5d80d83e4538f96a01ad16ccd386ad.png

天琴方案主要是将一段音乐数据进行切片,对应的舞蹈数据按一个八拍作为一段完整动作,选取一个八拍是因为一个八拍接一个八拍的舞蹈动作相对流畅,若切分一个八拍,其流畅度会下降。

得到音频数据后,分析其音乐特征,包括Melody、Mel spectrogram、Rhythm,最后通过Encoder和Decoder网络找到匹配的舞蹈片段。

以上涉及到几点:首先是召回的动作,一小段一个八拍的音频可以在动作库中挑选到合适的动作集,一段音乐挑十个动作集,如何串联每段音乐挑选的动作集,形成连贯动作?需要考虑音乐的beat,计算前后动作的转移概率,也就是一个动作完成后接另一个动作的概率、前后两个动作的朝向和速度,如果前一个动作过快,而后一个过慢,间隔时间较长,那么整体看起来会不协调。最后综合歌词文本信息,形成串联方案,完成整首歌曲的舞蹈编排。

此外,专业意见包括:相同的和弦重复舞蹈动作序列、每4个八拍的舞蹈最好不要重复、设计start pose和ending pose,这些会在舞蹈片段中特别标记。

739c1d912c90b13d9adb6e1950232f14.png

我们同时测试了一套纯生成,没有用到编排的方案,其效果较差。原因大致是数据集偏少。舞蹈项目的数据收集成本很高,因为要用到动捕棚,还需要专业人员反复表演,才能达到较好的效果。我们也尝试输入音频舞蹈动作,通过Encoder和Decoder网络直接输出舞蹈动作,在网络里尽量拉齐模态向量。

d8953ae178078e658e4322a88ee2e0a6.png

这是舞蹈生成效果展示。

BGM是合成的,涉及到音频的歌声合成技术,采用的是搜集到的小琴的专有音色。

舞蹈生成主观评测打分包括两种方式:

1、生成结果vs手K结果;2、用户分别为生成结果和手K结果打分。

最终结论是生成的总体质量均分已经接近手K。

323cbf7b60b2c057dc186508f4b8c610.png

总结一下以上手段的应用。

动捕棚拍摄和CP手K的成本相当高,生成的高质量舞蹈数据用于精品MV和形象宣传片,数据会收入AI舞蹈数据库中。

单目视频复刻适用于爆款舞蹈,对生成的动作进行分类后,中质量舞蹈数据会收入AI舞蹈数据库,低质量的数据直接丢弃。

AI舞蹈生成用于量产动作及用户Avatar。虚拟偶像较多用于直播场景,比如用户点一首歌,在想跳某首歌的舞蹈时,无论是哪首歌都能跳起来。另一个用处是,虚拟主播表演时,在前一阶段只需聊天,无需歌唱、舞蹈才艺,需要的时候可以直接用生成方式。即使用中之人,对其要求也只是能够聊天沟通,在舞蹈技能方面的要求大幅度降低。

-03-

歌声驱动虚拟人歌唱表演

69f86a21f01d3a6a16d603356603471e.png

虚拟人歌唱涉及到口型和表情,超写实虚拟人配备了专业的设备及面捕方案。普通虚拟人则能够直接使用普通手机摄像头,实时驱动52BS的面部表情,包括Unity 兼容的 ARKit、Unreal的Livelink。

6257eba6f774c5560117319c1698b940.png

这里展示的是虚拟人歌唱和说话驱动的差别,主要区别在于口型。说话时,口型改变频率加快,而歌唱时,一句歌词的口型变化是连贯的动作。

a9b00b3a85508d045d148c18a76bc99a.png

歌唱口型的建模经历了三次迭代。1.0版本通过歌声响度即可实现,2.0版本通过卷积神经网络,在输入音频后能够直接预测面部的BS信息,3.0版本考虑到前后数据信息,采用Transformer架构。数据方面,受益于K歌较好的带画面的歌词数据,客户生成UGC带画面的歌唱作品时,通过视频面捕识别出唱歌时的口型BS数据和唱歌时的干声,再将口型BS数据和干声数据输入到歌声口型驱动模型,形成歌唱口型方案数据。

6d6dce289bb8b9680d0eeb74b23de37f.png

在基于Transformer的模型中,输入用户演唱歌曲的歌词及音频信息,提取两者特征并进行特征融合后输入框架,经过几轮的迭代后,最终输出虚拟人的Blendshape权重。

72817e0af829f7844994344d6b6f9462.png

上文介绍的是异步方案,实时性解决方案则是通过原唱和优秀的干声,根据歌词文件生成标准的口型驱动模型,作为预测BlendShape,再通过用户的实时干声得到当前情况,融合两者形成BlendShape。

计算量最大部分放在了异步处理。

另一套方案不涉及模型,即音素转视素,在TTS实时产生音素信息,根据得到的相应视素调整口型。

2a8527e3634b2ae2019fb44f07e43af8.png

这是K歌8.0版本以上的“KK秀”功能,用户在唱歌时既有歌词在跑,也有KK秀的小人表演。

左侧是录唱场景,右侧是歌房场景。

cb60cefb7cdced5899f42c599a5416c6.png

db64fab9576cc14091f8e1ec78716cab.png

最终的生成效果不仅包括歌唱口型。在观察了许多真实歌唱表演后,我们认为一场好的演出除了口型需要和歌曲匹配之外,还需要综合生动的表情、手势、身形。

在实际应用中,真实的歌唱模型包括口型模型及对应的表情、动作和手势输出。

6f76ab865b3f35dd81430bfa5dc4e045.png

具体方案首先收集带表情演唱视频,类似口型做法,通过面捕拿到表情数据,动捕拿到动作数据,手捕拿到手势数据,再将三者结合作为歌唱表情段,输入歌唱表情库。

右侧是使用小琴模型输出的各种眼神效果。

fabaa36adc2c8e6c92591d50621e508b.png

在歌唱表演生成系统中,前面是仿真口型生成,后面是表情和动作生成。

同样是解析音频,提取歌曲类型和高潮时间点、歌曲情感,在特定类型的片段和位置插入对应表情库中的表情,如陶醉、闭眼、挑眉等及歌唱动作。

此外,还要对插入的片段进行平滑处理。

d00a858be87016d543dc19ca4e8c925e.png

以上表情歌唱的表演会应用在天琴虚拟人的表演和演讲方案中。

这是TME财报小型表现的片段:

这是小琴在《你好,大学声》中做的自我介绍:

-04-

虚拟舞台呈现

65ae74cefaa0aae8643521567ea20c1f.png

完整的虚拟舞台的呈现,除了包括虚拟人的人物表情、口型动作之外,还需要两方面:

灯光舞美和运镜编导,相对于舞台动作的数据,这二者更小众专业。

目前的方案通过专业的灯光老师及摄影老师自己的专业经验和传统手段,并没有涉及到太多自动化动作,于是我们思考通过算法实现这部分工作,从而降低表演成本。

9a5d2f444ac1a945f62cd980ad84e0fc.png

图中是音乐灯光秀流程:

首先为场景设计灯光,包括类型、数量等,布置完之后,每个灯要有相应的动作,亮或不亮、转动方向、颜色,灯光属性等,这是一个灯的动作,那么将所有灯的轨迹动作连贯起来,就形成了一套灯光展现的方案。

输入音乐信号,在预设灯光库中找到一个个的Action,最后通过时间序列拼接所有Action。

f107382eeb4a640e3b557e3eb510c686.png

灯光秀的数据收集非常麻烦,样本歌曲可以通过专业的灯光师操作专业的灯光软件实现,但实现效果无法直接应用到Unity/UE,需要用到TA的同学在Unity/UE复现。复现的同时,提取关键信息包括灯光位置、动作、和音乐的关联信息等,此外,还要输入音乐灯光秀算法。最终,输入的目标歌曲经过算法得到TimeCode,并在Unity/UE中渲染。

e99b8d3f5ccbefaab7a2591ded491183.png

自动运镜时需要跟踪任务的动作、手势、快慢,旋转角度等。编导还需要考虑到音乐、灯光,如灯光好看时应该呈现全局的表现、人物表现,如在人物陶醉时给面部特写,动作精美时给全身特写。

4126ae5b70f8b86985f1d89506e725d0.png

57b1b65ef215d57120977b11d1727906.png

专业灯光老师操作灯光软件的渲染效果:

用Unity/UE将专业灯光老师的知识复刻之后,在云蹦迪实现的业务效果:

2be130baed40cfbbea58469977977147.png

音乐世界的蹦迪场景和3D KK秀场景也应用了专业的灯光技术手段,让互动舞台有更好的灯光效果。

ffb9f3d2ef0437f83dcc43cbd2330d6f.png

这是带了灯光及运镜的舞台效果:

BGM也是使用小琴的音色合成的,能在小琴的QQ音乐主页观看。

-05-

总结与展望

最后总结如下:

当前,虚拟人在娱乐公司、明星、主播、及普通用户中都有应用。中之人驱动面临着成本、管理、灵魂归属相关问题。

TME天琴实验室主要专注在娱乐场景下的AI驱动及音乐驱动方案,当前技术也在快速升级,包括形象创建、视觉驱动、音频合成。形象创建在最新的3D AIGC有很多进展,Unity/UE都有自己的3D AIGC工作。我们也在实时跟踪,判断是否能广泛应用。

最终我们的核心解决方案是为虚拟人提供专业的虚拟演唱方案&Music XR Maker。

下方是TME已有的虚拟偶像场景和成果,包括TMELand、小琴、扇宝、安可、Lucy、K歌8.0及酷狗的超越AI等。

84a8534aa3ca8e9ab47d891ed9d755ed.png

以上是本次的分享,谢谢!


8882f23fb3a623a8efb99ea890b4f1d5.png

扫描图中二维码或点击“阅读原文 

查看更多LiveVideoStackCon 2023上海站精彩话题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/587274.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

动画图解程序?这个可视化运行环境太方便了

入门教程、案例源码、学习资料、读者群 请访问: python666.cn 大家好,欢迎来到 Crossin的编程教室 ! 了解代码的执行过程是编程的基本要求。 一个熟练的编程老手只需要用肉眼看着代码,就能对其运行的过程有所了解。然而对于刚接触…

权限维持-SSP-DLL 加载

前言 继续学习中,今天是权限维持的东西,大家永远不要忘记初心,要一起奋斗哦! 注:单机环境和域环境都可以使用 复现 一.进程注入lsass.exe 使用mimikatz将伪造的SSP注入内存,这样用户在注销重新登录的时候就…

机器学习库Scikit-learn

本文目录 3.1 背景知识3.2 Scikit-learn概述3.3 Scikit-learn主要用法 3.3.1 基本建模流程3.3.2 数据预处理3.3.3 监督学习算法3.3.4 无监督学习算法3.3.5 评价指标3.3.6 交叉验证及超参数调优3.4 Scikit-learn总结参考文献 Scikit-learn是基于NumPy、SciPy和Matplotlib的开源P…

全国流体力学盛会召开,飞桨AI4S携最新科研进展亮相西湖大学

‍‍‍‍ 5月20-21日,第四届全国智能流体力学研讨会暨第二届智能流体力学产业联合体大会在西湖大学召开。此次会议由中国力学学会、中国空气动力学会、《水动力学研究与进展》编委会、西湖大学、浙江大学、上海交通大学、中国船舶集团第七〇八研究所主办&#xff1b…

nsis制作windows安装包-修改安装目录读写权限

目录 1. 背景2. 使用AccessControl修改权限2.1 AccessControl下载安装2.2 修改脚本 1. 背景 使用nsis制作的windows安装包在安装时,将安装目录设置到非系统盘里,安装完成后一般不会出现读写权限的异常问题。但是,安装时选择在系统盘里安装&a…

envi随机森林分类5.3版本

在App Store中搜索随进森林工具,进行下载并重启envi软件 含有三个模块 Train Random Forest Model 1. Input Raster:输入影像。选择图像时不能进行空间、光谱裁剪或掩膜(ENVI 5.5及以上版本已经禁止显示这些按钮) 2. Random Sam…

无需租云服务器,Linux本地搭建web服务,并内网穿透发布公网访问

文章目录 前言1. 本地搭建web站点2. 测试局域网访问3. 公开本地web网站3.1 安装cpolar内网穿透3.2 创建http隧道,指向本地80端口3.3 配置后台服务 4. 配置固定二级子域名5. 测试使用固定二级子域名访问本地web站点 转载自cpolar文章:Linux CentOS本地搭建…

c++ 11标准模板(STL) std::map(八)

定义于头文件<map> template< class Key, class T, class Compare std::less<Key>, class Allocator std::allocator<std::pair<const Key, T> > > class map;(1)namespace pmr { template <class Key, class T, clas…

香港财经学院工商管理硕士(MBA)含金量

近年来&#xff0c;随着中国经济的崛起&#xff0c;越来越多的学生和从业人员开始关注MBA教育。在香港地区&#xff0c;香港财经学院的MBA项目备受瞩目&#xff0c;被誉为是该地区最具含金量的MBA项目之一。首先&#xff0c;香港财经学院作为一家优秀的商学院&#xff0c;在教学…

【C++系列P1】带上这篇基础小宝典,进发C++!(持续更新ing~)

​​​​​​​ 前言 大家好吖&#xff0c;欢迎来到 YY 滴 C系列 &#xff0c;热烈欢迎&#xff01;(持续更新ing~&#xff09;本章主要内容面向刚刚学完C语言&#xff0c;准备或正在接触C的老铁。而往往C奇多的小特性和知识点让铁铁们头晕晕脑涨涨&#xff0c;因而本章收纳了…

为什么北欧的顶级程序员数量远超中国?(续)

之前写过一篇文章《为什么北欧的顶级程序员数量远超中国&#xff1f;》&#xff0c;讲了北欧大神们开发的Linux、MySQL、Chrome V8、MineCraft、QT等优秀软件&#xff0c;分析了北欧有如此多顶级程序员的主要原因。 有位读者Ven 源 留言说&#xff0c;除了文章中教育优势&…

碳纤维单丝外径测试中的纳米分辨率激光衍射法解决方案

摘要&#xff1a;碳纤维单丝热膨胀系数是碳纤维复合材料设计、生产与可靠性和寿命评估的重要参数&#xff0c;本文针对单丝径向高温热膨胀系数测试这一难题提出了相应的解决方案。解决方案的核心内容是基于激光衍射法和高温辐射加热&#xff0c;并采用衍射轮廓拟合技术以及相应…

Dropout层的个人理解和具体使用

Dropout层的作用 dropout 能够避免过拟合&#xff0c;我们往往会在全连接层这类参数比较多的层中使用dropout&#xff1b;在训练包含dropout层的神经网络中&#xff0c;每个批次的训练数据都是随机选择&#xff0c;实质是训练了多个子神经网络&#xff0c;因为在不同的子网络中…

Linux常用命令——gzip命令

在线Linux命令查询工具 gzip 用来压缩文件 补充说明 gzip命令用来压缩文件。gzip是个使用广泛的压缩程序&#xff0c;文件经它压缩过后&#xff0c;其名称后面会多处“.gz”扩展名。 gzip是在Linux系统中经常使用的一个对文件进行压缩和解压缩的命令&#xff0c;既方便又好…

Python过滤信息,如省位中包含广东、安徽、浙江这3个省份的话,就pass,怎么破?...

点击上方“Python爬虫与数据挖掘”&#xff0c;进行关注 回复“书籍”即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 但令心似金钿坚&#xff0c;天上人间会相见。 大家好&#xff0c;我是皮皮。 一、前言 前几天遇到了一个小问题&#xff0c;在做资料的时候&#xff0c…

7位专家齐聚openGauss Developer Day 2023云和恩墨专题论坛,共论数据库自主创新改造与技术发展...

5月26日&#xff0c;云和恩墨在「openGauss Developer Day 2023」主论坛上大放异彩&#xff08;←点此回顾主论坛精彩时刻&#xff09;&#xff0c;更是通过举办一场数据库技术创新与应用实践分论坛&#xff0c;力邀7位重量级嘉宾就数据库创新能力构建、行业应用实践和迁移替代…

SpringBoot配置文件的注入和读取

目录 1. 配置文件的作用 2. 两种配置文件的格式&#xff1a; 2.1 properties 基本语法&#xff1a; 2.1.1 写入 2.1.2 读取 执行原理 2.1.3 缺点分析 2.2 yml 基本语法&#xff1a; 2.2.1 写入&#xff08;非对象&#xff09; 2.2.3 配置对象 2.2.4 配置集合 多个配…

【Linux初阶】基础IO - 文件管理(深入理解文件描述符) | 重定向

文章目录 一、文件管理引入二、理解文件描述符三、文件描述符表四、文件描述符的分配规则五、重定向六、使用 dup2 系统调用实现重定向1.模拟实现 >&#xff08;输出&#xff09;2.模拟实现 >>&#xff08;追加&#xff09;3.模拟实现 <&#xff08;输入&#xff0…

【观察】浪潮信息:自研液环式真空CDU技术,将被动应对变为主动防御

毫无疑问&#xff0c;在“双碳”战略的大环境下&#xff0c;数据中心走向绿色低碳和可持续发展已成为“不可逆”的大趋势&#xff0c;特别是随着全国一体化大数据中心、新型数据中心等政策文件的出台、“东数西算”工程的正式启动&#xff0c;数据中心的建设规模和数量呈现出快…

老胡周刊QA微信机器人(基于ChatGPT)

背景 先做个介绍吧&#xff0c;老胡的信息周刊是我从2021-08-16创立的周刊&#xff0c;截止到目前(2023-05-29)将近两年时间&#xff0c;目前已经有92期周刊&#xff0c;中间基本没有断更过&#xff0c;一共发布资源统计如下&#xff1a; &#x1f3af; 项目 288&#x1f916; …