华为云MetaStudio多模态数字人进展及挑战介绍

news2024/12/23 6:54:36

  //  

编者按:数字人作为AI能力集大成者,涉及计算机视觉、计算机图形学、语音处理、自然语言处理等技术,正在金融、政务、传媒、电商等领域应用越来越广。LiveVideoStackCon 2023 上海站邀请到华为云的李明磊为我们介绍华为云在数字人领域当前的主要进展,包括2D数字人驱动、3D数字人建模、绑定、驱动、情感数字人生成等,同时介绍数字人领域的一些挑战。

文/李明磊

编辑/LiveVideoStack

大家好,我今天分享的是华为云MetaStudio数字人生产线在多模态数字人方面的进展及挑战。我是李明磊,目前担任华为云虚拟数字人技术负责人。我的分享分为以下几部分:

0f79db7bb1a11e49edbc937f6c246ec0.png

-01-

数字人背景介绍

69000383a2d1e2637f95b5febd157fc6.png

首先,AIGC是今年大热的话题。从PGC、UGC到AIGC,AI的一个核心价值是把专业内容制作的门槛降低了,让更多人都可以参与到专业内容的创作中来。

ac489c117b69d7330f90d7918875ab70.png

下面介绍一下数字人。什么是数字人?首先要有三个要素,第一是具备人的外观;第二是具备人的行为;最后是具备人的思想。

为什么称为多模态呢?数字人本身是AI集大成者,涉及视觉、音频、文本等多种模态。

840ff927bbddb09c549270c46e1c4a77.png

如图是数字人的一些典型应用,在千行百业已经开始落地。

3fab9006630ab9dfa22ebb70e7f6d294.png

从应用角度的数字人来分类,可以分为IP型数字人(主要为3D数字人)和服务型数字人(真人分身)。上图中间为数字人市场的规模和份额数据。

84ff1c3742ee16b1ae5ce5c8b9d4df66.png

接下来是数字人的价值。数字人可以对外树立品牌形象,并进行流量经营;对内可以提高效率,例如数字人分身直播带货,可以永久在线。

-02-

MetaStudio服务及案例介绍

288900aae161cc50dea691d242170722.png

接下来介绍华为云MetaStudio数字内容生产线。我们未来希望所有的内容都生于云、长于云、用于云。图中左侧是华为云在媒体领域的架构:

底层算力算子包括昇腾芯片,同时也兼容N卡;CPU有鲲鹏,也兼容x86。AI框架平台包括训练平台ModelArts、深度学习框架MindSpore以及TensorFlow和Pytorch等。

基于ModelArts,我们有训练加速引擎和推理加速引擎等。再往上一层是媒体引擎和盘古基础大模型。接着是媒体服务,包括云桌面、远程写作平台、数字人生产线等。

总体来讲,华为云可以提供数字人领域从底层到上层全栈服务。

假设一家企业没有数字人,可以使用华为云的数字人生成和驱动服务端到端完成数字人相关业务;如果已有数字人模型,但无法让数字人动起来,可以使用数字人模型驱动服务;如果已有数字人且可驱动,但是想进一步降低成本,可以使用华为云的底层算力服务。

c331c17a9a5234209f9523e91d1ba331.png

针对客户想从零开始制作数字人的需求,华为云提供全栈的数字人解决方案。主要包括IP型数字人和服务型分身数字人全方位的解决方案。在底层会提供包括建模、驱动、仿真、渲染等能力,并基于这些能力开放一些API,让联合伙伴可以根据行业进行应用。

6b4c37b744b951668954c8b646874dc1.png

华为云目前提供两大类数字人相关服务,比如IP型3D数字人的照片建模、语音驱动、视频驱动等,以及分身数字人的形象训练、视频制作等;同时还包括数字人资产管理相关的服务。目的就是为了让伙伴和开发者可以快速集成华为云的底层API接口。

25b99ab1de6b051ee5eb453465fd5421.png

这两个视频演示如何制作一个服务型分身数字人以及如何制作一个IP型数字人。

78785fcf9e9a20e37393fb81c41c3878.png

下面重点介绍下分身数字人的具体应用场景。其当前已经在各个领域广泛使用,主要是用于复刻真人并把真人从重复的劳动中解放出来,同时也能够超越真人,实现真人无法实现的功能,比如多语种、渊博的知识等。

606e6c92e4c54e65cf2af30cabe1d2cc.png

华为云MetaStudio分身数字人解决方案主要提供三大服务:

数字人视频制作:无需拍摄,通过输入文字生成视频。

数字人视频直播:一天24小时不停直播带货,用算力换人力并超越人力,真正实现不受地域限制、不受模特资源限制的、不受语种限制的全球全天候直播。

数字人视频交互:结合ChatGPT等对话机器人,可以实现实时智能交互,通用问答、垂直知识库等都能解决,可用于虚拟讲师辅导等。

d1ef6d3995c06d8dec1da840da8c2c57.png

这里介绍不同场景下数字人效果:和真人对比,真假难辨;同时支持移动场景,即可实现可走动的分身数字人;基于分身数字人可以制作数字人名片,更加亲切。

efae7c88a78b067099eb04707429167c.png

另外,还可以通过一次训练,实现多语种驱动。通过录制5分钟中文演讲视频,就可以生成分身数字人,用于多语种的视频生成。

b5d3a8a17520606dbf9c98662f2a05cd.png

这是分身数字人用于金融新闻播报的案例。

055a58f86c5c909a705555b578e8bef9.png

我们还做了另外的尝试:通过和华为云会议系统结合,实现了数字人参会,通过你的真人声音驱动你的数字人。

不管你有没有化妆,躺在床上都可以以正式的形象参会。当然,这里也会加入基于声纹、人脸识别等多模态的身份认证,防止用其他人形象参会。

2c456544239b21a2fa28a94c43a2de92.png

以上介绍了分身数字人的应用场景,分身数字人也有自身缺点,比如无法实现多视角观看、大幅度转身,无法在3D空间中自由奔跑、走动等。

数字人中的另外一个重要分支是IP型数字人,即打造一个数字人形象,作为一个公司、组织的IP。相比传统的IP,如明星大V等,IP数字人的优势在于颜值无限美,才华横溢,人设稳定可控,市场响应快,性价比更高。

2021年被业界称为元宇宙的元年,元宇宙可能还离我们很远,但是我们看到数字人的应用已经进入到了很多行业。

比如在影视综艺行业,湖南台的虚拟主持人小漾,主打了湖南台黄金档节目“你好星期六”,成为新的明星IP。

在文娱电商行业,已经有近10万的虚拟数字人主播。B站的数字人主播洛天依,出场费高达90万,是普通主播的10倍。湖南多豆乐基于华为云打造的数字人方小锅,粉丝达到了1千万。

为什么那么多行业和公司热衷于做虚拟数字人?抛开当前元宇宙技术来讲,虚拟人本身有自身的优势:

①颜值无限美。虚拟人的外在形象非常完美,颜值也不会下降,甚至可以根据人们的审美进行进化调整,相比娱乐圈的明星来说,虚拟偶像的外形条件具备天然的优势,甚至永远不会发胖、超越年龄限制,不会变老。

②人设稳定。永远不会崩塌,不会有绯闻等各种负面消息。

③才华横溢。可以叠加各种才华,艺术、科技等可以无所不能,集万物于一身,可以做到颜值才华兼备。

④可操控强。不需要遵循数字人的个人意愿,即可安排符合数字人品牌定位的事宜。更没有档期风险。

4c10259b8ea198bf69dabe272eb15aa0.png

如图是华为在IP型数字人领域可以提供的能力,包括建模、驱动、和渲染,以及一些实际应用的IP型数字人形象。

05d74daff8343fd42dcbe5c82d2e11bd.png

这是数字人作为活动主持人的实际应用案例。

0be5c32c57c9161b7d80a4e5fe5ee1e7.png

以上介绍了数字人的背景、华为云MetaStudio在数字人领域的服务和应用案例,下面重点介绍数字人背后的技术。

从技术角度,主要分为五横两纵。

“五横”是指用于数字人制作、交互的五大技术模块,即人物生成、 人物表达、合成显示、识别感知、分析决策等模块。其中,人物表达包括语音生成和动画生成。动画生成则包含驱动(动作生成)和渲染两大部分。

“两纵”是指 2D、 3D 数字人,3D 数字人需要额外使用三维建模技术生成数字形象,信息维度增加。

数字人是AI集大成者,涉及自然语言处理、计算机视觉、计算机图形学、语音处理、多模态、生成等。本次技术介绍主要涉及数字人形象构建以及驱动相关技术。

下面分别介绍服务型即2D数字人关键技术和IP型即3D数字人关键技术。

-03-

分身数字人技术介绍

c797c81a6058306944f142fe129dfc32.png

这是分身数字人的视频制作流程。首先是形象训练,训练视频数据仅需5分钟,并且模型生成耗时<12小时;如果对声音有要求,还可以做声音克隆;然后输入文本进行智能语音驱动,以及智能动作插入;最后进行实时合成,生成视频。

9df694eed6fa2ec69e1dfb3de11bdd7b.png

在直播场景中,前三个步骤和上述一致,不一样的地方在于要进行直播话术的输入,再进行实时推流。

971dfdb8fef6c4f6ab9974c5590b77e5.png

在交互场景中,要进行知识内容输入,生成智能交互话术,并进行实时交互的应用。

9556dc63c3cf5486f84f4fc8c443c848.png

接下来介绍基于视频生成数字人的原理。

首先,任务是输入视频,训练得到数字人模型,并在推理时输入音频,输出数字人视频。

传统的方法需要采集大量高清模特音视频同步数据,成本很高;华为云把视频采集市场缩短到了5分钟,采用低质量视频做预训练,再用高质量视频做微调。

eee85d251e41ea68bffd0afebb253a05.png

另外,我们还尝试了通过文本生成数字人,避免了绿幕录制的繁琐以及肖像权的争议,同时还可以随时通过文本进行数字人形象调整。

f7f655c54e2b639cd4a94b7c4cd13580.png

接下来介绍语音驱动单照片分身数字人的原理。

我们希望输入一张照片和语音,输出视频,首先通过wav2lip做预训练基础,再通过动作迁移的方式,把后台预制的视频迁移到照片上。

e3626785164510d6a7ee3cabb5e28a54.png

另外我们也探索了语音驱动分身情感数字人。除了中性表情之外,实现数字人积极和消极表情的输出。

整体的逻辑是首先生成中性表情的数字人,再逐帧进行情绪编辑,另外引入牙齿生成模块控制牙齿清晰度。

-04-

IP数字人技术介绍

859deb266ac9c8acbcd344f17eeabfc9.png

接下来介绍IP数字人技术。华为3D数字人目前可实现单照片美型建模、单照片卡通建模以及光笼扫描写实数字人建模。

美型建模的技术流程是:输入人像图片后,会进行人像证件化的预处理,然后进行形状建模,再进行配件组装和皮肤生成,最终输出完整的3D模型。

78d53c3fe47ef897fdec2ff386402868.png

接下来是传统超写实3D数字人建模,即3D分身。其成本非常高,传统方法需要光笼扫描,再进行几何重建,需要大量的人工参与,所以华为云在探索如何进行通过AI的方式加速这一流程。

2711a5808e2f714e34eabd088e2fdadd.png

如图是基于AI的超写实3D数字人建模的技术路线。因为整个流程涉及很多环节,目前的思路是如果不能端到端全AI化,那么就在每个环节AI化。例如在3D建模阶段,在光路扫描后通过AI进行建模。目前整个周期可以压缩到一周左右。

c8ff93ff0bacaf62e0cf0dddea8048f0.png

完成建模之后,还可以进行二次编辑。这里展示几种不同的编辑方式,意在使编辑操作更加易用。

cd96780174d099cea827bad44ad154b7.png

如图是编辑关键技术流程,包括外观编辑、几何编辑和高层次语义编辑等功能点。

4776693236ad2adde481ca88e3a3a043.png

编辑完成之后,结合表情绑定,就可以用来做驱动了。那么如何进行驱动呢?如图中右侧所示,单目视觉驱动是通过摄像头实现,捕捉中之人的动作,以驱动数字人的相应动作。

其底层技术是基于华为云在ECCV 2022 Oral发表的一篇论文,在AGORA动捕榜单上持续位列第一。

12b0edcd31f30bbdef893bdd86af27f7.png

如图是3D数字人语音驱动表情和语音驱动肢体的技术流程,可以实现去人化,完全通过语音驱动数字人。

b2c611de64aa886f92d507c606c1ecbd.png

另外我们也在3D数字人情感风格方面做了一些探索。人在不同情绪下肢体表现是不一样的,所以我们提出了一个基于扩散模型的动作生成方法,可以根据音频生成风格化的肢体动作。

-05-

总结与挑战

110fb7408ed133011c1b633957f7cdc5.png

最后进行总结与挑战:目前的挑战包括如何自动化构建影视级的3D超写实可驱动数字人形象,跨越恐怖谷效应;其次,如何生成丰富的情感协同表达?目前可以生成带情感的表情、肢体,那么如何能使它们都情感一致进行表达,目前还是一个难点;

另外,数字人不同肢体规范的动作和语义内容如何匹配、动作迁移时如何避免身体穿模也是一个很大的挑战;最后,如何让数字人具备多模态交互的能力,在对话过程中同时考虑多种模态信息,也是一个亟待探索的领域。

我的分享就到这里,谢谢!


76ad4e530a74b290dfe33236cfea05f6.jpeg

LiveVideoStackCon是每个多媒体技术人的舞台,如果您在团队、公司中独当一面,在某一领域或技术拥有多年实践,并热衷于技术交流,欢迎申请成为LiveVideoStackCon的出品人/讲师。

扫描下方二维码,可查看讲师申请条件、讲师福利等信息。提交页面中的表单完成讲师申请。大会组委会将尽快对您的信息进行审核,并与符合条件的优秀候选人进行沟通。

56943273984192811f4def64043c189b.jpeg

扫描上方二维码 

填写讲师申请表单

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/874194.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

QLExpress动态脚本引擎解析工具

介绍 QLExpress脚本引擎 1、线程安全&#xff0c;引擎运算过程中的产生的临时变量都是threadlocal类型。 2、高效执行&#xff0c;比较耗时的脚本编译过程可以缓存在本地机器&#xff0c;运行时的临时变量创建采用了缓冲池的技术&#xff0c;和groovy性能相当。 3、弱类型脚本…

二十二、责任链模式

目录 1、使用demo演示责任链模式2、传统方案解决oa系统审批3、传统方案解决oa系统审批存在的问题4、职责链模式基本介绍5、职责链模式原理类图6、职责链模式解决oa系统采购审批7、职责链模式的注意事项和细节8、职责链模式的实际使用场景举例 1、使用demo演示责任链模式 学校o…

讯飞星火认知大模型升级体验

今天讯飞星火新版本已更新至现网&#xff0c;增加了多模态、插件等很多功能~,阅读原文可以申请体验 官网地址&#xff1a;https://xinghuo.xfyun.cn/ 多模态能力 多模理解&#xff08;图片&#xff09;&#xff1a;支持用户图片输入&#xff0c;针对图片内容进行视觉问答。 …

Thread.sleep()不释放锁 Object.wait()释放锁

sleep()方法 sleep()方法是线程类&#xff08;Thread&#xff09;的静态方法&#xff0c;让调用的线程进入指定时间睡眠状态&#xff0c;使得当前线程进入阻塞状态。 当线程获取锁时&#xff0c;sleep()方法不会释放对象锁 wait()方法 wait()方法是Object类里的方法&#xff0c…

12个有趣的css库

12个有趣的css库 1. Animate Animate 是一个即用型跨浏览器动画库&#xff0c;可在我们的 Web 项目中使用。非常适合强调、主页、滑块和注意力引导提示。 2. Magic Magic里包含了一组简单的动画&#xff0c;可以在我们的Web或app项目中使用。 3. Animista Animista 是一个 …

【Linux系统编程】23.孤儿进程、僵尸进程、wait、waitpid

目录 孤儿进程 测试代码1 测试结果 僵尸进程 测试代码2 测试结果 wait 参数*wstatus 返回值 测试代码3 测试结果 测试代码4 测试结果 测试代码5 测试结果 waitpid 参数pid 参数*wstatus 参数options 返回值 测试代码6 测试结果 测试代码7 测试结果 测…

Zemax2019中文设置

做软件教程啥时候都不能少了切换中文版啊~ 正常打开软件&#xff1a; 点击setup 中的preference 弹出窗口&#xff1a; 选择general 在language的下拉窗口中选择&#xff0c;中文 效果&#xff1a;

实验篇——亚细胞定位

实验篇——亚细胞定位 文章目录 前言一、亚细胞定位的在线网站1. UniProt2. WoLFPSORT3. BUSCA4. TargetP-2.0 二、代码实现1. 基于UniProt&#xff08;不会&#xff09;2. 基于WoLFPSORT后续&#xff08;已完善&#xff0c;有关代码放置于[python爬虫学习&#xff08;一&#…

[保研/考研机试] 杨辉三角形 西北工业大学复试上机题 C++实现

题目描述 Time Limit: 1000 ms Memory Limit: 256 mb 输入n值&#xff0c;使用递归函数&#xff0c;求杨辉三角形中各个位置上的值。 输入描述: 一个大于等于2的整型数n 输出描述: 题目可能有多组不同的测试数据&#xff0c;对于每组输入数据&#xff0c; 按题目的要求输…

Java笔记-kafka

修改kafka的server.properties配置 概念 单播 一个消费组的消费者们只有一个能消费到消息。类似queue队列。 多播 不同的消费组的消费者能重复消费到消息&#xff0c;类似publish-subscribe模式 消费组偏移 kafka和别的消息中间件不一样&#xff0c;不同组可以重复消费&a…

Grafana监控 Redis Cluster

Grafana监控 Redis Cluster 主要是使用grafana来实现监控&#xff0c;grafana可以对接多种数据源&#xff0c;在官网中可以找到Redis数据源&#xff0c;需要安装redis data source插件。当然也可以利用Prometheus来做数据源&#xff0c;下面分别记录一下这两种数据源的安装配置…

前后端分离------后端创建笔记(04)前后端对接

本文章转载于【SpringBootVue】全网最简单但实用的前后端分离项目实战笔记 - 前端_大菜007的博客-CSDN博客 仅用于学习和讨论&#xff0c;如有侵权请联系 源码&#xff1a;https://gitee.com/green_vegetables/x-admin-project.git 素材&#xff1a;https://pan.baidu.com/s/…

“MongoDB基础知识【超详细】

"探索MongoDB的无边之境&#xff1a;沉浸式数据库之旅" 欢迎来到MongoDB的精彩世界&#xff01;在这个博客中&#xff0c;我们将带您进入一个充满创新和无限潜力的数据库领域。无论您是开发者、数据工程师还是技术爱好者&#xff0c;MongoDB都将为您带来一场令人心动…

网络安全威胁与防御策略

第一章&#xff1a;引言 随着数字化时代的快速发展&#xff0c;网络已经成为人们生活和工作中不可或缺的一部分。然而&#xff0c;网络的广泛应用也引发了一系列严峻的网络安全威胁。恶意软件、网络攻击、数据泄露等问题层出不穷&#xff0c;给个人和企业带来了巨大的风险。本文…

UI美工设计岗位的基本职责概述(合集)

UI美工设计岗位的基本职责概述1 1、有良好的美术功底、设计新颖&#xff0c;整体配色及设计创意理念&#xff0c;能够独立完成整个网站页面设计及制作; 2、熟练运用DIV CSS&#xff0c;HTML 设计制作网页 ; 3、熟练运用Photoshop,Dreamweaver,Coreldraw(或Illustrator),Fla…

7-2 计算物体自由下落的距离

一个物体从100米的高空自由落下。编写程序&#xff0c;求它在前3秒内下落的垂直距离。设重力加速度为10米/秒2。 输入格式: 本题目没有输入。 输出格式: 按照下列格式输出 height 垂直距离值结果保留2位小数。 代码长度限制 16 KB 时间限制 400 ms 内存限制 64 MB …

异常(下)Java常见异常,异常的使用原则

文章目录 前言一、Java常见异常 1.常见异常2.实例展示二、异常的使用原则总结 前言 该文介绍了Java的一些常见异常&#xff0c;并给出对应的例子进行解释。介绍异常的使用原则&#xff0c;即创建&#xff0c;抛出异常的编程规范。 一、Java常见异常 前要&#xff1a;Java API中…

实训五:用户和组账号管理

实训五&#xff1a;用户和组账号管理 2017 年 X 月 X 日 今日公布 四&#xff1a;实训内容 用root用户登录系统&#xff0c;查看用户账号文件/etc/passwd和口令文件/etc/shadow的内容&#xff0c;注意观察其存储格式、各账户所使用的Shell、UID、GID等属性信息。 答&#xf…

ITIL4—度量和报告实践

1. 关于本文 本文为度量和报告实践提供了实用指南&#xff0c;分为五个主要部分&#xff0c;涵盖&#xff1a; 本实践的基本信息本实践相关的流程和活动&#xff0c;及其在服务价值链中的作用参与本实践的组织和人员支持本实践的信息和技术合作伙伴和供应商在本实践中的注意事…

【构造】CF1853D

Problem - D - Codeforces 题意&#xff1a; 思路&#xff1a; Code&#xff1a; #include <bits/stdc.h>using i64 long long;const int N 1e6 10;int ans[N];void solve() {int n;std::cin >> n;std::vector<std::pair<int,int> > a(n 1);for …