快速落地基于“AIGC+数字人”的数字化内容生产

news2025/2/27 5:22:04

谁不想有一个可爱的数字人形象呢?在日常的工作和娱乐中,越来越多的数字人虚拟形象与大家见面,他们可以是主播,也可以是语音助手,还可以是你自己的虚拟宠物。只有更快更精准的生成数字人,才能让数字人更加普及,普通消费者才能更多地接触到数字人。LiveVideoStackCon 2022北京站邀请到了张瑞全老师为我们分享美摄科技的数字人技术。

文/张瑞全

编辑/LiveVideoStack

大家好,我是来自美摄科技研发中心的高级AI算法专家张瑞全。今天分享的主题是美摄科技关于快速落地基于“AIGC+数字人”的数字化内容生产的整体方案。

-01-

整体概括

534622bd90494167b7a8ea825fa0d07c.png

美摄科技产品主要分为AI数字人、视音频处理SDK、AI智能处理、汽车及智能硬件方案、云端/PC端视频处理方案和开发及设计服务六个部分。

f600e9e2e379b87504e7f54da1ac34e1.png

美摄的技术已经在超过千余款实际产品中落地,尤其针对大量的手机厂商和大型互联网客户,面向多款超千万级的DAU应用,美摄的SDK技术对大量的硬件和系统进行适配,保障各类场景下兼容性的同时,提供高质量的服务。

0b28954f1db378254ce62be3bf9686f4.png

实时语音数字人是基于语音和文字实时驱动的高精度数字人,主要用于数字客服、车载形象和APP助手等场景中。虚拟主播则更多的应用于新闻播报、直播助手和虚拟讲解等场景中。

c2aca7ffdd5b03d9cf68726da49e3db4.png

-02-

数字人形象生成

数字人形象的三维渲染是数字人领域核心内容。美摄科技自研的三维图像渲染技术拥有强大的渲染能力、多端互通、高效率处理、体积小巧、快速拓展和制作方便六个特点,可以为数字人制作提供非常强大的辅助作用。

f35f52b831a7e7bfca0a26509fdcec0f.png

目前美摄科技支持支持基于物理的材质渲染、实时阴影处理、法向量贴图、全局环境光和屏幕空间环境光遮蔽,为各种环境下的数字人提供全面且逼真的渲染能力。为了增加可玩性和用途,可以在数字人身上添加不同的配饰等。目前美摄科技的渲染引擎可以很好地支持辅助道具和数字人动作的同步,让数字形象更加逼真。

f34c1c9057d83f934275f8e03cf3655a.png

要实现实时语音输出,就需要数字人拥有唇音同步能力。美摄科技基于AI训练建立了一套独特的唇音分析算法,可以实现自然生动的形象展现。通过对输入的语音进行轻量化AI分析,获取实际人物的面部表情,再将AI算法输出的结果与语音内容结合,驱动数字人模型,实现实时的三维唇音同步效果。美摄AI唇音同步技术具有高效、无时延、过度顺滑自然、适配多种语音系统等特点。

e07266f027e37e65e0f8db68bd6707f5.png

基于自研的Morphing技术,美摄渲染引擎支持多达54种人脸基础表情。这些基础表情相互组合,构成了拟真的数字人面部系统,几乎可以囊括所有的人脸表情,为数字人模型生动的表情展现奠定基础。左边5张图是通过基础的表情融合出的一些复杂面部动作。中间是一个实时驱动的样例,同时也携带了头发的物理效果。

d4a2ac2d0cc12a6690dc8d501b1768af.png

同时我们也提供了非常全面的数字人设计工具,设计师可以将其与C4D、Maya等工具配合,快速进行贴图更换、效果调节,实现高效设计。其中,美摄自研的数字人设计工具与渲染器内部使用同一套引擎,设计效果与最终渲染效果完全一致,所见即所得。设计制作出的模型效果可快速部署发布。

5bbfabcf40213f30aea8747eade8e212.png

这张图是数字人的一套基本流程。美摄实时语音数字人集成了多家合作伙伴的语音系统,可以快速理解用户输入的文字信息并返回答案,并生成对应的数字人语音,驱动数字人进行实时语音播报和动作表达。整套数字人方案具有良好的开放性和可拓展性,能够快速与各种主流的AI聊天系统、语音系统进行结合,形成对应的方案。

9d0d9f761c00373f3fbc0405b4beaf32.png

一些用户希望生成的数字人更加贴合自己的形象,对此我们也提供了形象自动生成的方案。用户只需提供一张照片,系统将提取特征生成对应的数字人形象。在此基础上,我们提供人脸属性检测+自动形象生成的算法,根据检测分析的结果自动添加配饰,形成用户专属的虚拟形象。目前已支持性别、年龄、眼型、发型等多种人物属性分析。

37ef58a8f9a24a4ad867c3df7751aeee.png

除了自动生成形象外,用户还可以在生成的形象基础上修改预先提供的可修改元素,自定义数字人形象,满足个性化需求。

fab7b092113a06348a9eacfd04ea6146.png

为应对运营成长需求,如本土化适配,节日、热点等,美摄科技提供了可自定义的配饰。根据基础属性,通过捏脸换装可延展出不同的形象。

-03-

AIGC+数字人

3c4d3fbfc078982bfa5e467ab9b4e0c3.png

虚拟视频合成技术是指通过综合利用计算机视觉、图像处理和深度学习等技术,实现虚拟视频的生成,包含语音驱动、动作驱动和换脸三个关键技术。语音驱动,利用语音去驱动口型和面部表情,生成讲话视频;动作驱动,基于源视频输入的动作和口型、表情等,驱动目标视频人物做出相同的动作、表情和口型;换脸,将目标视频中的人脸换成某个指定的形象,并且保持目标视频中人物的动作、表情、口型不变。

ba2147d69b97b8949021d828f05fa83d.png

这张图展示了表情和口型预测的基本逻辑。使用语音特征提取算法对语音特征进行提取,基于特征进行口型参数的预测。随后根据口型参数进行3D面部渲染,并与真实人脸拟合,生成最终的渲染图。

9848c87438de7f58166d67b52d013621.png

特征提取目前常用的算法有两种,一种是MFCC特征提取,另一种是深度特征提取。目前美摄科技推出了自研的综合算法和对应的特征提取算法。

c2f4b7c6f501cf7ce3fe2140ec3748b1.png

口型预测使用深度学习算法,初步生成当前语音对应的口型参数。为了使帧与帧之间的口型变化更加平滑,我们采用了两种方法:一种是将一个窗口内的预测结果做加权平均,来对预测的口型进行平滑;另一种是利用LSTM的记忆能力,来平滑预测口型。

547a8a1c596a6277ee27c0deee9a5fa1.png

d4b96dc5ccc2e4ba858655aaed9de5c0.png

在讲话过程中,当口型发生变化时人脸的表情和肌肉等都会发生对应的变化。为了使表情更加贴合口型,我们对整个人脸的参数进行了预测。基于预测的人脸参数,通过渲染引擎,对当前人脸进行拟合,渲染得出一套人脸参数对应的人脸表情片。最后基于渲染出的3D人脸表情以及视频真正对应的人脸和mask眼模,利用GAN网络完成最终渲染。

考虑到客户和用户多样化的使用场景,美摄科技提供了三种不同的形式,让大家快速生成自己想要的数字人形象——照片自动生成形象、视频自动生成形象以及GLB模型自动生成形象。

图片生成数字人形象方案是基于照片快速生成需要的语音播报数字人。用户只需要上传一张人物照,根据照片和录入的文本产生对应的播报视频。

f102e3dff9684690ece74e9c7f0ba6cf.png

上图为视频自动生成数字人形象方案。用户可以上传一段视频,系统会将视频中人物的口型替换成想要的口型,同时保持原来视频中的动作和表情,生成播报形象。

18421ced16a1476d2a872fc998423596.png

美摄科技还支持基于传统3D模型GLB文件快速生成数字人。GLB文件是以图形语言传输格式保存的3D模型,它以二进制格式存储有关3D模型的信息,包括节点层级、摄像机、材质、动画和网格。以GLB生成数字人形象时,可以将其转换为美摄自研的3D文件格式“.ARSCENE”,转换后的效果包可以通过美摄SDK在不同的平台上实时渲染驱动。

ChatGPT最近非常火,美摄科技也将ChatGPT的混合语义理解能力和美摄已有的语音交互系统相结合,利用ChatGPT对语义的理解和回答,生成交互式数字人。用户只需输入一段语音或文字,利用ChatGPT对于语音或文字进行理解,对返回的答案进行语音播报。该方案更多用于大屏、车载、APP数字人等产品中。

6c757494a86f66dd84ba2a79fa0c4853.png

此外,我们还尝试了将ChatGPT与视频剪辑和数字人结合。用户只需填写一句话,设定好要求,系统就可以通过ChatGPT返回分镜脚本,并从中提取所需标签,由系统从媒资库中智能寻找对应的图像和视频资料。用户可以选择推荐素材,一键套用模板,直接形成预览视频,极大提高视频创作效率。另外我们也提供云剪技术,客户可以借助云剪对数字人视频进行进一步包装编辑。


4e7428a7debebb71910db311cf87cd50.png

LiveVideoStackCon 2023上海讲师招募中

LiveVideoStackCon是每个人的舞台,如果你在团队、公司中独当一面,在某一领域或技术拥有多年实践,并热衷于技术交流,欢迎申请成为LiveVideoStackCon的讲师。请提交演讲内容至邮箱:speaker@livevideostack.com。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/520585.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【JS】1680- 重学 JavaScript API - Beacon API

❝ 前期回顾:1.Page Visibility API 2.Broadcast Channel API ❞ 1. 什么是 Beacon API 1.1 概念介绍 Beacon API 是 HTML5 提供的一种新的浏览器 API,可以用于在浏览器后台异步地发送数据,而不影响当前页面的加载和性能。通过 Beacon API&am…

FE_Vue学习笔记 常用指令的学习【v-model filters v-text v-html v-cloak v-once v-pre 自定义指令】

1 收集表单数据 v-model 收集表单数据&#xff1a; 若&#xff1a;<input type"text">&#xff0c;则v-model收集的是value的值&#xff0c;用户输入的就是value值。 若&#xff1a;<input type"radio">&#xff0c;则v-modle收集的是value的…

Eclipse配置tomcat服务器

1.首先下载tomcat&#xff0c;下载地址&#xff1a;http://maven.apache.org/&#xff0c;下载好后解压至本地磁盘根目录&#xff0c;我是解压至D盘根目录 2.打开Eclipse&#xff0c;进入Window->Preferences 3.找到Server->Runtime Environments 4.再右边点击Add添加一个…

【手撕代码】HDB3编解码

【手撕代码】HDB3编解码 1. 来源和需求 HDB3编解码任务来源于2023年3月4日“FPGA技术讨论群”的一次活动《101群第一次FPGA编码交流研讨会》&#xff0c;要求设计HDB3编解码&#xff0c;本篇文章作者【roy2022】&#xff0c;经作者授权后转发&#xff0c;以下所有文件版权归作者…

软考-高级系统架构师经验分享

【摘要】 2022年7月17从女朋友嘴里了解到有软考这个东西,7月20——7月23日,上班空闲时间百度详细了解了软考的内容、大纲、通过之后的收益,于是决定备考高级架构师考试并上网收集了所有能收集的资料(不论好坏,完成收集后再筛选);经过3个月的复习,2022年11月5日,第一次…

Extra Finance 主网测试版上线,完成任务领空投

DeFi 的广泛应用将上一轮牛市推向顶峰&#xff0c;也让区块链具有了更多的拓展性。经过熊市的洗礼&#xff0c;DeFi 应用开始升级和优化&#xff0c;并且衍生出更多更加具有实用性和创新性的新产品。DeFi 已经成为区块链的基础设施&#xff0c;为更多的应用和创新提供帮助。下一…

ENVI为不含地理参考信息的栅格影像手动添加地理、投影坐标系

本文介绍基于ENVI软件&#xff0c;对不含有任何地理参考信息的栅格遥感影像添加地理坐标系或投影坐标系等地理参考信息的方法。 我们先来看一下本文需要实现的需求。现有以下两景遥感影像&#xff0c;其位于不同的空间位置&#xff1b;但由于二者均不含任何地理参考信息&#…

SOFA Weekly|SOFAArk 社区会议回顾、Layotto 社区会议预告、社区本周贡献

SOFA WEEKLY | 每周精选 筛选每周精华问答&#xff0c;同步开源进展 欢迎留言互动&#xff5e; SOFAStack&#xff08;Scalable Open Financial Architecture Stack&#xff09;是蚂蚁集团自主研发的金融级云原生架构&#xff0c;包含了构建金融级云原生架构所需的各个组件&am…

Cisco 产品下载链接汇总 2023 持续更新中

Cisco 产品链接汇总 2023 持续更新中 IOS-XE, IOS-XR, NX-OS & FXOS based on linux kernel 请访问原文链接&#xff1a;https://sysin.org/blog/cisco/&#xff0c;查看最新版。原创作品&#xff0c;转载请保留出处。 作者主页&#xff1a;sysin.org 本站 Cisco 产品汇…

UE5利用Cesium for Unreal 部署和加载服务器上的倾斜摄影

主要步骤&#xff1a; 下载 Tomcat 下载 JDK 设置系统变量 运行UE程序 下载 Tomcat 网址&#xff1a;https://tomcat.apache.org/ 可以下载最新版&#xff0c;也可以下载历史版本&#xff0c;查看 2.下载JDK https://www.oracle.com/java/technologies/downloads/ 根据Tom…

算法修炼之练气篇——练气二十一层

博主&#xff1a;命运之光 专栏&#xff1a;算法修炼之练气篇 前言&#xff1a;每天练习五道题&#xff0c;炼气篇大概会练习200道题左右&#xff0c;题目有C语言网上的题&#xff0c;也有洛谷上面的题&#xff0c;题目简单适合新手入门。&#xff08;代码都是命运之光自己写的…

OLS样本估计量抽样分布模拟

OLS样本估计量抽样分布模拟 文章目录 OLS样本估计量抽样分布模拟1 OLS估计量分布2 R语言实现 1 OLS估计量分布 对于线性回归方程 Y β 0 β 1 X ε Y \beta_0\beta_1 X \varepsilon Yβ0​β1​Xε 利用普通最小二乘法(OLS&#xff09;估计上述方程参数使的假定(之一)是…

路径规划算法:基于麻雀优化的路径规划算法- 附代码

路径规划算法&#xff1a;基于麻雀优化的路径规划算法- 附代码 文章目录 路径规划算法&#xff1a;基于麻雀优化的路径规划算法- 附代码1.算法原理1.1 环境设定1.2 约束条件1.3 适应度函数 2.算法结果3.MATLAB代码4.参考文献 摘要&#xff1a;本文主要介绍利用智能优化算法麻雀…

智能硬件项目全流程

智能硬件项目全流程 阶段 流程节点 细分活动 活动说明 核心关注点 市场调研 市场调研 收集市场需求 1. 目标客户群体的具体需求与痛点是什么?他们最需要什么产品与服务? 2. 谁是我们的竞争对手?他们的产品优缺点及定价策略是什么?现有市场竞争态势如何?我们有什么…

draw.io二次开发(4)事件捕获

本篇阐述对drawio中如何捕获并处理事件。 绘制一个曲线箭头&#xff0c;可以看到上图中红框部分1.可以通过下拉框选择箭头的起止端形状&#xff0c;2.可以通过复选框选择是否产生草稿线条&#xff0c;3.可以双击曲线添加文字。 1. 起止端形状选择下拉框 在grapheditor/Form…

安立Anritsu MS2711E,MS2712E 手持频谱分析仪

Anritsu安立MS2712E MS2711E频谱分析仪 特征&#xff1a; 9 kHz 至 4 GHz 测量&#xff1a;占用带宽、信道功率、ACPR、C/I、频谱发射模板、场强 干扰分析仪&#xff1a;频谱图、信号强度、RSSI、信号 ID、干扰映射 跟踪发生器&#xff0c;也用作 CW 源 覆盖图&#xff1a…

Request 和 Response详解

1.Request和Response的概述 # 重点 1. service方法的两个参数request和response是由tomcat创建的2. request 表示请求数据, tomcat将浏览器发送过来的请求数据解析并封装到request对象中servlet开发者可以通过request对象获得请求数据 3. response 表示响应数据,服务器发送给浏…

科罗拉多州立大学发布 CSU-MLP 模型,用随机森林算法预测中期恶劣天气

&#xff1a; By 超神经 内容一览&#xff1a;近期&#xff0c;来自美国科罗拉多州立大学与 SPC 的相关学者联合发布了一个基于随机森林的机器学习模型 CSU-MLP&#xff0c;该模型能够对中期 (4-8天) 范围内恶劣天气进行准确预报。目前该成果刊已发表在《Weather and Forecasti…

收藏!16款ChatGPT工具

一、ChatGPT for google 一个浏览器插件&#xff0c;可搭配现有的搜索引擎来使用。 最大化搜索效率&#xff0c;对搜索体验的提升相当离谱&#xff1a; 安装完插件后&#xff0c;在搜索引擎搜索任何问题&#xff0c;都能获取两份答案。 左边是谷歌抓取的全网资源&#xff0c…

PoseiSwap:合规、隐私与支持更广泛的资产

Nautilus Chain 代表了公链赛道发展的一个新的范式形态&#xff0c;作为目前行业内首个 Layer3 链&#xff0c;是目前行业内第一个并行化且运行速度最快的EVM Rollup 方案。作为首个模块化链&#xff0c;存储、计算、共识等都在不同的模块中&#xff0c;意味着其能够获得更高的…