虚拟人专题报告:虚拟人深度产业分析报告

news2025/1/17 0:02:53

今天分享的是虚拟人系列深度研究报告:《虚拟人专题报告:虚拟人深度产业分析报告》。

(报告出品方:Q量子位)

报告共计:18

技术背景

虚拟数字人指存在于非物理世界中,由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用,并具有多重人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物。市面上也多将其称为为虚拟形象、虚拟人、数字人等,代表性的细分应用包括虚拟助手、虚拟客服、虚拟偶像/主播等。

其具体特征可拆分为“虚拟”、“数字”及“人”三个部分。在试用了相关产品后,我们认为,“人”是其中的核心的因素。高度拟人 化为用户带来的亲切感、关怀感与沉浸感是多数消费者的核心使用动力。能否提供足够自然逼真的相处体验,将成为虚拟数字人在各个 场景中取代真人,完成语音交互方式升级的重要标准。

虚拟—存在于非物理世界中,不同场景实现难度不同

目前,虚拟数字人主要以图片、视频、实时直播、实时动画等方式存在于电子屏中,如APP、小程序、软硬一体显示设备。在未来,VR设备 与全息投影也将成为其重要存在方式。 需注意的是,尽管其存在方式均在非物理世界中,由于各场景所需的时延(如直播等实时场景要求低时延,但内容生成场景无该要求)、驱动方式(计算驱动对模型的深度学习能力有极高要求)等不同,对技术、运营等要求差异较大。

数字—依托多项技术存在,相关技术成熟成为其发展重要推动力

虚拟数字人是典型的多技术综合产物。除CG建模+真人驱动的类别外,多模态技术与深度学习成为其核心点。该部分将在技术中详细展开。 多位从业人员认为,虚拟数字人近年的发展来源于CG(Computer Graphics,利用计算机进行视觉设计和生产)、语音识别、图像识别、动 捕等相关技术的共同成熟。

人 — 在外表、行为、交互行为等方面高度拟人化,外在表现和交互效果已成为核心发展路线

外表: 虚拟数字人的面部长相和整体形象。会受到虚拟数字人类别(如直接借用真人形象、高保真建模、风格化)、制作细节(对汗毛、皮肤、头发 等细节的建模)、渲染水平、设计审美等影响。

行为: 虚拟数字人的面部表情、形体表达、语音表述等。会受到驱动方式(真人驱动、计算驱动、预制调节等)、驱动模型类别(精细面部肌肉驱动、 语音合成模型中对语气词、韵律的处理等)、训练数据、驱动模型精度等影响。

交互: 虚拟数字人与现实世界的交互水平,包括回答内容、肢体反应等,会受到语音识别能力、自然语言理解及处理水平、知识图谱、预先设置知识 库等影响。

从技术层面来看,虚拟数字人可以分为真人驱动型和计算驱动型。后者是近年来多模态技术和深度学习发展的技术集大成者。

在真人驱动中,在完成原画建模和关键点绑定后,动捕设备或摄像头将基于真人的动作/表情等驱动虚拟数字人。

由于背后有真人操作,真人驱动型在动作灵活度、互动效果等方面有明显优势,一方面能够在影视内容的创作中减低生产成本,为影视行业降低门槛,推动影视级内容向消费级转化。另一方面则多用于虚拟偶像、重要直播中,帮助虚拟数字人完成大型直播、现场路演等互动性、碎片化活动。

事实上,这种技术思路可以看作是传统影视制作中,CG技术的进一步延续。近年来主要的技术突破在于动作捕捉环节。随着图像识别技术,姿势、表情等识别算法的进步,昂贵的惯性或光学动捕设备不再是驱动的必备工具。普通摄像头结合理想的识别算法通用能实现较为精准的驱动(如iPhone 12摄像头已可支持简单的动作捕捉),显著降低了精细虚拟内容生成的门槛。

真人驱动型技术流程

1.形象设计及建模:基于IP设计或真人偶像绘制原画,进行面部及身体3D建模,选择关键点

2.建模绑定:将识别关键点映射至模型上,进行绑定。关键点绑定的数量及位置影响最终效果。

3.表演捕捉:利用动作捕捉设备或特定摄像头+图像识别,捕捉在形体、表情、眼神、手势等方面的关键点变化。

4.驱动及渲染:真人演员(在虚拟偶像中称为中之人)根据制作需要进行相应表演,实时驱动虚拟数字人表演。在较为精细的制作中,会需要根据真人演员和建模的区别进行重定向,并对动作、眼神、手指等采用不同的驱动方式。需要时需进行语音合成,形成特定设置语音。

5.生成内容,进行互动:进行直播,或录制其动作生成内容。

在计算驱动型中,虚拟数字人的语音表达、面部表情、具体动作将主要通过深度学习模型的运算结果实时或离线驱动,在渲染后实现最终效果。

计算驱动的虚拟数字人最终效果受到语音合成(语音表述在韵律、情感、流畅度等方面是否符合真人发声习惯)NLP技术(与使用者的语言交互是否顺畅、是否能够理解使用者需求)、语音识别(能否准确识别使用者需求)等技术的共同影响。尽管在特定方向上,各感知类技术已有的商业化能力已足以支撑,然而,但要达成理想的综合效果,需要该公司在三个方面同时具有较强的综合能力。这也间接导致国内开展计算驱动型虚拟数字人业务的公司,大多是在感知技术方面有较强的综合实力,相对成熟的AI技术公司。

当判定技术中的核心要素时,我们需要回归到虚拟数字人的核心价值,也即前面所提及的“拟人化”,这需要虚拟数字人在形象或交互上具有技术优势。在技术层面主要体现为以下三点。

报告共计:18

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1447874.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Vue】工程化开发脚手架Vue CLI

📝个人主页:五敷有你 🔥系列专栏:Vue⛺️稳重求进,晒太阳 工程化开发&脚手架Vue CLI 基本介绍 Vue Cli是Vue官方提供的一个全局命令工具 可以帮助我们快速创建一个开发Vue项目的标准化基础架子【集成了we…

【小沐学GIS】基于C++QT绘制三维数字地球Earth(OpenGL)

🍺三维数字地球系列相关文章如下🍺:1【小沐学GIS】基于C绘制三维数字地球Earth(456:OpenGL、glfw、glut)第一期2【小沐学GIS】基于C绘制三维数字地球Earth(456:OpenGL、glfw、glut)第二期3【小沐…

四、OpenAI之文本生成模型

文本生成模型 OpenAI的文本生成模型(也叫做生成预训练的转换器(Generative pre-trained transformers)或大语言模型)已经被训练成可以理解自然语言、代码和图片的模型。模型提供文本的输出作为输入的响应。对这些模型的输入内容也被称作“提示词”。设计提示词的本质是你如何对…

python 经典老人言

python 经典老人言 import tkinter as tkclass FlipBook:def __init__(self, master):self.master master master.title("经 典 老 人 言")self.pages ["经 典 老 人 言","求学无笨者,努力就成功","读 书 百 遍&am…

代码随想录|day 16

Day 16 迎财神 坚持如此hard 玄之又玄,众妙之门 一、理论知识 回顾【深度】和【高度】的概念,现在主要还是写递归2) 初识【回溯】3)左叶子的明确定义:节点A的左孩子不为空,且左孩子的左右孩子都为空&am…

Python学习之路-爬虫提高:scrapy基础

Python学习之路-爬虫提高:scrapy基础 为什么要学习scrapy 通过前面的学习,我们已经能够解决90%的爬虫问题了,那么scrapy是为了解决剩下的10%的问题么,不是,scrapy框架能够让我们的爬虫效率更高 什么是scrapy Scrapy是一个为了…

(三十七)大数据实战——Solr服务的部署安装

前言 Solr是一个基于Apache Lucene的开源搜索平台,它提供了强大的全文搜索、分布式搜索和数据分析功能。Solr 可以用于构建高性能的搜索应用程序,支持从海量数据中快速检索和分析信息。Solr 使用倒排索引和先进的搜索算法,可实现快速而准确的…

AI绘画作品的展示和变现-2

4.7 制作红包封面 中国的节日和传统文化元素仍然可以成为创作者们的创作灵感,创造出更多的变现机会。比如元宵节,可以制作大型元宵图案,进行引流并卖出元宵。 而春分、谷雨等节气也可以成为创作的灵感来源,创作出与之相关的图案&…

最新wordpress外贸主题

日用百货wordpress外贸主题 蓝色大气的wordpress外贸主题,适合做日用百货的外贸公司搭建跨境电商网站使用。 https://www.jianzhanpress.com/?p5248 添加剂wordpress外贸建站主题 橙色wordpress外贸建站主题,适合做食品添加剂或化工添加剂的外贸公司…

软考25-上午题-图2

一、图的存储 图的基本存储结构:邻接矩阵、邻接链表。 1-1、邻接矩阵 用矩阵来表示图中顶点之间的关系。 示例1:有向图的邻接矩阵 示例2:无向图的邻接矩阵 无向图的邻接矩阵是对称的!!! 借助邻接矩阵可…

Linux系统之部署File Browser文件管理系统

Linux系统之部署File Browser文件管理系统 一、File Browser介绍1.1 File Browser简介1.2 File Browser功能1.3 File Browser使用场景 二、本地环境介绍2.1 本地环境规划2.2 本次实践介绍 三、检查本地环境3.1 检查本地操作系统版本3.2 检查系统内核版本 四、安装File Browser4…

66万个 全国行政区划代码表

66万个全国各级行政区划代码表 提供的数据一览 简介 一共有66万个全国各级行政区划,一共有5个级别的行政单位级别 表格头部数据 表格尾部数据 全国行政单位各省份数量统计 数据下载地址 数据整理不易 百度云盘 链接: https://pan.baidu.com/s/1o1C2piYj2wu…

vue3 Element Plus 基于webstorm练习

提要 vue是前端框架,Elemen是组件库。前端框架和组件库的区别与联系 nodejs 脚本语言需要一个解析器才能运行,JavaScript是脚本语言,在不同的位置有不一样的解析器,如写入html的js语言,浏览器是它的解析器角色。而对…

配备Apple T2 安全芯片的 Mac 机型及T2芯片mac电脑U盘装系统教程

T2 芯片为 Mac 提供了一系列功能,例如加密储存和安全启动功能、增强的图像信号处理功能,以及适用于触控 ID 数据的安全保护功能。哪些电脑配备了 T2 安全芯片呢,T2芯片mac电脑又如何重装系统呢?跟随小编一起来看看吧! …

测试西门子博途S7-PLCSIM Advanced V5.0的使用

原创 honeytree 西门子博途S7-PLCSIM Advanced V5.0能支持S7-1500,S7-1500R/H,ET200SP,ET200pro的仿真,用此仿真器可以模拟实际的PLC,用于其他软件的连接,比如上位机软件、触摸屏软件,自己用高级语音开发…

415. Add Strings(字符串相加)

问题描述 给定两个字符串形式的非负整数 num1 和num2 ,计算它们的和并同样以字符串形式返回。 你不能使用任何內建的用于处理大整数的库(比如 BigInteger), 也不能直接将输入的字符串转换为整数形式。 问题分析 按照数字相加以…

读十堂极简人工智能课笔记01_人工智能简史

1. 2400年前 1.1. 希腊罗德岛 1.1.1. 是个神奇的岛屿,以机械发明著称,包括真人大小的、大理石制成的自动机 1.1.2. 早在罗马帝国诞生之前,公元前400多年的希腊就有这样的机器人技术,似乎不可思议 2. 公元前970到前931年 2.1.…

CSS之水平垂直居中

如何实现一个div的水平垂直居中 <div class"content-wrapper"><div class"content">content</div></div>flex布局 .content-wrapper {width: 400px;height: 400px;background-color: lightskyblue;display: flex;justify-content:…

AtCoder Beginner Contest 340 C - Divide and Divide【打表推公式】

原题链接&#xff1a;https://atcoder.jp/contests/abc340/tasks/abc340_c Time Limit: 2 sec / Memory Limit: 1024 MB Score: 300 points 问题陈述 黑板上写着一个整数 N。 高桥将重复下面的一系列操作&#xff0c;直到所有不小于2的整数都从黑板上移除&#xff1a; 选择…

漫漫数学之旅019

文章目录 经典格言数学习题古今评注名人小传 - 大卫希尔伯特 经典格言 没有人能够把我们从康托为我们创造的乐园中驱逐出去。——大卫希尔伯特&#xff08;David Hilbert&#xff09; 大卫希尔伯特&#xff0c;这位数学界的“顽皮大亨”&#xff0c;曾经用一种近乎宣誓的方式来…