大模型应用于数字人

news2024/11/25 16:23:48

大模型会改变整个软件行业, 其中具有代表性的产品之一是数字人, 那么,什么是数字人呢?数字人涉及了哪些关键技术呢?大模型对数字人的发展带来哪些影响呢?

07b7555ba42e61c1a93578c0f0edcf38.jpeg

1. 什么数字人?

数字人目前还缺乏一个相对统一的定义, 有人把人类的数字孪生体定义为数字人,有人把虚拟世界中具有人类行为的实体定义为数字人,有人将3D人体模型称为数字人,例如,韩国学界对数字人的定义是:用数字化技术,打造具有逼真人类长相、语言、动作姿态、身体特征的虚拟3D 人体模型。市场调研机构IDC将数字人定义为“采用人工智能技术驱动生成的数字化的虚拟人物——具备人的外观、感知互动能力以及表达能力”。

一般地,人们把数字人称为数字人,是通过聚合科技创造的存在于虚拟世界,且具有类"人"特质的数字形象。它是元宇宙中自然人进行虚拟时空感知的主要载体,是实现人机融合交互的组成部分,也是元宇宙的经济增值板块。数字人与自然人、机器人共同组成了元宇宙的“三元”。

数字人能够感知不同环境, 根据人的需求形成"化身" 形象。人机交互将被赋予智能化、情感性和思想性特征,数字人将复制人类 的知识、记忆、思维和情感,从而在社交系统、生产系统、经济系统上实现与自然人的虚实共生。

数字人的三大特征是虚拟化、拟人化和智能化。从技术上看, 数字人指存在于非物理世界中,由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机技术段创造,并具有多重人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物。

bfbf6196862a392e3c2c4608aad0e51f.jpeg

2. 数字人的一般设计流程

数字人,在技术上分为灵活的真人驱动型和基于深度学习的计算驱动型。

2.1 真人驱动的数字人

真人驱动型在动作灵活度、互动效果等方面有明显优势, 一方面能够在影视内容的创作中减低生产成本,为影视行业降低门槛,推动影视级内容向消费级转化。另一方面则多用于虚拟偶像、重要直播中,帮助数字人完成大型直播、现场路演等互动性、碎片化活动。

其一般设计流程如下:

  1. 形象设计及建模:绘制原画,面部及3D建模

  2. 建模绑定:关键点绑定的数量及位置影响最终效果。

  3. 表演捕捉:捕捉在形体、表情、眼神、手势等方面的关键点变化。

  4. 驱动及渲染:根据制作实时驱动数字人表演,特定设置语音

  5. 生成内容,进行互动:进行直播,或录制其动作生成内容

2.2 计算驱动的数字人

计算驱动的数字人最终效果受到语音合成、NLP 技术、语音识别等技术的共同影响。尽管在特定方向上,各感知类技术已有的商业化能力已足以支撑,然而,但要达成理想的综合效果, 需要该公司在三个方面同时具有较强的综合能力。

其一般设计流程如下:

  1. 设计形象:采集数据

  2. 形象建模,进行绑定:设计形象模型,进行关键点绑定。

  3. 训练各类驱动模型:利用深度学习,学习语音、形象、表情参数间的潜在映射关系。

  4. 内容制作:基于输入的语音预测唇动、表情等参数,利用GAN 选出最最佳帧,将语音和每帧的数字人图片进行结合。

  5. 进行渲染,生成最终内容。

9124b7a78c1845db47398c71495a8d47.png

3 大模型赋能数字人

生成式AI的崛起,给数字人产业带来了根本性变化。

传统的数字人技术主要依靠预设参数和有限的模型训练,但大模型技术则为其提供了近乎无限的训练参数和自主生成能力,使数字人更为真实多样。大模型包含了数字人形象、动作、表情、口型、声音等要素,每个用户可以结合个人数据对数字人进行训练。

大模型对 2D 数字人的提效显著。AI 的生成能力天然适配 2D 数字人。市面上出现了许多 2D 数字人定制工具,逻辑基本一致:只要你输入文案素材,就能生成数字人形象。

3D数字人的工作流比2D要复杂非常多,大模型能让数字人制作成本十倍、百倍地下降,还能让虚拟数字人生产周期,从动辄几个月,缩短到小时级别。数字人的制作成本,将从百万级降低到万元级别。

大模型不仅直接降低了3D数字人的制作难度,更为数字人注入了灵魂。过去3D建模依赖传统CG技术,动作捕捉需要采集真人大量数据,现在依托于视频大模型的数字人工具平台上,算法可以高效生成3D模型,处理面部细节也更加逼真,提升了面部表情以及唇形同步的质量。

更重要的是, 大模型在很大程度上解决了数字人的自然语言理解能力,多模态大模型是数字人真正的灵魂。然而,创意边界,毋庸置疑将会依靠大模型的语料库、算力储备,以及其所迸发的涌现能力来提升,效果仁者见仁智者见智。

4 数字人的评估指标

社会学中人类身体研究分为两条主要路径:自然主义身体观和社会建构论身体观。自然主义身体观重点强调人类的躯体属性“肉身”, 而社会建构论身体观则重点强调人类的社会属性“社身",从功能角度分析,两种身体观都关注了人类的工具属性"具身”。数字人综合指数以此为基础,将社会学中自然人的“身体观”引入数字人的评估思想中,形成数字人“三身”指数评价体系。

4b805f5ed271739c0f5b7ac824a43cdb.jpeg

5. 数字人的产业链

国内外在细分市场上的竞争差异较大,国内外目前的共同市场是自动生成虚拟内容,但在外表细节、预设模板、配 套系统等方面的差异较大。国外更关注情感关怀的顾问/助手类数字人和用于打造数字人的应用,国内更关注虚拟客服类场景,对虚拟直播的高度关注是我国特有方向。

e796007ea6b1b09ee32f4f2c20d00500.jpeg

6. 数字人的类型与应用领域

数字人的应用可分为服务型数字人和身份型数字人,替代真人服务中的虚拟主播和虚拟IP中的虚拟偶像是目前的市场热点。

8ea2c6e0f2d8c1eb629548ca37798179.jpeg

6.1 B端应用

目前,数字人产品大多应用于B端场景,例如帮助互联网商家实现全天候轮播的虚拟主播、 办事大厅内自助办理业务的虚拟前台、自动处理诉求的虚拟客服等,B端消费者仍是市场的主要组成部分。

  1. 重构内容生产模式

  2. 提升数字内容生产效率和质量

  3. 重新定义粉丝经济

  4. 助力品牌传播

  5. 转变品牌形象

  6. 拉近品牌和用 户的关系

  7. 新型带货赋能电商

  8. 推动数字化转型

  9. 助力企业提质增效

6.2 C端应用

数字人产品的C 端应用场景包括上传照片后重现逝去亲友的虚拟亲友、服务于儿童教育的虚拟陪读、监管自媒体公众号的虚拟小编等。C端应用场景仍有较大挖掘潜力。

  1. 参与用户的生活

  2. 追求更真实、更理想的自我

  3. 缓解真人手语主持人稀缺问题

  4. 有效解决听障人士沟通问题

  5. 成为人们的助理、朋友甚至伴侣

88a66b5905eb38b5090c9d28dbb89073.jpeg

7 数字人应用示例:品牌 IP 化

IP的呈现是抽象化的品牌理念被具象化后的产物,承载了品牌希望消费者被唤起的感性共鸣,并以独特的特质将该品牌与其他品牌进行区分。企业品牌往往以IP形象进行传播,动态的IP形象更能传递亲切感,引发受众的共情,使品牌形象更加鲜活生动,例如若干年前的海尔兄弟。如今,品牌方开始推出人形IP, 并从2D 的动画展示进化为3D 的 立体呈现,追求更加拟人化的效果,以拉近和受众的距离。

但是,单向传播无法充分调动受众的参与感。品牌方推出加入智能语音交互的数字人IP, 使之成为帮助用户处理具体事务的虚拟助手角色,或是陪伴角色。长时陪伴的IP使得用户产生更深层的情感,甚至形成“养成”体验, 增强IP的定制感。数字人IP的身份可以是宠物、伴侣、子女、同学等,用户不仅能够见证虚拟IP被自己塑造而发生的改变,也能洞见自身 在这一过程中的成长。

8. 数字人面临的问题与挑战

数字人同样存在技术瓶颈,也出现一些新的问题。

4f53c7aadc9d24f350af7b031ff28766.jpeg

8.1 技术挑战

尤其是计算型数字人,受限于大批量、高质量的训练数据样本,实现泛化性仍然是当前存在的挑战。写实风格的数字人在越来越像人的同时,仍需突破“恐怖谷效应"。

情感传达是技术瓶颈。当前仍然主要运用动作捕捉技术,数字人的表情基准还是无法传达类似于眉毛的弯曲度,肌肉颤动等微表情细节,所以很难将中之人所表达的情感完全传达出来。在人与数字人的在交流过程中只能单纯的传达文字,而背后的情感语义和情绪则没有办法直接传达出来。另外,数字人缺少情感Al 算法的应用,没有办法通过判断人说话的情感来转变回复进而改变情感倾向,实现更人性化的交互,基于多模态的大模型或许可以部分解决这一问题。

8.2人类友好问题

数字人所营造的新型人机关系,可能成为人类组织活动中强行嵌入的某种“异物”,人类组织对这类智能嵌入物是否有排异反应,目前还很难从个别的孤例中获取足够的数据,做出有效的判断。也就是说,当大量数字人,处于工作岗位、担当工作职责的时候,组织行为将会出现何种变化,尚待考察。

8.3 伦理问题

智能技术的核心算法,将技术与伦理问题紧密结合在一起。某种智能算法支撑下的数字人,在深度学习、大数据浸染之下,可能具备某种价值倾向、伦理倾向,甚至可能带有某种“邪恶”倾向。

8.4 法律问题

隐私保护是不变的主题,制作有真人原型的数字人需要抓取大量信息,而大量地、 非法地提供这些信息反映出漠视或忽略隐私保护的现象。隐 私安全的权利一部分属于现实用户,另一部分属于产生了自我意识的数字人。利用深度合成技术可以实现人脸再现,但随着网络技术逐步发展以及对肖像权保护力度的不足,大量抓取网络视频、图像的深度合成问题成为一种法律隐患。

虚拟空间是制作数字人的底层结构,因此虚拟网络的管辖 权就是客观规划数字人的基础。法律的管辖首先需要确定网络犯罪的所在地,而虚拟空间中的犯罪行为最初和最终发生在什么地方难以确定。

对应开发者而言,“避风港原则”是一种针对网络服务提供者的责任豁免原则,具体指网络服务提供者接到权利人的通知后,根据法律规定断开与侵权的作品、表演、录音录像制品的链接的,不承担赔偿责任。

9. 小结

数字人是未来人工智能大模型最重要的应用入口。通过大模型的赋能,数字人的产品发展首先要提升自主创新能力,有赖于数字资产的确权、自有技术运营、IP的持续迭代与进化。同时,需要打造全媒体的多模态传播体系和持续性事件营销体系,为数字人的传播内容的生产、呈现、自传播提供源泉,不断提升传播影响力。挖掘个性化传播内容,通过个性化吸引目标用户并保持用户粘性、提升忠诚度与口碑。另外,重视社会价值传播,赋予虚拟数字人社会服务属性,提升行业影响力和自身公信力。

如果觉得数字人过于复杂,不妨从一个语音机器人入手,临近双十一,推荐给大家一本本人参与的最新译作,可以作为语音机器人产品经理的案头手册,对于数字人的设计同样大有裨益。

6059197232a9483e52a193b29f65aae9.jpeg

【参考资料与关联阅读】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1179433.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【图像分类】【深度学习】【Pytorch版本】AlexNet模型算法详解

【图像分类】【深度学习】【Pytorch版本】AlexNet模型算法详解 文章目录 【图像分类】【深度学习】【Pytorch版本】AlexNet模型算法详解前言AlexNet讲解卷积层的作用卷积过程特征图的大小计算公式Dropout的作用AlexNet模型结构 AlexNet Pytorch代码完整代码总结 前言 AlexNet是…

2.数制与编码

目录 一. 进位计数制 (1)二进制,八进制,十进制,十六进制 (2)二进制,八进制,十六进制的转换 (3)十进制转换成任意进制 (4&#xf…

linux命令screen解决client_loop: send disconnect: Broken pipe

一、SSH连接服务器,client_loop: send disconnect: Broken pipe 最近需要在服务器上运行一个需要跑很久的脚本,但ssh连接的远程服务器的命令窗口经常会报:client_loop: send disconnect: Broken pipe,这个错误是ssh 命令之后没有活…

电路布线问题动态规划详解(做题思路)

对于电路布线问题,想必学过动态规划的大家都很清除。今天就来讲解一下这个动态规划经典题目。 目录 问题描述输入分析最优子结构代码 问题描述 在一块电路板的上、下2端分别有n个接线柱。根据电路设计,要求用导 线(i,π(i))将上端接线柱与下端接线柱相…

家用电脑做服务器,本地服务器搭建,公网IP申请,路由器改桥接模式,拨号上网

先浇一盆冷水! 我不知道其他运营商是什么情况。联通的运营商公网IP端口 80、8080、443 都会被屏蔽掉,想要开放必须企业备案(个人不行)才可以。也就是说,只能通过其他端口进行showtime了。 需要哪些东西? 申…

【鸿蒙软件开发】ArkUI容器组件之Grid(网格布局)

文章目录 前言一、Grid1.1 子组件GridItem是什么子组件接口属性事件示例代码 1.2 接口参数 1.3 属性1.4 Grid的几种布局模式1.5 GridDirection枚举说明1.6事件ItemDragInfo对象说明 1.7 示例代码 总结 前言 Grid容器组件:网格容器,由“行”和“列”分割…

php对字符串中的特殊符号进行过滤的方法

1、使用htmlspecialchars函数&#xff1a;此函数将特殊字符转换为对应的HTML实体。示例代码如下&#xff1a; $str "<script>alert(XSS)</script>"; $filtered_str htmlspecialchars($str); echo $filtered_str; 输出&#xff1a; <script>ale…

四阶龙格库塔与元胞自动机

龙格库塔法参考&#xff1a; 【精选】四阶龙格库塔算法及matlab代码_四阶龙格库塔法matlab_漫道长歌行的博客-CSDN博客 龙格库塔算法 Runge Kutta Method及其Matlab代码_龙格库塔法matlab_Lzh_023016的博客-CSDN博客 元胞自动机参考&#xff1a; 元胞自动机&#xff1a;森林…

线性表(顺序表,单链表,双链表,循环链表,静态链表)

目录 1.线性表的定义1.几个重要的概念2.逻辑结构 2.线性表的基本操作3.顺序表&#xff08;线性表的顺序存储&#xff09;1.静态分配2.动态分配3.顺序表的特点4.顺序表的基本操作1.插入2.删除3.查找1.按位查找2.按值查找 4.链表&#xff08;线性表的链式存储&#xff09;1.单链表…

HackTheBox-Starting Point--Tier 1---Funnel

文章目录 一 题目二 实验过程三 利用SSH隧道3.1 本地端口转发 一 题目 Tags FTP、PostgreSQL、Reconnaissance、Tunneling、Password Spraying、Port Forwarding、Anonymous/Guest Access、Clear Text Credentials译文&#xff1a;FTP、PostgreSQL、侦察、隧道技术、密码喷洒…

【笔记】判断高电平,低电平和方波的几种方法

读取某一个上拉电平信号&#xff0c;它可能输出是低电平&#xff0c;可能是高电平&#xff0c;可能是方波&#xff0c;并且这个方波不知道频率何占空比&#xff0c;那么如何来通过程序来判断呢&#xff1f;高电平和低电平都好说&#xff0c;利用HAL库读取即可&#xff0c;如下&…

在云上jupylab(codelab)常用的shell命令

1、切换当前文件目录位置&#xff1a; %cd /project/train/ 2、删除目标文件夹和文件夹下面的内容&#xff0c;注意这个r是不能少的&#xff1a; !rm -r /project/train/src_repo/dataset 3、创建数据集相关文件夹 !mkdir /project/train/src_repo/dataset 4、复制指定…

Pytorch tensor 数据类型快速转换三种方法

目录 1 通用,简单&#xff0c;CPU/GPU tensor 数据类型转换 2 tensor.type()方法 CPU tensor 数据类型转换 GPU tensor 数据类型转换 3 tensor.to() 方法,CPU/GPU tensor 数据类型转换 1 通用,简单&#xff0c; CPU/GPU tensor 数据类型转换 tensor.double()&#xff1a;…

Educational Codeforces Round 157 (A--D)视频详解

Educational Codeforces Round 157 &#xff08;A--D&#xff09;视频详解 视频链接A题代码B题代码C题代码D题代码 视频链接 Educational Codeforces Round 157 &#xff08;A–D&#xff09;视频详解 A题代码 #include<bits/stdc.h> #define endl \n #define deb(x)…

高频SQL50题(基础版)-2

文章目录 主要内容一.SQL练习题1.577-员工奖金代码如下&#xff08;示例&#xff09;: 2.1280-学生们参加各科测试的次数代码如下&#xff08;示例&#xff09;: 3.570-至少有5名直接下属的经理代码如下&#xff08;示例&#xff09;: 4.1934-确认率代码如下&#xff08;示例&a…

C#,数值计算——偏微分方程,Relaxation的计算方法与源程序

1 文本格式 using System; namespace Legalsoft.Truffer { public class Relaxation { private Relaxation() { } public static void sor(double[,] a, double[,] b, double[,] c, double[,] d, double[,] e, double[,] f, double[,] u, double rjac) …

大型Bat面试知识总结分享—AMS在Android起到什么作用?简单的分析下Android的源码

面试官: AMS在Android起到什么作用&#xff0c;简单的分析下Android的源码 心理分析&#xff1a;这道题在发生在大多数场景下。面对这道题 很多求职很茫然&#xff0c;不知道该如何说起。AMS本身比较复杂难以理解。工作多年也很难弄清AMS的作用&#xff0c;其实我们大可从以下几…

企业数字化转型与供应链效率-基准回归复刻(2007-2022年)

参照张树山&#xff08;2023&#xff09;的做法&#xff0c;本团队对来自统计与决策《企业数字化转型与供应链效率》一文中的基准回归部分进行复刻。文章实证检验企业数字化转型对供应链效率的影响。用年报词频衡量上市公司数字化转型程度&#xff0c;以库存周转天数来衡量供应…

大数据疫情分析及可视化系统 计算机竞赛

文章目录 0 前言2 开发简介3 数据集4 实现技术4.1 系统架构4.2 开发环境4.3 疫情地图4.3.1 填充图(Choropleth maps)4.3.2 气泡图 4.4 全国疫情实时追踪4.6 其他页面 5 关键代码最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; 大数据疫…

西门子S7-200SMART 通过向导实现S7通信的具体组态步骤示例

西门子S7-200SMART 通过向导实现S7通信的具体组态步骤示例 具体步骤可参考以下内容: 打开编程软件STEP7-Micro/WIN SMART在“工具”菜单的“向导”"区域单击"Get/Put"按钮,启动PUT/GET向导, 在弹出的“Get/Put”向导界面种添加操作步骤名称并添加注释。 点…