数字人的生死疲劳

news2024/10/7 11:22:41

dab8b954e1e05bca8d0d3d0197853708.jpeg

你看好数字人吗?

这个问题在今天似乎颇难回答。如果从宏观趋势上看,数字人的利好要素似乎已经达到了一个空前的高度。比如有市场分析机构预测,到2026年中国AI数字人的市场规模将突破100亿人民币,整体市场呈现高速增长态势。又比如今年7月,北京发布了《北京市促进数字人产业创新发展行动计划(2022-2025年)》(以下简称《行动计划》),这意味着数字人产业迎来了中国首个专项支持政策。《行动计划》中甚至提到,到2025年北京市数字人产业规模突破500亿元。

但如果我们从微观上看,又会发现数字人的发展与应用并不是一帆风顺的。今年双11,大量商家开始放弃使用数字人;很多企业、机构的数字人员工、虚拟偶像,在发布之后就杳无音讯;数字人解决方案报价太高、维护太贵的声音不绝于耳;很多投入了大量宣发资源,被寄予厚望的数字人项目,极短时间内就丧失了流量。

e3f5eab141f6a3d1fd41fa1f4e0b7b63.png

如果说,数字人在2020年末到2021年,高速完成了从技术孵化到教育市场的创生期,那么在目前阶段,数字人则恰好处在从产业链搭建到大规模应用转化的过渡期。这个阶段,虽然整体市场依旧被看好。但从产业链到应用场景、接受情况中的一系列问题也暴露了出来。数字人市场,开始不能用简单的“好”与“不好”来评判。

速生速死,极限拉扯的数字人,不免让我们想起一本书——莫言的《生死疲劳》。

莫言说,人活着就是要疲劳。今天我们可以说,不光是人,数字人想要活着,也挺疲劳。

0b216e1fad08b3e770b68baa54c5d29a.png

生于直播

讨论数字人的现状,我们必须先达成一个共识:什么是数字人?

一般来说,数字人是指具有拟人或者真人外貌、行为和特点的虚拟人物。这里的重点在于,今天很多人已经默认数字人是具有TTS语音合成、多轮对话、语义理解技术特征,由AI驱动的虚拟形象。但在整个产业发展的实际脉络来看,数字人长期以来都跟AI技术关系不大,或者只使用了比较初级的AI技术,比如语音合成。

最早的数字人,基本都是以虚拟偶像等方式出现的。就像初音未来、洛天依等等,基本是由动画设计+语音合成来实现。这时的数字人大多是作为展示,缺乏互动性,并且门槛很高,难以普及推广。

接下来,随着直播行业的发展,大量由真人配音,搭配TTS语音合成、唇形表型预测来实现的数字人开始出现。这时的数字人主要作用依旧是虚拟主播,但更多类似真人主播的一种“新型表演”,并不能从生产力上实现替代人类主播的作用。

57c55544e47331635f550c2b24a05bd4.png

当NLP、知识图谱技术不断成熟,数字人具备了多轮对话能力。同时机器视觉带来的唇形捕捉、面部捕捉技术愈发完善,由AI技术驱动的AI数字人开始出现。这时的数字人发生了最为深刻的一个变化:数字人可以独立完成人物,人工配音和真人扮演不再成为必备。这让数字人对齐了一个巨大的商业空间:在那些只需要简单对话、交互的工作中,由AI替代人类。

这样的工作有很多,比如AI数字人最早出现在企业园区中的导航、导览工作中。接下来,柜台服务、智能客服等领域开始出现数字人。尤其在金融、保险等领域,由于顾客的需求相对固定,且数字人不易出现人为错误。在这些行业薪资水平相对较高的前提下,数字人客服展现出了一定优势。

但与客服场景相比,真正让数字人火起来的,依旧是直播。从虚拟偶像到虚拟主播,直播始终都是数字人的天然温床,是数字人“生”的动力和希望。随着直播带货成为主流的电商消费形式,主播逐渐成了稀缺资源。很多厂商与品牌方,在近两年选择了全天候、多线路的高强度直播模式。而这就导致主播的需求压力激增。加上疫情导致主播工作不确定性增加、主播坑位费与雇佣费等成本增大等因素,让企业和MCN机构开始探索主播的替代方案。加上在目前的直播经济中,很多品牌方的直播需求仅仅是不间断宣讲信息、推出产品,工作门槛并不高,用AI代替人类主播就成为可能。

早在2021年双11,我们可以看到各个电商平台、直播平台,以及MCN机构的宣传重点,已经从直播带货能力,变成了虚拟主播、数字人的直播带货能力,以及综合成本优势。

另一方面,有问答互动能力,由AI驱动的数字人主播能够激发用户的猎奇感、新鲜感,因此直播市场普遍呈现正向反馈。这些反馈,支撑了今天大量关于数字人的政策支持与市场预判。

但生于直播,成于直播的数字人,有这样一个先决条件:数字人的应用成本,必须要比人类主播更低。

20b9e323838599b43d1fafd332fe6d04.png

这是因为,作为替代品出现的数字人,归根结底问答能力、应变能力与才艺能力都不如人类主播。数字人+直播的兴旺态势,建立在大量企业与商品等待开播,但没有主播可用的特殊需求上,从而导致大量低成本开发、模板换皮的数字人快速走上岗位。

随着主播需求开始发生调整,人类主播的成本降低,以及企业的直播需求逐渐放缓。数字人的市场利好也将逐步失效。而从另一个维度看,数字人本身的开发成本、制作成本却在上涨,对比人类主播的成本优势开始松动。

这是因为,数字人已经遇到了从业以来的最大挑战:同质化。

死于同质

3ed76cd919445e13e6b831d929d77aad.png

至少在目前阶段我们必须承认,由AI驱动的数字人依旧处在交互能力有限、表达单一的阶段。在对话比较尴尬的情况下,数字人更多作用还是播放已经录制好的内容,或者切换成人类配音+语音合成+唇形识别的“木偶人”模式。

当然,AI对于数字人的价值是多样的,并不限于多轮对话和知识图谱,还包括视觉、语音方面的内容。但无论怎么说,数字人应用很快进入了一个基本困境:由于数字人背后的AI模型来源只有那么几个,导致每个数字人即使在外貌上进行了差异设计,其交互能力和所具备功能却大多是一样的。

好看的皮囊万里挑一,但无趣的灵魂千篇一律。随着数字人带来的第一波新奇体验逐渐平淡,接下来如何让数字人产生差异化就成为了巨大挑战。

1ec89d6934db36036586d721cf9e5063.png

于是我们看到,很多数字人刚出道没多久就销声匿迹。“数字人之死”,远比预想中来得更快一些。某服装品牌的数字人,仅仅在直播和短视频平台活跃了几个月就杳无音讯;某大型活动的数字人推广大使,因为建模过于粗糙遭到网友吐槽;大量新出道的虚拟偶像,都缺乏能让人记住的特点;很多直播间在尝试了一段时间数字人后,又把人类主播召唤了回来。

蜂拥而上的数字人,绝大多数都没有激起什么水花,反而淹没在形象、功能、交互的高度同质化里,转眼消失不见。

一方面看好数字人长期发展,另一方面同质化又在侵蚀数字人的应用空间。想要逃离这个怪圈,行业似乎就只好“卷”起来。数字人摆脱同质竞争,需要卷设计、卷声优、卷渲染,更重要的是需要卷AI技术。数字人的核心技术包括图形计算、AI动作捕捉、NLP、语音合成、知识突破等等。这些技术能力都有升级空间,但所需代价是最大的。

一旦卷起来,想要摆脱同质化,数字人的成本又将直线上升,继而也就丧失了对标人类主播的低成本优势。这个进退两难的囚徒困境,导致数字人产业在大展宏图之前,已经先行进入了疲劳期。

f13c748053ef50df9dae0502970ab975.png

数字人,也疲劳

想生存,就要卷,这是科技行业永恒的命题。而对于今天的数字人来说,企业快速弄一个换皮、套壳的数字人主播确实是代价很小,甚至可以忽略不计。然而一旦企业对这样的数字人产品有了不满,希望能够做出有创意、足够智能的数字人,那么代价会猛然增加。

这种成本压力,导致企业出现了用数字人也不是,不用更不是的疲劳感。

具体来看,这种疲劳的来源是多方面的。前期的供应链成本、后期的运营维护成本,以及取悦最终用户的成本,都加剧了数字人长期应用的难度。我们可以将这些压力,总结成数字人的三种疲态:

1.产业链疲劳。

数字人拥有着非常漫长且非常复杂的供应链。它既然需要AI模型作为底层支撑,同时也需要开发工具、平台环境、存算网资源的支持。在技术能力之外,数字人还在设计、动画、专业人才等方面产生成本支出。一家企业如果想要获得完善且优质的数字人方案,要么自身具备统合多方面供应链与技术开发、艺术设计的能力,要么直接购买定制化的数字人解决方案。

显然,后一种方式对于绝大部分企业来说更加现实。但定制化和高要求意味着数字人的前期成本直线飙升。能否在后续应用中收回这些成本,或者能否有效降低这些成本,对于企业来说都是未知数。这也是为什么,很多企业宁可直接抛弃数字人,也不愿意升级数字人。或者依旧让初级的数字人解决方案苦苦支撑。

a7d7fc7a6fad67b0e9318ddf4868dd74.png

另一方面,对于数字人供应链企业来说,大量数字人都涌向直播,确实带火了业务。但过分聚焦的业务,让接下来的升级遭遇了困境。从产业链来看,数字人可能涉及显示硬件、光学器件、芯片、AI模型、AI开发工具、建模软件等等技术领域,还必须包括应用层的行业开发者与软件供应商。如此多复杂的产业链,最终都仅仅为直播服务。单一的应用场景很难消纳产业链的创新成本。这导致数字人的底层技术很难快速升级,或者将成本摊薄。

过长、过复杂,并且牵一发动全身的数字人产业链,导致数字人很难低成本、高效率做出改变。产业链惧怕应用窗口太窄,应用担心产业链升级太贵,最终让数字人出现了局面大好之下的焦灼感与焦虑感。

2.运维疲劳。

当前数字人产业的另一个问题,是很多企业发现数字人买得起,用不起。这是因为数字人的定制化服务整体成本过高,很多供应商担心市场情况。于是采取了降低一次性解决方案成本,但要捆绑运维支持的商业模式。而由于数字人的商业供需非常单一,这种模式大多需要落在依赖虚拟主播的电商来为之买单。

这种先尝后买的模式,非常容易带来后期运维层面的焦虑感。随着用户的习惯甚至厌倦,数字人直播带来的直接价值降低,其因为成本的压力就会突显出来。对于企业用户来说,会越发将数字人连续不断的运维费用作为负担,并且产生不愿升级、不愿续费的想法。而对于服务商来说,则更多希望降低数字人的真实运营成本,拓展自身的实际利润。这就导致很多数字人画风越来越崩坏,体验愈发不智能。这就是因为服务商降低了数字人的AI模型或者图像渲染成本。更有甚者,一些服务商甚至在不告知甲方的情况下,直接派真人配音来代替数字人当中的AI技术,以期降低运营压力。AI假装真人还未成功,真人已经开始扮演AI,这也是让人想不到的情况。

3.审美疲劳。

无论是前期投入还是后期成本,数字人产业的疲态都来自成本压力。而所有成本压力的来源,在于最终用户对数字人+直播/短视频的模式已经产生了审美疲劳。毕竟AI的交互能力与理解能力都有限,很难实现源源不断的新价值输出。但用户对于主播的期待是无限的,单调、重复,已经成为很多用户对数字人主播的刻板印象。

f862672fbb802246ddd1f67dd4b9be64.png

口味愈发苛刻的用户审美,会最终推动数字人产业链进行洗牌。低成本、高重复的模式很难维序下去。数字人能否真正走入大规模应用阶段,需要看是否能跳出这个疲劳怪圈。

如果说配音是数字人1.0,对唇形是数字人2.0,AI驱动是数字人3.0。那么走向4.0时代的数字人,必须要面对摆脱千篇一律的功能,走向直播之外的更广阔产业空间。智能与差异,是治愈数字人疲劳感的关键。

目前,解决这一问题的思路渐渐成形。比如说用大模型提升数字人的“脑容量”,ChatGPT的出现快速让很多产业兴奋了起来,其中就包括数字人。更多以预训练大模型来提升数字人智能水平的方案,将成为接下来这个领域的升级重点。

再比如通过硬件升级,来实现数字人更广泛的商业价值。新一代VR硬件这股风在欧美已经十分劲爆,并且开始向中国传导。在VR场景下,数字人可以以更多方式与用户交互,从而带来新的需求,解决一部分手机直播中的审美疲劳,这也是数字人摆脱直播依赖的一个方法。

还有,持续缩短数字人供应链,降低数字人的上游成本也是解决方案之一。很多云计算厂商,开始面向企业与软件开发者,推出封装好的一站式数字人搭建方案,从而让数字人从解决方案买断,更多转型自主开发、自主定制的低成本方案。

这些解题思路的最终结果,都还有待未来去检验。至少在今天,我们似乎没有理由认为数字人已经迎来了春天。在繁荣的市场预期与政策期待下,应该先问数字人几个问题:

1.直播中的数字人的价值究竟几何?他们的不可替代性和成本优势能够维持多久?

2.曾经的头部主播也纷纷过气,距离用户厌烦数字人还需要多久?

3.播之外,真的有商业价值能撑起如此复杂的数字人产业链吗?

数字人真想走出去,需要某个新技术带来规模庞大,且足够持久的新应用市场。或许只有一场深层次的技术变革,才能治好数字人的疲惫。

0459d01de82355c7614dd60607d17657.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/80635.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

git基础之三|初始化本地库、新建文件、提交代码、版本回退、穿梭等使用命令集合【2022最全版】

Git作为版本管理的软件,在我们的协同工作中非常重要。因此,对于Git的常见命令,如新建、编辑文件、提交版本、版本回退等操作必须要熟悉。 Git常用命令一、初始化本地库1、创建项目文件夹2、右击选择Git bash3、在bash中输入4、查看创建的结果…

mysql索引中最左前缀原则

最左前缀原则 最先匹配最左边的索引,匹配上就继续,如果匹配不上就检索不到 (a,b,c是索引) where后面的条件有没有给a对应的条件 不给定a等于几,是没法儿查询出结果的, 因为辅助聚簇索引是把索引按照组合索引的顺序存到一起的&…

IoTDB 可实现的基本操作 —— 数据写入、删除、导出、元数据管理、时区设置 | 小白教程文档(四)...

前言上篇教程介绍了 Apache IoTDB 处理时序数据时,能够实现的部分具体功能和具体的操作命令,包括数据导入、基本查询、和聚合查询。本篇将继续介绍 Apache IoTDB 可实现的其他功能和相关 SQL 语句命令,包括数据的写入、删除、导出、元数据操作…

python 解析库Beautiful Soup的安装

Beautiful Soup的安装一、Beautiful Soup的安装1.1 安装lxml库1.2 安装beautifulsoup41.3 验证beautifulsoup4能否运行一、Beautiful Soup的安装 Beautiful Soup是Python的一个HTML或XML的解析库,使用它可以很方便地从网页中提取数据。它的解析器是依赖于lxml库的&…

数组元素循环右移问题

目录 1008 数组元素循环右移问题 输入格式: 输出格式: 输入样例: 输出样例: 代码长度限制 时间限制 内存限制 思路: 1.右移函数 1.2函数代码: 2.main函数中 2.2main函数代码: 完整代码: 时间复杂度: 总结: 题目的链接: 1008 数组元素循环右移问题 一个数组A中存有…

MongoDB(一)【概念介绍安装】

MongoDB 概念以及安装 官方文档:https://www.mongodb.com/docs/manual/ 简介 官方介绍 MongoDB是一个文档数据库,旨在方便应用开发和扩展 百度百科 MongoDB是一个基于分布式文件存储的数据库。由C语言编写。旨在为WEB应用提供可扩展的高性能数据存储解…

【web前端期末大作业】html在线网上书店 基于html制作我的书屋(23页面)

🎉精彩专栏推荐 💭文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业: 【📚毕设项目精品实战案例 (10…

反序列化漏洞原理

序列化及其出现场景 ●远程和进程间通信(RPC/IPC) ●连线协议、Web服务、消息代理 ●缓存/持久性存储区 ●数据库、缓存服务器、文件系统 ●HTTP cookie、HTML参数、API身份验证令牌 序列化 (serialize)是将对象的状态信息转换为可以存储或传输的形…

基于java+springmvc+mybatis+jsp+mysql的电动车实名制挂牌管理系统

项目介绍 电动车实名制挂牌管理系统的需求和管理上的不断提升,电动车实名制挂牌管理的潜力将无限扩大,电动车实名制挂牌管理系统在业界被广泛关注,本网站及对此进行总体分析,将电动车实名制挂牌信息管理的发展提供参考。电动车实…

微信接入ChatGPT,使用Node+ChatGPT+Wechaty做一个微信机器人

目录 前言 准备工作 起步 实践 写在最后 前言 接上篇文章:站在巨人的肩膀上,用NodeChatGPT模块实现一个接口_DieHunter1024的博客-CSDN博客 我将ChatGPT模块的使用介绍了一下,使用自己的session发送请求达到调用ChatGPT进行聊天的目的&…

动态规划——背包问题(2)

文章目录多重背包的单调队列优化例题思路代码二维费用背包问题例题背包问题装法的总结:至多、恰好、至少背包最多装V体积背包恰好装V体积背包最少装V体积例题求解方案数初始化和循环顺序例题求解具体方案思路例题考察思维的一些题目多重背包与分组背包机器分配金明的…

原生JS开发手机端H5项目总结(FamilyChallenge)

一、 插件文件 (可多选) JQuery (操作dom)lottie.js (播放动效)preload-0.6.2.min.js(资源预加载)jweixin-1.6.0.js (h5跳转微信小程序)TweenMax.min.js &am…

Lidar based off-road negative obstacle detection and analysis(论文翻译)

(机翻 自己留作资料的 大家辩证使用 论文地址:https://ieeexplore.ieee.org/document/6083105) Abstract: 无人驾驶地面车辆 (UGV) 要想在越野地形中高速行驶,就必须实时分析和了解周围的地形:它必须知道它打算去哪里&…

备忘录模式

一、备忘录模式 1、定义 备忘录模式(Memento Pattern)又称作快照模式(Snapshot Pattern),指在不破坏封装的前提下,捕获一个对象的内部状态,并在对象之外保存这个状态。这样以后就可将该对象恢复…

你好,Cartesi Rollups Alpha 0.8.0

支持 Arbitrum 和 Optimism 部署,并使内部增强。我们通过这个新版本支持在Optimism和Arbitrum L2 链上的部署,为 Cartesi Rollups DApp 开发人员带来了更低的延迟和更低的gas费用。我们致力于提高 Cartesi 技术的多样性和性能提升,并且通过 R…

【MySQL】视图

文章目录视图基本使用视图规则与限制视图 视图是一个虚拟表,其内容由查询定义,同真实的表一样,视图包含一系列带有名称的列和行数据,视图的数据变化会影响到基表,基表的数据变化也会影响到视图, 主要作用是,将表的内容,常用需要的部分创建一个部分,这样使用视图的时候,可以减…

CAS:1407166-70-4,NODA-GA-NHS ester大环化合物供应

基本信息 名称: NODA-GA-NHS ester 2,2′-(7-(1-carboxy-4-((2,5-dioxopyrrolidin-1-yl)oxy)-4-oxobutyl)-1,4,7-triazonane-1,4-diyl)diacetic acid CAS编号:1407166-70-4 分子式:C19H28N4O10,HPF6,TFA 分子量&a…

HTTP MIME类型

文章目录HTTP MIME类型HTTP MIME类型 HTTP 请求头中的 Accept 头是客户端用来告诉服务器,客户端可以处理什么类型的内容,这种内容类型使用 MIME 类型来表示。借助内容协商机制,服务器可以从诸多 MIME 中选择一项进行应用,并使用 …

Java精品项目源码第145期食品检测管理系统

Java精品项目源码第145期食品检测管理系统 大家好,小辰哥又来啦,今天给大家介绍一个错的基于SSM的食品检测管理系统。 文章目录Java精品项目源码第145期食品检测管理系统前言一、项目运行1.运行环境2.截图前言 提示:以下是本篇文章正文内容…

大数据-玩转数据-Linux部署redis集群

一、下载安装包 访问https://redis.io/download 到官网进行下载。这里下载最新版本. 或直接下载 wget http://download.redis.io/releases/redis-6.2.7.tar.gz 二、安装环境 redis是C语言开发,安装redis需要先将官网下载的源码进行编译,编译依赖gcc环…