科技云报道:大模型加持后,数字人“更像人”了吗?

news2024/11/27 4:34:57

科技云报道原创。

北京冬奥运AI 虚拟人手语主播、杭州亚运会数字人点火、新华社数字记者、数字航天员小诤…当随着越来越多数字人出现在人们生活中,整个数字人行业也朝着多元化且广泛的应用方向发展,快速拓展到不同行业、不同场景。

面向C端,数字人帮助用户生产内容和辅助工作,如:数字人练口语、和数字人玩游戏等;面向B端,数字人是企业的“工具人”,应用于金融、影视、电商、直播等行业,提高行业生产和运营效率。

毫无疑问,数字人是一门好生意,但其规模化落地依然面临着人才、成本、场景、技术等层层困难。其中,最关键的是技术瓶颈,如何让数字人摆脱“空有一副好皮囊”的市场评价是一大难题。

然而,随着大模型的出现,数字人的发展似乎正在迎来新的机遇。
在这里插入图片描述

大模型赋能数字人

对于产业界而言,数字人本身并不新鲜。在过去很长一段时间内,为了又力求数字人视觉外形上的高保真呈现,生产成本不亚于制作一部专业级电影。

瑞银发布的数字人研究报告指出,高级虚拟人物的先期投入成本平均为3000万元,后期又需要真人团队完成拍摄、配音、剪辑。以乐华娱乐的虚拟女团A-SOUL为例,其一支单曲制作成本约200万元,一场线下演唱会成本约2000万元。

但即便是如此高昂的成本,也解决不了数字人的互动效果问题。由于智能水平不足,与其说它是数字人,更像是一个没有灵魂的数字皮套。

高成本,再加上互动效果不佳,使得数字人的使用被限制在厂商内部或大企业客户的试验项目。

因此,当具有学习能力的生成式大模型颠覆了内容制作范式后,面向更广范围的中小型企业用户、优先规模化落地使用的廉价数字人成为了可行方案。

据一名人工智能研究人员介绍,大模型对数字人的重塑与赋能主要体现为降本增效。

从技术角度来说,搭建一个数字人主要分为建模、驱动、渲染几个环节。传统的数字人主要依托计算机图形学技术+真人动作捕捉,需要采集大量的真人数据,深度建模,耗时长,效率低,成本高。

如今在大模型的加持下,通过AI算法,基于深度学习模型、动作模拟、情感模拟等技术,只需要几分钟的真人视频,用大模型训练若干个小时,就可以生成逼真的数字人,制作成本大大降低。

不仅如此,数字人在成本降低的同时,效能也大大提升。

在大模型出现以前,数字人在外形上差异度较小,而且只能根据输入的统一脚本,“照本宣科”地回答问题。

在大模型的赋能下,数字人拥有了“灵魂”,不仅外貌特征可以自定义设计,智能化、交互性也有了很大提升。比如在一些直播带货场景中,数字人已经可以与受众进行基础互动。

比如,百度智能云发布的曦灵数字人,大模型的加持下,可以15分钟快速完成直播间搭建,自动生成匹配产品特色的讲品话术,开启智能互动问答。

在某餐饮品牌的直播间,曦灵数字人主播自动生成直播话术,包含开场破冰、福利放送、暖场话术、催单话术等。在这场真人与曦灵数字人的接力直播中,用户竟然没有丝毫察觉。

更令人惊讶的事,在真实6小时的直播比对中,数字人主播仅需真人主播15%的成本,就可获得真人主播85%GMV。

除了直播带货,百度智能云曦灵作为国内首个大模型全面重构的数字人平台,还可为企业提供2D真人、3D写实、3D超写实的人像,实现视频制作、数字员工、数字人代言人等多种应用。

比如,在曦灵平台,只需5分钟的真人视频,半小时即可训练人像,录制100句话语,24小时生成专属音色库,相比真人授课成本只需过去的30%,录制效率提升20倍。

不难发现,经过大模型重塑与赋能的数字人,一定程度上摆脱了价格昂贵、互动性差等问题,越来越广泛地出现在短视频、直播间中。

同时,数字人开始朝着更多“身份”进军——银行理财师、律师、老师、已逝的名人……数字人正在成为任何想成为的人,也为这条日渐拥挤的赛道带来了新的机遇。

让数字人更像“人”

大模型的出现让数字人“脱胎换骨”,成为如今最火的创业赛道之一。

目前市场上主要的数字人厂商主要有两类:一类是以百度、腾讯、华为等为代表的科技巨头,基于自身大模型方面的优势研发推出数字人产品;另一类是以硅基智能、出门问问、相芯科技等为代表的中小厂商。

多名人工智能领域投资人表示,目前AIGC(生成式人工智能)还处于早期阶段,能落地产生利润的不多,数字人是其中比较少有的商业化路径,且已经能够盈利的项目。

但随着大量的创业者涌入,行业竞争趋于激烈和同质化,赛道逐渐变得拥挤和内卷。

内卷的一个表现是价格越降越低。目前2D数字人的价格大多数已经降到千元级别,有的甚至只需要几百元。

360集团的数字人营销服务也显示,通过智能营销云平台的配套SaaS服务推广给客户,按照会员用户每月付费的标准估算,一款数字人的价格最低几十元,最高在一、二百元上下。

随着大量低成本的数字人涌入市场,百元级别的数字分身迅速被炒成一本万利的“财富经”。

每到深夜,打开主流平台,大量的数字人坚守在直播间。随之而来的是关于数字人的质疑声渐起,诸如效果太假、市场混乱等,导致用户体验不佳。

有业内人士认为,随着越来越多的玩家涌入,一些创业者技术能力有限,生产的数字人产品质量良莠不齐,容易导致劣币驱逐良币。

一方面,数字人多用于较为简单的环境、解决较为基础的问题,在场景切换或面对多轮对话时,可能出现答非所问或陷入死循环的情况,制约用户体验。

另一方面,大模型下的数字人交互体验始终与真人存在明显差异,比如,在Sora生成内容中,无视物理学原理、人的手指时多时少等问题被广为诟病,可能进一步引发心理方面的“恐怖谷效应”。

对此,也有专家认为,需要进一步提升技术创新能力和用户体验感,在保证数字人外在拟人效果的同时,优化用户交互体验,注重实时渲染、光学捕捉、三维重建、智能人机交互等新兴技术与自然语言处理、语音识别、计算机视觉、生成式AI等技术的研究和应用。

“当前行业正在共同突破的技术目标是‘如何让数字人变得更像一个人’,像人一样去思考”,一位业内人士表示,加快企业间的技术协同,解决交互型数字人在情绪感知、语义理解等方面的技术难题是接下来的重点。

这一系列的挑战都指向技术侧。

2024年度《中国虚拟数字人影响力指数报告》指出,截至2024年2月底,国家知识产权局“专利检索”数据显示,2023年全年数字人领域专利申请数高达544个,反映出业界在核心技术研发上的强劲势头和深度创新。

从2023年数字人相关专利申请机构来看,以百度、腾讯为代表的老牌互联网巨头,以中国移动、工商银行为代表的头部通信、金融机构,以小冰公司、世优科技、黑镜科技为代表的头部数字人公司形成了技术端的多强格局。

尽管行业头部大厂在AI技术上拥有了先发优势,但在产业高速发展的过程中,每个公司在技术本身都没有绝对的壁垒,本质上技术背后是人。对于所有数字人厂商来说,AIGC带来机会的同时,也成为直面挑战的起点。

结语

数字人正处于风口,吸引了大量想分一杯羹的创业者涌入。但不可否认的是,作为一项年轻的技术,数字人还处于早期阶段,市场尚在培育之中。

对于同处一片红海中的数字人公司来说,要思考的或许不是如何“卷低价”,而是通过技术的不断进步,让数字人“更像人”,提高行业的整体水位,让数字人“活下去”,创造更多的价值。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1590733.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

免杀开发基础(1)

目录 前言 个人介绍 我的技术与生活——小站首页 | Hexo (xiaoyunxi.wiki)https://xiaoyunxi.wiki/ 免杀开发基基础 动态函数加载和执行 Shellcode执行技术 1.指针执行 2.申请内存指针执行 3.回调函数 注入技术 shellcode加密手段 title: 免杀开发基础(1) author: …

结合文本的目标检测:Open-GroundingDino训练自己的数据集

1、简单介绍 Open-GroundingDino是GroundingDino的第三方实现训练流程的代码,因为官方GroundingDino没有提供训练代码,只提供了demo推理代码。 关于GroundingDino的介绍可以看论文:https://arxiv.org/pdf/2303.05499.pdf GroundingDino的G…

SpringBoot学习之Kibana和Elasticsearch-Head的下载安装和启动(三十二)

一、Kibana简介 Kibana是一个开源的分析与可视化平台,设计出来用于和Elasticsearch一起使用的。你可以用kibana搜索、查看存放在Elasticsearch中的数据。Kibana与Elasticsearch的交互方式是各种不同的图表、表格、地图等,直观的展示数据,从而达到高级的数据分析与可视化的目…

springboot+vue2+elementui+mybatis- 批量导出导入

全部导出 批量导出 报错问题分析 经过排查,原因是因为在发起 axios 请求的时候,没有指定响应的数据类型(这里需要指定响应的数据类型为 blob 二进制文件) 当响应数据回来后,会执行 axios 后置拦截器的代码&#xff0…

Ubuntu22.04搭建CLion C++开发环境

Ubuntu22.04搭建CLion C开发环境 文章目录 Ubuntu22.04搭建CLion C开发环境1.首先下载CLion2.配置c环境3.创建快捷方式Reference 1.首先下载CLion 进入官网https://www.jetbrains.com/clion/download/#sectionlinux 然后进入自己存放这个压缩包的路径中, sudo mkd…

单调栈用法

文章目录 1. 单调栈1.1 理解单调栈(模板)1.2 每日温度1.3 子数组的最小值之和1.4 柱状图中最大的矩形1.5 最大矩形1.6 最大宽度坡1.7 去除重复字母 1. 单调栈 单调栈经典的用法: 对每个位置都求: 当前位置的左侧比当前位置的数…

电商技术揭秘22:智能仓储与物流优化(上)

相关系列文章 电商技术揭秘一:电商架构设计与核心技术 电商技术揭秘二:电商平台推荐系统的实现与优化 电商技术揭秘三:电商平台的支付与结算系统 电商技术揭秘四:电商平台的物流管理系统 电商技术揭秘五:电商平台…

【Java8新特性】二、函数式接口

这里写自定义目录标题 一、什么是函数式接口二、自定义函数式接口三、作为参数传递 Lambda 表达式四、四大内置核心函数式接口1、消费形接口2、供给形接口3、函数型接口4、断言形接口 一、什么是函数式接口 只包含一个抽象方法的接口,称为函数式接口。你可以通过 L…

php其他反序列化知识学习

简单总结一下最近学习的,php其他的一些反序列化知识 phar soap session 其他 __wakeup绕过gc绕过异常非公有属性,类名大小写不敏感正则匹配,十六进制绕过关键字检测原生类的利用 phar 基础知识 在 之前学习的反序列化利用中&#xff0…

CentOS 网卡ifcfg-eth0 ping不通外网(www.baidu.com)

1、如果确认好就直接激活网卡! ifup eth0 2、慢慢找: cd /etc/sysconfig/network-scripts/ ls 找到你的网卡是啥,这里网卡是 ifcfg-eth0 执行1就好了!

基于ssm会员卡管理系统的设计与实现论文

摘 要 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本会员卡管理系统就是在这样的大环境下诞生,其可以帮助管理者在短时间内处理完毕庞大的数据信息&…

自媒体ai写作成长之路:8款工具助力你飞得更高! #学习#科技#科技

在当今信息爆炸的时代,写作成为了人们表达思想、分享知识和传递情感的重要方式之一。对于很多人来说,写作并非易事。我们会陷入困境,无法找到灵感,我们会苦恼于语言表达的准确性,还有时候我们可能遭遇到了创作瓶颈&…

未来汽车硬件安全的需求(2)

目录 4.汽车安全控制器 4.1 TPM2.0 4.2 安全控制器的硬件保护措施 5. EVITA HSM和安全控制器结合 6.小结 4.汽车安全控制器 汽车安全控制器是用于汽车工业安全关键应用的微控制器。 他们的保护水平远远高于EVITA HSM。今天的典型应用是移动通信,V2X、SOTA、…

Ubuntu日常配置

目录 修改网络配置 xshell连不上怎么办 解析域名失败 永久修改DNS方法 临时修改DNS方法 修改网络配置 1、先ifconfig确认本机IP地址(刚装的机子没有ifconfig,先apt install net-tools) 2、22.04版本的ubuntu网络配置在netplan目录下&…

C++ 类和对象 上

目录 前言 什么是面向对象?什么是面向过程? 面向过程 面向对象 比较 类 引入 定义 实例化 类的大小 this指针 前言 今天我们来进入C类和对象的学习。相信大家一定听说过C语言是面向过程的语言,而C是面向对象的语言?那么他…

[当人工智能遇上安全] 13.威胁情报实体识别 (3)利用keras构建CNN-BiLSTM-ATT-CRF实体识别模型

《当人工智能遇上安全》系列将详细介绍人工智能与安全相关的论文、实践,并分享各种案例,涉及恶意代码检测、恶意请求识别、入侵检测、对抗样本等等。只想更好地帮助初学者,更加成体系的分享新知识。该系列文章会更加聚焦,更加学术…

微信小程序全屏开屏广告

效果图 代码 <template><view><!-- 自定义头部 --><u-navbar title" " :bgColor"bgColor"><view class"u-nav-slot" slot"left"><view class"leftCon"><view class"countDown…

2024-简单点-观察者模式

先看代码&#xff1a; # 导入未来模块以支持类型注解 from __future__ import annotations# 导入抽象基类模块和随机数生成器 from abc import ABC, abstractmethod from random import randrange# 导入列表类型注解 from typing import List# 定义观察者模式中的主体接口&…

Rocky(Centos)数据库等高并发或高io应用linux系统调优,及硬件问题排查(含网络、磁盘、系统监控)

一、系统参数优化 默认的最大打开文件数是1024.不满足生产环境的要求。按照如下配置&#xff1a; 1、修改 systemctl管理的 servie 资源限制 编辑/etc/systemd/system.conf # 全局的打开文件数 DefaultLimitNOFILE2097152 # 全局打开进程数 DefaultLimitNPROC655352、调整系…

【Vue3 + ElementUI】表单校验无效(写法:this.$refs[‘formName‘].validate((valid) =>{} ))

一. 表单校验 1.1 template模块 el-form 中 若校验&#xff0c;ref 和 rules 必须要有 <template><div style"padding:20px"><el-form ref"formName" :model"form" :rules"formRules" label-width"120px"…