押注数字人,百度、科大讯飞“短兵相接”

news2024/10/5 16:32:24

 

配图来自Canva可画

近两年,小雀斑、柳夜熙、AYAYI等大量网红数字人的相继出现,以及虚拟数字技术在《指环王》和《阿凡达》以及《刺杀小说家》等电影中的广泛应用,还有北京冬奥会期间数字人在手语解说、节目直播等众多场合亮相,使得公众对数字人的认知上升到了一个新的台阶。

作为数字经济的重要环节,数字人为数字经济的发展注入了新的动能。于是,各个行业企业便涌现出了多个玩家,纷纷基于已有的相关技术和业务基础,开始进军数字人赛道,数字人行业也由此迎来了一波新的发展热潮。

数字人乘风而起

随着数字人在各行各业中的应用越来越广泛,国内数字人市场规模也在持续稳步增长。根据IDC在《中国AI数字人市场现状与机会分析2022》报告中预计,到2023年中国AI数字人市场规模将达102.4亿元。而数字人市场之所以将呈现高速增长的态势,则与三大利好不无关系。

从政策层面来看,国家政策的大力支持,预示着数字人的前景一片大好。近年来,国内虚拟现实相关产业备受外界关注,自2016年起,国家就发布了多项政策支持我国虚拟现实产业的发展,并将虚拟现实和增强现实与云计算、大数据、物联网、工业互联网、区块链、人工智能一起列为了数字经济重点产业。而虚拟数字人作为虚拟现实产业重要的应用之一,自然也有望享受到政策利好所带来的红利释放期。

从技术层面来看,数字技术的融合发展,驱动了数字人进入发展快车道。其实数字人出现的时间并不算晚,只是受技术应用水平的限制,早期的数字人制作周期长且成本高。而近几年,随着CG、语音合成、深度学习算法、自然语言处理等技术的进步,数字人各环节制作周期大大缩短、制作成本明显降低,数字人制作也走向了智能化。坚实的技术基础,不仅创新了数字人行业的发展应用,更是加速了数字人场景化的应用落地。

从环境层面来看,AIGC技术的逐渐成熟,助力了数字人行业规模的拓展。数字人虽然最初多应用于影视、游戏等行业,但随后应用场景将会不断拓展。只不过,越复杂的环境对数字人的信息处理能力、即时互动能力,以及表达能力等都有着更高的要求。而在AIGC的赋能下,数字人内容生产流程将有望得到创新,可助力数字人广泛与各行业领域相结合,为数字人描绘出了极大的创作及交互想象空间。

在政策、技术、环境的多轮驱动下,数字人应用场景将持续得到拓展与深化。而随着数字人行业进入高速发展期,国内也已出现了诸多相当有竞争力的玩家,这其中,以百度为代表的综合类互联网技术厂商,以及以科大讯飞代表的专长类AI厂商的表现最为突出,优势也最为明显。

百度“双轮驱动”

目前来看,数字人虽然已经应用于多个领域,但当前市场上大多的数字人产品精度依旧较低,而百度不仅上线了具备较强的视觉感知和动作控制能力,能够通过手势、语音等方式与用户进行互动的虚拟数字人,还搭建了百度智能云曦灵智能数字人平台,提供虚拟形象智能交互解决方案,而这些产品的生成,都源于百度为数字人相关开发提供了绝佳的土壤。

一方面,百度在AI技术上的领先优势,能够高效率、高质量地推动其数字人技术的迭代升级。众所周知,数字人的发展离不开计算机视觉、智能语音、自然语言处理等AI技术的支持,而作为国内唯一一家既有视觉能力,又有语音、语义相关包括计算机图形学自动生成全链路AI能力平台型的公司,百度已经积累了大量全栈AI能力,而这无疑是其数字人成功落地的实力与底气。

另一方面,百度标准化、平台化的优势,可以有效降低运营门槛,助其数字人实现广泛应用。想要实现“人均一个”数字人,产品标准化、平台化必不可少。得益于百度在视觉、NLP、语音交互等底层全栈AI技术优势的长期积累,以及PLATO百亿参数对话大模型,百度智能云已经将这一能力平台化、标准化,这不仅使其部署成本更低,周期更短,还可以做到一次部署、一次建设,并在多个场景下形成虚拟数字人能力,实现端到端软硬一体的商业应用。

百度凭借无可比拟的AI能力,加之在标准化、平台化中服务稳定、成本低廉等特点,在数字人领域先发制人,在产品力、市场上走在了行业前列。据了解,百度智能数字人平台是世界上首个在线语音交互注意力模型,实现与数字人自然畅通交流,高准确度的音画同步,逐字口型准确率>98.5%。另外,目前百度终端虚拟人产品,也已经以智能客服的形象,成功落地在了深圳、重庆、郑州等多个城市的各大地铁站,全天候为来往的乘客提供最便利的智能咨询服务。

科大讯飞“三线出击”

数字人已经成为多家厂商发力的重点,凡是进入的玩家都在机器视觉、语音交互和自然语言处理等方面有着或多或少的技术积累,而尽管国内诸多互联网大厂和科技巨头都瞄准了数字人赛道,但作为亚太地区知名的智能语音和人工智能上市企业,科大讯飞同样在推动数字人产品和场景应用落地上,建立起了自己的优势。

一是,科大讯飞所具有的丰富的技能和问答知识储备,可以让其数字人变得更加聪慧智能。一直以来,科大讯飞都在致力于让机器“能听会说,能理解会思考”,其开发的星火大模型不仅在开放式知识问答上取得了突破,其多轮对话、逻辑和数学能力也有所升级。而科大讯飞语言理解、知识问答、逻辑推理等各项能力的持续提升,能够使其数字人准确地理解用户问题,并给出自然、准确的回答,为用户带来更为丰富的使用体验。

二是,科大讯飞在智能语音技术方面的深厚积淀,可以为其数字人的落地提供全链路保障。科大讯飞自成立以来,就一直从事着智能语音、自然语言理解、计算机视觉等核心技术的研究,并且其在语音、图像、自然语言理解、机器认知推理能力、多语种多模态人机交互等方面的技术和产业化应用已具有业界领先水平。得益于此,科大讯飞的数字人也就能得到语音识别、语义理解、语音合成、形象驱动、视频渲染服务的全链路保障。

三是,科大讯飞专属的数字人定制能力,有助其在众多厂商中形成差异化优势。科大讯飞可以根据客户要求,在客户的不同业务场景下进行AI虚拟人赋能,为客户提供一站式、定制化AI虚拟人服务。比如,在服务部署上,可以灵活采用公有云或私有云的部署方案,保障交互服务的安全稳定;在形象声音上,可以根据客户音色、风格的需求灵活定制专属的个性化语音库;在虚拟人形象上,可以支持2D真人形象,从而为客户定制专有IP形象。

仍需负重前行

在数字时代,数字人已经开始在各个企业中扮演关键角色。然而对于数字人企业而言,打通产业链各环节、修炼技术“内功”,才是打造竞争优势、强化竞争壁垒的关键。因此,即便是国内数字人发展较为成熟的公司,已经在客户积累、技术实力、销售渠道、资金供给等方面具备了一定积累,但由于数字人行业天花板依旧较高,想要维持长期和衍生发展并不容易。

一方面,国内数字人尚处于起步阶段,距离商业化规模推广仍有一定距离。尽管国内诸多企业的数字人已经实现了场景化应用,但就整体而言,我国数字人行业发展仍处于起步阶段,不仅尚未跑出一个覆盖全产业链的数字人企业,大多数企业在数字人情绪感知、语义理解、情感连接等方面仍有所欠缺。另外,国内各家数字人在细分市场上的产品也都还仍处于试验可行性的阶段,大规模商业化暂时还难以实现。

另一方面,海外巨头的数字人优势明显,国内企业想要追赶还需更加努力。国内领先企业的数字人产品虽然已经颇具特色,但国内企业更侧重AI技术的开发与内容应用,因此数字人产品大多探索的是其在社交活动、新闻媒体、文旅等领域的应用。而海外巨头多聚焦于数字人的基础建设,技术优势较为明显。比如英伟达、Unity等均基于自身技术优势向下游生产技术服务平台延伸,相较于国内,其技术壁垒就更为深厚。

目前来看,国内以百度、科大讯飞为代表的科技企业在数字人上的探索虽然还有一定难度,但值得注意的是,在各个大厂的不断发力,以及人工智能技术的大力加持下,数字人的制作运营效率有望得到持续优化,其应用价值也将得到不断释放。而随着百度、科大讯飞不遗余力地加速数字人的进程,其数字人的未来也将会非常值得期待。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/719667.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2024浙大GMSCM提面第一场:全英文项目的生死选择题

本周末是今年浙大MBA非全英文项目GMSCM的第一场提前批面试,作为诸多方向中相对比较稳定的项目之一,GMSCM项目每年的提前批面试申请也都表现的比较稳健,而其目前主要的招生也是依托于提前批面试,根据这几年的情况,每年浙…

vue+cesium 获取鼠标浮动的经纬度

一、需求 是在地图中展示鼠标的经纬度 二、成果展示 三、思路和方法 html <div class"mouseMove" v-if"mouseMove.lat"><div v-if"mouseMove.lat">经度&#xff1a;{{ mouseMove.lng }}</div><div v-if"mouseMove…

关于研究SELECT * 是否会导致SQL查询效率变低的问题

引言 无论在工作还是面试中&#xff0c;关于SQL中不要用“SELECT *”的问题&#xff0c;经常会被大家用作讨论&#xff0c;虽说听烂了&#xff0c;但普遍理解还是在很浅的层面&#xff0c;并没有多少人去追根究底&#xff0c;探究其原理。 一、效率低的原因 先看一下最新《阿…

计算机网络_ 1.3 网络核心(数据交换_电路交换_多路复用)

计算机网络_数据交换_电路交换_多路复用 多路复用频分多路复用FDM时分多路复用TDM波分多路复用WDM码分多路复用CDM 多路复用 多路复用&#xff08;Multiplexing&#xff09;&#xff0c;简称复用&#xff0c;是通信技术的基本概念。 链路/网络资源&#xff08;如带宽&#x…

【动态规划算法】第四题:91.解码方法

&#x1f496;作者&#xff1a;小树苗渴望变成参天大树 &#x1f389;作者宣言&#xff1a;认真写好每一篇博客 &#x1f38a;作者gitee:gitee &#x1f49e;作者专栏&#xff1a;C语言,数据结构初阶,Linux,C 动态规划算法 如 果 你 喜 欢 作 者 的 文 章 &#xff0c;就 给 作…

一建建筑周超口袋书

第一部分 建筑工程技术1A414000 建筑工程材料[B-4,2021] 常见的高分子防水卷材有哪些?三元乙丙、聚氯乙烯、氯化聚乙烯、氯化聚乙烯-橡胶共混及三元丁橡胶防水卷材记忆技巧三单数年考试中&#xff0c;2011 年屋面女儿墙渗漏水处理&#xff0c;2015 年女儿墙防水识图找错&#…

element ui table 状态用switch展示

效果图如下 方法一&#xff1a;将图片封装成组件 1.&#xff1a;ImgswitchOpen.vue 2&#xff1a;页面引入组件 3&#xff1a;使用 方法二&#xff1a;引入图片 1&#xff1a;引入图片 2&#xff1a;在data中定义 3.使用

垂直领域大模型:从医疗ChatDoctor到金融BloombergGPT、法律ChatLaw/LawGPT_zh

第一部分 各种医疗类ChatGPT&#xff1a;或中英文数据微调LLaMA、或中文数据微调ChatGLM 1.1 基于LLaMA微调的中英文版ChatDoctor 1.1.1 ChatDoctor&#xff1a;通过self-instruct技术提示API的数据和医患对话数据集微调LLaMA Github上有一个基于LLaMA模型的医疗微调模型&am…

c++高性能264/265实时h5流媒体服务器前后端整体解决方案

c高性能264/265实时h5流媒体服务器前后端整体解决方案 1.效果展示 下图展示了前端播放效果。 播放1路264视频流&#xff0c;4路265视频流 CPU占用率10%(测试机器上运行着c服务端和其他工具程序) GPU0占用率17% 1.1 作者测试机器配置 处理器 11th Gen Intel Core™ i7-118…

如何确定适合网站的长尾关键词?

确定适合网站的长尾关键词&#xff0c;需要进行以下几个步骤&#xff1a; 1. 目标受众分析&#xff1a;首先&#xff0c;要确定网站的目标受众是谁。了解目标受众的特点和需求&#xff0c;可以帮助我们选择适合他们的长尾关键词。例如&#xff0c;如果目标受众是学生&#xff…

【Linux | Shell命令】Linux 环境变量

目录 一、概述二、什么是环境变量2.1 全局环境变量2.2 局部环境变量 三、设置用户自定义变量3.1 设置局部用户自定义变量3.2 设置全局环境变量3.3 删除环境变量 四、默认的 shell 环境变量五、5.1 设置 PATH 环境变量5.2 一、概述 Linux 系统中&#xff0c;很多程序和脚本通过环…

爱创科技携腾讯云拓展海内外药械数字溯源服务,“一物一码”全程可追踪

想象一下&#xff0c;当每个人从医院取药窗口或药房买到关乎自己生命健康的药品时&#xff0c;只需掏出手机打开微信&#xff0c;扫一扫药盒上的二维码&#xff0c;就可以看到药品真伪、出厂厂家、用药科普等信息&#xff0c;既带来一份用药的安心&#xff0c;也能清晰地看到医…

二进制、十进制相互转换

二进制转十进制&#xff1a; 1100 0000转为十进制的数值为&#xff1a;12864192 十进制转二进制&#xff1a; 列如&#xff1a;十进制数为202 1286432168421二进制11001010 解析&#xff1a; 202>128&#xff0c;第一个二进制数为&#xff1a;1 202-128>64&#xf…

服务器垃圾怎样清理?C盘垃圾如何清理?

好多人都在问电脑垃圾如何清理&#xff1f;服务器的垃圾清理是系统维护中必不可少的一项任务&#xff0c;而C盘垃圾的清理同样也是必须要做的任务之一。那么&#xff0c;如何一键清理服务器垃圾&#xff0c;C盘垃圾如何清理呢&#xff1f;今天&#xff0c;我会以服务器助手为例…

8、架构:服务端介绍

作为一个产品化的项目&#xff0c;就必然有服务端的支持&#xff0c;这次的项目我们依然使用与上一本小册一样的技术栈 NestJS作为产品的服务端开发语言。 服务端的内容对于常规的前端开发会比较难上手&#xff0c;因为除了服务端的开发语言之外&#xff0c;我们还需要安装各种…

如何查看docker File!!!!

1.如何查看dockerfile&#xff01; 先docker images 查看所有的镜像&#xff0c;然后再一个目录下先创建一个脚本&#xff0c;把下面内容复制进去 #!/bin/bash export PATH$PATH if [ $# -eq 1 ];thendocker history --format {{.CreatedBy}} --no-trunctrue $1 |sed "s…

基于PyQt5的桌面图像调试仿真平台开发(6)去马赛克

系列文章目录 基于PyQt5的桌面图像调试仿真平台开发(1)环境搭建 基于PyQt5的桌面图像调试仿真平台开发(2)UI设计和控件绑定 基于PyQt5的桌面图像调试仿真平台开发(3)黑电平处理 基于PyQt5的桌面图像调试仿真平台开发(4)白平衡处理 基于PyQt5的桌面图像调试仿真平台开发(5)…

c++ connect函数连接失败 解决方法

bool Connect() {//初始化网络WSADATA wsadata;WSAStartup(MAKEWORD(2, 2), &wsadata);if (0 ! WSAStartup(MAKEWORD(2, 2), &wsadata))return false;if (LOBYTE(wsadata.wVersion) ! 2 ||HIBYTE(wsadata.wVersion) ! 2) {printf("请求协议版本失败!\n");ret…

12.JavaWeb-Node.js+创建Vue项目

1.Node.js的概念 传统的Web服务器中&#xff0c;每个请求都会创建一个线程&#xff0c;这会导致线程数的增加&#xff0c;从而影响服务器的性能和扩展性&#xff0c;Ryan Dahl借助Chrome的V8引擎提供的能力实现了Node.js——可以在服务端运行的JavaScript&#xff08;可以把Nod…

SQL-每日一题【197.上升的温度】

题目 表&#xff1a; Weather 编写一个 SQL 查询&#xff0c;来查找与之前&#xff08;昨天的&#xff09;日期相比温度更高的所有日期的 id 。 返回结果 不要求顺序 。 查询结果格式如下例。 示例 1&#xff1a; 解题思路 前置知识 交叉连接(CROSS JOIN) 即笛卡尔积&…