随着数字人直播的逐渐兴起,数字人直播软件开发也成为了众多有意向进军数字人行业的创业者们重点关注的对象,以数字人直播软件开发技术有哪些为代表的问题更是屡次冲上相关社群话题榜的前列,并引发多轮热议。
不过,就市场现状来看,根据天眼查数据,我国现存与数字人相关的企业114.4万家。其中,2024年1~5月,新增注册企业为17.4万余家,与2023年同期相比增加5.9%。而数字人相关企业数量的增多就意味着数字人直播软件的多样化,因此,数字人直播软件开发技术的种类也必然会是多元化的。
换句话说,想要用一篇文章有限的篇幅将市面上所有数字人直播软件和其背后的开发技术一网打尽显然不大现实,因此,我们特以当前公认的头部数字人源码厂商灰豚为例,通过对其所搭建的数字人直播系统的考察和公开资料的研究对其确定拥有的数字人直播软件开发技术进行介绍,希望能让大家对数字人直播软件的开发技术有一个初步的了解。
需要声明的是,作为公认的头部数字人源码厂商,灰豚所拥有的数字人开发技术也较为丰富,因而我们将分几期对其数字人开发技术进行盘点。本期,我们将介绍它在数字人基本外观所采用的部分开发技术。
一、三维重建:
三维重建是计算机视觉与图形学的重要分支,核心在于通过数据采集、数据处理、模型构建以及优化调整等环节从二维图像或视频数据中提取三维信息,进而构建出具有立体感和真实感的三维模型。在实际应用过程中,它在让灰豚所生成的数字人真正成为了1:1复刻真人的数字孪生形象的同时,避免了因数字人主播形象的逼真程度不够而造成的割裂感,并保证了用户的观看体验。
二、TTSA+音视频驱动技术:
这项技术为灰豚的首创技术,它主要在通过通过智能算法,让输入的文本信息自动转换为语音输出,并同步驱动数字人模型生成相应的表情、动作乃至肢体语言,进而实现与用户的自然交互的TTSA(TextTo Speech & Animation)技术的基础上,融合音视频驱动技术,从而进一步将语音与视频信号整合通过实时音视频传输技术,并将数字人的语音、表情、动作等信息同步传输至用户端。
这样一来,数字人主播不仅能在基本外观和表情、动作以及肢体语言等细节方面均做到完美还原真人,还能流畅表达各类信息,而用户只需通过文本或语音便能与之进行交互,并从中获得最大程度地交互体验和最真实的交流感。
三、ARKit表情识别技术
ARKit,原是苹果公司推出的一套增强现实开发工具包,在灰豚所搭建的数字人直播系统中,它的应用主要体现在表情识别与实时渲染两个方面,即通过面部捕捉、特征点追踪、表情映射等关键技术,保证数字人表情变化与真人高度同步的同时,让数字人能够在过程中感知并回应观众的情绪变化,从而在不断强化直播这一模式中最为强调的互动性和沉浸感的基础上,实现个性化定制。
四、AIGC解决方案:
AIGC解决方案是指集成了深度学习、自然语言处理、计算机视觉、语音合成与识别等前沿AI技术的一套成熟体系,其核心在于让数字人能够模仿甚至超越人类的创造力,自动生成高质量的内容。例如,通过深度学习算法,灰豚所搭建的数字人系统除了能让所生成的数字人进一步还原真人肤色、发型、面部表情和模拟出细腻的微表情变化之外,还能让它学习不同语言、语调、语速乃至情感色彩,甚至自动创作直播内容等。
由此可见,在数字人的基本外观上,灰豚所采用的数字人直播软件的开发技术主要包括三维重建、TTSA+音视频驱动技术、ARKit表情识别和AIGC解决方案四种,虽然这并非全部,但足以见得,它的核心逻辑就是通过提高数字人直播形象上逼真程度,进而增强后续数字人直播过程中的用户体验感,为良好的直播效果夯实基础。这也提醒了我们,数字人直播效果好坏,取决于数字人直播系统的方方面面,包括它所生成的数字人形象的逼真程度,因此,每一个环节都不能掉以轻心。