超写实数字人小灿加入,助力火山语音全类型虚拟数字人应用创新

news2024/11/17 11:34:08

当发现更多AI科技作用于日常生活时,你是否想过竟然有一天会与AI数字人做同事?日前,火山语音团队重磅推出了一位神秘新成员——首个超写实数字员工小灿!这位新同事不仅形象清新美丽,还有着很强的亲和力,大幅提升了工作幸福感,真可谓让大家率先体验到了拥有一位超写实数字人同事的快乐。

在首爆TVC短片中,作为一位刚参加实习的虚拟数字员工,小灿对于新工作的忐忑、对于未来的憧憬,如同每一个初入职场的新人一样真实;她在新环境中的紧张、对于实习生活的期待、与同事们的自然互动……这些都让我们看到了虚拟数字人丰富的情感世界,仿佛她就在眼前。

当然,除了小灿的个性以及情感的灵动展示之外,深扒其背后的技术实力更是可圈可点。小灿的出现,无疑为火山语音在虚拟数字人领域的未来开启了新篇章。

聚焦面部、肢体以及音色等多方向

技术创新助力逼真呈现

长期以来,火山语音团队致力构建全面逼真、快速响应、可多场景应用的超写实数字人。在创作首个数字员工小灿的过程中,团队主要在面部驱动、肢体驱动以及“一条音频秒级别音色复刻”等技术层面实现了创新突破,共同助力数字人的逼真呈现。

具体来说,面部驱动主要采用了表情、唇形联合建模的方案,为了实现更细粒度的唇形控制,团队采用了国际音标 IPA 作为建模单元,基于数小时的训练数据实现高精度的唇形、表情生成,并且基于 IPA 可以在不新增训练数据的情况下很容易地进行多语种、多方言的扩展。

另外关于肢体的AI驱动,团队也研发了以下三种方案:

(a)Motion Blending 动作库拼接

Motion Blending 动作库拼接方案,可以应用于视频创作、直播等通用场景,能保证动作生成的质量与效率。其中 In-Between 模块采用基于 Trasnformer 的 Encoder + Decoder 结构,将待过渡的两段动作进行编码,Decoder 则根据 Position Encoding 作为 Query 查询;为保证稳定,预测目标是与原始两片段 Slerp 插值结果的偏差。内部评测结果表明,这种方案生成的效果大幅优于 UE 原生的动作库拼接方案。此外,为了解决音频时序对齐的问题,需要对动作库中选取的动作进行截取,为尽可能减少对高质量动作库的破坏,方案根据待过渡动作的姿态和运动等信息估计出最优插值长度,进一步提高了生成的动作效果。

(b) 端到端

针对直播等交互场景,团队录制了数小时的动作数据,训练基于 Diffusion (X start) 的端到端 Audio2Gesture 模型,Denoise 模块考虑了音频的低/中/高级特征并具有长时依赖信息,确保了生成的动作与输入音频节奏和语义的相关性。

(c)端到端 + 指定动作

考虑到实际应用时,某些场景可能需要一些指定动作,例如打招呼、比心等强语义动作,团队开发了基于 Inpainting 方式的动作生成算法,确保指定动作的触发;而在大部分没有指定动作的片段,则按照端到端动作生成的方式生成语义和节奏匹配的动作,并且结合 Diffusion 模型渐进生成的特性使动作过渡灵活自然。

谈及“一条音频秒级别音色复刻”技术,也被称为zero shotTTS。这项技术能够在短短几秒钟内高度还原真人的音色、说话风格以及声学环境等特性,种种均建立在火山语音团队全自主研发的核心技术架构上,使得其关键性能指标在业界占优。此外,团队还开发了基于自回归GPT类大模型的韵律模块,目前这个模块的训练数据已经超过了20万个小时,而且其架构具有很强的可扩展性,预计未来能够支持100万小时以上的数据训练。更重要的一点,这个模块支持code-switch功能,意味着无论输入的提示是中文还是英文,都可以直接输出中文、英文或者混合内容。这一功能的实现,无疑大幅提升了超写实数字人小灿的应用范围以及实用性。

构建全类型虚拟数字人矩阵

辐射多场景应用

目前火山语音的数字人产品已具备包括2D真人、3D卡通和3D超写实在内的全类型虚拟数字人生产管线。聚焦播报、交互、直播三大核心场景,专注构建AI数字人从原子层到方案层产品能力。基于全自研多模态交互技术体系,建立从形象、感知、理解、对话能力都趋近于真人的数字人,面向行业客户持续提供行业领先的一站式数字人解决方案。

具体来说播报场景,火山语音数字人为泰康保险等客户提供一站式数字人音视频生产平台,帮助企业提升内容生产效率,打通自动化、高效的数字人视频生产链路,同时支持词条精修、文本/音频驱动、多轨混编、画中画等多项高级功能,助力打造更具差异化、更精品化的内容生态。

交互场景,火山语音数字人为兴业证券等客户提供“面对面”交互服务体验升级,搭载全自研语音交互技术,结合大模型精准理解用户意图、合理应答,满足智能客服、智能开户、金融资讯播报、短视频创作、市场推广等多场景的数字营销需求,助力企业“数智化”转型。

直播场景,火山语音数字人为国信证券等客户打造“ 全天候数字人直播间”方案,量身定制品牌数字人形象。其中数字人直播平台满足0直播间布景费用投入、积木式构建剧本内容、AI智能剧本生成并提供一键推流功能,实现在火山引擎企业直播、抖音、淘宝、京东等多个平台开播。

一直以来,火山语音团队积极将经过多年精心打磨的语音技术能力面向市场开放,通过火山引擎成功地将这些技术应用到了汽车、金融、有声阅读、视频配音等多个行业领域并覆盖了广泛的应用场景,帮助众多行业领头企业实现了AI语音能力的应用与拓展,但团队目标并不止步于此。未还来将继续探索前沿科技与业务场景的高效结合,以期为用户体验和业务增长注入更多的创新动力,并通过不断的创新与探索为人们的生活带来更多便利与乐趣。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1140087.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ardupilot开发 --- CAN BUS、DroneCAN 、UAVCAN 篇

1. CAN BUS、DroneCAN 、UAVCAN 区别 UAVCAN是一种轻量级协议,旨在通过CAN BUS 在航空航天和机器人应用中实现可靠通信。 UAVCAN网络是分散的对等网络,其中每个对等体(节点)具有唯一的数字标识符 - 节点ID,并且仅需要…

minio + linux + docker + spring boot实现文件上传与下载

minio docker spring boot实现文件上传与下载 1.在linux上安装并启动docker2.在docker中拉取minio并启动3.Spring Boot 整合 minio4.测试 minio 文件上传、下载及图片预览等功能 1.在linux上安装并启动docker 检查linux内核,必须是3.10以上 uname ‐r安装docker…

没有电脑也不用担心,在Android设备上也可以轻松使用ppt

PowerPoint是制作幻灯片的好工具,无论是工作、学校还是个人使用。但有时你无法使用电脑或笔记本电脑,你必须在旅途中做演示。 这就是PowerPoint for Android派上用场的地方。它允许你在移动设备上创建、编辑和呈现幻灯片。以下是要遵循的步骤&#xff1…

[每周一更]-(第69期):特殊及面试的GIT问题解析

整合代码使用过程的问题,以及面试遇到的细节,汇总一些常用命令的对比解释和对比; 1、fetch和pull区别 git fetch是将远程主机的最新内容拉到本地,用户在检查了以后决定是否合并到工作本机分支中。 git pull则是将远程主机的最新内…

unity button移动位置some values driven by canvas

1 可以在button父节点把限制取消勾选 2 在不动整个布局的情况下,只修改局部变量:忽略布局即可

Instagram引流技巧:如何充分利用社交媒体来增加独立站流量

在数字时代,社交媒体已成为推广产品、服务和内容的重要工具之一。Instagram,作为其中之一,以其视觉化特点和庞大的用户基础,为独立站和个人品牌提供了难得的机会。本文Nox聚星将和大家探讨如何充分利用Instagram,将其作…

【从瀑布模式到水母模式】ChatGPT如何赋能软件研发全流程

文章目录 🎄前言🍔本书概要🌺内容简介🌺作者简介🌺专家推荐🛸读者对象🍔彩蛋 🎄前言 计算机技术的发展和互联网的普及,使信息处理和传输变得更加高效,极大地…

2核4G服务器 如何设计编码一款扛得住高并发高吞吐量的商品秒杀系统

题目 最近要参加一个秒杀商品系统比赛 【题目】设计并演示一款商品秒杀系统 【要求】设计并实现程序,模拟该商品秒杀系统的基本功能包括但不限于: 1.商品管理:每个商品都有唯一的ID、名称、库存数量和秒杀价格。 2.用户管理:每个…

MyBatis 基础用法详解

目录 什么是MyBatis 前置工作 创建MyBatis项目 MyBatis的使用 1.查询 1.1全查询 1.2传参查询 2.删除 3.修改 4.添加 什么是MyBatis MyBatis 是一款优秀的持久层框架,它支持定制化 SQL、存储过程以及高级映射。MyBatis 避免了几乎所有的 JDBC 代码和手动设…

使用Python实现一个简单的斗地主发牌

使用Python实现一个简单的斗地主发牌 1.源代码实现2.实现效果 1.源代码实现 import random# 定义扑克牌的花色和大小 suits [♠, ♥, ♣, ♦] ranks [2, 3, 4, 5, 6, 7, 8, 9, 10, J, Q, K, A]# 初始化一副扑克牌 deck [suit rank for suit in suits for rank in ranks]# …

怎么用Python写一个浏览器集群框架

这是做什么用的 框架用途 在采集大量新闻网站时,不可避免的遇到动态加载的网站,这给配模版的人增加了很大难度。本来配静态网站只需要两个技能点:xpath和正则,如果是动态网站的还得抓包,遇到加密的还得js逆向。 所以…

ChatGPT如何赋能探究深度学习、神经网络与卷积神经网络

计算机技术的发展和互联网的普及,使信息处理和传输变得更加高效,极大地改变了金融、商业、教育、娱乐等领域的运作方式。数据分析、人工智能和云计算等新兴技术,也在不断地影响和改变着各个行业。 如今,我们正在见证人工智能技术…

【Overload游戏引擎细节分析】PBR材质Shader

PBR基于物理的渲染可以实现更加真实的效果,其Shader值得分析一下。但PBR需要较多的基础知识,不适合不会OpenGL的朋友。 一、PBR理论 PBR指基于物理的渲染,其理论较多,需要的基础知识也较多,我在这就不再写一遍了&#…

如何构造强一致性系统?理解数据一致性里的2PC和TCC模式原理,以及如何做(有图)

背景 首先,读这篇文章的时候你应该先了解什么是事务、什么是分布式事务。 我这里举2个例子,典型场景有两个: 1、一个应用有两个数据库,一个数据库是订单,另一个数据库是积分,要求下订单的时候同时给用户积…

el-table添加固定高度height后高度自适应

0 效果 1 添加自定义指令 新建目录src/directive/el-table 在el-table目录下新建文件adaptive.js import { addResizeListener, removeResizeListener } from element-ui/src/utils/resize-event// 设置表格高度const doResize async(el, binding, vnode) > {// 获取表格…

Vben admin - 表格组件合并单元格

需求 最近在项目中有需求需要表格合并单元格,不但内容有合并的,操作列也需要合并,找遍vben官方例子,没有实现操作列合并的,只能硬着头皮实现,还好实现了,下面具体就是实现思路; 原…

再获Gartner认可!持安科技获评ZTNA领域代表供应商

近日,全球权威市场研究与咨询机构Gartner发布了《Hype Cycle for Security in China, 2023(2023中国安全技术成熟度曲线)》报告,对2023年的20个中国安全技术领域的现状与发展趋势进行了详细的分析与解读。 其中,持安科…

mac电脑视频处理推荐:达芬奇DaVinci Resolve Studio 18 中文最新

DaVinci Resolve Studio 18是一款专业的视频编辑、调色和后期制作软件,由Blackmagic Design开发。它被广泛应用于电影、电视和广告等行业,提供了全面的工具和功能,使用户能够进行高质量的影片制作和后期处理。 以下是DaVinci Resolve Studio…

JAVA-GC日志打印配置详解

一、为什么要打印GC日志? 当服务出现内存飙高、卡顿宕机等等情况,有可能因为GC问题,所以要有日志进行排查。 二、命令详解 #打印GC详情信息 -XX:PrintGCDetails #打印GC时间戳 -XX:PrintGCDateStamps #打印触发GC原因信息 -XX:PrintGCCause …

如何选择适合的美颜SDK?

美摄美颜SDK是一款专门为企业提供美颜技术支持的SDK,可以帮助企业开发出具有高品质美颜效果的移动应用。本文将介绍美摄美颜SDK的技术特点和面向企业提供的技术支持。 一、技术特点 美摄美颜SDK采用了先进的图像处理技术和人工智能算法,能够快速准确地…