语音 AI 迎来爆发期,也仍然隐藏着被低估的机会丨RTE2024 音频技术和 Voice AI 专场

news2024/12/26 18:14:34

在这里插入图片描述

在人工智能快速发展的今天,语音交互技术正经历一场革命性的变革。从语音识别到语音合成,再到端到端的语音对话系统,这一领域的创新正以前所未有的速度推进。这些进步不仅提升了技术指标,更为实时翻译、虚拟数字人、智能客服等实时互动场景带来了新的可能。

本届 RTE2024 大会上,来自学界和业界的多位专家深入探讨了语音 AI 的最新进展。阿里巴巴通义实验室语音算法专家吕翔、声网音频算法工程师李嵩、香港中文大学(深圳)教授武执政、标贝科技联合创始人兼 CTO 李秀林、SpeechGPT 的作者张栋等行业专家分享了他们的研究成果和洞见。

声网音频技术负责人陈若非和海外独角兽的 AI Research Lead 钟凯祺分别主持了主题分享和圆桌讨论环节。

吕翔:CosyVoice 语音生成大模型的突破与挑战

在这里插入图片描述

阿里巴巴通义实验室的语音算法专家吕翔介绍了 CosyVoice 的三大核心模块:自回归 Transformer、Flow Matching 和声码器。「自回归 Transformer 主要用于预测 Next Token,Flow Matching 则负责从噪声分布到目标分布的转换,」他说:「而声码器也做了一些改进,比如结合了 Filter 和 Vocal 技术。」

CosyVoice 的应用场景令人印象深刻。吕翔举例说:「零样本语音克隆是大家特别感兴趣的功能,最短只需 3 秒的音频就能模仿说话人的音色与风格。」CosyVoice 甚至能让一个不会说英语和日语的人「说出」流利的外语。
CosyVoice 的开源也为更多开发者提供了机会。「代码库结构非常简单,一个指令就可以自行训练。」

在这里插入图片描述

李嵩:低延迟流式语音识别系统的突破与应用

在这里插入图片描述

「在人与人的交流过程中,我在说话的时候你们已经听到我在说什么了,但现在的系统都是我说以后你们才开始理解我说的是什么,然后再进行反馈,」声网音频算法工程师李嵩如此描述当前技术的局限性。

为了应对这一挑战,李嵩和他的团队开发了一套低延迟流式语音识别系统。这个系统能够支持各种实时性要求高的任务。李嵩举例说明:「实时字幕、实时翻译、实时人机交互,这些场景对 ASR 实时性的要求都非常高。」
在技术层面,李嵩介绍了他们的创新方案,包括前处理、ASR 和后处理三个关键环节。其中,前处理阶段使用了凤鸣 AI 引擎,包括 AINS(噪声抑制)、AIAEC(回声消除)和 AIVAD(低延迟人声检测)等技术,显著提升了识别性能。

在这里插入图片描述

「适配线上真实音频环境,数据永远是最重要的,尤其是开源框架或者模型效果都差不多时。我们在做训练数据增加了 RTE 环境适配,包括噪声+混响环境,配置不同等级的 3A 处理,让 ASR 识别引擎了解 RTE 真实环境,让适配率更好。」李嵩声网音频算法工程师

武执政:语音生成大模型研究进展与未来趋势

以电影《Her》为引子,香港中文大学(深圳)的武执政教授指出当前语音交互技术与理想状态仍有差距,特别是在理解和表达复杂情感方面。

武教授强调,真正的语音交互不仅涉及语义内容,还包括情感、语气、口音等多维度信息。他举例说明同样的文字在不同情境下可能表达截然不同的含义,这对 AI 系统是巨大挑战。

在这里插入图片描述

李秀林:语音合成大模型与高质量数据的融合之路

在这里插入图片描述

标贝科技联合创始人兼 CTO 李秀林强调:「Transformer 之后,大家可能会在这种框架下做更精致、更巧妙的设计,数据的需求量也是非常大的,数据占比或者对整个效果的影响非常大。」

为了满足大模型对数据的需求,标贝科技开发了一整套数据处理 Pipeline 工具链,包括数据获取、降噪、片段切分、质量筛选、ASR 转写等步骤。李秀林指出,高质量数据的定义会因应不同任务和环节而有所不同,可能是大规模但质量一般的数据,也可能是中等规模但音质和风格把控更好的数据。

标贝科技在过去八年积累了大量合成方向的数据库,涵盖各种年龄、性别、风格和情绪的语音数据。最近,他们还制作了数千小时的对话数据库,以满足自然聊天风格的需求。

在这里插入图片描述

张栋:通向端到端拟人化语音对话的智能体探索

在这里插入图片描述

SpeechGPT 作者、复旦大学的张栋分享了团队在端到端语音对话方面的最新研究成果,重点介绍了 SpeechGPT 系列的发展历程。张栋描绘了一个理想的语音对话 chatbot 应具备的特点:Human-like、Conversational Toolbox 和Real-time。

在 SpeechGPT 的开发过程中,团队发现了一些局限性。「SpeechGPT 不能支持和副语言学习相关的任务,包括情绪、环境、年龄、口音,这些任务基本上都不能产生。」为了解决这个问题,他们开发了自己的 Speech Tokenizer 和 SpeechGPT2。

张栋还介绍了 SpeechGPT2 的训练数据特点:「我们采用 10 万小时的语音文本配置数据集,但区别就是会给所有语音加上 Caption 或者 Description,就是用一段文字描述语音特性,副语言也用文本形式描述起来。」

在这里插入图片描述

圆桌讨论:VoiceAI ,下一代人机交互界面?

在这里插入图片描述

在主题是「Voice AI,下一代人机交互界面?」的圆桌讨论中,来自「海外独角兽」的钟凯祺担任主持人,参与讨论的嘉宾包括张栋、李秀林、武执政和王芷,他们分别来自学界和业界的不同领域。

  • 语音 AI 领域中被低估的方向

讨论伊始,张栋就指出了语音 AI 领域中被低估的两个重要方向:合成数据和强化学习。他强调了预训练数据的重要性,指出即使有 1000 万小时的预训练数据,与文本大模型相比仍有数百倍的差距。张栋还提到了双通道对话数据的稀缺性,以及如何利用人类反馈来提升语音大模型的质量。

李秀林则从数据建设的角度补充道,中英混合的数据或者中粤混合的数据在真实数据中的占比是非常低的,但这种数据在一些场合下又需要,包括方言和口音等等。他呼吁业界合作,共同建设超大规模、低成本的数据资源。
在语音 AI 模型评估的问题上,武执政指出了现有评估方法的局限性。他说:「我们内部做产品的时候希望定义一个比较客观的指标,但这个客观指标很难定下来。」他举例说明,即使在准确率达到 100%的情况下,情感和语气等细微差别仍难以评估。

  • 语音能否成为下一代人机交互界面?

在这里插入图片描述

王芷则分享了微软在 Voice AI 方面的洞察,她认为教育和泛娱乐是 Voice AI 的下一个爆发点。「不管是重交互场景还是重内容场景,都是现在我们可以看到各行各业快速迭代的场景。」

张栋认为最大的难点在于模型能力。他解释道:「语音到语音的模型几乎完美,但不需要任何调整地适配到所有的 Agent 框架或者是文本技术相结合是比较难的。」

李秀林则指出了语音交互效率的局限性:「我们看到一页纸可以一目十行地看过去,要是听和说的话,码率信息含量密度是不够的。」

王芷还表达了对声音复刻技术的期待:「我很期待声音特征能够让数字分身更加智能化,也会维系家庭关系,就是把气都撒在老公的智能分身上面,可以很好地维系自己的夫妻关系。」

在这里插入图片描述

加入 RTE 开发者社区,一同探索人和 AI 的实时互动新范式

在语音 AI 技术的快速发展下,一个更加智能、自然的人机交互时代正在加速到来。我们期待与各领域的研究者和开发者一起,携手迎接这个更具表现力的语音 AI 新纪元,为更多实时互动应场景开启无限可能。

RTE 开发者社区持续关注 Voice AI 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup),欢迎加入我们的社区(加微信 bob_fu),一同探索人和 AI 的实时互动新范式。

「重塑语音交互:音频技术和 Voice AI」技术专场由 RTE 开发者社区和海外独角兽联合出品。
在这里插入图片描述

RTE 开发者社区是聚焦实时互动领域的开发者社区。希望通过社区链接领域内的开发者和生态力量,萌芽更多新技术、新场景,探索实时互动领域的更多可能。这里你将遇见一群致力于改变人和人、人和世界,以及人和 AI 连接方式的开发者。

在这里插入图片描述

「海外独角兽」是拾象旗下的开源研究平台,专注于研究全球范围最优秀的创新公司,致力于用开源精神重塑投资信息分发网络。创立以来拾象团队积极输出高质量的行业与公司认知,已经输出了近 300 篇针对全球头部科技公司和前沿科技趋势的文章。在全球 AI 社区中积累了行业影响力,全网拥有 20万+订阅,覆盖头部互联网企业界、硅谷 AI 科学家、以及全球科技公司一线从业者等。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2235297.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【自学笔记】神经网络(1)

文章目录 介绍模型结构层(Layer)神经元 前向传播反向传播Q1: 为什么要用向量Q2: 不用激活函数会发生什么 介绍 我们已经学习了简单的分类任务和回归任务,也认识了逻辑回归和正则化等技巧,已经可以搭建一个简单的神经网络模型了。 …

在内蒙考驾照需要注意什么呢?

一、报名条件 年满18周岁,具有完全民事行为能力的中国公民。持有有效的身份证明文件。身体健康,无妨碍驾驶机动车的疾病,并需要通过体检。 二、选择驾校 可以先向身边已经拿到驾照的朋友咨询,了解驾校的距离、位置、口碑等信息。…

C++builder中的人工智能(8)什么是神经网络中的恒等激活函数?

在这篇文章中,我们将回答以下问题: 你想了解神经网络中最简单的激活函数是什么吗?什么是恒等函数?作为AI术语,我们需要了解激活函数和转移函数的哪些知识?激活函数与净输入函数是一回事吗?是否…

django图书管理系统-计算机毕业设计源码00648

摘要 图书管理系统在数字化阅读趋势、图书馆自动化管理、用户体验需求和信息技术应用等方面具有重要的研究意义。图书馆自动化管理系统的引入和应用提高了图书借阅过程的效率和准确性,减少了对手工操作和纸质记录的需求。用户对系统的易用性、查询速度、借还流程有更…

文件系统和日志管理

文件系统 文件系统: 文件系统提供了一个接口,用户用来访问硬件设备硬件设备上对文件的管理 存储单位 文件存储在硬盘上,硬盘最小的存储单位是512字节 扇区,文件在硬盘上的最小存储单位:块block,一个块的…

【代码转换】如何用 GPT 将 Python2代码 转换为 Python3代码 :实战教程

文章目录 1. 为什么要将 Python 2 代码迁移到 Python 3?2. 使用 ChatGPT 进行代码转换的步骤步骤1:打开CodeMoss步骤2:在输入框输入符号,选择代码转换步骤3:在这里选择你要更改的具体代码步骤4:准备 Python…

「Mac畅玩鸿蒙与硬件27」UI互动应用篇4 - 猫与灯的互动应用

本篇将带领你实现一个趣味十足的互动应用,用户点击按钮时猫会在一排灯之间移动,猫所在的位置灯会亮起(on),其余灯会熄灭(off)。应用会根据用户的操作动态更新灯光状态和文本提示当前亮灯的位置&…

ES海量数据插入如何优化性能?

2024年10月NJSD技术盛典暨第十届NJSD软件开发者大会、第八届IAS互联网架构大会在南京召开。百度文心快码总经理臧志分享了《AI原生研发新范式的实践与思考》,探讨了大模型赋能下的研发变革及如何在公司和行业中落地,AI原生研发新范式的内涵和推动经验。 …

OTFS基带通信系统(脉冲导频,信道估计,MP解调算法)

Embedded Pilot-Aided Channel Estimation for OTFS in Delay–Doppler Channels | IEEE Journals & Magazine | IEEE Xplore 一、OTFS通信系统 如下图简要概括了OTFS基带通信系统过程,废话不多说给出完整系统详细代码。 以下仿真结果基于四抽头信道 估计信道…

理解Web登录机制:会话管理与跟踪技术解析(二)-JWT令牌

JWT令牌是一种用于安全地在各方之间传递信息的开放标准,它不仅能够验证用户的身份,还可以安全地传递有用的信息。由于其结构简单且基于JSON,JWT可以在不同的系统、平台和语言间无缝传递,成为现代Web开发中不可或缺的一部分。 文章…

微积分复习笔记 Calculus Volume 1 - 4.8 L’Hôpital’s Rule

4.8 L’Hpital’s Rule - Calculus Volume 1 | OpenStax

用户流定义:绘制产品交互流程图

产品经理在进行产品设计时,经常利用交互流程图来提升团队的工作效率。这种流程图适用于传达方案、评审目标等需要团队协作的场景,使得视觉设计师、产品开发等团队成员能够迅速理解图示内容,节省了理解时间,有效提高了沟通效率。 …

Linux -- 冯诺依曼体系结构(硬件)

目录 概念 五大组成部分 为什么需要存储器? 计算机存储金字塔层状结构 为什么程序需要加载到内存中 概念 冯诺依曼体系结构是以数学家冯诺依曼的名字命名的一种计算机体系结构。这种体系结构是现代计算机的基础,它定义了计算机的基本组件及其相互…

群控系统服务端开发模式-应用开发-本地上传工厂及阿里云上传工厂开发

记住业务流程图&#xff0c;要不然不清楚自己封装的是什么东西。 一、本地工厂开发 在根目录下extend文件夹下Upload文件夹下channel文件夹中&#xff0c;我们修改LocalUpload业务控制器。具体代码如下&#xff1a; <?php /*** 本地上传工厂* User: 龙哥 三年风水* Date: …

鹧鸪云光伏小程序上线啦

为了适应市场的发展需求&#xff0c;现推出了手机端SaaS版的光伏小程序&#xff0c;里面包含很多免费的小工具&#xff0c;供给我们业务人员、施工人员方便手机上操作&#xff0c;省去了带着电脑的笨重。下面给大家介绍下里面的免费小工具。 功率的换算&#xff1a;这里主要计…

WireShark入门学习笔记

学习视频&#xff1a;WireShark入门使用教程 扩展学习&#xff1a;wireshark分析常见的网络协议 文章目录 WireShark介绍WireShark抓包入门操作WireShark过滤器使用WireShark之ARP协议分析WireShark之ICMP协议TCP连接的3次握手协议TCP连接断开的4次挥手协议WireShark抓HTTP协…

人工智能之人脸识别(人脸采集人脸识别)

文章目录 前言PySimpleGUI 库1-布局和窗口2 文本框组件3-视频处理图片处理数据库操作数据采集&#xff08;重要部分&#xff09;人脸识别&#xff08;综合部分&#xff09; 前言 例如&#xff1a;随着人工智能的不断发展&#xff0c;本文主要介绍关于人工智能中GUI和PyMysql相…

qt5将程序打包并使用

一、封装程序 (1)、点击创建项目->库->clibrary &#xff08;2&#xff09;、填写自己想要封装成库的名称&#xff0c;这里我填写的名称为mydll1 &#xff08;3&#xff09;、如果没有特殊的要求&#xff0c;则一路下一步&#xff0c;最终会出现如下文件列表。 (4)、删…

通用方式创建未知文件后缀文件

困惑&#xff1a;比如平时想创一个类似&#xff1a;Dockerfile 文件如何玩&#xff1f; entrypoint.sh 如何玩&#xff1f; windows平台&#xff0c;直接命令行&#xff1a; mac平台或者linux平台也类似

swiper分页器自定义

实现&#xff1a; <template><div class"center-top-swiper"mouseenter"on_bot_enter"mouseleave"on_bot_leave"><swiper :options"swiperOption"ref"mySwiper"><swiper-slide v-for"i in 4&quo…