多篇论文入选ICASSP 2023 火山语音有效解决多类实践问题

news2025/2/25 22:01:05

近日由IEEE主办、被誉为世界范围内最大规模、也是最全面的信号处理及其应用方面的顶级学术会议ICASSP2023于希腊召开,该会议具有权威、广泛的学界以及工业界影响力,备受AI领域多方关注。会上火山语音多篇论文被接收并发表,内容涵盖众多前沿领域的技术创新,并有效解决了字音转换、语种混淆等实践问题。

图片来源:https://2023.ieeeicassp.org/

LiteG2P:一种快速、轻量级、高精度的字音转换模型(LiteG2P: A Fast, Light and High Accuracy Model for Grapheme-to-Phoneme Conversion )

研究背景:众所周知,字音转换(G2P)旨在将单词转换为其对应的发音表示,通常被广泛应用于语音识别(ASR)及语音合成(TTS)等语音任务中,但现有方法中基于规则的方法预测精度往往较差,还需要大量专家经验的辅助;其中基于数据驱动的深度模型方案虽然精度高,但模型尺寸往往较大且计算效率偏低。对此,火山语音团队提出了一种高效快速、轻量级、高精度的字音转换模型,可进一步适用于多类端侧设备。

方法分析:LiteG2P结合数据驱动和知识驱动的优势,得以在控制模型尺寸较小的同时取得较高精度,模型层面上不同于传统的基于注意力机制的序列到序列预测模型,而是采用CTC损失进行字音的对齐,同时使得模型具备了并行预测音素序列的优势;除此之外,火山语音团队还额外引入了语言知识词典,用以指导字母扩展长度以及缩小目标预测音素集合。

The architecture of LiteG2P

效果呈现:最终LiteG2P模型相较于主流基线模型具有高精度、并行化、轻量级、快速等优势,与主流基线模型在准确率相当的同时速度提升30倍以上,参数量小10倍以上;可一套模型架构同时部署在端云多种类型设备上,在端侧设备上单个单词的推理速度预测为5ms以内,云端设备2ms以内

基于双向注意力机制的语音文本的多模态训练提升语音识别性能(SPEECH-TEXT BASED MULTI-MODAL TRAINING WITH BIDIRECTIONAL ATTENTION FOR IMPROVED SPEECH RECOGNITION)

研究背景:如今,尽管端对端模型简化了训练流程,将声学模型、词典、语言模型合并在一个统一的模型中,但却非常依赖大量的带标签训练数据。相比于带标签数据,不成对的数据,例如纯音频或者纯文本数据更容易获取。为了缓解数据的稀疏性问题,往往会尝试将不成对的数据参与到训练中,有利于在低资源场景下训练出性能良好的端到端语音识别模型。本篇论文正是使用纯文本数据参与端到端模型解码器的训练,使解码器学习到更多的语义信息,从而改善模型性能。此过程需要使用文本编码器去拟合音频编码器的输出,从而解决解码器训练依赖于编码器的问题。由于音频和文本长度不一致,论文提出使用基于双向注意力机制的语音文本的多模态训练方式,自动学习语音和文本之间的对齐关系。

方法分析:具体方式,语音编码器输出与文本编码器输出经过双向注意力计算后,语音编码器输出长度会缩短到文本长度,文本编码器输出会拓展到音频长度。双向注意力机制的输出会使用Cosine distance loss、MLM loss、Grapheme CTC loss来进行训练,在训练过程中模型会学习到语音和文本之间的对齐,并且语音编码器和文本编码器能学习具备一致性的特征。

基于语音文本的双向注意机制多模态学习框架

如图所示,虚线框内是训练中增加的模块和损失函数,在解码时不会参与计算,所以不影响解码时期速度。Grapheme CTC loss 的作用是对经过重采样的语音嵌入和文本嵌入进行 Grapheme 的分类,MLM Loss 作用则是使文本编码器能够学习语义信息,Cosine Embedding loss 是为了拉近语音嵌入与文本嵌入之间的距离。这三个损失函数都是建立在双向注意力机制计算出来的、经过对齐的语音嵌入和文本嵌入上,从而隐性让嵌入之间获得对齐。经过语音和文本多模态训练后,文本编码器可以生成接近语音编码器输出的特征,火山语音团队使用纯文本数据送进Text encoder随后重复两次,减小语音和文本之间长度差异,用于解码器的训练,使其学习更多的语义信息。

效果呈现:经过本论文提出的语音和文本多模态训练方式,在Librispeech公共数据集上获得性能提升,得出仅使用带标签数据训练时,可以实现达6.15%的相对词错误率提升;当使用更多的非配对文本数据时,相对词错误率提升可以达到9.23%。

利用字符级别语种分割减少跨语种语音识别中的语种混淆(Reducing Language Confusion for Code-switching Speech Recognition with Token-level Language Diarization)

研究背景通常,语种转换发生在语音信号的语种变换时会导致跨语种语音识别的语种混淆问题。对此,火山语音团队从融合和解耦语种信息两个角度解决语种混淆问题,从而提升跨语种语音识别的性能。

方法分析:具体来说对于融合语种信息的过程,团队通过使用一个基于序列对序列的语种分割的副任务来生成字符级别的语种后验概率,并使用语种后验概率来动态调整跨语种语音识别模型;相反解耦的过程则是通过对抗减少不同语种间的差别,从而将不同语种归一化。两种不同方法实现构架如下图所示:

The hybrid CTC/attention model (a) incorporating language information using language posterior bias, and (b) disentangling language via adversarial learning

效果呈现:我们将提出的方法在SEAME数据集上进行了验证。和基线模型相比,结合了语种分割任务的多任务训练和团队提出的语种后验概率偏置方法均取得了性能提升。“与此同时,将融合和解耦语种信息的两种方法进行了比较,我们发现比较结果表面融合语种信息,可以更有效地提升跨语种的语音识别性能。”团队强调。

一种无需ASR的基于自监督学习的流利度评分方法 (An ASR-free Fluency Scoring Approach with Self-supervised Learning )

研究背景:口语流利度,即发音语速快慢以及是否出现异常停顿,是反映对应习得语言熟练程度的重要指标之一。此前的大多数判断方法往往需要借助ASR系统获得语音单元(例如单词、音节、音素等)的时间对齐信息,基于此来进一步计算或表示语音流利度的特征,但目标语言的ASR系统并非总能轻易获得以上信息,此外在过程中还会产生不可避免的识别错误。对此火山语音团队提出了一种崭新且无需ASR系统的、基于自监督学习的流利度评分方法,也就是利用自监督预训练语音模型Wav2vec 2.0 产生的帧级语音表征,以及经过聚类算法生成的帧级伪标签,作为后续序列模型的输入,最终完成流利度分数的预测。

The proposed ASR-free fluency scoring framework

效果呈现:后续实践结果表示,该方案在机器预测结果和人类专家打分之间的相关性达到了0.797, 明显好于之前依赖ASR系统的方法所达到的0.759。方案利用了自监督语音特征强大的音素鉴别能力,使用帧级聚类伪标签序列来模拟基于ASR的音素时间对齐,不仅移除了对ASR的依赖而且展现了更可靠的评分性能。

利用音素级别的语言-声学相似度进行句子级别的发音评分 (Leveraging Phone-level Linguistic-Acoustic Similarity for Utterance-level Pronunciation Scoring)

研究背景:所谓自动发音评分系统往往需要度量学习者实际发音和参考发音的偏离程度来估计整体的发音准确度,但以往方法大多数是通过加和或者连接声学嵌入和音素嵌入等这些隐式方式来实现的。对此,火山语音团队提出了利用音素级别的语言-声学相似度进行句子级别的发音评分方法, 相比于隐式的度量方式,通过声学嵌入和音素嵌入的余弦相似度去显式描述实际发音和参考发音的偏离程度的方法效果更好,并将此作为额外特征与原有的两种嵌入序列一起融入后续的序列模型,来完成最终发音准确度的评分。

The hierarchical architecture of the pronunciation scoring network, where phone-level features can be calculated by using add_phone, concat_phone or our proposed method

效果呈现:这种显式的度量方法在内部与公开数据集上被证实明显优于以往的加和与连接的隐式度量方法,也就是说基于音素级别GOP的预训练在所有的度量方式上均取得了较大提升;结合语言-声学相似度的显示度量和GOP预训练的打分系统取得了最佳评分性能,其机器预测结果和人类专家打分之间的相关性达到了0.858,显著高于论文报告的多个基线系统。

基于内部语言模型估计的跨域自适应的语言模型融合(Internal Language Model Estimation based Adaptive Language Model Fusion for Domain Adaptation)

研究背景:只要在通用领域或特定目标领域有足够多的文本,内部语言模型融合就能显著改善端到端语音识别性能。但当一个通用领域商业语音识别系统部署后,由于数据访问受到限制,用户往往只具有与自己相关的特定目标领域文本数据,也就是说由于数据保密等原因,用户不能获取原通用领域文本数据,因此通过内部语言融合的自动语音识别系统只能在用户特定的领域获取性能改善,而在通用领域性能上则会造成损伤、显著降低。 基于上述原因,论文提出一种在用户只具有特定目标领域文本数据前提下,相对传统的内部语言模型估计融合方法,实现在特定领域获取性能显著改善,而在通用领域仍然能取得较好性能的自适应性语言模型融合方法。

方法分析:该方法基于内部语言模型估计,前提是当一个语音识别系统交付上线后,提供用户访问的子系统有端到端语音识别系统以及内部语言模型。用户只需关注自己特定领域的语言模型,就能获取在特定领域性能明显改善,并且在通用领域性能达到很小损失的结果。具体做法,识别系统在做语言模型融合的时候,比较基于每个子词在内部语言模型和用户特定语言模型的得分,根据大小来决定是否做内部语言模型融合,实现所谓的自适应融合功能。

效果呈现:为验证该方法的有效性,火山语音团队以10万小时训练得到的中文语音识别系统为通用领域识别系统,另外将医疗和小说搜索定义为特定领域,结果证明可以在特定领域取得18.6% 相对字错误率降低,而在通用领域只有2.4%的相对字错误率的升高

一直以来,火山语音团队面向字节跳动内部各业务线,提供优质的语音AI技术能力以及全栈语音产品解决方案,并通过火山引擎对外提供服务。自 2017 年成立以来,团队专注研发行业领先的 AI 智能语音技术,不断探索AI 与业务场景的高效结合,以实现更大的用户价值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/618794.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

springboot+vue+java企业车间工位管理系统

。本文介绍了企业级工位管理系统的开发全过程。通过分析企业级工位管理系统管理的不足,创建了一个计算机管理企业级工位管理系统的方案。文章介绍了企业级工位管理系统的系统分析部分,包括可行性分析等,系统设计部分主要介绍了系统功能设计和…

Vue.js 中的过滤器和计算属性

Vue.js 中的过滤器和计算属性 Vue.js 是一款流行的 JavaScript 框架,它提供了一种简单而灵活的方式来构建交互式 Web 应用程序。在 Vue.js 中,过滤器和计算属性是两个常用的概念。它们可以帮助开发者更方便地处理数据,提高代码的可读性和可维…

【学习日记】操作系统-入门知识-个人学习记录

我的学习笔记链接: MyLinuxProgramming 参考资料 CSAPP操作系统导论OSTEP √APUEhttps://stevens.netmeister.org/631软件调试王道-操作系统操作系统真象还原小林coding-图解系统https://xiaolincoding.com嵌入式软件开发笔试面试指南Linux是怎样工作的2020 南京大…

怎么才能成为一名合法的无线电爱好者?

要想成为一名合法的无线电爱好者,就必须要拥有属于自己的呼号及操作证书。那么具体怎么才能获得这些呢?下面河南宝蓝小编就为大家详细介绍下。 车载电台 一、无线电的呼号是什么? 呼号,是从事无线电操作人员或电台,在…

第12章 并 发

多进程与多线程本质的区别:每个进程都拥有自己的一整套变量,而线程则共享数据。 12.1 什么是线程 将执行这个任务的代码放在一个类的run方法中,这个类要实现Runnable接口。 Runnable接口非常简单,只有一个run方法: …

情感分析实战(中文)-数据获取

情感分析实战(中文)-数据获取 背景:该专栏的目的是将自己做了N个情感分析的毕业设计的一个总结版,不仅自己可以在这次总结中,把自己过往的一些经验进行归纳,梳理,巩固自己的知识从而进一步提升,而帮助各大…

Ubuntu20、centos7安装部署Gitlab

目录 一、简介 二、安装GitLab 1、安装准备工作 2、安装Gitlab a、安装并配置必要的依赖 b、下载Gitlab c、启动postfix邮件服务,设置开机自启 d、安装Gitlab e、修改gitlab配置文件(ip和端口) g、更新配置文件并重启 h、通过ip地址加端口进行…

国产力作:全新Excel平台,画表格搭建软件,Access用户:告别VBA

全新Excel平台,功能强大到离谱? 最近,发现了一款新型的软件,而且还是国产的,功能超级强大,用法却很简单。就是感觉非常的厉害! 一款全新的Excel平台,但是却跟Excel没有任何联系&am…

webpack.config.js基础配置(五大核心属性)

在上一节webpack零基础入门中我们在安装完webpack 和 webpack-cli依赖之后,直接通过npx webpack ./src/main.js --modedevelopment的方式对src下的js文件进行了打包。 其中的 ./src/main.js: 指定 Webpack 从 main.js 文件开始打包,不但会打包 main.js&a…

A ConvNet for the 2020s

A ConvNet for the 2020s 2020年代的ConvNet https://openaccess.thecvf.com/content/CVPR2022/papers/Liu_A_ConvNet_for_the_2020s_CVPR_2022_paper.pdf Zhuang Liu 1 , 2 ∗ ^{1,2*} 1,2∗ Hanzi Mao 1 ^1 1 Chao-Yuan Wu 1 ^1 1 Christoph Feichtenhofer 1 ^1 1 Trevor Da…

mpls vpn综合实例配置案例

如图1所示: 1、AR4连接公司总部财务部、AR6连接分支机构财务部,AR4和AR6属于vpna; 2、 AR5连接公司总部办公、 AR7连接分支机构办公, AR5和 AR7属于vpnb。 公司要求通过部署BGP/MPLS IP VPN,实现总部和分支机构的安全互…

2023年6月DAMA-CDGA/CDGP数据治理工程师认证到这家

DAMA认证为数据管理专业人士提供职业目标晋升规划,彰显了职业发展里程碑及发展阶梯定义,帮助数据管理从业人士获得企业数字化转型战略下的必备职业能力,促进开展工作实践应用及实际问题解决,形成企业所需的新数字经济下的核心职业…

CleanMyMac X 4.13.4许可证激活码2023最新免费版

小伙伴们,你们好,今天兔八哥爱分享来聊聊cleanmymac X如何激活,关于cleanmymac的基本情况说明介绍的文章,网友们对这件事情都比较关注,那么现在就为大家来简单介绍下,希望对各位小伙伴们有所帮助。在不断更新的版本中&…

数字化转型的难点是什么?该如何突破?

01为什么要进行数字化转型? 数字化转型不仅是企业提高效率和竞争力的必经之路,也是市场发展趋势的体现。 提升业务效率:数字化转型可以采用自动化流程、数据分析和智能化技术,从而提高企业业务的自动化水平,优化流程…

TLE7244SL-ASEMI代理英飞原装汽车芯片TLE7244SL

编辑:ll TLE7244SL-ASEMI代理英飞原装汽车芯片TLE7244SL 型号:TLE7244SL 品牌:Infineon(英飞凌) 封装:SSOP-24-150mil 类型:电源负载开关 TLE7244SL特性 4个输入引脚,提供灵活的PWM配置 由专用引脚…

XML转换成JSON

说在前面 相信大家对 XML 都不会很陌生了,XML 被设计用来结构化、存储以及传输信息。最近在开发过程中发现,有一些旧接口返回的数据格式即是 XML 的格式,因此需要我们对返回的 XML 数据进行解析,转换成我们好处理的 JSON 数据结构…

SCI论文去哪里查找下载

SCI论文,是指被SCI(Scientific Citation Index),即科学引文索引所收录的SCI期刊上刊登的学术期刊论文。如何查找下载SCI论文呢?请看下面讲解。 Web of Science数据库 Web of Science是获取全球学术信息的重要数据库,它收录了全球…

vue篇——vue原理以及实现

vue 官网解释Vue (读音 /vjuː/,类似于 view) 是一套用于构建用户界面的渐进式框架,简单易学、双向数据绑定、组件化。数据和结构的分离、虚拟DOM、运行速度快。链接 它有以下的特性:1.轻量级的框架;2.双向数据绑定;3…

MySQL索引事务(一)

1、索引 1.1、概念 索引相当于一种特殊文件,包含着对数据表里所有记录的引用指针。可以对表中的一列或多列创建索引,并指定索引类型,各类索引各自的结构实现。 1.2、作用 *通俗来讲,索引就相当于是我们的书本目录,…

电视、报纸、杂志、网络等曝光度好的媒体有哪些?

在当今社会,媒体是传递信息、宣传思想和引导社会舆论的重要平台。对于企业和个人而言,选择曝光度好的媒体来传递信息,是提高知名度和影响力的重要手段。那么,曝光度好的媒体有哪些呢?下面将从电视、报纸、杂志、网络等…