基于声学模型共享的零资源韩语识别系统

news2024/11/18 4:16:47

声学模型共享方法是极低资源小语种语音识别一种解决方案,能够实现不需要任何语音数据的语音识别。本文介绍清华大学语音与音频技术实验室的零资源韩语语音系统,其在不使用任何韩语语音数据的情况下,在Zeroth韩语数据集上的测试CER达到了27.33%。

01 声学模型共享与零资源ASR

小语种语音识别一直是语音领域值得关注的问题之一,几千种小语种普遍面临着训练数据不足、收集训练数据困难等问题,而声学模型共享方法则可以实现不需训练数据的语音识别,从而为这一问题提供了一个方向。这一方法利用语种之间的相似性,直接使用常见语言的声学模型,结合低资源语言的语言模型、发音字典以及两种语言之间的音素映射关系等专家知识,就可以构建较为精准的语音识别系统。

我们将声学模型共享方法扩展到了零资源韩语语音识别上。我们使用Kaldi工具包,利用汉语训练声学模型,根据汉语和韩语两种语言之间的音素相似性设置了两种不同的音素映射方案,并比较了不同方案的优劣。实验结果表明,我们的系统可以在不使用任何韩语训练数据的情况下达到27.33%的CER

02 韩语的声学模型共享

在书写上,韩语是一种表音文字,其书写体系中的符号与音素存在着紧密的对应关系。在发音上,韩语是一种音节语言,一个韩语音节由一个元音(中声),元音前的一个可选的辅音(初声)和元音后的一个可选的辅音(终声)构成。韩语包含19个辅音和21个元音。在韩语中,根据上下文的不同,音素可能被替换、删除或是添加,两个相邻的音素可能会发生合并,因此即使韩语是完全的表音文字,一个句子的字面内容和其发音仍可能存在不同。

为了实现声学模型共享,我们需要建立韩语和汉语之间的音素对应关系。一种方法是将汉语词用韩语音素表示(zh2kr)。这种方法在训练过程中就引入音素对应关系,训练集中的汉语被转写为相近的韩语音素,而得到的模型可以被视为一个用汉语语音学习得到的韩语语音识别模型

汉语音素到韩语音素的对应关系(部分)

另一种方法是将韩语词用汉语音素表示(kr2zh)。这种方法是在声学模型训练完成后引入音素对应关系。通过修改发音词典,将韩语词统一表示为相近的汉语音素,使用汉语正常训练的声学模型就可以用来识别韩语。

韩语音素到汉语音素的对应关系(部分)

03 实验设置与结果

我们使用Aishell1数据集训练汉语声学模型,测试集则选用Zeroth开源韩语数据集的测试集。声学模型结构方面,我们使用了11层TDNN,输入为40维MFCC特征;语言模型方面,我们使用Zeroth训练集文本训练了3-gram语言模型。我们的基线系统是使用Zeroth的90小时韩语数据训练得到的相同结构的TDNN模型。

实验结果表明,尽管与使用充足有标注数据训练的ASR模型仍有较大差距,我们的零资源语音识别模型仍能实现较低的错误率。另外,相比kr2zh方法,zh2kr方法的精度有大幅度的下降。

我们认为,这是由于zh2kr方法需要为汉语中存在而韩语中不存在的音素指定近似的对应关系,这使得模型学习到的韩语音素对应的汉语声学特征与测试集中真正的韩语声学特征的分布有较大差异,这些人工引入的额外的领域漂移影响了最终的识别效果。

不同映射方法与有监督方法的比较。零资源方法能达到较低的CER,而kr2zh方法要优于zh2kr方法

我们的方法将无监督预训练模型应用于零资源语音识别任务,在不使用目标语种的任何语音数据的情况下实现了平均33%的WER。在无训练数据或可获得的训练数据小于10小时的情况下,我们的零资源方法相比有监督方法有较大优势。

作者简介

王皓宇,清华大学电子工程系语音与音频技术实验室研究生二年级学生,主要研究方向为低资源语音识别和预训练模型蒸馏。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/192198.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Redis主从架构 | 黑马Redis高级篇

目录 一、搭建主从架构 1、为什么要搭建 2、准备实例和配置 3、启动 4、开启主从关系 二、 数据同步原理 1、全量同步 2、命令传播 3、增量同步 三、常见面试题 一、搭建主从架构 1、为什么要搭建 如果服务器发生了宕机,由于数据恢复是需要点时间&#…

51.Isaac教程--使用强化学习的DollyDocking

使用强化学习的DollyDocking ISAAC教程合集地址: https://blog.csdn.net/kunhe0512/category_12163211.html 文章目录使用强化学习的DollyDocking快速开始推理未来场景工厂多代理场景训练利用训练的模型运行推理Codelets模拟Isaac SDK 中的健身房状态机流程强化学习政策JSON 管…

Jenkins+GitLab自动化部署到Docker容器

JenkinsGitLab自动化部署到Docker容器1、编写Dockerfile2、为测试服务器配置Docker镜像加速器3、Jenkins相关配置3.1 配置测试服务器3.2 Pre Steps配置3.3 Post Steps配置3.4 执行构建本文是对JenkinsGitMaven自动化部署配置这篇文章的补充,有关基本的环境搭建从这篇…

Python的 6 大类数据类型,先收藏再说......

计算机程序,就是对数据进行操作。 无论你学习那种语言开发,都需要学习具体的数据类型, 每种开发语言都有自己不同数据类型。 下面是针对python语言的全部数据类型详细汇总: Python中可以自定义数据类型,可以具有无限种数据类型…

爱普生Epson WF110彩色无线便携式打印机错误E-12维护箱已到使用寿命

基本参数: 产品定位 墨仓式打印机 最高分辨率(dpi) 5760X1440dpi 网络功能 支持无线网络打印

【MySQL】成为MySQL高手必须要知道的MySQL索引

MySQL基础mysql 的查询流程索引是什么呢?MySQL索引优缺点MySQL索引分类上一篇了解到了MySQL安装步骤,接下来就开始学习MySQL索引知识点 mysql 的查询流程 查询流程大致是: mysql 客户端通过协议与 mysql 服务器建连接,发送查询…

Lesson 4.6 逻辑回归的手动实现

文章目录一、逻辑回归损失函数的梯度计算表达式二、创建分类数据集生成器1. 手动创建分类数据2. 创建分类数据生成器三、逻辑回归的手动实现四、逻辑回归的分类性能瓶颈与算法评价讨论完梯度下降的相关内容之后,接下来我们尝试使用梯度下降算法求解逻辑回归损失函数…

Microsoft Office( Word、Excel、PowerPoint)的安装

1 下载Office Tool Plus 官网地址:点击下载 2 点击Office Tool Plus.exe 3 接受软件许可条款和Microsoft服务协议 4 点击安装Office 5 选择Office 专业增强版 2019 6 确认安装Office 专业增强版 2019 7 关闭安全中心警报 8 等待安装完成 9 点击关闭 10 点击返回…

VMware创建Ubuntu系统

Ubuntu镜像可以去各个镜像网站下载 官网:https://ubuntu.com/ 中文官网:https://cn.ubuntu.com/ 镜像下载 使用Ubuntu在开发的时候下载LTS版本,也可以下载其他版本以及历史版本 这里面使用的镜像是ubuntu-16.04.7-desktop-amd64.iso版本&a…

1月书单 2月新书预告 | 百万册畅销书全新续作来啦

幸福而忙碌的 1 月一溜烟就跑走了,我们已经来到 2 月的第 1 天。最近,公司楼下售卖咖啡的地方,总是排着长长的队……想必不少小伙伴还在找状态。 图灵君先带大家回忆一下 1 月我们上新了哪些书。 01 《这才是服务设计》 作者:[德…

章节9 软件安装

9-Linux软件安装 01 软件为什么需要安装 Windows软件安装流程 安装检查释放文件复制可执行文件DLL动态链接库/安装服务注册表开始菜单和快捷方式 Windows安装文件 Windows可执行文件 Linux可执行程序 /bin /sbin /usr/bin /usr/sbin 02 脚本和程序的区别 脚本和程序的…

录屏可以录声音吗?录制带声音的视频,这个方法轻松解决

​很多小伙伴对电脑屏幕进行录制的时候,却发现自己辛苦录制的视频没有录到声音。录屏可以录声音吗?当然可以!只需要使用录屏软件进行录制就可以解决。还不知道录屏可以录声音的小伙伴快来看看吧。 一、录屏可以录声音吗? 很多小伙…

MySQL-如何分库分表?一看就懂

一、为什么要分库分表 如果一个网站业务快速发展,那这个网站流量也会增加,数据的压力也会随之而来,比如电商系统来说双十一大促对订单数据压力很大,Tps十几万并发量,如果传统的架构(一主多从)&…

环境监测看板系统能轻松掌握周边环境的数据

在工业、医疗、养殖和生活等许多地方,温湿度是一个重要的测量参数。季节的变化对环境温湿度影响很大,不同的产品和场地对温湿度都有要求,温湿度环境会影响到产品的性能及寿命,加速产品的老化。以前传统的温湿度检测模式是以人为基…

Pyside2项目实战,从0开始写一个GUI可视化项目:总览

前言 最近使用 Pyside2 编写了几个GUI工具,发现效果出奇的好。遂产生了分享它的念头。 接下来如果不出意外,大概没有意外,我会开始写这个专栏,介绍从零开始去编写一个实用的GUI工具。 这是Pyside2第一篇:《总览》 本文…

数学建模学习笔记(18):三维图形的绘制

三维图形的绘制生成绘图所需的横纵坐标三维网格图的绘制基本语法实战案例两种变形函数三维曲面图的绘制两种变形函数绘图效果的优化其他补充内容生成绘图所需的横纵坐标 [X,Y]meshgrid(xgv,ygv) % 函数解释:X和Y是用于接收返回值的变量,是两个大小相等的…

Python的基础语法

字面量 字面量是在代码中,被写下来的固定的值,称之为字面量 常见的字面量类型 字符串又称为文本是由任意数量的字符如中文、英文、各类符号、数字组成。所以叫做字符串常量。 注释 注释 在程序代码中对程序代码进行解释说明的文字 作用 注释不是程…

Java中XML如何转为BEAN

在网络通讯中&#xff0c;对方传的数据经常是XML格式包装的数据集合。在Java开发中&#xff0c;我们如何将XML转成Java实体类呢&#xff1f; 对方发送的报文 <ns2:response xmlns:ns2"http://service.zxl.cn/test/xml"><school><location>长江边…

Pointnet Tutorial

目录 .1 intro-点云特性 1.1 点云特性 1.2 motivation 1.3 pointnet的处理 .2 Pointnet 2.1 contribution 2.2 solution 2.3 backbone 2.4 代码部分 2.5 小结 .4 应用 References .1 intro-点云特性 Q1&#xff1a;什么是点云&#xff1f; 简单来说就是一堆三维点的集…

【异常】前端提示 Support for the experimental syntax ‘jsx‘ isn‘t currently enabled

一、报错内容 17:33:41 - Building for production... 17:34:13 ERROR Failed to compile with 5 errors5:34:09 PM 17:34:13 17:34:13 error in ./src/layout/components/Sidebar/Item.vue?vue&typescript&langjs& 17:34:13 17:34:13 Syntax Error…