提高广播新闻自动语音识别模型的准确性

news2025/1/10 16:47:31

语音识别技术的存在让机器能够听懂人类的语言,让机器理解人类的语言。语音识别技术发展至今,已经应运而上了各种各样的语音智能助手,可能有一天我们身边的物体都能和我们说话,万物相连的时代也如期而至。

数据从何而来?

IBM在语音识别领域的最初工作是美国政府国防高级研究计划局(DARPA)有效可负担可重复使用语音转文本(EARS)计划的一部分,该计划使语音识别技术取得重大进步。EARS计划从电视节目的隐藏式字幕中产生了约140小时受监督的BN训练数据和约9,000小时的监督很少的训练数据。相比之下,EARS为电话会话语音(CTS)生成了大约2,000个小时高度监督的、人工转录的训练数据。

转换障碍?

由于CTS有大量训练数据可用,因此IBM和澳鹏的团队致力于将类似的语音识别策略应用于BN,以了解这些技术在各个应用之间的转换情况。为了解团队所面临的挑战,有必要指出两种讲话风格之间的一些重要区别: 广播新闻(BN)

  • 清晰、音质精良
  • 演讲者种类繁多,说话风格各异
  • 充斥各种背景噪音环境,身处现场的记者就是例子
  • 涉及各种各样的新闻话题

电话会话语音(CTS)

  • 通常音质差,有声音伪影
  • 无底稿
  • 会话参与者语音穿插,有交叠时刻
  • 有中断、重复字句、会话参与者之间的后台确认,比如“okay”、“oh”、“yes”等

人们在和一个电话座机对话

 团队如何将语音识别模型从CTS调整为BN

团队调整了语音识别系统,成功地将其用于EARS的CTS研究:将多个长短期记忆(LSTM)和ResNet声学模型,以及单词和字符的LSTM和卷积波风格的语言模型,在一系列声学特征上进行了训练。在之前的一项研究中,特别是由语言数据协会(LDC)进行的HUB5 2000英语评估中,该策略在通用类型系统(CTS)的准确度介于5.1%至9.9%之间。团队在BN数据集上测试了此方法的简化版本,该版本并非人工标注,而是使用隐藏式字幕创建的。 团队没有添加所有可用的训练数据,而是精心选择了一个可靠的子集,然后训练LSTM和基于残留网络的声学模型,并在该子集上结合了N元组和神经网络语言模型。除了自动语音识别测试外,团队还针对自动系统进行了基准测试,以澳鹏出品的高质量人工转录本为基准。所有这些模型的主要语言模型训练文本总字数达3.5亿,分别来自于适合广播新闻的不同公开资源。

实验进程正式开始

在第一组实验中,团队分别测试了LSTM和ResNet模型以及N元组和FF-NNLM模型,然后将两种声学模型的评分与原来的CTS评估结果进行比较。与原始CTS测试的结果不同,合并LSTM和ResNet模型的评分后,单词错误率(WER)并未显著降低。单独使用N元组LM的LSTM模型表现很好,添加FF-NNLM模型后,其结果进一步改善。 第二组实验采用LSTM+ResNet+n-gram+FF-NNLM模型解码后生成词网格。团队从这些词网格中生成n个最佳列表,并使用LSTM1-LM对其重新评分。LSTM2-LM也被用来重新独立划分词网格。使用LSTM LM后,发现WER显著增加。研究人员据此推测,使用BN特定数据进行二次微调,使得LSTM2-LM的表现优于LSTM1-LM。

研究成果

我们的ASR结果明显改进了最新表现,与过去十年开发的系统相比,也取得了重大进展。与人类表现相比,ASR绝对结果大约要差3%。虽然机器和人的错误率具有可比性,但是ASR系统替代率和删除错误率要高得多。 研究团队分析了不同的错误类型和错误率,得出了一些值得关注的结论:

  • ASR和人类删除、替换和插入的单词有很大的重叠。
  • 在标记犹豫情绪时人类似乎很小心:在这些实验中,%犹豫情绪是插入最多的符号。在人类转录中,犹豫情绪似乎是表达句义的重要环节。然而,ASR系统侧重于盲识别,并未成功地传达相同的含义。
  • 机器在识别短小虚词方面有困难:the、and、of、a、that和these删除得最多。而人类却似乎能捕捉其中的绝大部分。这些词似乎没有完全表达出来,所以机器无法识别它们,而人类却能够自然地推断出这些词。

研究成果

实验表明,语音ASR技术可以跨域调用,提供准确度高的转录。研究证明,对于声学和语言建模,基于LSTM和ResNet的模型是有效的,而人工评估实验使我们保持诚实。也就是说,尽管我们的方法不断改进,但在人类表现和机器表现之间仍存在差距,这表明,广播新闻的自动转录还需要继续研究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/981868.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FPN模型

【简介】 2017年,T.-Y.Lin等人在Faster RCNN的基础上进一步提出了特征金字塔网络FPN(Feature Pyramid Networks)技术。在FPN技术出现之前,大多数检测算法的检测头都位于网络的最顶层(最深层),虽说最深层的特征具备更丰富的语义信息&#xff0…

Mybatis 动态SQL - 使用foreach标签查询数据、批量新增、批量修改、删除数据

前面我们介绍了使用Mybatis完成数据的增删改查,并且也了解了如何在Mybatis中使用JDK的日志系统打印日志;本篇我们介绍使用Mybatis的动态SQL完成查询数据、批量新增、批量修改、删除数据。 如果您对数据的增删改查操作和Mybatis集成JDK日志系统不太了解&…

基于FPGA的RGB图像转化为灰度图实现,通过MATLAB进行辅助验证

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 vivado2019.2 matlab2022a 3.部分核心程序 timescale 1ns / 1ps // // Company: // Engineer: // // Create Date: 202…

js中添加屏蔽F12 审查元素、屏蔽开发者工具、屏蔽右键菜单、屏蔽剪切、屏蔽选中操作

在看某个网站时,看到一段话想复制一下,结果复制不了。想打开F12看看元素进行复制,也不行,没有反应。最后通过打开开发者工具看看,结果一打开就跳到about:blank。 看到这操作一脸懵逼,小样的,还有…

iPhone15就要到来,iPhone14可能会铺天盖地地降价

智能手机并没有变得更便宜,这就是为什么如果你在购买新设备,值得记住去年的型号。苹果即将推出的iPhone 15系列预计将于本月发布,有传言称9月12日将举行苹果活动。当他们真的宣布时,我们很可能也会看到iPhone 14的价格在iPhone 15…

【项目经验】elementui抽屉(从下到上方向)实现向上拉伸

效果图 直接上代码 <template><div><el-button click"drawerBtn" type"primary" style"margin-left: 16px;">点我打开</el-button><el-drawer title"我是标题" :modal"false" :wrapperClosable…

centos7 下使用docker安装常见的软件:Redis

关于docker的基础知识&#xff0c;请见《别在说自己不知道docker了&#xff0c;全文通俗易懂的给你说明白docker的基础与底层原理》 在自己学习的过程中经常会需要动手安装一下常见的工具&#xff0c;本篇就手把手带你用docker安装一遍。 jdk安装 如果先要更换之前的jdk从第…

汽车级肖特基二极管DSS220-Q 200V 2A

DSS220-Q是什么二极管&#xff1f;贵司有生产吗&#xff1f; 肖特基二极管DSS220-Q符合汽车级AEC Q101标准吗&#xff1f; DSS220-Q贴片肖特基二极管参数是什么封装&#xff1f;正向电流和反向电压是多大&#xff1f; DSS220-Q肖特基二极管需要100KK&#xff0c;有现货吗&#…

LeetCode 48题: 旋转图像

题目 给定一个 n n 的二维矩阵 matrix 表示一个图像。请你将图像顺时针旋转 90 度。 你必须在 原地 旋转图像&#xff0c;这意味着你需要直接修改输入的二维矩阵。请不要 使用另一个矩阵来旋转图像。 示例 1&#xff1a; 输入&#xff1a;matrix [[1,2,3],[4,5,6],[7,8,9]]…

LeetCode刷题笔记【24】:贪心算法专题-2(买卖股票的最佳时机II、跳跃游戏、跳跃游戏II)

文章目录 前置知识122.买卖股票的最佳时机II题目描述贪心-直观写法贪心-优化代码更简洁 55. 跳跃游戏题目描述贪心-借助ability数组贪心-只用int far记录最远距离 45.跳跃游戏II题目描述回溯算法贪心算法 总结 前置知识 参考前文 参考文章&#xff1a; LeetCode刷题笔记【23】…

Ansible-roles学习

目录 一.roles角色介绍二.示例一.安装httpd服务 一.roles角色介绍 roles能够根据层次型结构自动装载变量文件&#xff0c;tasks以及handlers登。要使用roles只需在playbook中使用include指令即可。roles就是通过分别将变量&#xff0c;文件&#xff0c;任务&#xff0c;模块以…

Python爬虫(十八)_多线程糗事百科案例

多线程糗事百科案例 案例要求参考上一个糗事百科单进程案例:https://cloud.tencent.com/developer/article/1021994 Queue(队列对象) Queue是python中的标准库&#xff0c;可以直接import Queue引用&#xff1b;队列时线程间最常用的交互数据的形式。 python下多线程的思考…

0015Java程序设计-springboot美食网站

摘 要目 录**绪论**1.1背景及意义1.2 国内外研究概况1.3 研究的内容 开发环境 摘 要 随着移动应用技术的发展&#xff0c;越来越多的用户借助于移动手机、电脑完成生活中的事务&#xff0c;许多的传统行业也更加重视与互联网的结合。 本论文主要介绍基于java的美食网站&#…

Ubuntu系统自动清理系统内存脚本和使用方法

在使用Ubuntu系统时会出现内存占用太多&#xff0c;系统卡顿现象&#xff0c;有一种shell脚本可以自动清理系统内存&#xff0c;使用方法如下&#xff1a; 1. 新建脚本文件 如 /home/hulk/tools/SysTools/memory-monitor.sh #!/bin/bash# while [[ true ]]; doCOMPILE_TIMEdat…

Yarn资源调度器

文章目录 一、Yarn资源调度器1、架构2、Yarn工作机制3、HDFS、YARN、MR关系4、作业提交之HDFS&MapReduce 二、Yarn调度器和调度算法1、先进先出调度器&#xff08;FIFO&#xff09;2、容量调度器&#xff08;Capacity Scheduler&#xff09;3、公平调度器&#xff08;Fair …

配电室智能运维方案

为提高配电房的智能运维水平&#xff0c;实现智能运维、多端监测、远程控制、用电分析和异常告警等功能&#xff0c;力安科技依托电易云-智慧电力物联网提供了配电室智能运维方案&#xff0c;协助用户监测配电房内的设备运行状态、实现故障实时报警及无人值守&#xff0c;消灭人…

机器学习笔记:node2vec(论文笔记:node2vec: Scalable Feature Learning for Networks)

2016 KDD 1 intro 利用graph上的节点相似性&#xff0c;对这些节点进行embedding 同质性&#xff1a;节点和其周围节点的embedding比较相似 蓝色节点和其周围的节点结构等价性 结构相近的点embedding相近 比如蓝色节点&#xff0c;都处于多个簇的连接处 2 随机游走 2.1 介绍…

vue+antd——table组件实现动态列+表头下拉选择功能——技能提升

Table 表格 展示行列数据。 何时使用 当有大量结构化的数据需要展现时&#xff1b; 当需要对数据进行排序、搜索、分页、自定义操作等复杂行为时。 最近在写vueantd的框架&#xff0c;遇到一个需求&#xff1a;就是要实现table表格的动态列&#xff0c;并且相应的表头要实现下拉…

Python实现SSA智能麻雀搜索算法优化XGBoost回归模型(XGBRegressor算法)项目实战

说明&#xff1a;这是一个机器学习实战项目&#xff08;附带数据代码文档视频讲解&#xff09;&#xff0c;如需数据代码文档视频讲解可以直接到文章最后获取。 1.项目背景 麻雀搜索算法(Sparrow Search Algorithm, SSA)是一种新型的群智能优化算法&#xff0c;在2020年提出&a…

【34. 在排序数组中查找元素的第一个和最后一个位置】

目录 1.题目解析2.算法思路3.代码实现 1.题目解析 2.算法思路 3.代码实现 class Solution { public:vector<int> searchRange(vector<int>& nums, int target) {if(nums.size()0){return {-1,-1};}vector<int> ret;int left0,rightnums.size()-1;while(…