语音识别技术的存在让机器能够听懂人类的语言,让机器理解人类的语言。语音识别技术发展至今,已经应运而上了各种各样的语音智能助手,可能有一天我们身边的物体都能和我们说话,万物相连的时代也如期而至。
数据从何而来?
IBM在语音识别领域的最初工作是美国政府国防高级研究计划局(DARPA)有效可负担可重复使用语音转文本(EARS)计划的一部分,该计划使语音识别技术取得重大进步。EARS计划从电视节目的隐藏式字幕中产生了约140小时受监督的BN训练数据和约9,000小时的监督很少的训练数据。相比之下,EARS为电话会话语音(CTS)生成了大约2,000个小时高度监督的、人工转录的训练数据。
转换障碍?
由于CTS有大量训练数据可用,因此IBM和澳鹏的团队致力于将类似的语音识别策略应用于BN,以了解这些技术在各个应用之间的转换情况。为了解团队所面临的挑战,有必要指出两种讲话风格之间的一些重要区别: 广播新闻(BN)
- 清晰、音质精良
- 演讲者种类繁多,说话风格各异
- 充斥各种背景噪音环境,身处现场的记者就是例子
- 涉及各种各样的新闻话题
电话会话语音(CTS)
- 通常音质差,有声音伪影
- 无底稿
- 会话参与者语音穿插,有交叠时刻
- 有中断、重复字句、会话参与者之间的后台确认,比如“okay”、“oh”、“yes”等
团队如何将语音识别模型从CTS调整为BN
团队调整了语音识别系统,成功地将其用于EARS的CTS研究:将多个长短期记忆(LSTM)和ResNet声学模型,以及单词和字符的LSTM和卷积波风格的语言模型,在一系列声学特征上进行了训练。在之前的一项研究中,特别是由语言数据协会(LDC)进行的HUB5 2000英语评估中,该策略在通用类型系统(CTS)的准确度介于5.1%至9.9%之间。团队在BN数据集上测试了此方法的简化版本,该版本并非人工标注,而是使用隐藏式字幕创建的。 团队没有添加所有可用的训练数据,而是精心选择了一个可靠的子集,然后训练LSTM和基于残留网络的声学模型,并在该子集上结合了N元组和神经网络语言模型。除了自动语音识别测试外,团队还针对自动系统进行了基准测试,以澳鹏出品的高质量人工转录本为基准。所有这些模型的主要语言模型训练文本总字数达3.5亿,分别来自于适合广播新闻的不同公开资源。
实验进程正式开始
在第一组实验中,团队分别测试了LSTM和ResNet模型以及N元组和FF-NNLM模型,然后将两种声学模型的评分与原来的CTS评估结果进行比较。与原始CTS测试的结果不同,合并LSTM和ResNet模型的评分后,单词错误率(WER)并未显著降低。单独使用N元组LM的LSTM模型表现很好,添加FF-NNLM模型后,其结果进一步改善。 第二组实验采用LSTM+ResNet+n-gram+FF-NNLM模型解码后生成词网格。团队从这些词网格中生成n个最佳列表,并使用LSTM1-LM对其重新评分。LSTM2-LM也被用来重新独立划分词网格。使用LSTM LM后,发现WER显著增加。研究人员据此推测,使用BN特定数据进行二次微调,使得LSTM2-LM的表现优于LSTM1-LM。
研究成果
我们的ASR结果明显改进了最新表现,与过去十年开发的系统相比,也取得了重大进展。与人类表现相比,ASR绝对结果大约要差3%。虽然机器和人的错误率具有可比性,但是ASR系统替代率和删除错误率要高得多。 研究团队分析了不同的错误类型和错误率,得出了一些值得关注的结论:
- ASR和人类删除、替换和插入的单词有很大的重叠。
- 在标记犹豫情绪时人类似乎很小心:在这些实验中,%犹豫情绪是插入最多的符号。在人类转录中,犹豫情绪似乎是表达句义的重要环节。然而,ASR系统侧重于盲识别,并未成功地传达相同的含义。
- 机器在识别短小虚词方面有困难:the、and、of、a、that和these删除得最多。而人类却似乎能捕捉其中的绝大部分。这些词似乎没有完全表达出来,所以机器无法识别它们,而人类却能够自然地推断出这些词。
研究成果
实验表明,语音ASR技术可以跨域调用,提供准确度高的转录。研究证明,对于声学和语言建模,基于LSTM和ResNet的模型是有效的,而人工评估实验使我们保持诚实。也就是说,尽管我们的方法不断改进,但在人类表现和机器表现之间仍存在差距,这表明,广播新闻的自动转录还需要继续研究。