ASR(Automatic Speech Recognition)调研，当前sota的架构

news2025/7/15 5:37:01

asr概览英文纯享版：an overview of transducer models for asr

本文主要讲述nvidia和openai的模型架构，应为他们两家霸榜huggingface leader board
小白也能阅读了解一下当前sota的asr架构是什么样的

在这里插入图片描述
评测指标

Word Error Rate (WER)：错词率，值越小代表识别效果越好
Real Time Factor (RTF)：实时反馈，值越小代表模型识别的越快

Nvidia的asr模型

以前是基于Conformer模型，现在是基于原先模型优化后的Fast-Conformer，可以4x节省显存以及3x提高计算速率
Conformer是Transformer的一个变体，在自注意力层间堆叠卷积神经网络层

在这里插入图片描述

原文档摘录：This paper’s thesis is that by interleaving Convolutional Neural Networks layers in between the self-attention layers in transformers

一、Canary 金丝雀

这是一个 encoder-decoder模型，encoder模型是Fast-Conformer，decoder是transformer

加入了concatenated tokenizer ，提供对输出标记空间的明确控制，有助于优化模型性能

不支持中文，模型许可不能商用

原文档摘录： The model weights are distributed under a research-friendly non-commercial CC BY-NC 4.0 license

架构参考文献

Fast Conformer with Linearly Scalable Attention for Efficient Speech Recognition
Unified Model for Code-Switching Speech Recognition and Language Identification Based on Concatenates Tokenizer

二、Parakeet 鹦鹉

也是encoder-decoder模型，语音长度支持11小时，显卡要求A100 GPU 80G

encoder是Fast-Conformer，decoder是RNNT或CTC（CTC在RTF的表现更好，快4~6倍）

CTC（Connectionist Temporal Classification）连续时间分类
- 概念： CTC 是一种特别为序列预测任务设计的训练和解码方法，它能够处理输入和输出序列长度不一致的问题。这在语音识别中尤其有用，因为输入的语音长度和输出的文本长度通常是不匹配的。
- 原理： CTC 引入了一个特殊的空白标签（通常表示为 “blank” 或 “-”），用于处理不需要输出字符的时间步。它通过这个空白标签来桥接输入和输出之间的时间对齐问题，并允许模型学习在何时输出一个字符以及何时保持沉默。
- 优点： 不需要对齐，只需要语音以及其对应的文本序列
- 缺点： 条件独立，token之间没有上下文关联；需要一个额外训练的语言模型来纠正语义错误。
  - 例如输出I have for apples ，应该是four，由于条件独立没有上下文交互，所以无法确定是for 还是four
RNNT（Recurrent Neural Network Transducer）循环神经网络转录器，Transducer == RNNT 不同称呼但是指的是同一个东西（我之前还疑惑了很久，后来发现是同一个东西）

在这里插入图片描述

概念： 处理输入输出序列长度不匹配的问题
原理： 编码器（encoder）、预测器(Predictor)和联合网络(Joiner)。编码器处理输入的声音特征，预测器处理已生成的文本序列，而联合网络将编码器和解码器的输出结合起来，生成最终的输出概率分布。
优点： 在没有明确时间对齐指导的情况下，进行更为动态的解码，适用于需要实时反馈的应用场景。有上下文依赖，根据上一个输入预测下一个输出

在encoder中，加入了Limited Context Attention (LCA) and Global Token (GT)

LCA：不考虑整个输入序列，只关注部分的序列；减少计算负担，提高处理速度，并可能帮助模型更专注于当前最相关的信息片段。
GT：是一种机制，通过引入一个或多个特殊的标记（tokens），这些标记被训练用来捕捉整个输入序列的全局状态或特征。这些标记在模型的每个处理步骤中都会被更新，以反映序列的整体上下文。

不支持中文但可以微调，可以商用

You can fine-tune Parakeet models for other languages on your own datasets. Below are some helpful tutorials:

Finetuning on data in NeMo manifest format: ASR CTC language finetuning tutorial
Finetuning on data in Hugging Face datasets format: ASR with Transducer Models using HF Datasets tutorial.

相同模型在不同的推理设备下有不同的RTF（real-time factor）值

架构参考文献

Fast Conformer with Linearly Scalable Attention for Efficient Speech Recognition
End-to-End ASR Architecture for Long-Form Audio Transcription

三、Parakeet-TDT

TDT (Token-and-Duration Transducer)，这是一个新的训练架构，能提高准确率和速度

之前的架构： Transducers (AKA RNNTs if only using Recurrent Neural Networks and their variants).

在这里插入图片描述

encoder处理音频
decoder处理已经预测出的文本
joiner结合encoder和decoder的输出来预测每一个音频片段（frame，是一个基本单位）

joiner通常将语音切片成40~80毫秒，但是说一个单词的平均时间是400毫秒，这就导致在片段中的一些数据不会与任何文本输出相关联，这里用空白符_表示，删除空白符才能得到完整的句子

_ _ _ _ NVIDIA _ _ _ _ is _ _ _ a _ _ great _ _ _ _ _ place _ _ _ _ to work _ _ _

TDT架构多加了一个概率输出
在这里插入图片描述

token概率 $P_T(v|t,u)$ ，是当前frame中预测token的概率
持续时间概率 $P_D(d|t,u)$ ，是在预测下一个token之前，当前token持续的frame数量

预测的输出如下

frame 1:  predict token=_,      duration=4 
frame 5:  predict token=NVIDIA, duration=5 
frame 10: predict token=is,     duration=4 
frame 14: predict token=a,      duration=3 
frame 17: predict token=great,  duration=6 
frame 23: predict token=place,  duration=5 
frame 28: predict token=to,     duration=1 
frame 29: predict token=work,   duration=4 
frame 33: reach the end of audio, recognition completed.