01 前言

端到端语音识别系统在足够多数据上训练后，往往能达到不错的识别效果，然而在实际应用场景中，对于不常见的专有名词，例如人名、产品名、小区名等，往往容易识别错误，此类问题需要快速修复，这就需要用到热词增强功能。

WeNet目前已支持CPU Runtime的热词，包含CTC Prefix Beam Search 和 WFST Beam Search两种解码器的实现，我们在GPU Runtime中的ctc_decoder解码器的基础上实现了热词增强，可同时支持流式与非流式服务，GPU热词已在线上广泛应用。近期，我们将热词代码开源至了WeNet社区[1]。

本文将分别介绍热词的实现方案、使用方法，以及测试效果。

02 GPU服务热词实现方案

WeNet的GPU Runtime支持部署流式和非流式服务，其中解码器均为ctc_decoder[2]中实现的CTC Prefix Beam Search。在原始的ctc_decoder解码器中，已经支持了Ngram语言模型打分，我们参考了语言模型打分具体过程，并在此基础上实现了热词增强功能。

在介绍热词增强功能之前，先回顾下ctc_decoder中的语言模型打分过程。ctc_decoder解码器包含分字语言模型和分词语言模型两种。

中文语音识别时，可以删掉文本中的空格，训练基于分字的Ngram语言模型。假设语言模型阶数为4，计算“语音识别”这句话的概率可以写成：

其中“<s>”表示开始标识符，这里4个条件概率中每个概率都包含四个字符。在ctc_decoder解码器中，分字语言模型在每一帧生成新的前缀后都会被使用到。使用分字语言模型打分包含两步，第一步，通过调用make_ngram[3]函数获取当前前缀中的Ngram，即上面条件概率的四个字符“<s>语音识”；第二步，调用语言模型计算上面公式中的条件概率。

英文语音识别时，单词与单词之间需要用空格进行分开，这种情况可以使用分词语言模型。比如计算“end to end asr”的概率可以写成：

其中语言模型阶数为4，当使用分词语言模型时，每个条件概率中包含4个词。在ctc_decoder解码器中，分词语言模型并不会在每一帧都做语言模型打分，需要积攒几帧已经生成的字符然后串成单词，单词和单词之间按照空格进行隔开，所以分词语言模型只有在遇到空格的时候才会做语言模型打分，上面条件概率中的4个单词组合同样也可以通过make_ngram得到。

在ctc_decoder解码器中，可以使用is_character_based参数来切换分字和分词模型。当is_character_based=True时，使用分字模型；当is_character_based=False时，使用分词模型。

在做热词增强时，可以借鉴语言模型打分的思路，同时复用is_character_based参数。首先通过make_ngram从前缀中得到汉字或者单词的Ngram组合，然后判断词是否在热词词典中，如果词在热词词典中，则将热词分数加上去。在做热词增强时，复用了make_ngram[4]函数用来找固定窗口大小的字和单词，但在热词增强时，可以使用更大的阶数，主要应对比较长的热词。

热词增强和语言模型一样区分了分字和分词的原因如下：因为热词增强在语言模型之前，如果做热词增强make_ngram的阶数高于语言模型make_ngram的阶数，语言模型打分不需要再调用make_ngram，可以直接复用热词中的make_ngram结果。接下来，将详细讲解热词增强中的分字和分词。

2.1 输出字

假设输入音频有4帧，第一帧到第四帧解码的字符分别为“语”，“音”，“识”，“别”，如下图所示。在下面例子中，我们假设解码过程每一帧都生成了新的前缀，所以在每一帧都会做热词增强。

做热词增强时，整体可以分为获取字符、字组成词、加热词分数3个步骤，下面将以第三帧为例，解释输出字的热词增强过程。

Step1:获取字符。调用HotWordsScorer中的make_ngram[4]得到截止到当前帧固定长度窗口内的字符和非<s>的开始索引。比如在第三帧时，假设窗长大小设置为4，将会回溯第三帧、第二帧、第一帧的字符，得到[语, 音, 识]三个字符。由于窗长大小设置为4，会在[语 ,音, 识]的基础上添加“<s>”字符得到[<s>, 语, 音, 识]（添加“<s>”的原因在于如果同时再做语言模型打分，可以直接用）。同时也会记录[<s>, 语, 音, 识]中非“<s>”的开始位置索引1。

Step2:字组成词。使用std::accumulate[5]将Step1得到的字符[<s>,语,音,识]组合成为词得到[语音识,音识]（默认字组成为词方式），组合成词时需要将“<s>”去掉。

Step3:加热词分数。判断[语音识, 音识]这两个词是否在用户提供的热词词典中。如果在，将热词的权重加入到当前解码路径的logp中。如果“语音识”在热词中，默认不会再继续判断“音识”是否在热词中。

2.2 输出词

当声学模型可以输出空格，除了可以使用2.1中输出字的方式，还可以使用输出词的方式，词与词之间是按照空格进行分隔的。假设输入音频有11帧，每一帧输出如下图所示。其中第4帧、第7帧、第11帧输出的字符为空格。

输出为词时，不需要每一步都做热词增强，只需要在输出为空格的时刻，向前面时间步进行回溯即可。接下来介绍如何在第11帧做热词增强。

Step1:获取单词。在输出为空格的时刻，调用HotWordsScorer中的make_ngram[4]得到截止当前帧固定长度窗口内的词语和非“<s>”的开始索引。比如在第11帧时，假设固定窗口大小为4，将会回溯到第7帧、第4帧和第1帧，得到[end, to, end] 3个词，需要在最前面填充“<s>”使得长度为4，得到[<s>, end, to, end]。同时记录下非“<s>”的索引为1。

Step2:加热词分数。判断[<s>, end, to, end]中的“end”，“to”，“end”是否在热词词典中。如果在则将热词的得分加入到当前路径中。

在做完热词打分后，用户可以选择是否做语言模型打分。如果需要做语言模型打分，语言模型Ngram窗口内的词语[<s>, end, to, end]或者字符[<s>, 语, 音, 识]则可以直接复用热词增强时得到的Ngram组合。

介绍完热词增强的实现原理，接下来介绍GPU热词在WeNet中的使用方法。

03 GPU热词的使用方法

3.1 WeNet GPU Runtime中使用

在WeNet GPU Runtime中，包含model_repo（非流式）和model_repo_stateful（流式）两个文件夹，我们主要修改scoring/1/model.py和wenet/1/wenet_onnx_model.py文件，使其能够使用热词增强。

使用热词增强分为如下几步：

Step1: 构造热词词典 hotwords.yaml，将其路径写在config.pbtxt文件中，服务会判断config.pbtxt中hotwords_path是否存在，如果存在则加载热词字典；

Step2: 根据已经加载的热词字典，自动确定热词的最大长度；

Step3: 初始化HotWordsScorer，初始化hotwords_scorer时必须输入热词字典和词汇表vocab，window_length默认长度为4，SPACE_ID为-2，is_character_based为True；

Step4: 将hotwords_scorer作为参数输入到ctc_beam_search_decoder_batch进行解码。

接下来以一条音频为例，测试热词效果，可以参考ctc_decoder中的test_zh.py文件。在测试时，一些解码参数设置为：beam_size=10, blank_id=0, space_id=45,cutoff_prob=1（增大cutoff_prob概率使其能够输出空格字符），alpha=0.5, beta=0.5, window_length=4。热词为“极点”，权重为550（hot_words={'极点': 550}），如果想减少某些词出现的概率，可以设置为负值，权重的数据类型为float。

从上表的解码结果来看，加入热词“极点”后，都能够解码出该词。注意，在语言模型is_character_based为False时，这时候使用热词时，需要确保热词在语言模型unigram中或者作为unigram的前缀。因为当语言模型is_character_based为False时，首先会将语言模型unigram词用fst进行存储，然后在解码过程中，每一帧生成的新前缀要在fst中找到一条路径才会生成出真的有效前缀。

3.2 经验之谈

1、在使用WeNet GPU Runtime时，启动tritonserver服务可以添加--model-control-mode=poll --repository-poll-secs=60参数，可以实时热加载热词文件；

2、面对业务场景比较多时，可以设置分业务场景做热词增强。第一种方案是将scoring模块复制几份得到scoring1，scoring2等，然后再将attention_rescoring复制几份得到attention_rescoring1，attention_rescoring2等，不同的业务场景请求不同的attention_rescoring；第二种方案为在ctc_beam_search_decoder_batch解码时，遍历每一个业务线分别进行解码。

3、在使用热词时，先要确定声学模型输出的top beam_size（默认beam_size=10）汉字中有无热词中的汉字，如果没有可以使用TTS合成一部分数据来微调声学模型，或者增大beam_size（10->20）；

4、解码器在解码搜索时，在每帧只会保存beam_size条最优路径，有可能加了热词，但是包含热词的路径在中间某一步被剪枝了，这种情况可以增大beam_size（10->20）,但是解码耗时会有些上升；

5、一般热词权重设置到10左右，可以先对热词设置一个比较大的权重，看看能否解码出热词，然后再逐步减少权重直到找到最低权重。

6、ctc_decoder中默认的空格为“ ”，如果训练声学模型时将空格用“_”或者“<space>”进行表示，需要将空格[6]改为对应符号。

7、在热词实现2.1节Step2的例子中，我们选择使用了[语音识,音识]的组合方式，当然此处也可以使用 [语音识,语音]的组合，但测试效果不如前者。