HW1

1，Train a seq2seq attention-based ASR model. Paste the learning curve and alignment plot from tensorboard. Report the CER/WER of dev set and kaggle score of testing set. (2 points)

一开始的时候，成绩很烂啦，虽然alignment plot看起来还挺合理的，不过打不过baseline
在这里插入图片描述

提交到kaggle上，成绩是这样的，比baseline烂不少

2，Repeat 1. by training a joint CTC-attention ASR model (decoding with seq2seq decoder). Which model converges faster? Explain why. (2 points)

这里我用的CTC weight是0.3，可以看到joint CTC-attention ASR收敛更快，而且模型效果更好。网上搜了一下，大概原因是ASR中attention是非常非常灵活的，joint CTC-attention相当于在前期encoder部分就做了对齐，所以会更快收敛，效果也更好。
在这里插入图片描述

这个时候结果已经可以比baseline好了在这里插入图片描述 3，Use the model in 2. to decode only in CTC (ctc_weight=1.0). Report the CER/WER of dev set and kaggle score of testing set. Which model performs better in 1. 2. 3.? Explain why. (2 points)

1,2,3里面应该是2结果最好，因为2的decode有了CTC的帮助，但3中纯粹用CTC decode的话，就像老师在课上讲的，CTC不考虑前面的输出，效果不会特别好，往往需要后处理。

作业slide里面说CTC decode后的结果要再处理一下，但是我看结果没有什么重复和空的地方，应该是助教后期写好了吧，以下是eval的结果：
在这里插入图片描述

kaggle提交结果如下，还挺惊讶3的效果比1好。
在这里插入图片描述

4，Train an external language model. Use it to help the model in 1. to decode. Report the CER/WER of dev set and kaggle score of testing set. (2 points)

这里我的lm训练了超级久都没有结束，但我看ckpt里面模型早就不再更新，所以就手动停止了程序。
decode的时候，我的lm weight取的0.5。最后的结果，只能说比1提升了一点吧，比不过CTC，离baseline还很远，可能是我的LM不太好的原因。
在这里插入图片描述