1 引言
本笔记展示了如何对多语种预训练的语音模型进行微调,以实现自动语音识别(Automatic Speech Recognition)。
本笔记旨在使用SUPERB数据集中的关键词检测子集,并且可以使用任何来自模型库(Model Hub)的语音模型检查点,只要该模型有一个包含序列分类头(Sequence Classification head)的版本(例如Wav2Vec2ForSequenceClassification)。
根据你使用的模型和GPU,可能需要调整批量大小,以避免内存溢出错误。设置这两个参数后,笔记的其余部分应该可以顺利运行:
model_checkpoint = "facebook/wav2vec2-base" # 设置模型检查点为facebook/wav2vec2-base
batch_size = 32 # 设置批量大小为32<