wenet-基于预训练模型进行增量训练

news2026/2/12 1:36:20

1867-154075-0014

重中之重

run.sh脚本分析

wenet aishell脚本解析_weixin_43870390的博客-CSDN博客

一、准备工作

第一步：准备训练数据，拷贝到远程服务器

将准备好的数据文件0529_0531_dataset，上传到恒源云上的/hy-tmp/wenet/examples/aishell/s0下

0529_0531_merge_label .txt标签文件的内容中，每行为音频ID 空格音频标签，无表头

本地文件：

远程文件：

第二步，准备多个text和wav.scp文件，拷贝到远程服务器

1.远程上手动创建几个文件

cd /hy-tmp/wenet/examples/aishell/s0
mkdir -p data/train
mkdir -p data/test
mkdir -p data/dev

2.拷贝text、wav.scp文件到远程服务器

将本地准备好的F:/wenet数据集/0529_0531_merge/chuli下的train、dev、test中的text、wav.scp两个文件分别拷贝到远程/hy-tmp/wenet/examples/aishell/s0/data下对应的train、dev、test文件夹下

text的内容如下：

音频ID 空格音频标签

1867-154075-0014 你好请问有什么需要帮助的吗
1970-26100-0022 家里停电了

wav.scp的内容如下：

音频ID 空格音频路径

1867-154075-0014  /hy-tmp/XXX/XXX.wav
1970-26100-0022 /hy-tmp/XXX/XXX.wav

二、修改run.sh脚本和yaml参数

先下载预训练模型

打开Pretrained Models in WeNet — wenet documentation

点击红框中的模型，先填表格，就可以下载

cd /hy-tmp/wenet/examples/aishell/s0

mkdir pretrained_model

cd pretrained_model

wget https://wenet-1256283475.cos.ap-shanghai.myqcloud.com/models/wenetspeech/wenetspeech_u2pp_conformer_exp.tar.gz

tar -xzf wenetspeech_u2pp_conformer_exp.tar.gz

解压后模型文件中包含四个文件：final.pt,train.yaml,units.txt,global_cmvn

然后开展以下步骤,修改/hy-tmp/wenet/examples/aishell/s0下的run.sh文件中的参数：

（1）根据GPU数量，修改序号

export CUDA_VISIBLE_DEVICES="0"

（2）修改结束步骤(可选，如果不一步一步敲命令，想直接执行多步必须改)

stop_stage=4

（3）修改训练数据的路径

data=/hy-tmp/wenet/examples/aishell/s0/0529_0531_dataset

其中0529_0531_dataset是前面上传的训练数据文件夹

(4)修改词典路径，为预训练模型的词典

虽然执行stage2会根据训练数据生成词典（几千个而已），但是要改成预训练模型的词典路径，因为预训练模型的语料比较大，生成的词典自然比较大（几万个）

dict=pretrained_model/20220506_u2pp_conformer_exp/units.txt

（5）修改模型配置(用预训练模型的yaml)

先改成预训练模型的yaml文件路径
train_config=pretrained_model/20220506_u2pp_conformer_exp/train.yaml

再打开预训练模型的train.yaml,修改里面的cmvn_file参数为（这边用绝对路径靠谱些，因为没有跟run.sh同级目录）

先用预训练模型的cmvn

cmvn_file: /hy-tmp/wenet/examples/aishell/s0/pretrained_model/20220506_u2pp_conformer_exp/global_cmvn

疑问：CMVN是对特征进行倒谱均值归一化，不是应该基于新的训练数据集计算得到的吗？理论上不应该用预训练数据的，都试试吧，看实验效果（测试不用预训练模型的还是报短音频帧数过滤方面的错误）

同时修改train.yaml中的其他参数

#改成16，防止显存不够

batch_size: 16

min_length: 30 # 1帧=10ms,过来掉少于0.3秒的

token_max_length: 200 #最大文字长度

max_epoch: 100 # 先训练100次试试

（6）修改成有计算cmvn

cmvn=true

修改修改$cmvn && cp data/${train_set}/global_cmvn $dir 为

$cmvn && cp /hy-tmp/wenet/examples/aishell/s0/pretrained_model/20220506_u2pp_conformer_exp/global_cmvn $dir

(7) 修改模型生成后的存放地址（每次新训练一个模型前，切记修改）

dir=model_0529_0531/conformer

(8)指定预训练模型，进行增量训练

checkpoint= pretrained_model/20220506_u2pp_conformer_exp/final.pt

即checkpoint=pretrained_model/20220506_u2pp_conformer_exp

（9）修改为多模型平均计算

average_checkpoint=true

（10）同时修改如下：

local/aishell_data_prep.sh ${data}/wav \
${data}/transcript

三、修改 s0/local/aishell_data_prep.sh的参数

根据实际情况修改文件名

aishell_text=$2/0529_0531_merge_label .txt

六、执行stage1

./run.sh --stage 1 --stop-stage 1

把transcript取掉空格，重新生成text，原来的变成text.org
使用wav.scp计算cmvn，存放到train目录下面

七、不执行stage 2（这步是生成词典，但是我们用的是预训练模型的词典，所以不用生成）

八、执行stage3

./run.sh --stage 3 --stop-stage 3

data/train data/test data/dev都生成了data.list

把wav.scp 和 text准备成data.list

九、开始训练

./run.sh --stage 4 --stop-stage 4

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/599658.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

wenet-基于预训练模型进行增量训练

重中之重

一、准备工作

第一步：准备训练数据，拷贝到远程服务器

第二步，准备多个text和wav.scp文件，拷贝到远程服务器

二、修改run.sh脚本和yaml参数

三、修改 s0/local/aishell_data_prep.sh的参数

六、执行stage1

七、不执行stage 2（这步是生成词典，但是我们用的是预训练模型的词典，所以不用生成）

八、执行stage3

相关文章

数据结构与算法10：递归树、Trie树、B+树

Effective第三版中英 | 第2章创建和销毁对象 | 用私有构造器或者枚举类型强化 Singleton 属性

如何在本地配置Github的项目--Python

【Android开发基础】购物车代码整理

【数据加密】古典密码Playfair

Swin-Transformer详解

数据的存储（浮点型）

String AOP的使用

2023 重新开始

c语言之结构体（初阶）

常见的五种排序

批量提取某音视频文案(二)

VLANIF虚接口案例实践

传统图形学对nerf的对比与应用落地

【CloudCompare教程】010：点云的裁剪功能（分段、裁剪、筛选）

使用免费的SSL证书将nginx配置的普通网站修改为HTTPS网站

chatgpt赋能python：Python交易接口简介

Effective第三版中英 | 第2章创建和销毁对象 | 考虑静态工厂方法而不是构造函数

基于SSM的人才招聘网站

模拟实现库函数：strcpy