文章目录 前言 环境 项目结构 一、使用步骤 二、训练词表 三、合并词表 四、效果 前言 总的来说,扩充词表可以加快解码速度,对于对中文支持不太友好的模型(如llama),扩充词表还能提升模型在中文的表现。 环境 jsonlines==3.1.0 sentencepiece==0.1.99 transformers==4.28.1 项目结构 其中 tokenization_baichuan.py是直接从百川模型文件夹里复制过来的 一、使用步骤 pip install -r requirements.txt