在增量预训练过程中通常需要设置三类或四类参数,模型参数,数据参数,训练参数,额外参数。
下面分别针对这四种参数进行说明。
欢迎关注公众号
模型参数
- model_type
模型类型,例如bloom,llama,baichuan,qwen等。
- model_name_or_path
模型名称或者路径。
- tokenizer_name_or_path
分词器名称或者路径。如果进行了词表扩充或裁剪,则tokenizer_name_or_path
和model_name_or_path
不同。
- load_in_8bit
是否以8bit加载模型。
- load_in_4bit
是否以4bit加载模型。
- use_fast_tokenizer
是否使用快速分词器。
- torch_dtype
张量数值类型
- device_map
设置指定设备(也就是在哪张显卡上)
数据参数
- dataset_name
数据集的名称&#