如有转载,请注明出处。欢迎关注微信公众号:低调奋进。打算开始写LLM系列文章,主要从数据、训练框架、对齐等方面进行LLM整理。
Baichuan 2: Open Large-scale Language Models
原始文章链接
https://cdn.baichuan-ai.com/paper/Baichuan2-technical-report.pdf
github
https://github.com/baichuan-inc
hugginggface
https://huggingface.co/baichuan-inc
训练LLM的同行可以精读文章llama、llama2和baichuan2等文章,干货较多。本文不做翻译,主要罗列个人关注的重点。阅读本文的前提是已经对LLM熟悉,最好已经积累一定训练经验。本文干货较多,有的实验可以作为自己试验的指向标。
同时想阅读LLM的综述文章可以读以下文章:
A Survey of Large Language Models
https://arxiv.org/pdf/2303.18223.pdf
Large Language Models
https://arxiv.org/pdf/2307.05782.pdf
A Comprehensive Overview of Large Language Models
https://arxiv.org/pdf/2307.06435.pdf
A Survey on Evaluation of Large Language Models
https://arxiv.org/pdf/2307.03109.pdf
Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning
https://arxiv.org/pdf/2303.10475.pdf
模型名称 | Baichuan 2-7b, Baichuan 2-13b, |
模型大小 | 7b, 13b |
支持语言 | 多语言 |
模型具体参数 | |
预训练数据 | 2.6 T tokens |
模型tokenizer | |
预训练数据分类占比 | |
预训练数据处理流程 | |
预训练改进点 | NormHead, Max-z loss |
模型 | SwiGLU、xFormers、RMSnorm |
训练框架 | Megatron-LM + deepspeed(zero3) |
预训练参数 | BFloat16、AdamW(β1=0.9, β2=0.95,warm_up=2000, lr=2e-4(7b),1.4e-4(13b) |
训练硬件 | 1024 *A800 (80G) |
对齐SFT数据 | 100k sft (人工标注校验) |
Safety工作 | Pretraining stage, alignment stage |
对齐RLHF流程 | |
实验一:NormHead | |
实验二:7b, 13b预训练 loss | |
实验三:Scaling Laws | |
实验四:同尺寸预训练模型对比 | |
实验五:同尺寸预训练模型垂直领域对比 | |
实验六:预训练多语种 | |
实验七:Safety 评估 | |
实验八:chat模型safety评估 | |
实验九:训练过程评估 | |
训练风向标 |