LLM文章阅读：Baichuan 2 干货

news2025/4/15 5:23:02

如有转载，请注明出处。欢迎关注微信公众号：低调奋进。打算开始写LLM系列文章，主要从数据、训练框架、对齐等方面进行LLM整理。

Baichuan 2: Open Large-scale Language Models

原始文章链接

https://cdn.baichuan-ai.com/paper/Baichuan2-technical-report.pdf

github

https://github.com/baichuan-inc

hugginggface

https://huggingface.co/baichuan-inc

训练LLM的同行可以精读文章llama、llama2和baichuan2等文章，干货较多。本文不做翻译，主要罗列个人关注的重点。阅读本文的前提是已经对LLM熟悉，最好已经积累一定训练经验。本文干货较多，有的实验可以作为自己试验的指向标。

同时想阅读LLM的综述文章可以读以下文章：

A Survey of Large Language Models

https://arxiv.org/pdf/2303.18223.pdf

Large Language Models

https://arxiv.org/pdf/2307.05782.pdf

A Comprehensive Overview of Large Language Models

https://arxiv.org/pdf/2307.06435.pdf

A Survey on Evaluation of Large Language Models

https://arxiv.org/pdf/2307.03109.pdf

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

https://arxiv.org/pdf/2303.10475.pdf

模型名称	Baichuan 2-7b, Baichuan 2-13b, Baichuan 2-7b-Chat, Baichuan 2
模型大小	7b, 13b
支持语言	多语言
模型具体参数
预训练数据	2.6 T tokens
模型tokenizer
预训练数据分类占比
预训练数据处理流程
预训练改进点	NormHead, Max-z loss
模型	SwiGLU、xFormers、RMSnorm
训练框架	Megatron-LM + deepspeed（zero3)
预训练参数	BFloat16、AdamW(β1=0.9, β2=0.95,warm_up=2000, lr=2e-4(7b),1.4e-4(13b)
训练硬件	1024 *A800 (80G)
对齐SFT数据	100k sft (人工标注校验）
Safety工作	Pretraining stage, alignment stage
对齐RLHF流程
实验一：NormHead
实验二：7b, 13b预训练 loss
实验三：Scaling Laws
实验四：同尺寸预训练模型对比
实验五：同尺寸预训练模型垂直领域对比
实验六：预训练多语种
实验七：Safety 评估
实验八：chat模型safety评估
实验九：训练过程评估
训练风向标