Alpaca模型微调:
整个pipeline
1. 主流底座:Candidate
中文:YI-34B
英文:LLama,mistral
2. 验证:
我们自己的Instructoin data
通用的Instruction data(适合我们场景的)
3. 收集大量的Finetune Data:一万到十万,高质量7K>一般质量30K
- 人工
- 半人工
- 全自动
4. Fine Tune: Lora等
5. Inference-->server-->API-->APP/PC
Instruction Tuning可以尝试的使用方法
1. training on Instruction data
2. 通用Instruction data和私有 Instruction data混合,可以解决某些能力的遗忘
3. 混合比例,根据关注度确定,混合后做sample,构成minibatch
4. pre-train的时候加入Instruction data,接着在SFT上再使用Instruction Data
llama模型
开源模型
Transformer Decoder架构
结构上与Transformer经典结构差距很小
7B、13B、33B、65B四种基座模型(一般从小的开始训)
使用的通用数据:
- 位置编码-->循环位置编码
- Relu激活函数-->SwiGlu激活函数
- Efficient Implementation (reduce time and memory)
Alpaca是llama的fundation model,不具备chat能力,
instruction data 示例: