前面我们训练以后,然后
可以看到训练以后的结果,
可以用自己训练后的情况和这个对比一下.
看看效果
然后我们来看如果我们自己要训练一个模型,对模型进行微调,那么过程是怎么样的?
## 十二、数据准备与处理
### 12.1、数据采集
- 自然来源(如业务日志):真实数据
- Web 抓取:近似数据
- 人造
可以看到首先是收集数据,这里,收集的手段,比如
自然来源:比如业务的日志,以前旧系统的数据,是真实的数据
web抓取:近似的数据 比如我们要做一个导航的大模型,比如去故宫怎么走,可以百度,找到路线以后,整理出过程来,做为训练数据
人造:最后一个版本就是人为的去造了.如果人多,没人10条,也很快.
### 12.2、数据标注
- 专业标注公司
- 定标准,定验收指标
- 预标注
- 反馈与优化
- 正式标注
- 抽样检查:合格->验收;不合格->返工
准确率要定下来是百分之98还是多少,做预标注,报价,预估一下需要多久.
相互沟通好,保证标注出来的效果.
- 众包
- 定标准,定检验指标
- 抽样每个工作者的质量
- 维系高质量标注者社区
- 主动学习:通过模型选择重要样本,由专家标注,再训练模型
- 设计产品形态,在用户