大模型的修炼-RLHF 增强式学习
- 大模型修炼阶段
- Instruct Fine-tune 和 RLHF 的区别和联系
- 回馈模型 Reward Model
- 增强式学习的难题
- 怎么定义什么是好的?
- 人类也无法判定好坏的
大模型是如何具备人工智能的呢? 上面一篇文章介绍到了前两个阶段,接下来还需要第三阶段的RLHF,下面先复习一下这几个阶段:
大模型修炼阶段
-
第一阶段,自督导式学习
不需要人工标注数据,自督导式学习,直接使用网络上的大量资料,喂给模型,让模型学会文法知识和世界认知的知识。
第一阶段的模型形成pre-train的模型,具备常识。 -
第二阶段,督导式学习
人工标注数据,督导式学习,Instruct Fine-tune,微调模型,教会模型人类问答的形式,学会怎么跟人类一样回答问题
第二阶段回复更具备人类回复方式 -
第三阶段,增强式学习Reinforcement learning From Human Feedback (RLHF)
学会了人类的回复方式,但还是要让模型学会更怎么回复的更好。比如回复涉及到不健康内容,这就不是个好回复。这就继续需要人类去选择那种回复更好,也就是从人类反馈的增强式学习RLHF
第二第三阶段都是微调模型,二者的区别又是什么呢?
Instruct Fine-tune 和 RLHF 的区别和联系
相同点:
- 都是使用人工标注的数据,对模型微调
区别:
- 人类负责的事情不同:RLHF阶段,人只是负责选择答案,对模型进行微调,而Instruct Fine-tune需要人类把输入和输出都确定,工作量更大。
- Instruct Fine-tune关注下一个字输出的结果如何,也就是关心每个生成过程。而 RLHF更加注重结果,而不是过程
RLHF也需要人工来做,要知道人工是费时费力的,难道没有自动化的方法么?
答案是有的,就是再训练一个评价用户输出的模型,这个模型就叫做回馈模型。
回馈模型 Reward Model
下面回馈模型的一种做法:
把语言模型的输入和输出组合起来都当作输入给回馈模型,让模型给出评分,如果评分比较高,那代表这就是人类可能觉得好的答案,我们就去微调模型,提高这个问题的答案。有了回馈模型以后,我们就可以自动来告诉模型,不再需要人力参与了。
当然,现在也有论文证明,过度跟虚拟人类学习的模型,语言模型的输出受人类欢迎的程度反而会下降,所以又出现了DPO KTO等方法来解决人类反馈问题。
增强式学习的难题
怎么定义什么是好的?
一个问题的答案,几乎是见仁见智的问题。也许有种答案,对人类没用,但是却更加安全。比如让模型查询一些隐私问题,模型出于安全性考虑,并不给出答案,但这个对人类没用呀。所以这个到底应该是给高分还是低分就很难给出,现在很多大型语言模型通常要在safety Reward Model 和 helpful Reward Model之间取得一些平衡也正是这个原因。
人类也无法判定好坏的
就是这个问题即使去问人类,人类也不知道答案。因为这问题本身就没法判定好坏,比如你问模型,老板让我加班是好是坏? 这个问题本来就没有好坏之分的,连人都难以区分出来,那模型的输出就更加难以确认什么是好,什么是坏的了