chatgpt的原理第四部分

news2026/2/19 2:25:08

五、ChatGPT

终于说到了主角，能看到这里的，可以关注一下 JioNLP 公众号吗？我写的也够累的。

ChatGPT 模型上基本上和之前 GPT-3 都没有太大变化，主要变化的是训练策略变了，用上了强化学习。

强化学习

几年前，alpha GO 击败了柯洁，几乎可以说明，强化学习如果在适合的条件下，完全可以打败人类，逼近完美的极限。

强化学习非常像生物进化，模型在给定的环境中，不断地根据环境的惩罚和奖励（reward），拟合到一个最适应环境的状态。

NLP + 强化学习

强化学习之所以能比较容易地应用在围棋以及其它各种棋牌游戏里，原因就是对于 alpha Go 而言，环境就是围棋，围棋棋盘就是它的整个世界。模型就是不断根据棋盘的状态以及输赢状况调整策略，战胜了柯洁。

NLP 所依赖的环境，是整个现实世界，整个宇宙万物，都可以被语言描述，也就都需要针对模型输出的质量进行 reward 评价，它完全无法设计反馈惩罚和奖励函数。除非人们一点点地人工反馈。

哎，OpenAI 的 ChatGPT 就把这事给干了。

不是需要人工标反馈和奖励吗？那就撒钱，找40个外包，标起来！

这种带人工操作的 reward，被称之为 RLHF（Reinforcement Learning from Human Feedback）。

这里重点是第二步中，如何构建一个 reward 函数，在alpha go 里，这个reward 函数就是下完一盘围棋之后判断谁输谁赢，只需要一个程序函数即可完成。

而在ChatGPT里，具体就是让那40名外包人员不断地从模型的输出结果中筛选，判断哪些句子是好的，哪些是低质量的，这样就可以训练得到一个 reward 模型。

通过 reward 模型来评价模型的输出结果好坏。

讲真，这个 reward 模型，《黑客帝国》的母体 matrix 既视感有木有？？！！

只要把预训练模型接一根管子在 reward 模型上，预训练模型就会开始像感知真实世界那样，感知reward。

reward母体模型
这个名字是我自己起的，因为这里的reward模型实在是完美契合了《黑客帝国》中所构建的世界。本文的封面也是《黑客帝国》。

与其说 ChatGPT 在拟合现实世界，不如说它是在对 reward 母体负责。而reward 母体也是由人工一点点标注完成的。母体并不直接拟合真实世界，它只对模型是否契合真实世界做真假判断。母体对真实世界的拟合，决定了我们看到的 ChatGPT 有多优质。

我们不再需要直接拟合所谓机器翻译的文本对，也不再去需要拟合判断新闻分类的数据对，而只需要去拟合那个reward母体。

由此，我们就可以得到这个把全世界都震碎的高音！

今日学习寄语：

1、要么做第一个，要么做最好的一个。
2、信念和目标，必须永远洋溢在程序员内心。3、最累的时候，家人是你最好的归宿。
4、C程序员永远不会灭亡。他们只是cast成了void。
5、真正的程序员认为自己比用户更明白用户需要什么。
6、退一步海阔天空，这是一种应有的心境。
7、过去的代码都是未经测试的代码。
8、优秀的判断力来自经验，但经验来自于错误的判断。
9、测试是来表明bug的存在而不是不存在。
10、我们这个世界的一个问题是，蠢人信誓旦旦，智人满腹狐疑。
11、一个好汉三个帮，程序员同样如此。
12、看再多的书是学不全脚本的，要多实践。13、无私奉献不是天方夜谭，有时候，我们也可以做到。
14、世界上只有两句真理：1、人一定会死。2、程序一定有Bug。
15、UNIX很简单。但需要有一定天赋的人才能理解这种简单。
16、程序中蕴含着很多的道理，唯有大彻大悟者方能体会其中的奥妙。
17、编程中我们会遇到多少挫折？表放弃，沙漠尽头必是绿洲。
18、做技术一定要一颗恒心，这样才不会半途而废。
19、不要被对象、属性、方法等词汇所迷惑；最根本的是先了解最基础知识。
20、请把书上的例子亲手到电脑上实践，即使配套光盘中有源文件。