简单理解 ChatGPT 和模型训练

news2025/7/7 0:46:25

介绍

这些令人着迷的对话机器人使用自然语言理解来理解输入。NLU 是自然语言处理的一个子集，使机器能够理解自然语言（文本/音频）。NLU 是大多数 NLP 应用程序（例如机器翻译、语音识别、构建聊天机器人等）中的关键组件。NLU 的基础是语言模型。

在本文中，我们将讨论 Open AI、GPT 及其变体的最先进语言模型，以及它如何导致 ChatGPT 的突破。本文涵盖的一些要点包括：

了解 ChatGPT 及其模型训练流程。
了解 GPT 架构的简史 - GPT 1、GPT 2、GPT 3 和 InstructGPT。
深入理解人类反馈强化学习（RHLF）。

GPT家族概述

最先进的语言模型架构是 Transformer。变压器的工作原理不亚于魔法。OpenAI 提出了这样一种 Transformer，即生成式预训练 Transformer 模型，俗称 GPT。

GPT是以自我监督的方式开发的。该模型在大量数据集上进行训练，以预测序列中的下一个单词。这称为休闲语言建模。然后，该语言模型在下游任务的监督数据集上进行微调。

GPT家族

OpenAI 发布了三个不同版本的 GPT，即 GPT-1、GPT-2 和 GPT-3，以生成类似人类的对话。3 个版本的 GPT 大小不同。每个新版本都是通过扩大数据和参数来进行训练的。

指导GPT

GPT-3 被称为自回归模型，经过训练只能通过查看过去的值来进行预测。GPT-3 可用于开发大型应用程序，例如搜索引擎、内容创建等等。但为什么GPT-3没能实现类人对话呢？让我们来看看吧。

为什么要指导GPT？

GPT-3 失败有两个主要原因。

GPT-3 的问题之一是模型输出与用户指令/提示不一致。简而言之，GPT-3 无法生成用户偏好的响应。

例如，给出提示“用几句话向 6 岁的孩子解释登月”，GPT-3 会生成如下图所示的不需要的响应。这种反应背后的主要原因是模型被训练来预测句子中的下一个单词。GPT-3 并未经过训练来生成人类偏好的反应。

指导GPT

另一个问题是，它可能会生成不安全和有害的评论，因为它无法控制文本。

为了解决这两个问题（对齐和有害评论），训练了一种新的语言模型来应对这些挑战。我们将在下一节中了解更多相关信息。

什么是InstructGPT？

InstructGPT 是一种语言模型，可生成用户首选的响应，以实现安全通信。因此，它被称为符合以下指令的语言模型。它使用一种称为“人类反馈强化学习”(RLHF) 的学习算法来生成更安全的响应。

来自人类反馈的强化学习是一种深度强化学习技术，它考虑了人类的学习反馈。人类专家通过从模型生成的响应列表中提供最可能的人类响应来控制学习算法。通过这种方式，代理可以模仿安全且真实的响应。

但为什么要根据人类反馈进行强化学习呢？为什么不使用传统的强化学习系统呢？

传统的强化学习系统需要定义奖励函数，以了解智能体是否朝着正确的方向前进，并旨在最大化累积奖励。但是，在现代强化学习环境中将奖励函数传达给代理非常具有挑战性。因此，我们不是为代理定义奖励函数，而是训练代理根据人类反馈学习奖励函数。这样，代理就可以学习奖励函数并理解环境的复杂行为。

在下一节中，我们将了解人工智能领域最热门的话题之一——ChatGPT。

ChatGPT 简介

ChatGPT 现在是数据科学领域的热门话题。ChatGPT 只是一个模仿人类对话的聊天机器人。它可以回答向它提出的任何问题并记住之前发生的对话。例如，给出提示“决策树代码”，ChatGPT 会响应 Python 中决策树的实现，如下图所示。这就是 ChatGPT 的力量。最后我们会看到更多搞笑的例子。

聊天GPT