ChatGPT的简单了解

news2026/2/12 21:54:49

ChatGPT 是 InstructGPT 的同级模型，它经过训练可以按照提示中的说明进行操作并提供详细的响应。

InstructGPT论文：https://arxiv.org/pdf/2203.02155.pdf

InstructGPT怎么准备和标记数据集：https://harryliu.blog.csdn.net/article/details/129876367

instructGPT论文阅读笔记：https://harryliu.blog.csdn.net/article/details/129876367

ChatGPT训练方法

ChatGPT使用与 InstructGPT 相同的方法，使用人类反馈强化学习 (RLHF) 训练该模型，但数据收集设置略有不同。使用监督微调训练了一个初始模型：Human AI 训练员提供对话，并在对话中扮演两个角色——用户（User）和 AI 助手。让训练者（trainers）可以访问模型编写的建议，以帮助他们撰写回复。把这个新的对话数据集与 InstructGPT 数据集混合，并将其转换为对话格式。

为了创建强化学习的奖励模型，需要收集比较(comparison)数据，其中包含两个或多个按质量排序的模型响应。为了收集这些数据，收集了 AI 训练者与聊天机器人的对话。随机选择了一条模型编写的消息，抽取了几个备选的完成方式，并让 AI 训练者对它们进行排名。使用这些奖励模型，使用 Proximal Policy Optimization.来微调模型。对这个过程进行了几次迭代。

ChatGPT 是从 GPT-3.5 系列中的一个模型进行微调的，该模型于 2022 年初完成训练。 ChatGPT 和 GPT-3.5 在 Azure AI 超级计算基础设施上训练的。

Chatgpt的限制

ChatGPT 有时会写出看似合理但不正确或荒谬的答案。解决这个问题具有挑战性，因为：（1）在 RL 训练期间，目前没有真实来源； (2) 训练模型更加谨慎导致它拒绝可以正确回答的问题； (3) 监督训练会误导模型，因为理想的答案取决于模型知道什么，而不是人类演示者知道什么。
ChatGPT 对输入措辞的调整或多次尝试相同的提示很敏感。例如，给定一个问题的措辞，模型可以声称不知道答案，但只要稍作改写，就可以正确回答。
该模型通常过于冗长并过度使用某些短语，例如重申它是 OpenAI 训练的语言模型。这些问题源于训练数据的偏差（训练者更喜欢看起来更全面的更长答案）和众所周知的过度优化问题。 1,2
理想情况下，当用户提供模棱两可的查询时，模型会提出澄清问题。相反，我们当前的模型通常会猜测用户的意图。
虽然已努力使模型拒绝不当请求，但它有时会响应有害指令或表现出有偏见的行为。正在使用 Moderation API 来警告或阻止某些类型的不安全内容，但预计目前它会有一些漏报和漏报。他们渴望收集用户反馈，以帮助他们正在进行的改进该系统的工作。

ChatGPT 与 InstructGPT 进行示例比较

示例一

示例二

示例三

ChatGPT访问方法

1. 申请OpenAI的账号

首先你必须有科学上网，你懂得。

而且broker要提供chatgpt的节点不然你有错误“ Sorry, you have been blocked”

访问 chat.OpenAi.com https://chat.openai.com/并使用电子邮件地址或 Google 或 Microsoft 帐户注册一个帐户。您需要在 OpenAI 网站上创建一个帐户才能登录并访问 ChatGPT。

如果您以前从未创建过帐户，请单击“注册”并按照提示输入您的信息。 OpenAI 确实需要有效的电话号码进行验证才能创建帐户。

ChatGPT的使用

一旦您在网站的 ChatGPT 端登录到您的 OpenAI 帐户，就该了解 AI 工具的窗口了。以下是您将看到的内容的细分，以下图为例：

New chat button：在屏幕左侧，您会看到一个“新聊天”按钮，您可以随时单击该按钮开始新对话。这很有用，因为 ChatGPT 模型会记住之前在对话中讨论过的内容，并会根据上下文做出回应，因此开始新的聊天将毫无偏见地清除新的对话。
Chat history：左侧边栏还可以让您访问之前的所有对话，以防您需要返回到某个对话，不过可以选择关闭聊天记录。
Upgrade to Plus：ChatGPT Plus 是一项付费订阅，让会员可以访问 GPT-4 模型，这是一种来自 OpenAI 的更快、更大的语言模型。您可以选择升级到 Plus 或继续使用免费版本。
Account：单击屏幕左下角的电子邮件地址或姓名，您将可以访问您的帐户信息，包括设置、注销选项以及来自 OpenAI 的帮助和常见问题解答。
Your prompts：你给 AI 聊天机器人的问题或提示会出现在这里。
ChatGPT's responses:：每当 ChatGPT 回复您的查询时，徽标将出现在左侧。
Copy, Thumbs up, Thumbs down：每次 ChatGPT 回复时，您都可以将文本复制到剪贴板以粘贴到其他地方，并提供有关回复是否准确的反馈，此过程有助于微调 AI 工具
Regenerate response：如果您在聊天中遇到问题或没有得到满意的答案，您可以单击重新生成响应以提示 ChatGPT 使用最新答案重试。
Text area：这是您输入提示和问题的地方，只需按回车键即可发送。
ChatGPT version：OpenAI 在文本输入区域下方包含了一些细则，您可以在其中阅读免责声明，指出这是“免费研究预览。ChatGPT 可能会产生有关人物、地点或事实的不准确信息”。还有您当前使用的 ChatGPT 模型* 的版本。