ChatGPT 是 InstructGPT 的同级模型,它经过训练可以按照提示中的说明进行操作并提供详细的响应。
InstructGPT论文:https://arxiv.org/pdf/2203.02155.pdf
InstructGPT怎么准备和标记数据集:https://harryliu.blog.csdn.net/article/details/129876367
instructGPT论文阅读笔记:https://harryliu.blog.csdn.net/article/details/129876367
ChatGPT训练方法
ChatGPT使用与 InstructGPT 相同的方法,使用人类反馈强化学习 (RLHF) 训练该模型,但数据收集设置略有不同。 使用监督微调训练了一个初始模型:Human AI 训练员提供对话,并在对话中扮演两个角色——用户(User)和 AI 助手。 让训练者(trainers)可以访问模型编写的建议,以帮助他们撰写回复。 把这个新的对话数据集与 InstructGPT 数据集混合,并将其转换为对话格式。
为了创建强化学习的奖励模型,需要收集比较(comparison)数据,其中包含两个或多个按质量排序的模型响应。 为了收集这些数据,收集了 AI 训练者与聊天机器人的对话。 随机选择了一条模型编写的消息,抽取了几个备选的完成方式,并让 AI 训练者对它们进行排名。 使用这些奖励模型,使用 Proximal Policy Optimization.来微调模型。 对这个过程进行了几次迭代。
ChatGPT 是从 GPT-3.5 系列中的一个模型进行微调的,该模型于 2022 年初完成训练。 ChatGPT 和 GPT-3.5 在 Azure AI 超级计算基础设施上训练的。
Chatgpt的限制
- ChatGPT 有时会写出看似合理但不正确或荒谬的答案。 解决这个问题具有挑战性,因为:(1)在 RL 训练期间,目前没有真实来源; (2) 训练模型更加谨慎导致它拒绝可以正确回答的问题; (3) 监督训练会误导模型,因为理想的答案取决于模型知道什么,而不是人类演示者知道什么。
- ChatGPT 对输入措辞的调整或多次尝试相同的提示很敏感。 例如,给定一个问题的措辞,模型可以声称不知道答案,但只要稍作改写,就可以正确回答。
- 该模型通常过于冗长并过度使用某些短语,例如重申它是 OpenAI 训练的语言模型。 这些问题源于训练数据的偏差(训练者更喜欢看起来更全面的更长答案)和众所周知的过度优化问题。 1,2
- 理想情况下,当用户提供模棱两可的查询时,模型会提出澄清问题。 相反,我们当前的模型通常会猜测用户的意图。
- 虽然已努力使模型拒绝不当请求,但它有时会响应有害指令或表现出有偏见的行为。 正在使用 Moderation API 来警告或阻止某些类型的不安全内容,但预计目前它会有一些漏报和漏报。 他们渴望收集用户反馈,以帮助他们正在进行的改进该系统的工作。
ChatGPT 与 InstructGPT 进行示例比较
示例一
示例二
示例三
ChatGPT访问方法
1. 申请OpenAI的账号
首先你必须有科学上网,你懂得。
而且broker要提供chatgpt的节点不然你有错误“ Sorry, you have been blocked”
访问 chat.OpenAi.com https://chat.openai.com/并使用电子邮件地址或 Google 或 Microsoft 帐户注册一个帐户。 您需要在 OpenAI 网站上创建一个帐户才能登录并访问 ChatGPT。
如果您以前从未创建过帐户,请单击“注册”并按照提示输入您的信息。 OpenAI 确实需要有效的电话号码进行验证才能创建帐户。
ChatGPT的使用
一旦您在网站的 ChatGPT 端登录到您的 OpenAI 帐户,就该了解 AI 工具的窗口了。 以下是您将看到的内容的细分,以下图为例:
- New chat button:在屏幕左侧,您会看到一个“新聊天”按钮,您可以随时单击该按钮开始新对话。 这很有用,因为 ChatGPT 模型会记住之前在对话中讨论过的内容,并会根据上下文做出回应,因此开始新的聊天将毫无偏见地清除新的对话。
- Chat history:左侧边栏还可以让您访问之前的所有对话,以防您需要返回到某个对话,不过可以选择关闭聊天记录。
- Upgrade to Plus:ChatGPT Plus 是一项付费订阅,让会员可以访问 GPT-4 模型,这是一种来自 OpenAI 的更快、更大的语言模型。 您可以选择升级到 Plus 或继续使用免费版本。
- Account:单击屏幕左下角的电子邮件地址或姓名,您将可以访问您的帐户信息,包括设置、注销选项以及来自 OpenAI 的帮助和常见问题解答。
- Your prompts:你给 AI 聊天机器人的问题或提示会出现在这里。
- ChatGPT's responses::每当 ChatGPT 回复您的查询时,徽标将出现在左侧。
- Copy, Thumbs up, Thumbs down:每次 ChatGPT 回复时,您都可以将文本复制到剪贴板以粘贴到其他地方,并提供有关回复是否准确的反馈,此过程有助于微调 AI 工具
- Regenerate response:如果您在聊天中遇到问题或没有得到满意的答案,您可以单击重新生成响应以提示 ChatGPT 使用最新答案重试。
- Text area:这是您输入提示和问题的地方,只需按回车键即可发送。
- ChatGPT version:OpenAI 在文本输入区域下方包含了一些细则,您可以在其中阅读免责声明,指出这是“免费研究预览。ChatGPT 可能会产生有关人物、地点或事实的不准确信息”。 还有您当前使用的 ChatGPT 模型* 的版本。
参考资料
Introducing ChatGPT