GPT3.5, InstructGPT和ChatGPT的关系

news2025/1/12 18:18:37

GPT-3.5

GPT-3.5 系列是一系列模型,从 2021 年第四季度开始就使用文本和代一起进行训练。以下模型属于 GPT-3.5 系列:

  • code-davinci-002 是一个基础模型,非常适合纯代码完成任务
  • text-davinci-002 是一个基于 code-davinci-002 的 InstructGPT 模型
  • text-davinci-003 是对 text-davinci-002 的改进
  • gpt-3.5-turbo-0301 是对 text-davinci-003 的改进,针对聊天进行了优化

InstructGPT

以 3 种不同方式训练的 InstructGPT 模型变体:

训练方法模型模型名字
SFT
监督微调人类示范 davinci-instruct-beta1
davinci-instruct-beta1
FeedME
对人工编写的演示和模型样本进行监督微调,这些模型样本被人工标注者在总体质量得分上评分为 7/7
text-davinci-001text-davinci-002text-curie-001text-babbage-001
PPO
使用人类比较训练的奖励模型进行强化学习
text-davinci-003

SFT 和 PPO 模型的训练与 InstructGPT 论文中的模型类似。 FeedME(“feedback made easy”的缩写)模型是通过从我们所有的模型中提取最佳完成度来训练的。我们的模型通常在训练时使用最佳可用数据集,因此使用相同训练方法的不同引擎可能会在不同数据上进行训练。

ChatGPT

ChatGPT和InstructGPT是一对姐妹模型,是在GPT-4之前发布的预热模型,有时候也被叫做GPT3.5。ChatGPT和InstructGPT在模型结构,训练方式上都完全一致,即都使用了指示学习(Instruction Learning)和人工反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)来指导模型的训练,它们不同的仅仅是采集数据的方式上有所差异。

OpenAI 官网

We’ve trained a model called ChatGPT which interacts in a conversational way. The dialogue format makes it possible for ChatGPT to answer followup questions, admit its mistakes, challenge incorrect premises, and reject inappropriate requests. ChatGPT is a sibling model to InstructGPT, which is trained to follow an instruction in a prompt and provide a detailed response.

其实GPT-3.5-turbo* 就是ChatGPT的模型的名字。 

OpenAI相关研究论文

这些是我们今天在 API 中提供的研究论文中最接近的模型。请注意,并非 API 中可用的所有模型都对应于一篇论文,即使对于下面列出的模型,也可能存在细微差异,无法准确复制论文。

论文发表时间在论文中的模型名字在API中模型的名字参数数量
[2005.14165] Language Models are Few-Shot Learners22 Jul 2020GPT-3 175Bdavinci175B
GPT-3 6.7Bcurie6.7B
GPT-3 1Bbabbage1B
[2107.03374] Evaluating Large Language Models Trained on Code14 Jul 2021Codex 12Bcode-cushman-001312B
[2201.10005] Text and Code Embeddings by Contrastive Pre-Training14 Jan 2022GPT-3 unsupervised cpt-text 175Btext-similarity-davinci-001175B
GPT-3 unsupervised cpt-text 6Btext-similarity-curie-0016B
GPT-3 unsupervised cpt-text 1.2BNo close matching model on API1.2B
[2009.01325] Learning to summarize from human feedback15 Feb 2022GPT-3 6.7B pretrainNo close matching model on API6.7B
GPT-3 2.7B pretrainNo close matching model on API2.7B
GPT-3 1.3B pretrainNo close matching model on API1.3B
[2203.02155] Training language models to follow instructions with human feedback4 Mar 2022InstructGPT-3 175B SFTdavinci-instruct-beta175B
InstructGPT-3 175BNo close matching model on API175B
InstructGPT-3 6BNo close matching model on API6B
InstructGPT-3 1.3BNo close matching model on API1.3B

其它

强化学习

通常,强化学习看起来像这样。 环境会为每个动作产生奖励

InstructGPT

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/457257.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【 动态SQL 的使⽤ 】

文章目录 一、动态 SQL 是什么二、动 态 SQL 标签2.1 < if >标签2.2 < trim >标签2.3 < where >标签2.4 < set >标签2.5 < foreach >标签 一、动态 SQL 是什么 Mybatis 动态 sql 可以让我们在 Xml 映射文件内&#xff0c;以标签的形式编写动态 …

【多微电网】含多微电网租赁共享储能的配电网博弈优化调度(Matlab代码实现)

&#x1f4a5; &#x1f4a5; &#x1f49e; &#x1f49e; 欢迎来到本博客 ❤️ ❤️ &#x1f4a5; &#x1f4a5; &#x1f3c6; 博主优势&#xff1a; &#x1f31e; &#x1f31e; &#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 …

计算机办公自动化——Python批量生成请假条

Python使用openpyxl、docx批量生成请假条 前言第三方库的安装示例代码运行效果 前言 加入你有一个下图所示的表格&#xff0c;需要批量生成他们的请假条&#xff0c;你会选择如何做呢&#xff1f;是一步一步的手打&#xff0c;还是呼唤请假人手打呢&#xff1f; 下面我们来看…

STM32学习,从点灯开始

大家好&#xff0c;我是程序员小哈。 综合实例&#xff1a;自动洗碗机的分享&#xff0c;上周五的直播完成了核心板的焊接&#xff0c;板子设计好了&#xff0c;也焊接完毕了&#xff0c;那么如何验证是否正确呢&#xff0c;既然是从0到1的教程&#xff0c;那么我们就先实现一…

PyTorch深度学习实战 | 基于深度学习的电影票房预测研究

基于深度学习的映前票房预测模型(Cross&Dense网络结构模型)&#xff0c;该模型通过影片基本信息如&#xff1a;电影类型、影片制式、档期和电影的主创阵容和IP特征等信息对上映影片的票房进行预测。 本篇采用451部电影作为训练模型&#xff0c;最后再在194部影片上进行测试…

Spring AOP实现原理

从入口 org.springframework.context.support.AbstractApplicationContext#refresh 开始看 找到Bean的创建方法进入: 再进入详细方法: 找到getBean(beanName)&#xff1a; 找到doGetBean(xxx,xxx,xxx,xxx); 找到实际的Bean创建方法createBean(beanName, mdb, args);可以非常明显…

【C++学习笔记】变量和基本类型

2.1 基本内置类型 C中包括 算数类型(arithmetic type) 和 空类型(void) 的数据类型&#xff0c;其中&#xff0c;算数类型包括字符、整型数、布尔值和浮点数&#xff1b;空类型不对应具体的值&#xff0c;当函数不返回值时用void作为返回类型 2.1.1算数类型 对于数组或者字符…

一篇搞定CDH 5.x 核心概念与集群部署

一、概述 1.1 Hadoop发行商 Apache:开源免费 CDH: Clouder公司研发。只支持64位操作系统。更加详细信息后面会介绍。 HDP: Hortonworks公司研发。 1.2 公司常用版本及介绍 apache -> cdh | hdp 常见问题&#xff1a; apache与cdh的比较&#xff1f;&#xf…

在国内怎么玩chatgpt,有可行的gpt游玩攻略么

首先你想玩chatgpt&#xff0c;你要明白一点这是一个国外的软件&#xff0c;所以你懂的&#xff0c;如果你不会魔法&#xff0c;那么就必须要改其他途径去探索游玩咯。今天我们就来探讨一下国内怎么玩chatgpt&#xff0c;可行的gpt游玩攻略。 一.Chatgpt的版本 我们先来认识一…

61 openEuler 22.03-LTS 搭建MySQL数据库服务器-管理数据库用户

文章目录 61 openEuler 22.03-LTS 搭建MySQL数据库服务器-管理数据库用户61.1 创建用户示例 61.2 查看用户示例 61.3 修改用户61.3.1 修改用户名61.3.2 修改用户示例61.3.3 修改用户密码61.3.4 修改用户密码示例 61.4 删除用户示例 61.5 用户授权示例 61.6 删除用户权限示例 61…

看完这篇文章你就彻底懂啦{保姆级讲解}-----(面试刷题链表相交) 2023.4.24

目录 前言面试题&#xff08;链表相交&#xff09;—&#xff08;保姆级别讲解&#xff09;分析题目&#xff1a;链表相交代码&#xff1a;算法思想 结束语 前言 本文章一部分内容参考于《代码随想录》----如有侵权请联系作者删除即可&#xff0c;撰写本文章主要目的在于记录自…

LVS负载均衡—DR模式

DR模式的特点 &#xff08;1&#xff09;Director Server&#xff08;调度器&#xff09; 和 Real Server&#xff08;节点服务器&#xff09; 必须在同一个物理网络中。 &#xff08;2&#xff09;Real Server可以使用私有地址&#xff0c;也可以使用公网地址。如果使用公网…

零代码平台如何帮助服装企业实现数字化转型?

随着互联网的不断发展&#xff0c;数字化转型已经成为各行各业必须跨越的一道坎&#xff0c;而服装行业也不例外。 但是&#xff0c;服装行业相对于其他行业来说&#xff0c;数字化转型面临着更多的挑战&#xff1a; 生产环节复杂&#xff1a;服装制造涉及到复杂的生产工序&a…

问题定位及解决方案

1.视频沉浸页快速滑动后&#xff0c;必现不能向下划动 复现步骤&#xff1a; 进入视频沉浸页&#xff0c;快速向下划动&#xff0c;滑动到第一页最后一个时&#xff0c;不能再向下划动。 解决步骤&#xff1a; 1.确定请求API&#xff1a; mtop.aliexpress.ugc.feed.video.lis…

Vivado关联第三方编辑器的方法

​Vivado是一个非常强大的工具&#xff0c;但是在一些方面可能不能完全满足我们的需求&#xff0c;比如代码编辑器的功能。幸运的是&#xff0c;Vivado允许我们关联第三方编辑器来扩展其代码编辑器的功能。在本文将介绍如何配置Vivado与第三方编辑器一起使用&#xff0c;并提供…

Pulsar幂等性开发的设计文档

PIP: https://github.com/apache/pulsar/issues/19744 具体设计 每个TC维护一个Map<ClientName,List> terminatedTxnMetaMap&#xff0c;维护每个客户端最新N个事务的状态&#xff0c;事务结束前&#xff0c;会把事务元数据写入这个List里&#xff0c;同时写入一个Compa…

高分辨率光学遥感图像水体分类综述2022.03

本文是Water body classification from high-resolution optical remote sensing imagery: Achievements and perspectives的学习笔记。 相关资源被作者整理到&#xff1a;这里 文章目录 Introduction基本知识 挑战和机遇挑战1. 有限的光谱信息和小场景覆盖2. 形状、大小和分布…

开放原子训练营(第三季)RT-Thread Nano学习营北京站

开放原子训练营&#xff08;第三季&#xff09;RT-Thread Nano学习营北京站学习心得 文章目录 开放原子训练营&#xff08;第三季&#xff09;RT-Thread Nano学习营北京站学习心得RT-Thread简介会议议程介绍RT-Thread Nano介绍RT-Thread Nano实操训练总结 RT-Thread简介 RT-Th…

【网络安全】XXE--XML外部实体注入

XXE XXE定义XML初识菜鸟xml概念初识DTD解答疑虑1&#xff1a;&#xff01;DOCTYPE是干什么用的疑虑2&#xff1a;&#xff01;ELEMENT是干什么用的疑虑3&#xff1a;#PCDATA是干什么用的疑虑4&#xff1a;为什么元素要再次声明类型 内部实体和外部实体的区别内部实体外部实体通…

【Spring篇】DI相关内容

&#x1f353;系列专栏:Spring系列专栏 &#x1f349;个人主页:个人主页 目录 一、setter注入 1.环境准备 2.注入引用数据类型 3.注入简单数据类型 二、构造器注入 1.环境准备 2.构造器注入引用数据类型 3.构造器注入多个引用数据类型 4.构造器注入多个简单数据类型 …