GPT3.5 , InstructGPT和ChatGPT的关系

news2024/11/16 15:56:01

GPT-3.5

GPT-3.5 系列是一系列模型,从 2021 年第四季度开始就使用文本和代一起进行训练。以下模型属于 GPT-3.5 系列:

  • code-davinci-002 是一个基础模型,非常适合纯代码完成任务
  • text-davinci-002 是一个基于 code-davinci-002 的 InstructGPT 模型
  • text-davinci-003 是对 text-davinci-002 的改进
  • gpt-3.5-turbo-0301 是对 text-davinci-003 的改进,针对聊天进行了优化

InstructGPT

以 3 种不同方式训练的 InstructGPT 模型变体:

训练方法模型模型名字
SFT
监督微调人类示范 davinci-instruct-beta1
davinci-instruct-beta1
FeedME
对人工编写的演示和模型样本进行监督微调,这些模型样本被人工标注者在总体质量得分上评分为 7/7
text-davinci-001text-davinci-002text-curie-001text-babbage-001
PPO
使用人类比较训练的奖励模型进行强化学习
text-davinci-003

SFT 和 PPO 模型的训练与 InstructGPT 论文中的模型类似。 FeedME(“feedback made easy”的缩写)模型是通过从我们所有的模型中提取最佳完成度来训练的。我们的模型通常在训练时使用最佳可用数据集,因此使用相同训练方法的不同引擎可能会在不同数据上进行训练。

ChatGPT

ChatGPT和InstructGPT是一对姐妹模型,是在GPT-4之前发布的预热模型,有时候也被叫做GPT3.5。ChatGPT和InstructGPT在模型结构,训练方式上都完全一致,即都使用了指示学习(Instruction Learning)和人工反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)来指导模型的训练,它们不同的仅仅是采集数据的方式上有所差异。

OpenAI 官网

We’ve trained a model called ChatGPT which interacts in a conversational way. The dialogue format makes it possible for ChatGPT to answer followup questions, admit its mistakes, challenge incorrect premises, and reject inappropriate requests. ChatGPT is a sibling model to InstructGPT, which is trained to follow an instruction in a prompt and provide a detailed response.

其实GPT-3.5-turbo* 就是ChatGPT的模型的名字。 

OpenAI相关研究论文

这些是我们今天在 API 中提供的研究论文中最接近的模型。请注意,并非 API 中可用的所有模型都对应于一篇论文,即使对于下面列出的模型,也可能存在细微差异,无法准确复制论文。

论文发表时间在论文中的模型名字在API中模型的名字参数数量
[2005.14165] Language Models are Few-Shot Learners22 Jul 2020GPT-3 175Bdavinci175B
GPT-3 6.7Bcurie6.7B
GPT-3 1Bbabbage1B
[2107.03374] Evaluating Large Language Models Trained on Code14 Jul 2021Codex 12Bcode-cushman-001312B
[2201.10005] Text and Code Embeddings by Contrastive Pre-Training14 Jan 2022GPT-3 unsupervised cpt-text 175Btext-similarity-davinci-001175B
GPT-3 unsupervised cpt-text 6Btext-similarity-curie-0016B
GPT-3 unsupervised cpt-text 1.2BNo close matching model on API1.2B
[2009.01325] Learning to summarize from human feedback15 Feb 2022GPT-3 6.7B pretrainNo close matching model on API6.7B
GPT-3 2.7B pretrainNo close matching model on API2.7B
GPT-3 1.3B pretrainNo close matching model on API1.3B
[2203.02155] Training language models to follow instructions with human feedback4 Mar 2022InstructGPT-3 175B SFTdavinci-instruct-beta175B
InstructGPT-3 175BNo close matching model on API175B
InstructGPT-3 6BNo close matching model on API6B
InstructGPT-3 1.3BNo close matching model on API1.3B

其它

强化学习

通常,强化学习看起来像这样。 环境会为每个动作产生奖励

InstructGPT

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/410544.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PixiJS 文字模糊处理策略

pixijs介绍 PixiJS是一个用于创建交互式2D图形和动画的JavaScript库。它是一个快速、轻量级、易于使用的库,可以在WebGL和Canvas上运行。支持WebGL和Canvas两种渲染方式。WebGL是一种基于OpenGL的3D图形API,可以在GPU上进行高效的图形渲染。Canvas是一种…

基于神经辐射场NeRF的SLAM方法

随着2020年NeRF[1]的横空出世,神经辐射场方法(Neural Radiance Fields)如雨后春笋般铺天盖地卷来。NeRF最初用来进行图像渲染,即给定相机视角,渲染出该视角下的图像。NeRF是建立在已有相机位姿的情况下,但在…

Android kotlin (仿淘宝app收藏)用RecyclerView(androidx+BRVAH3.0.6)实现单选/多选/全选/反选/批量删除功能

文章目录 一、实现效果二、引入依赖三、实现源码1、实体类2、适配器3、提示框(关闭和确定)4、视图实现一、实现效果 二、引入依赖 在app的build.gradle在添加以下代码 implementation com.github.CymChad:BaseRecyclerViewAdapterHelper:3.0

使用采集工具,轻松获取目标受众的数据,让您的市场营销更加精准

【数据采集神器】使用采集工具,轻松获取目标受众的数据,让您的市场营销更加精准! 在当前这个信息化社会中,数据已经成为了企业发展和市场营销的必要手段。企业需要通过数据来了解市场的需求,了解自己产品的竞争优势&a…

你真的懂docker吗?25个试题,学过你就来

前言:遇到不会的,答案偷偷放在评论区了哦~ 1.什么是Docker A 虚拟机 B 半虚拟化技术 C 开源的应用容器引擎 D 后端软件 2. 如何搜索Nginx镜像 A docker search nginx B docker rm nginx C doc…

剑指 Offer II 024. 反转链表(经典题型)

时间是伟大的作者,她能写出未来的结局。 ——卓别林 目录 题目描述: 方法1:迭代法(翻指针) 方法2:头插法 方法3:递归法 题目描述: 给定单链…

【工作感悟】老程序员总结的四条工作经验教训

文章目录前言1. 不要做小需求2. 要做大需求3. 定期同步工作进度4. 项目结束,主动复盘总结前言 想来从事互联网工作已经很多年了,已经从当初的懵懂少年逐渐退化成老油条。刚毕业的时候,真是个愣头青,什么都不懂,也什么…

SegGPT: Segmenting Everything In Context

目录摘要本文方法上下文着色Context EnsembleIn-Context Tuning消融实验摘要 最近基于大规模数据的模型越来越火了,chat GPT以及seg everything,感觉后面很多像目标检测,图像恢复等等都会出现这种泛化能力强,基于大规模数据的模型…

[2019.01.24]JNI经验积累

[1 jobject<--->jclass|jstring](1)jobject向上转型jclass|jstring:jclass jcls static_cast<jclass>(jobject);jstring jstr static_cast<jclass>(jobject);(2)jclass|jstring向下转型jobject:默认情况下是自动转换的[2 jstring<--->const char*](1…

c++string相关内容

1. string基本概念本质:string是C风格的字符串&#xff0c;而string本质上是一个类string和 char *区别:char * 是一个指针string 是一个类&#xff0c;类内部封装了char *&#xff0c;管理这个字符串&#xff0c;是一个char*型的容器 特点:string类内部封装了很多成员方法例如…

当下的网络安全行业前景到底怎么样?还能否入行?

前言网络安全现在是朝阳行业&#xff0c;缺口是很大。不过网络安全行业就是需要技术很多的人达不到企业要求才导致人才缺口大常听到很多人不知道学习网络安全能做什么&#xff0c;发展前景好吗&#xff1f;今天我就在这里给大家介绍一下。网络安全作为目前比较火的朝阳行业&…

又一恐怖技能!卡耐基梅隆大学发布超强智能体,炸翻科研圈

文 | 小戏一名普通博士生的工作日常是什么&#xff1f;上网查查资料&#xff1f;读读文献&#xff1f;根据各种完善工具的 API 或者文档写两行代码&#xff0c;然后再输给实验机器完成高精度的实验&#xff1f;仔细思考一下我们这些所谓“科研工作者”的工作流&#xff0c;却细…

如何使用ChatGPT API 及 问题解决

如何使用ChatGPT API 及 问题解决1, 注册OpenAI账号2&#xff0c;获取OpenAI的API秘钥3&#xff0c;pip安装openai库3.1 pip安装openai库3.2 pip安装错误4&#xff0c;Chatgpt API连接测试4.1 Chatgpt API连接测试4.2 连接测试错误1, 注册OpenAI账号 关于注册账号&#xff0c;…

订单超时自动取消3种方案

文章目录 1.定时任务2.被动取消3.延时消息大家对电商购物应该都比较熟悉了,我们应该注意到,在下单之后,通常会有一个倒计时,如果超过支付时间,订单就会被自动取消。 今天,我们来聊聊订单超时未支付自动取消的几种方案。 1.定时任务 这是最容易想到的办法,定时任务去轮…

配电系统的线性三相潮流研究【IEEE123节点】(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

自媒体小六视野宣布公司倒闭

我是卢松松&#xff0c;点点上面的头像&#xff0c;欢迎关注我哦&#xff01; 自媒体的红利难道已经走到尽头了吗? 最近顶级网红小六视野宣布公司破产、海派团队散伙。自己崩溃大哭&#xff0c;表示很不舍&#xff0c;并且小六视野的账号也不属于自己&#xff0c;属于公司&a…

盐城北大青鸟:Java的四大就业方向,薪资也是一级棒

近几年&#xff0c;由于互联网的快速发展&#xff0c;有许多新兴的语言和技术逐渐进入我们的视野&#xff0c;导致唱衰Java即将“走下神坛”的声音不绝于耳&#xff0c;真的是这样吗&#xff1f; 数据是从来不会骗人的&#xff0c;根据官方发布的最新TIOBE 编程语言排行榜可知…

Vue03_vue属性_数据代理

Vue中 $ 开始的属性是供程序员开发使用的 _ 开始的属性是vue 框架底层使用的 可以直接访问data 中的属性 使用数据代理机制实现 数据代理机制: 通过访问代理对象的属性 间接 访问 目标对象的属性 数据代理机制 核心 Object.defineProperty 为对象添加一个属性 Object.defi…

从工厂普工到Python女程序员,聊聊这一路我是如何逆袭的?

我来聊聊我是如何从一名工厂普工&#xff0c;到国外程序员的过程&#xff0c;这里面充满了坎坷。过去我的工作是在工厂的流水线上&#xff0c;我负责检测电池的正负极。现如今我每天从早上6:20起床&#xff0c;6点四五十分出发到地铁站&#xff0c;7:40到公司。我会给自己准备一…

Wombat:93%ChatGPT性能!无需RLHF就能对齐人类的语言模型

文 | zzy文章地址: https://arxiv.org/abs/2304.05302v1训练代码&#xff1a;https://github.com/GanjinZero/RRHF模型权重&#xff1a;https://huggingface.co/GanjinZero/wombat-7b-delta文章提出RRHF一种无须强化学习的对齐方法训练语言模型。该文章利用chatGPT或者GPT-4作为…